Например, от победы над лучшими игроками в го до недавнего прогноза погоды с беспрецедентной точностью — достижения в области искусственного интеллекта продолжают удивлять. Еще более обескураживающим результатом является создание поразительно реалистичных изображений, что порождает определенную путаницу между правдой и ложью. Но как эти изображения генерируются автоматически?

Модели генерации изображений основаны на глубоком обучении, то есть на очень больших нейронных сетях, которые могут охватывать несколько миллиардов параметров. Нейронную сеть можно рассматривать как функцию, которая связывает входные данные с выходными прогнозами. Эта функция состоит из набора параметров (числовых значений), изначально случайных, которые сеть научится исправлять в процессе обучения.

Для наглядности модель Stable Diffusion , способная генерировать реалистичные изображения, состоит из 8 миллиардов параметров, а ее обучение обошлось в 600 000 долларов.

Эти параметры необходимо изучить. Чтобы объяснить их обучение, мы можем рассмотреть более простой случай обнаружения объектов на изображениях. Изображение подается в сеть в качестве входных данных, а сеть должна предсказать возможные метки объектов (автомобиль, человек, кошка и т. д.) в качестве выходных данных.

Обучение заключается в поиске оптимальной комбинации параметров, позволяющей максимально точно предсказать объекты, присутствующие на изображениях. Качество обучения будет зависеть в основном от объема размеченных данных, размера моделей и доступной вычислительной мощности.

В случае генерации изображений мы хотим осуществить в некотором роде обратный процесс: из текста, описывающего сцену, на выходе модели ожидается создание изображения, соответствующего этому описанию, что значительно сложнее, чем предсказание метки.

Разрушить, чтобы создать 665p14

Для начала давайте забудем о тексте и сосредоточимся только на изображении. Если создание изображения — сложный процесс даже для человека, то уничтожение изображения (обратная задача) — тривиальная задача. Конкретно, в изображении, состоящем из пикселей, случайное изменение цвета определенных пикселей представляет собой простой метод изменения.

Мы можем предоставить нейронной сети слегка измененное изображение в качестве входных данных и попросить ее предсказать исходное изображение в качестве выходных данных. Затем мы можем обучить модель удалению шума с изображений, что является первым шагом на пути к генерации изображений. Таким образом, если начать с изображения с высоким уровнем шума и последовательно повторять вызов модели, то при каждом вызове мы будем получать изображение, которое будет все менее и менее шумным, пока не получим изображение, полностью очищенное от шума.

Если мы утрируем этот процесс, то мы могли бы начать с изображения, полностью состоящего из шума (снега случайных пикселей), другими словами, с изображения, состоящего из ничего, и повторить вызовы нашей модели «шумоподавителя», чтобы в итоге получить изображение, подобное показанному ниже:

Затем у нас появляется процесс, способный генерировать изображения, но представляющий ограниченный интерес, поскольку в зависимости от случайного шума он может после нескольких итераций сгенерировать что угодно в качестве выходного изображения. Поэтому нам нужен метод управления процессом шумоподавления, и для этой задачи будет использоваться текст.

От шума к изображению 6w1dk

Для процесса шумоподавления нам понадобятся изображения, которые мы получаем из Интернета и которые позволяют нам составить обучающий набор данных. В качестве текста, необходимого для управления шумоподавлением, просто используются подписи к изображениям, найденным в Интернете. Наряду с обучением шумоподавления изображений, подключается сеть, представляющая текст. Таким образом, когда модель учится удалять шум из изображения, она также узнает, с какими словами связано это удаление шумов. После завершения обучения мы получаем модель, которая на основе описательного текста и общего шума путем последовательных итераций устраняет шум, приближаясь к изображению, соответствующему текстовому описанию.

Этот процесс устраняет необходимость в специальной ручной маркировке. Он использует миллионы изображений с подписями, которые уже присутствуют в Интернете. Наконец, картинка стоит тысячи слов. Например, изображение выше создано на основе следующего текста: «цветы из жареных яиц в саду с беконом» с помощью модели устойчивой диффузии.

Кристоф Родригес , преподаватель-исследователь в области информатики, Пол Леонард де Винчи

Данная статья переиздана из The Conversation по лицензии Creative Commons. Прочитайте оригинальную статью .

The Conversation

Generate

Как ИИ генерирует изображение? 251p44

Разрушить, чтобы создать 665p14

От шума к изображению 6w1dk

Добро пожаловать в ArtMajeur! 4r5z4k