Компьютер может сделать рисунок по любому описанию. Попробуйте сами

Вы уже наверняка видели в социальных сетях сюрреалистичные изображения вроде «скачущего на лошади астронавта» или «двух псов-химиков в защитных очках». Можно подумать, что это работы какого-то нового, талантливого художника со слишком развитой фантазией. Но нет — все эти изображения созданы нейросетью DALL-E 2, которую в апреле 2022 года представила компания OpenAI. При помощи нее любой человек может создавать реалистичные изображения с любым сюжетом, причем за очень короткое время — кажется, скоро художники будут не настолько нужны, как раньше. Технология перспективная, поэтому доступ к ней открыт только избранным людям. Однако, есть способ хотя бы немного оценить возможности удивительной нейросети — давайте узнаем о ней и попробуем создать свои уникальные картинки.

Изображения, созданные нейросетью DALL-E 2

Как нейросеть DALL-E 2 рисует по словам?

История нейросети, которая создает картинки на основе текстового описания, началась в 2021 году. Именно тогда компания OpenAI создала технологию DALL-E, которая создавала иллюстрации. Уже через год разработчики представили ее усовершенствованную версию DALL-E 2, которая лучше понимает ключевые слова для генерации изображений и выдает более фотореалистичные картинки в более высоком разрешении.

Результаты работы первой версии DALL-E

Чтобы описать принцип работы нейросети DALL-E 2 нужна огромная статья и знание машинного обучения, поэтому давайте обойдемся кратким описанием максимально простыми словами. Первым делом человек пишет описание того, какое изображение хочет получить — эти данные обрабатываются моделью CLIP, которая обучена на сотнях миллионов изображений и связанных с ними текстовых описаний. Модель CLIP «понимает» желание пользователя и передает его нейросети GLIDE, которая создает изображение методом обратной диффузии. Если коротко, в процессе она накладывает на исходные изображения шум, а потом из этого шума создает совершенно новую картинку.

Схема обучения DALL-E 2

Где найти нейросеть для создания картинок?

Несколько месяцев назад я уже писал статью про нейросети, которые умеют создавать картинки из текстового описания (обязательно попробуйте). Самой интересной из них является ruDALL-E — это почти то же самое, что у OpenAI, только разработанное специалистами из российского «Сбера». Он поддерживает запросы на русском языке и выдает результаты не хуже по качеству, чем у зарубежного проекта. Но доступного всем варианта нейросети DALL-E 2 нет — а хотелось бы, потому что ее художественные возможности многим кажутся безграничными.

Результаты работы ruDALL-E. Неплохо, не так ли?

Как пользоваться DALL-E mini?

На данный момент большой популярностью пользуется разве что нейросеть DALL-E mini, которая выдает результаты чуть лучше, чем у русского аналога. Но есть один минус — он не поддерживает запросы на русском, но использование переводчика еще никто не запрещал. Сайт рисующей по словам нейросети находится тут.

DALL-E mini

Пользоваться нейросетью DALL-E mini очень просто — нужно только ввести запрос и нажать на кнопку «Run». Создание изображения обычно занимает чуть более одной минуты, но при слишком большой нагрузке на сервер процесс может занять гораздо больше времени.

Что делать, если DALL-E mini не работает?

Иногда DALL-E mini не работает из-за ошибки, но в этом случае достаточно обновить страницу и ввести запрос заново. Если это не помогает, нужно попробовать позднее, потому что иногда сервер бывает перегружен.

Рисунки, созданные нейросетью

Чтобы протестировать нейронную сеть, я попробовал создать изображения, которые перекликаются с темами наших статей. Недавно космический телескоп Джеймса Уэбба столкнулся с небольшим камнем — почему бы не посмотреть на то, как бы выглядел телескоп на поверхности Марса? Получилось то, что вы видите ниже.

Телескоп Джеймса Уэбба на Марсе

Вот другой пример — примерно месяц назад ученые решили отправить в космос новые сигналы для инопланетян. В сообщение они хотят вложить информацию о местоположении Земли. Некоторые специалисты опасаются, что инопланетяне могут быть враждебными и уничтожить человечество. Почему бы не попробовать сделать инопланетян более дружелюбными? На запрос «UFO with flowers» нейросеть DALL-E mini выдала следующее.

Инопланетяне с цветами

Недавно у нас вышла статья про то, что сотни лет назад европейцы употребляли в пищу египетские мумии — это считалось полезным. Мы часто пишем про космос и археологию, поэтому DALL-E mini получил запрос про мумию в космосе. По-моему, вышло неплохо.

Египетская мумия в космосе

Еще одна интересная новость июня 2022 года — желание Илона Маска открыть собственную закусочную. Мы уже рассказывали о том, как он может выглядеть и даже показывали фотографии. А что по этому поводу думает нейросеть? Вопреки ожиданиям, ничего футуристического она не показала, обычная кафешка.

Закусочная Илона Маска

Под конец нейросеть получила максимально абстрактный запрос про «синюю утку, падающую в вулкан». По-моему, весьма забавно.

Синяя утка, падающая в вулкан

Нейросеть рисующий по словам от «Сбера»

После публикации статьи выяснилось, что разработчики от «Сбера» уже выпустили обновленную нейросеть, которая умеет рисовать картинки по текстовому описанию — новинка называется Kandinsky. Представители компании уверяют, что новая версия делает более реалистичные картинки, чем выпущенный в прошлом году ruDALL-E. В основном это стало возможным благодаря обучению на 179 миллионах изображений. Также был усовершенствован алгоритм: сначала нейросеть генерирует несколько картинок на основе запроса, потом другая модель выбирает самые удачные, а третья увеличивает разрешение самой лучшей. Запустить нейросеть Kandinsky можно в приложении «Салют» или в «умных» устройствах компании вроде дисплея Sber Portal.

Пример работы нейросети Kandinsky

Источник