Разбираемся, как работает нейросеть для генерации картинок по текстовым запросам «Яндекс Шедеврум». Мы попросили этот ИИ нарисовать колбасу с крыльями, Дарта Вейдера, танцующего диско, кресло-авокадо и многое другое
В первый день после релиза «Шедеврум» с котом-картошкой в качестве логотипа возглавил топ-чарт российского App Store. Пользователи, зарегистрированные в «Яндексе», могут отправлять запросы на генерацию собственных картинок, а также просматривать готовые изображения по запросам других людей и лайкать понравившиеся работы в общей ленте. На этапе бета-теста генерация картинок доступна не всем, и, чтобы воспользоваться основными функциями ИИ, нужно встать в очередь, подав заявку в приложении. Тем не менее разработчики утверждают, что в будущем все зарегистрированные пользователи получат возможность создавать изображения по своим запросам.
Возможности нейросети «Яндекс Шедеврум»
Бета-версия приложения (0.1.4) доступна для Android и iOS. «Шедеврум» обрабатывает запросы на русском и английском языках, учитывая пожелания пользователей, такие как «фотореализм» или «высокая детализация». Нейросеть может подражать известным живописцам и работать в заданных художественных стилях.
Впрочем, у «Шедеврума» есть и ограничения. Так, у вас не получится сгенерировать следующие изображения:
- содержащие отсылки к конкретным людям («потому что Шедеврум не должен никого обижать или становиться генератором дипфейков»);
- связанные с политикой и религией;
- относящиеся к категориям «18+»;
- касающиеся жестокости и насилия.
Изображения генерируются по методу каскадной диффузии, когда сначала создается картинка в соответствии с запросом, а затем поэтапно увеличивается ее разрешение и насыщается деталями. Первая версия генеративной модели была обучена на 240 млн примеров картинок с текстовыми описаниями. Обучение продолжается на наборе данных из 500 млн примеров, что позволит улучшить качество в следующих обновлениях.
Алексей Гусаков, руководитель управления машинного интеллекта и исследований «Яндекса», подчеркнул: «Мы пока в самом начале пути. В основе «Шедеврума» прототип нейросети, которой предстоит многому научиться. К моменту финального релиза она сможет генерировать баннеры, иллюстрации, создавать изображения для интернет-витрин и не только».
Как пользоваться «Яндекс Шедеврум»: 15 запросов к нейросети
В разное время суток (в зависимости от нагрузки на сервер) создание квадратного изображение занимает у нейросети от одной до трех минут.
Запрос к «Шедевруму»: докторская колбаса с крыльями в лучах света
Запрос к «Шедевруму»: Дарт Вейдер танцует диско
Запрос к «Шедевруму»: Большой театр из кубиков лего
Запрос к «Шедевруму»: женщина и лес, двойная экспозиция
Запрос к «Шедевруму»: винтажное фото Lamborghini Urus. (Не ошибка! Это нейросеть, она так видит.)
Запрос к «Шедевруму»: Саяно-Шушенская ГЭС, тилт-шифт-объектив
Запрос к «Шедевруму»: раскраска «Сказочный замок»
Запрос к «Шедевруму»: плакат о покорении космоса в наивном стиле
Запрос к «Шедевруму»: Porsche 901, фотореализм
Запрос к «Шедевруму»: кресло-авокадо
Запрос к «Шедевруму»: фотореалистичный котенок играет с комочком бумажки
Запрос к «Шедевруму»: лес рук
Запрос к «Шедевруму»: руки, играющие на пианино, крупным планом
Запрос к «Шедевруму»: утро в городе, пиксель-арт
Запрос к «Шедевруму»: сердце, напечатанное на 3D-принтере