Шедеврум от Яндекс

Шедеврум ― Яндекс не смог (пока что)

Вездесущий шоггот под названием Яндекс протягивает свои щупальца ко всему, что хоть как-то связано с IT. В 2023 году компания дотянулась и до нейросетей. На что способна её модель Шедеврум ― сегодня и разберемся.

Что такое Шедеврум

Итак, языковые и генеративные модели сегодня в тренде. Очевидно, что жёлтый Анти-Мидас желает выехать и на этой волне. Так на свет появился «российский ответ» Midjourney ― нейросеть Шедеврум от Яндекса, предназначенная для генерации изображений по текстовому запросу. Впрочем, дело обстоит несколько сложнее.

Во-первых, представители самой компании не заявляли, что делают какой-либо «ответ». Хоть и очевидно, что разработка модели стартовала именно из-за взлёта популярности Midjourney и других мастодонтов сектора.

Во-вторых, Шедеврум от Яндекса правильнее сравнивать с нейросетью Stable Diffusion. Оба проекта функционируют на похожих принципах ― сначала создание изображения в малом размере, а затем несколько этапов увеличения разрешения и детализации. Это так называемый метод каскадной диффузии.

Кроме того, нейросеть Яндекса ещё на стадии бета-тестирования, так что многого ожидать от Шедеврума не стоит. Однако, модель всё же выпустили в открытый доступ. Значит, хотя бы что-то она уметь должна.

Возможности

Единственный алгоритм, доступный нейросети от Яндекса, ― генерация изображения по запросу. В этом плане Шедеврум почти ничем не отличается от Midjourney, Stable Diffusion и прочих. Отличие российской нейросети заключается лишь в нормальной работе с русским языком. Соответственно, мучаться с переводчиком здесь не придётся.

К сожалению, никаких дополнительных инструментов Яндекс пользователю не предоставляет. Нейросеть Шедеврум не умеет ни смешивать картинки, ни дорисовывать, ни изменять стиль, ни менять фон. Ничего. Даже разрешение выбрать не получится.

Кстати о разрешении итоговых изображений. По утверждению Яндекса Шедеврум генерирует картинки в 1024 на 1024. Это и так не слишком хороший результат, однако на деле картинка выглядит заметно хуже. Да и вес полученного файла явно не дотягивает до заявленных значений разрешения. Закрадывается подозрение, что каскадная диффузия в модели ещё сыровата.

Ограничения

Как уже говорилось, сейчас нейросеть Шедеврум ещё только проходит бета-тестирование. На начало апреля 2023-го модель обучена всего лишь на 240 миллионах пар «изображение-текст». Следующее обновление планируется на 500 млн пар. Для сравнения, тот же Kandinsky 2.1 от Сбера имеет в своей обучающей базе миллиард с лишним пар. Что уж говорить о «старичках». Как результат, Шедеврум порой выдаёт изображение, которое имеет очень мало общего с запросом.

Так, например, Чебурашку яндексовская нейросеть не может визуализировать в принципе. Что, вообще-то, странно для российской модели. Справедливости ради стоит отметить, что и Kandinsky с Чебурашкой не справляется. Но если «зелёная» модель хотя бы пытается, то Шедеврум это слово просто игнорирует.

Кроме того, нейросеть от Яндекса уже успели поймать на, так сказать, недобросовестной работе. На некоторые запросы модель выдаёт уже существующие картинки. Например, классические работы известных художников. При этом изображение немного изменяется, чтобы не полностью копировать чужую работу. Будем надеяться, что это просто ошибка, которую в скором времени поправят.

Запреты

Помимо ограничений из-за недообученности нейросети, имеются и заложенные разработчиком запреты. В правилах указаны четыре табу:

  • жестокость и насилие;
  • контент 18+;
  • политика и религия;
  • отсылки к конкретным людям.

Если наличие первого и второго пунктов объяснимо, то вот третий и четвёртый вызывают недоумение. Так что повторить, например, завирусившуюся генерацию Midjourney «Папа Римский в пуховике» Шедеврум не может физически.

Как воспользоваться

Лично протестировать нейросеть от Яндекса можно только одним способом ― через мобильное приложение Шедеврум. Оно доступно в Google Play и App Store для Android и iOS соответственно. Настольной версии приложения нет.

Итак, чтобы создать собственный шедевр в Шедевруме:

  1. Устанавливаем приложение.
  2. Логинимся через Яндекс ID. Если на смартфоне установлены сервисы компании, приложение залогинится автоматически.
  3. Нажимаем «+» в правом верхнем углу.
  4. Вводим запрос и дожидаемся окончания генерации. В среднем изображение создаётся 1-2 минуты.
  5. Чтобы скачать сгенерированную картинку, придётся её опубликовать. Только после этого появится кнопка «Поделиться». Это также единственный метод получить изображение в разрешении 1024 на 1024.

Помимо генерации картинок в приложении Шедеврум реализованы две ленты: с лучшими и новыми работами других пользователей.

Итоги

Нейросеть уже неплохо умеет генерировать изображения с малым количеством деталей. Натюрморт, например. Модель бесплатна и адекватно работает с заданиями на русском языке. Приложение с социальными элементами тоже можно похвалить.

Тем не менее Шедеврум от Яндекса ― крайне сырой продукт. Детализированные изображения ему не позубам, грани предметов часто плывут. Вероятно, из-за недоработанных алгоритмов каскадной диффузии. Традиционно сложные вещи для генерации ― лица и руки ― лучше вообще не трогать. С учётом остальных проблем, Шедеврум сейчас представляет собой скорее развлечение для массового пользователя, чем серьёзный инструмент для работы. Впрочем, ранние версии того же Midjourney выдавали картинки куда хуже, чем Шедеврум. Так что в долгой перспективе у нейросети от Яндекса есть шансы стать чем-то серьёзным. Конечно, если модель не постигнет участь многих других проектов Яндекса, канувших в небытие.

Добавить комментарий