Kandinsky от Сбера

Kandinsky от Сбера, или отечественный аналог Midjourney.

Успех Midjourney и ChatGPT ожидаемо привёл к целому валу новых нейросетей ― созданных как энтузиастами, так и крупными компаниями. Главный коммерческий банк России не мог остаться в стороне и также представил собственную разработку в этой сфере. Что из себя представляет нейросеть Kandinsky от Сбербанка, а также как её применять, — сегодня и разберемся.

Что такое нейросеть Kandinsky

«Инженеры придумали что-то, что они сами не могут объяснить и понять» ― лучшее определение нейросетей как таковых. Поэтому здесь нет смысла углубляться в механику и принципы работы Kandinsky от Сбера. Отметим лишь важные для рядового пользователя моменты.

Нейросеть Kandinsky — это генерирующий алгоритм для создания, совмещения и изменения изображений на основании текстового описания, выданного пользователем. 4 апреля 2023-го Сбер выпустил уже третью версию ― Kandinsky 2.1. В довесок к уже имеющейся обучающей базе в миллиард пар «картинка-описание» новая итерация пополнилась ещё 170 миллионами таких пар. Кроме того, добавили 2 млн специально отобранных пар, предназначенных для улучшения работы алгоритма с человеческим лицом. Сам же алгоритм получил новый модуль обработки входных данных ― автоэнкодер ― для повышения детализации итогового изображения.

В результате нейросеть Сбера Kandinsky 2.1 оперирует 3.3 миллиардами параметров против 2 миллиардов в предыдущей версии. Это значение уже сопоставимо со знаменитой Midjourney. При этом Kandinsky умеет понимать текстовые задания на 101 языке, среди которых и русский, что крайне важно для российского пользователя. Ну и проблем с доступом из России к «зелёной» нейросети нет.

Как пользоваться Kandinsky

В качестве приветствия на промо-странице сберовской нейросети раньше висело сообщение «Создавай изображения за несколько секунд». Однако, сервера не справились с наплывом желающих, ― тот же Сбер отчитался о миллионе пользователей единовременно, ― так что фраза «за несколько секунд» оказалась несколько обманчива, и её уже убрали. Впрочем, сложностей в применении модели всё же нет.

Авторы предлагают пять способов воспользоваться нейросетью Kandinsky 2.1:

  • через устройства Sber;
  • в мобильном приложении Салют;
  • на тестовом сайте команды создателей https://fusionbrain.ai/diffusion. Здесь доступна генерация изображения и режим дорисовки;
  • на странице https://rudalle.ru/kandinsky2. Доступен только режим генерации, но можно указать разрешение и стиль для итоговой картинки;
  • телеграмм-бот https://t.me/kandinsky21_bot.

Полным функционалом нейросети от Сбера можно воспользоваться только через бота.

Возможности

Базовая специализация Kandinsky 2.1 от Сбербанка — это создание изображений и иллюстраций по текстовом запросу. Но, помимо этого, нейросеть умеет изменять конкретные картинки. Загрузив своё изображение в модель, пользователь получает возможность:

  • дополнить картинку;
  • создать референс исходника;
  • совместить два изображения;
  • совместить изображение и текст.

Как при создании, так и при редактировании готового изображения модель позволяет выбрать стиль итогового рисунка. Например, можно перерисовать фотографию в стиле Ван Гога.

Запуск

На устройствах Sber и в приложении Салют нейросеть Kandinsky 2.1 запускается через команду «Запусти художника». На указанных страницах ещё проще ― модель уже готова к работе.

Что характерно, денег за использование модели Сбер не требует. По крайней мере пока.

Создание изображения

Генерировать картинку по текстовому запросу позволяет любой из доступных способов. Последовательность действий для приложения Салют и устройств Sber:

  1. Указать голосом или напечатать запрос. Чем подробнее задать описание, тем лучше получиться итоговое изображение.
  2. Если нужно, в том же запросе указать стиль. Например, «аниме» или «советский мультфильм».
  3. Дождаться генерации.
  4. Чтобы сохранить изображение на устройстве, выбрать опцию «Открыть на сайте», где нажать кнопку «Скачать».

Работа со сберовской нейросетью Kandinsky 2.1 через сайты тоже не вызывает проблем и интуитивно понятна:

  1. В специальном поле вводим запрос.
  2. При необходимости выбираем подходящий стиль из выпадающего списка. Если желаемого стиля нет, указываем его в запросе.
  3. В случае работы на сайте Rudall выбираем разрешение.
  4. Нажимаем кнопку «Создать» и дожидаемся окончания генерации.
  5. Сохраняем удачную картинку через кнопку «Скачать».

Телеграмм-бот

Бот Kandinsky 2.1 уже предлагает полный функционал нейросети. Соответственно, перед началом работы выбираем один из четырёх вариантов:

  • Генерация по тексту;
  • Смешивание картинок;
  • Смешивание картинки и текста;
  • Вариации картинки.

В случае с созданием нового изображения последовательность действий полностью аналогична работе через приложение Салют или сайты. Чтобы изменить изображение:

  1. Выбираем нужную команду.
  2. Отправляем боту выбранное фото.
  3. В случае смешивания картинок, фотографии отправляем двумя отдельными сообщениями, после чего выбираем соотношение веса каждой из них.
  4. Готово!

Телеграмм-бот, пожалуй, предлагает наиболее удобный доступ к нейросети Kandinsky от Сбера. Единственный недостаток ― невозможность выбрать разрешение, как на сайте Rudall.

Достоинства и недостатки Kandinsky

Сберовская нейросеть показывает себя весьма достойно. Хотя Kandinsky 2.1 не сравнить с последней версией Midjourney, которая ушла в реализм, но вот с предыдущими итерациями российская модель уже способна потягаться. Да, «зелёная» нейросеть ещё имеет проблемы с детализацией и не способна адекватно отрисовывать руки и пальцы. Другая значительная проблема ― низкое разрешение итоговой картинки. Не считая сайта Rudall, все сервисы генерируют изображение только в 768*768. Сайт же позволяет выставить разрешение 1536*768, что не сильно лучше.

К плюсам относятся адекватная работа модели с русским языком, а также полная свобода применения. Кроме того, нейросеть Kandinsky 2.1 имеет поддержку стилей «Советский мультфильм» и «Хохлома», которых в западных решениях нет. Так что Сбер имеет все шансы развить Kandinsky до полного конкурента Midjourney.

Добавить комментарий