Успех Midjourney и ChatGPT ожидаемо привёл к целому валу новых нейросетей ― созданных как энтузиастами, так и крупными компаниями. Главный коммерческий банк России не мог остаться в стороне и также представил собственную разработку в этой сфере. Что из себя представляет нейросеть Kandinsky от Сбербанка, а также как её применять, — сегодня и разберемся.
Что такое нейросеть Kandinsky
«Инженеры придумали что-то, что они сами не могут объяснить и понять» ― лучшее определение нейросетей как таковых. Поэтому здесь нет смысла углубляться в механику и принципы работы Kandinsky от Сбера. Отметим лишь важные для рядового пользователя моменты.
Нейросеть Kandinsky — это генерирующий алгоритм для создания, совмещения и изменения изображений на основании текстового описания, выданного пользователем. 4 апреля 2023-го Сбер выпустил уже третью версию ― Kandinsky 2.1. В довесок к уже имеющейся обучающей базе в миллиард пар «картинка-описание» новая итерация пополнилась ещё 170 миллионами таких пар. Кроме того, добавили 2 млн специально отобранных пар, предназначенных для улучшения работы алгоритма с человеческим лицом. Сам же алгоритм получил новый модуль обработки входных данных ― автоэнкодер ― для повышения детализации итогового изображения.
В результате нейросеть Сбера Kandinsky 2.1 оперирует 3.3 миллиардами параметров против 2 миллиардов в предыдущей версии. Это значение уже сопоставимо со знаменитой Midjourney. При этом Kandinsky умеет понимать текстовые задания на 101 языке, среди которых и русский, что крайне важно для российского пользователя. Ну и проблем с доступом из России к «зелёной» нейросети нет.
Как пользоваться Kandinsky
В качестве приветствия на промо-странице сберовской нейросети раньше висело сообщение «Создавай изображения за несколько секунд». Однако, сервера не справились с наплывом желающих, ― тот же Сбер отчитался о миллионе пользователей единовременно, ― так что фраза «за несколько секунд» оказалась несколько обманчива, и её уже убрали. Впрочем, сложностей в применении модели всё же нет.
Авторы предлагают пять способов воспользоваться нейросетью Kandinsky 2.1:
- через устройства Sber;
- в мобильном приложении Салют;
- на тестовом сайте команды создателей https://fusionbrain.ai/diffusion. Здесь доступна генерация изображения и режим дорисовки;
- на странице https://rudalle.ru/kandinsky2. Доступен только режим генерации, но можно указать разрешение и стиль для итоговой картинки;
- телеграмм-бот https://t.me/kandinsky21_bot.
Полным функционалом нейросети от Сбера можно воспользоваться только через бота.
Возможности
Базовая специализация Kandinsky 2.1 от Сбербанка — это создание изображений и иллюстраций по текстовом запросу. Но, помимо этого, нейросеть умеет изменять конкретные картинки. Загрузив своё изображение в модель, пользователь получает возможность:
- дополнить картинку;
- создать референс исходника;
- совместить два изображения;
- совместить изображение и текст.
Как при создании, так и при редактировании готового изображения модель позволяет выбрать стиль итогового рисунка. Например, можно перерисовать фотографию в стиле Ван Гога.
Запуск
На устройствах Sber и в приложении Салют нейросеть Kandinsky 2.1 запускается через команду «Запусти художника». На указанных страницах ещё проще ― модель уже готова к работе.
Что характерно, денег за использование модели Сбер не требует. По крайней мере пока.
Создание изображения
Генерировать картинку по текстовому запросу позволяет любой из доступных способов. Последовательность действий для приложения Салют и устройств Sber:
- Указать голосом или напечатать запрос. Чем подробнее задать описание, тем лучше получиться итоговое изображение.
- Если нужно, в том же запросе указать стиль. Например, «аниме» или «советский мультфильм».
- Дождаться генерации.
- Чтобы сохранить изображение на устройстве, выбрать опцию «Открыть на сайте», где нажать кнопку «Скачать».
Работа со сберовской нейросетью Kandinsky 2.1 через сайты тоже не вызывает проблем и интуитивно понятна:
- В специальном поле вводим запрос.
- При необходимости выбираем подходящий стиль из выпадающего списка. Если желаемого стиля нет, указываем его в запросе.
- В случае работы на сайте Rudall выбираем разрешение.
- Нажимаем кнопку «Создать» и дожидаемся окончания генерации.
- Сохраняем удачную картинку через кнопку «Скачать».
Телеграмм-бот
Бот Kandinsky 2.1 уже предлагает полный функционал нейросети. Соответственно, перед началом работы выбираем один из четырёх вариантов:
- Генерация по тексту;
- Смешивание картинок;
- Смешивание картинки и текста;
- Вариации картинки.
В случае с созданием нового изображения последовательность действий полностью аналогична работе через приложение Салют или сайты. Чтобы изменить изображение:
- Выбираем нужную команду.
- Отправляем боту выбранное фото.
- В случае смешивания картинок, фотографии отправляем двумя отдельными сообщениями, после чего выбираем соотношение веса каждой из них.
- Готово!
Телеграмм-бот, пожалуй, предлагает наиболее удобный доступ к нейросети Kandinsky от Сбера. Единственный недостаток ― невозможность выбрать разрешение, как на сайте Rudall.
Достоинства и недостатки Kandinsky
Сберовская нейросеть показывает себя весьма достойно. Хотя Kandinsky 2.1 не сравнить с последней версией Midjourney, которая ушла в реализм, но вот с предыдущими итерациями российская модель уже способна потягаться. Да, «зелёная» нейросеть ещё имеет проблемы с детализацией и не способна адекватно отрисовывать руки и пальцы. Другая значительная проблема ― низкое разрешение итоговой картинки. Не считая сайта Rudall, все сервисы генерируют изображение только в 768*768. Сайт же позволяет выставить разрешение 1536*768, что не сильно лучше.
К плюсам относятся адекватная работа модели с русским языком, а также полная свобода применения. Кроме того, нейросеть Kandinsky 2.1 имеет поддержку стилей «Советский мультфильм» и «Хохлома», которых в западных решениях нет. Так что Сбер имеет все шансы развить Kandinsky до полного конкурента Midjourney.