Complete AI

FYI

1.7K viewsAndrey Kuznetsov, 09:57

⚡️Завели с командой новый режим нашей диффузионки Kandinsky 2.0 - image fusion. Скоро можно будет попробовать в основном боте модели вместе с другими режимами. Протестил на себе🤗

@complete_ai

6.7K viewsAndrey Kuznetsov, 16:11

Complete AI

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

🔥Сегодня знакомые экс-сберовские ребята запустились на ProductHunt со стартапом SpiritMe!

SpiritMe – это сервис по генерации видео с говорящими фотореалистичными аватарами. Подаешь на вход текст, а на выходе получаешь видос, где твой (или не твой) аватар его озвучивает.

Самое клевое – это то, как ребята собирают данные для обучения своего аватара. Раньше надо было снимать длинные видео, в фотостудии на профессиональное оборудование, а в SpiritMe достаточно снять 3-х минутное видео на фронталку айфона и уже на этом можно обучать своего аватара.

Также в отличие от конкурентов, пацаны могут добавлять лицевые эмоции и делать видео разнообразнее.

Поддержать ребят можно здесь

2.3K viewsAndrey Kuznetsov, edited 20:03

Complete AI

Достаточно неожиданно🤗

1.4K viewsAndrey Kuznetsov, 07:18

Complete AI

⚡️

2 марта в Ереване пройдёт первая ML Party в 2023 году

ML Party — регулярные встречи о разных применениях машинного обучения в IT. Инженеры и тимлиды Яндекса расскажут, как работают Быстрые ответы в Яндекс Поиске, как создавался визуальный поиск элементов одежды, какие вызовы приняла команда Плюс Фантех и как Яндекс Музыка рекомендует вам незнакомых исполнителей.

Митап можно посетить офлайн или подключиться к онлайн-трансляции.

Участие бесплатное, нужно зарегистрироваться, чтобы получить приглашение на площадку или прямую трансляцию.

Please open Telegram to view this post

VIEW IN TELEGRAM

ML Party Yerevan

ML Party — регулярные встречи о самых разных применениях машинного обучения в IT. Приглашаем вас принять участие в первой ML Party в 2023 году, которая пройдет в гибридном формате — встретимся офлайн в Ереване (Армения) и онлайн на YouTube.

1.7K viewsAndrey Kuznetsov, 23:10

Complete AI

Утро в офисе сегодня такое☀️

1.3K viewsAndrey Kuznetsov, 06:51

Complete AI

⚡️Поговорим про мультимодальные модели

В последнее время очень много внимания приковано проекту ChatGPT и новому поиску Bing (кстати, вчера появилась возможность выбирать стиль общения с поисковиком, но об этом поговорим в другой раз). Оба решения направлены на то, чтобы продемонстрировать силу искусственного интеллекта через умное и содержательное общение с пользователем. Ты заходишь в чат, задаешь практически любые вопросы (в меру встроенных правил цензуры, разумеется) и получаешь детальные ответы, а в случае с Bing ещё и подкреплённые ссылками на результаты web search.

На самом деле - это лишь вершина айсберга, ведь в основе такого рода решений лежат большие модели или foundation models. В разрезе выше описанных проектов - это исключительно лингвистические модели, но на самом деле под foundation model понимают в широком смысле все мультимодальные модели, которые направлены на унификацию работы с данными различных модальностей: текст, изображения, аудио, графы и т.д., и решению большого числа задач сразу одной моделью (ответы на вопросы по тексту, описание изображений, расшифровка аудио, ответы на вопросы по фото или видео и много других). Те, кто увлекается или просто интересуется данным направлением, наверняка слышали про модели DALL-E, Flamingo, BEiT, CoCa, OFA, Gato, Fromage, KOSMOS-1 и другие. Все они предлагают различные подходы к интерпретации данных различных модальностей (спецтокены, унифицированные токены и др.), к базовым архитектурам (общий декодер, multi-way transformer, mixture of experts и др.), к способам обучения через различные фокусы с организацией батчей и, конечно, к формированию подходящих для обучения датасетов. По моему мнению, в этих работах скрываются одни из лучших унимодальных практик в обучении и построении архитектур моделей.

Для тех, кто хочет больше погрузиться в историю и детали мультимодальных и унимодальных foundation models (будем называть самой логичной калькой «фундаментальные модели»), на днях вышел отличный обзор на аж 97 страниц.

📕Обзорная статья

@complete_ai

1.8K viewsAndrey Kuznetsov, edited 07:06

Complete AI

🫤🤤😐Почти на серьёзных щах готовились сегодня к opentalks.ai с Глебом @tired_glebmikheev и Серёгой @successfulproduct.

📕Завтра выступаю в треке «Generative models in business», который начинается в 13.00 (время местное - GMT+4). Приходите по адресу 40 Marshal Bagramyan Ave, если вы вдруг в Ереване, и залетайте на трансляцию!😉

1.3K viewsAndrey Kuznetsov, 22:13

Complete AI

🔥Выступил на OpenTalks про генеративные диффузионные модели, которые мы разрабатываем, а также про нашу модель эффективного переноса лиц на фото и видео GHOST (можно попробовать в Телеграмм-боте). Времени было немного на доклад, но трек безусловно цепляет, потому что он в центре инфополя сейчас, поэтому готов обсудить вне конфы все вопросы и предложения.

Сегодня и завтра еще рекомендую послушать доклады коллег из Sber AI, SberDevices и AIRI: Дениса Димитрова @dendimitrov, Александра Панова @GraffT, Елизаветы Гончаровой @lizagonch, Татьяны Шавриной @rybolos и многих других. Ищите в расписании - будет точно интересно!

Вообще конференция насыщена очень крутыми спикерами, докладами и это подтверждается обилием вопросов, на которые не хватает времени ответить🤗

@airi_research_institute

2.2K viewsAndrey Kuznetsov, 12:28

Complete AI

🌺Всех представительниц прекрасного пола поздравляю с чудесным весенним праздником - 8 марта!

Вы заряжаете мужчин энергией и желанием достигать новые вершины и добиваться новых амбициозных целей! Спасибо вам за это🙏

И генеративного букета вам в подарок от Kandinsky 2.1❤️

1.5K viewsAndrey Kuznetsov, 06:28

Complete AI

Forwarded from AbstractDL

🔥GPT-4 вышла! И она мультимодальная!

Модель принимает на вход картинки и текст, причём визуальную информацию энкодят как-то очень хитро, ведь модель понимает даже мелкий pdf шрифт (см картинку).

К сожалению, в статье только общие слова и результаты тестов (на целых 98 страниц), но нет никаких технических деталей — даже количество параметров не дают. Прямо говорят, что не хотят, чтобы кто-то воспроизвёл и выпустил это на волю (safety implications).

Блог, статья, трансляция

1.2K viewsAndrey Kuznetsov, 18:24

Complete AI

🔥Пока все в упор залипли на GPT-4, тут новая генеративная T2I модель прилетела!

GigaGAN: A Large-scale Modified GAN Architecture for Text-to-Image Synthesis

📌1B параметров
📌По метрике качества FID обходит Stable Diffusion v1.5, DALL·E 2 и Parti-750M
📌Генерирует изображение размером 512 пикселей 0.13s
📌Prompt Interpolation и Style Mixing - без этого уже никуда сейчас

Меж тем, статья будет на CVPR 2023

Статья
Гитхаб

@complete_ai

mingukkang.github.io

GigaGAN for Text-to-Image Synthesis. CVPR2023

a 1B parameter large scale GAN for text-to-image synthesis task. CVPR2023

1.8K viewsAndrey Kuznetsov, edited 22:04

Complete AI

Forwarded from Градиентное погружение (cene655)

💃Уже скоро будет релиз модели Kandinsky 2.1!
Мы в Sber AI скоро представим новую диффузионную модель, которая генерирует картинки.
Что она может:
1) Генерировать картинки по тексту🤔
2) Смешивать картинки⌛️
3) Смешивать картинки и тексты🃏
Ждите релиз на следующей неделе, будет полный опенсурс всех весов и кода обучения)

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.2K viewsAndrey Kuznetsov, 20:29

About

Blog

Apps

Platform