Complete AI
5.74K subscribers
303 photos
21 videos
8 files
197 links
Меня зовут Андрей Кузнецов.

Руковожу лабораторией FusionBrain в AIRI, один из создателей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML.

Tg: @kuznetsoff87
加入频道
FYI
⚡️Завели с командой новый режим нашей диффузионки Kandinsky 2.0 - image fusion. Скоро можно будет попробовать в основном боте модели вместе с другими режимами. Протестил на себе🤗

@complete_ai
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Сегодня знакомые экс-сберовские ребята запустились на ProductHunt со стартапом SpiritMe!

SpiritMe – это сервис по генерации видео с говорящими фотореалистичными аватарами. Подаешь на вход текст, а на выходе получаешь видос, где твой (или не твой) аватар его озвучивает.

Самое клевое – это то, как ребята собирают данные для обучения своего аватара. Раньше надо было снимать длинные видео, в фотостудии на профессиональное оборудование, а в SpiritMe достаточно снять 3-х минутное видео на фронталку айфона и уже на этом можно обучать своего аватара.

Также в отличие от конкурентов, пацаны могут добавлять лицевые эмоции и делать видео разнообразнее.

Поддержать ребят можно здесь
Достаточно неожиданно🤗
⚡️2 марта в Ереване пройдёт первая ML Party в 2023 году

ML Party — регулярные встречи о разных применениях машинного обучения в IT. Инженеры и тимлиды Яндекса расскажут, как работают Быстрые ответы в Яндекс Поиске, как создавался визуальный поиск элементов одежды, какие вызовы приняла команда Плюс Фантех и как Яндекс Музыка рекомендует вам незнакомых исполнителей.

Митап можно посетить офлайн или подключиться к онлайн-трансляции.

Участие бесплатное, нужно зарегистрироваться, чтобы получить приглашение на площадку или прямую трансляцию.
Please open Telegram to view this post
VIEW IN TELEGRAM
Утро в офисе сегодня такое☀️
⚡️Поговорим про мультимодальные модели

В последнее время очень много внимания приковано проекту ChatGPT и новому поиску Bing (кстати, вчера появилась возможность выбирать стиль общения с поисковиком, но об этом поговорим в другой раз). Оба решения направлены на то, чтобы продемонстрировать силу искусственного интеллекта через умное и содержательное общение с пользователем. Ты заходишь в чат, задаешь практически любые вопросы (в меру встроенных правил цензуры, разумеется) и получаешь детальные ответы, а в случае с Bing ещё и подкреплённые ссылками на результаты web search.

На самом деле - это лишь вершина айсберга, ведь в основе такого рода решений лежат большие модели или foundation models. В разрезе выше описанных проектов - это исключительно лингвистические модели, но на самом деле под foundation model понимают в широком смысле все мультимодальные модели, которые направлены на унификацию работы с данными различных модальностей: текст, изображения, аудио, графы и т.д., и решению большого числа задач сразу одной моделью (ответы на вопросы по тексту, описание изображений, расшифровка аудио, ответы на вопросы по фото или видео и много других). Те, кто увлекается или просто интересуется данным направлением, наверняка слышали про модели DALL-E, Flamingo, BEiT, CoCa, OFA, Gato, Fromage, KOSMOS-1 и другие. Все они предлагают различные подходы к интерпретации данных различных модальностей (спецтокены, унифицированные токены и др.), к базовым архитектурам (общий декодер, multi-way transformer, mixture of experts и др.), к способам обучения через различные фокусы с организацией батчей и, конечно, к формированию подходящих для обучения датасетов. По моему мнению, в этих работах скрываются одни из лучших унимодальных практик в обучении и построении архитектур моделей.

Для тех, кто хочет больше погрузиться в историю и детали мультимодальных и унимодальных foundation models (будем называть самой логичной калькой «фундаментальные модели»), на днях вышел отличный обзор на аж 97 страниц.

📕Обзорная статья

@complete_ai
🫤🤤😐Почти на серьёзных щах готовились сегодня к opentalks.ai с Глебом @tired_glebmikheev и Серёгой @successfulproduct.

📕Завтра выступаю в треке «Generative models in business», который начинается в 13.00 (время местное - GMT+4). Приходите по адресу 40 Marshal Bagramyan Ave, если вы вдруг в Ереване, и залетайте на трансляцию!😉
🔥Выступил на OpenTalks про генеративные диффузионные модели, которые мы разрабатываем, а также про нашу модель эффективного переноса лиц на фото и видео GHOST (можно попробовать в Телеграмм-боте). Времени было немного на доклад, но трек безусловно цепляет, потому что он в центре инфополя сейчас, поэтому готов обсудить вне конфы все вопросы и предложения.

Сегодня и завтра еще рекомендую послушать доклады коллег из Sber AI, SberDevices и AIRI: Дениса Димитрова @dendimitrov, Александра Панова @GraffT, Елизаветы Гончаровой @lizagonch, Татьяны Шавриной @rybolos и многих других. Ищите в расписании - будет точно интересно!

Вообще конференция насыщена очень крутыми спикерами, докладами и это подтверждается обилием вопросов, на которые не хватает времени ответить🤗

@airi_research_institute
🌺Всех представительниц прекрасного пола поздравляю с чудесным весенним праздником - 8 марта!

Вы заряжаете мужчин энергией и желанием достигать новые вершины и добиваться новых амбициозных целей! Спасибо вам за это🙏

И генеративного букета вам в подарок от Kandinsky 2.1❤️
Forwarded from AbstractDL
🔥GPT-4 вышла! И она мультимодальная!

Модель принимает на вход картинки и текст, причём визуальную информацию энкодят как-то очень хитро, ведь модель понимает даже мелкий pdf шрифт (см картинку).

К сожалению, в статье только общие слова и результаты тестов (на целых 98 страниц), но нет никаких технических деталей — даже количество параметров не дают. Прямо говорят, что не хотят, чтобы кто-то воспроизвёл и выпустил это на волю (safety implications).

Блог, статья, трансляция
🔥Пока все в упор залипли на GPT-4, тут новая генеративная T2I модель прилетела!

GigaGAN: A Large-scale Modified GAN Architecture for Text-to-Image Synthesis

📌1B параметров
📌По метрике качества FID обходит Stable Diffusion v1.5, DALL·E 2 и Parti-750M
📌Генерирует изображение размером 512 пикселей 0.13s
📌Prompt Interpolation и Style Mixing - без этого уже никуда сейчас

Меж тем, статья будет на CVPR 2023

Статья
Гитхаб

@complete_ai
💃Уже скоро будет релиз модели Kandinsky 2.1!
Мы в Sber AI скоро представим новую диффузионную модель, которая генерирует картинки.
Что она может:
1) Генерировать картинки по тексту🤔
2) Смешивать картинки⌛️
3) Смешивать картинки и тексты🃏
Ждите релиз на следующей неделе, будет полный опенсурс всех весов и кода обучения)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM