⚡️Завели с командой новый режим нашей диффузионки Kandinsky 2.0 - image fusion. Скоро можно будет попробовать в основном боте модели вместе с другими режимами. Протестил на себе🤗
@complete_ai
@complete_ai
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Сегодня знакомые экс-сберовские ребята запустились на ProductHunt со стартапом SpiritMe!
SpiritMe – это сервис по генерации видео с говорящими фотореалистичными аватарами. Подаешь на вход текст, а на выходе получаешь видос, где твой (или не твой) аватар его озвучивает.
Самое клевое – это то, как ребята собирают данные для обучения своего аватара. Раньше надо было снимать длинные видео, в фотостудии на профессиональное оборудование, а в SpiritMe достаточно снять 3-х минутное видео на фронталку айфона и уже на этом можно обучать своего аватара.
Также в отличие от конкурентов, пацаны могут добавлять лицевые эмоции и делать видео разнообразнее.
Поддержать ребят можно здесь
SpiritMe – это сервис по генерации видео с говорящими фотореалистичными аватарами. Подаешь на вход текст, а на выходе получаешь видос, где твой (или не твой) аватар его озвучивает.
Самое клевое – это то, как ребята собирают данные для обучения своего аватара. Раньше надо было снимать длинные видео, в фотостудии на профессиональное оборудование, а в SpiritMe достаточно снять 3-х минутное видео на фронталку айфона и уже на этом можно обучать своего аватара.
Также в отличие от конкурентов, пацаны могут добавлять лицевые эмоции и делать видео разнообразнее.
Поддержать ребят можно здесь
ML Party — регулярные встречи о разных применениях машинного обучения в IT. Инженеры и тимлиды Яндекса расскажут, как работают Быстрые ответы в Яндекс Поиске, как создавался визуальный поиск элементов одежды, какие вызовы приняла команда Плюс Фантех и как Яндекс Музыка рекомендует вам незнакомых исполнителей.
Митап можно посетить офлайн или подключиться к онлайн-трансляции.
Участие бесплатное, нужно зарегистрироваться, чтобы получить приглашение на площадку или прямую трансляцию.
Please open Telegram to view this post
VIEW IN TELEGRAM
ML Party Yerevan
ML Party — регулярные встречи о самых разных применениях машинного обучения в IT. Приглашаем вас принять участие в первой ML Party в 2023 году, которая пройдет в гибридном формате — встретимся офлайн в Ереване (Армения) и онлайн на YouTube.
⚡️Поговорим про мультимодальные модели
В последнее время очень много внимания приковано проекту ChatGPT и новому поиску Bing (кстати, вчера появилась возможность выбирать стиль общения с поисковиком, но об этом поговорим в другой раз). Оба решения направлены на то, чтобы продемонстрировать силу искусственного интеллекта через умное и содержательное общение с пользователем. Ты заходишь в чат, задаешь практически любые вопросы (в меру встроенных правил цензуры, разумеется) и получаешь детальные ответы, а в случае с Bing ещё и подкреплённые ссылками на результаты web search.
На самом деле - это лишь вершина айсберга, ведь в основе такого рода решений лежат большие модели или foundation models. В разрезе выше описанных проектов - это исключительно лингвистические модели, но на самом деле под foundation model понимают в широком смысле все мультимодальные модели, которые направлены на унификацию работы с данными различных модальностей: текст, изображения, аудио, графы и т.д., и решению большого числа задач сразу одной моделью (ответы на вопросы по тексту, описание изображений, расшифровка аудио, ответы на вопросы по фото или видео и много других). Те, кто увлекается или просто интересуется данным направлением, наверняка слышали про модели DALL-E, Flamingo, BEiT, CoCa, OFA, Gato, Fromage, KOSMOS-1 и другие. Все они предлагают различные подходы к интерпретации данных различных модальностей (спецтокены, унифицированные токены и др.), к базовым архитектурам (общий декодер, multi-way transformer, mixture of experts и др.), к способам обучения через различные фокусы с организацией батчей и, конечно, к формированию подходящих для обучения датасетов. По моему мнению, в этих работах скрываются одни из лучших унимодальных практик в обучении и построении архитектур моделей.
Для тех, кто хочет больше погрузиться в историю и детали мультимодальных и унимодальных foundation models (будем называть самой логичной калькой «фундаментальные модели»), на днях вышел отличный обзор на аж 97 страниц.
📕Обзорная статья
@complete_ai
В последнее время очень много внимания приковано проекту ChatGPT и новому поиску Bing (кстати, вчера появилась возможность выбирать стиль общения с поисковиком, но об этом поговорим в другой раз). Оба решения направлены на то, чтобы продемонстрировать силу искусственного интеллекта через умное и содержательное общение с пользователем. Ты заходишь в чат, задаешь практически любые вопросы (в меру встроенных правил цензуры, разумеется) и получаешь детальные ответы, а в случае с Bing ещё и подкреплённые ссылками на результаты web search.
На самом деле - это лишь вершина айсберга, ведь в основе такого рода решений лежат большие модели или foundation models. В разрезе выше описанных проектов - это исключительно лингвистические модели, но на самом деле под foundation model понимают в широком смысле все мультимодальные модели, которые направлены на унификацию работы с данными различных модальностей: текст, изображения, аудио, графы и т.д., и решению большого числа задач сразу одной моделью (ответы на вопросы по тексту, описание изображений, расшифровка аудио, ответы на вопросы по фото или видео и много других). Те, кто увлекается или просто интересуется данным направлением, наверняка слышали про модели DALL-E, Flamingo, BEiT, CoCa, OFA, Gato, Fromage, KOSMOS-1 и другие. Все они предлагают различные подходы к интерпретации данных различных модальностей (спецтокены, унифицированные токены и др.), к базовым архитектурам (общий декодер, multi-way transformer, mixture of experts и др.), к способам обучения через различные фокусы с организацией батчей и, конечно, к формированию подходящих для обучения датасетов. По моему мнению, в этих работах скрываются одни из лучших унимодальных практик в обучении и построении архитектур моделей.
Для тех, кто хочет больше погрузиться в историю и детали мультимодальных и унимодальных foundation models (будем называть самой логичной калькой «фундаментальные модели»), на днях вышел отличный обзор на аж 97 страниц.
📕Обзорная статья
@complete_ai
🫤🤤😐Почти на серьёзных щах готовились сегодня к opentalks.ai с Глебом @tired_glebmikheev и Серёгой @successfulproduct.
📕Завтра выступаю в треке «Generative models in business», который начинается в 13.00 (время местное - GMT+4). Приходите по адресу 40 Marshal Bagramyan Ave, если вы вдруг в Ереване, и залетайте на трансляцию!😉
📕Завтра выступаю в треке «Generative models in business», который начинается в 13.00 (время местное - GMT+4). Приходите по адресу 40 Marshal Bagramyan Ave, если вы вдруг в Ереване, и залетайте на трансляцию!😉
🔥Выступил на OpenTalks про генеративные диффузионные модели, которые мы разрабатываем, а также про нашу модель эффективного переноса лиц на фото и видео GHOST (можно попробовать в Телеграмм-боте). Времени было немного на доклад, но трек безусловно цепляет, потому что он в центре инфополя сейчас, поэтому готов обсудить вне конфы все вопросы и предложения.
Сегодня и завтра еще рекомендую послушать доклады коллег из Sber AI, SberDevices и AIRI: Дениса Димитрова @dendimitrov, Александра Панова @GraffT, Елизаветы Гончаровой @lizagonch, Татьяны Шавриной @rybolos и многих других. Ищите в расписании - будет точно интересно!
Вообще конференция насыщена очень крутыми спикерами, докладами и это подтверждается обилием вопросов, на которые не хватает времени ответить🤗
@airi_research_institute
Сегодня и завтра еще рекомендую послушать доклады коллег из Sber AI, SberDevices и AIRI: Дениса Димитрова @dendimitrov, Александра Панова @GraffT, Елизаветы Гончаровой @lizagonch, Татьяны Шавриной @rybolos и многих других. Ищите в расписании - будет точно интересно!
Вообще конференция насыщена очень крутыми спикерами, докладами и это подтверждается обилием вопросов, на которые не хватает времени ответить🤗
@airi_research_institute
Forwarded from AbstractDL
🔥GPT-4 вышла! И она мультимодальная!
Модель принимает на вход картинки и текст, причём визуальную информацию энкодят как-то очень хитро, ведь модель понимает даже мелкий pdf шрифт (см картинку).
К сожалению, в статье только общие слова и результаты тестов (на целых 98 страниц), но нет никаких технических деталей — даже количество параметров не дают. Прямо говорят, что не хотят, чтобы кто-то воспроизвёл и выпустил это на волю (safety implications).
Блог, статья, трансляция
Модель принимает на вход картинки и текст, причём визуальную информацию энкодят как-то очень хитро, ведь модель понимает даже мелкий pdf шрифт (см картинку).
К сожалению, в статье только общие слова и результаты тестов (на целых 98 страниц), но нет никаких технических деталей — даже количество параметров не дают. Прямо говорят, что не хотят, чтобы кто-то воспроизвёл и выпустил это на волю (safety implications).
Блог, статья, трансляция
🔥Пока все в упор залипли на GPT-4, тут новая генеративная T2I модель прилетела!
GigaGAN: A Large-scale Modified GAN Architecture for Text-to-Image Synthesis
📌1B параметров
📌По метрике качества FID обходит Stable Diffusion v1.5, DALL·E 2 и Parti-750M
📌Генерирует изображение размером 512 пикселей 0.13s
📌Prompt Interpolation и Style Mixing - без этого уже никуда сейчас
Меж тем, статья будет на CVPR 2023
Статья
Гитхаб
@complete_ai
GigaGAN: A Large-scale Modified GAN Architecture for Text-to-Image Synthesis
📌1B параметров
📌По метрике качества FID обходит Stable Diffusion v1.5, DALL·E 2 и Parti-750M
📌Генерирует изображение размером 512 пикселей 0.13s
📌Prompt Interpolation и Style Mixing - без этого уже никуда сейчас
Меж тем, статья будет на CVPR 2023
Статья
Гитхаб
@complete_ai
mingukkang.github.io
GigaGAN for Text-to-Image Synthesis. CVPR2023
a 1B parameter large scale GAN for text-to-image synthesis task. CVPR2023
Forwarded from Градиентное погружение (cene655)
Мы в Sber AI скоро представим новую диффузионную модель, которая генерирует картинки.
Что она может:
1) Генерировать картинки по тексту
2) Смешивать картинки
3) Смешивать картинки и тексты
Ждите релиз на следующей неделе, будет полный опенсурс всех весов и кода обучения)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM