ImageBind
Мультимодальная модель от запрещенной в РФ Meta AI обеспечивает машины целостным пониманием, которое связывает объекты на фотографии с тем, как они будут звучать, их трехмерной формой, насколько они теплые или холодные и как они движутся. Таким образом железки становятся на шаг ближе к человеческой способности обучаться одновременно на разных типах информации.
Модель в опенсорсе, доступен код.
Демонстрация
Код
#multimodal
Мультимодальная модель от запрещенной в РФ Meta AI обеспечивает машины целостным пониманием, которое связывает объекты на фотографии с тем, как они будут звучать, их трехмерной формой, насколько они теплые или холодные и как они движутся. Таким образом железки становятся на шаг ближе к человеческой способности обучаться одновременно на разных типах информации.
Модель в опенсорсе, доступен код.
Демонстрация
Код
#multimodal
👍4❤1
https://youtu.be/qM4X02HRRf0
Опробовал SeamlessM4T на мастер-классе Курта Воннегута.
Использовал демоспейс, в котором, как я понял, крутится самая старшая модель SeamlessM4T-Large. То есть, лучше не будет.
Первые впечатления
- забывает перевести значительные части аудиофайла. Закидываешь в него минуту (это максимум на демоспейсе) - переводит только первые 12 секунд. Это самый большой недостаток
- русский голос звучит довольно живо, в отличие от, например, нейродублера видео в Яндекс браузере
- при этом дубляж на русский звучит как косноязычный переводчик, не знающий как ставить ударения в самых обычных словах. Иногда добавляет лишние слоги в слова, иногда теряет
- судя по построению фраз есть ощущение что перевод осуществляется не напрямую с английской речи в русскую речь, а через текст. Хотя, конечно, не через текст, а через токены.
- если хочется поправить что-то в речи, можно сначала перегнать в текст, а потом текст в речь. В демоспейсе все это есть.
Вердикт. Надеюсь, что хотя бы часть недостатков можно списать на ограничения демоспейса. Если в колабе будет так же, то для дубляжа на русский эта модель бесполезна. Быстрее перевести и озвучить вручную
#dubbing #multimodal #nauronaut_art #llm #speech2speech
Опробовал SeamlessM4T на мастер-классе Курта Воннегута.
Использовал демоспейс, в котором, как я понял, крутится самая старшая модель SeamlessM4T-Large. То есть, лучше не будет.
Первые впечатления
- забывает перевести значительные части аудиофайла. Закидываешь в него минуту (это максимум на демоспейсе) - переводит только первые 12 секунд. Это самый большой недостаток
- русский голос звучит довольно живо, в отличие от, например, нейродублера видео в Яндекс браузере
- при этом дубляж на русский звучит как косноязычный переводчик, не знающий как ставить ударения в самых обычных словах. Иногда добавляет лишние слоги в слова, иногда теряет
- судя по построению фраз есть ощущение что перевод осуществляется не напрямую с английской речи в русскую речь, а через текст. Хотя, конечно, не через текст, а через токены.
- если хочется поправить что-то в речи, можно сначала перегнать в текст, а потом текст в речь. В демоспейсе все это есть.
Вердикт. Надеюсь, что хотя бы часть недостатков можно списать на ограничения демоспейса. Если в колабе будет так же, то для дубляжа на русский эта модель бесполезна. Быстрее перевести и озвучить вручную
#dubbing #multimodal #nauronaut_art #llm #speech2speech
YouTube
ИИ-дубляж К Воннегута про линии историй | AI translation of Kurt Vonnegut on the Shapes of Stories
Нейросетевой дубляж лекции Курта Воннегута на русский язык мультимодальной моделью SeamlessM4T, см телеграм пост https://yangx.top/GreenNeuralRobots/2849
AI translation of Kurt Vonnegut on the Shapes of Stories made by SeamlessM4T model, see Telegram post h…
AI translation of Kurt Vonnegut on the Shapes of Stories made by SeamlessM4T model, see Telegram post h…
LLaVA v1.5
Говорят, у GPT-4V появился опренсорсный конкурент, который даже покруче будет
Демо
Код
Веса
Колаб
#multimodal #chatbot #LLM
Говорят, у GPT-4V появился опренсорсный конкурент, который даже покруче будет
Демо
Код
Веса
Колаб
#multimodal #chatbot #LLM
🔥5🤯3👍2
LLaVA-Plus: Large Language and Vision Assistants that Plug and Learn to Use Skills
Мультимодальная система агентов на базе LLaVA и пачки других нейронок:
Grounding DINO
Grounded-Segment-Anything
Recognize Anythging
Segment-Anything.
SEEM: Segment Everything Everywhere All at Once
Semantic-SAM
Segment-Anything
Гихаб
Демо
#VLM #multimodal #assistant
Мультимодальная система агентов на базе LLaVA и пачки других нейронок:
Grounding DINO
Grounded-Segment-Anything
Recognize Anythging
Segment-Anything.
SEEM: Segment Everything Everywhere All at Once
Semantic-SAM
Segment-Anything
Гихаб
Демо
#VLM #multimodal #assistant
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
Визуально-языковая модель, понимает и картинки, и видео.
Код
Демо1
Демо2
#VLM #LLM #multimodal
Визуально-языковая модель, понимает и картинки, и видео.
Код
Демо1
Демо2
#VLM #LLM #multimodal
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Google Bard научился смотреть видео на YouTube и пересказывать их. Можно попросить его показать подборку видео на тему, обсудить содержимое видео. Ну и другие расширения у Bard тоже есть. Для россиян через VPN
Говорят, что видео он не понимает, тупо читает титры
#assistant #chatbot #VLM #multimodal
Говорят, что видео он не понимает, тупо читает титры
#assistant #chatbot #VLM #multimodal
This media is not supported in your browser
VIEW IN TELEGRAM
Seamless Communication
Meta AI выпустили новую версию своего нейропереводчика.
На этот раз три модели:
SeamlessM4T v2 - улучшенная версия SeamlessM4T.
Демо
SeamlessExpressive - модель с акцентом на выразительность речи.
Демо
SeamlessStreaming - модель перевода в реальном времени, задержка 2 секунды.
Демо
Гитхаб
#dubbing #multimodal #llm #speech2speech #text2speech #speech2text #tts #stt
Meta AI выпустили новую версию своего нейропереводчика.
На этот раз три модели:
SeamlessM4T v2 - улучшенная версия SeamlessM4T.
Демо
SeamlessExpressive - модель с акцентом на выразительность речи.
Демо
SeamlessStreaming - модель перевода в реальном времени, задержка 2 секунды.
Демо
Гитхаб
#dubbing #multimodal #llm #speech2speech #text2speech #speech2text #tts #stt
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 1.5
Новая мультимодалка от Google, круче чем Gemini Ultra (то версия 1.0)
- В основе совет экспертов (MoE).
- Может работать с контекстами длиной 1M токенов, что на порядок больше чем у конкурентов. Это примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
- Токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
- Доступ только у избранных
Посмотрите как она выполняет задания на 44-минутном фильме Бастера Китона.Думаю, схитрили, там разрешение видео небольшое
#MoE #multimodal #VLM #assistant
Новая мультимодалка от Google, круче чем Gemini Ultra (то версия 1.0)
- В основе совет экспертов (MoE).
- Может работать с контекстами длиной 1M токенов, что на порядок больше чем у конкурентов. Это примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
- Токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
- Доступ только у избранных
Посмотрите как она выполняет задания на 44-минутном фильме Бастера Китона.
#MoE #multimodal #VLM #assistant
👍5🔥3
Media is too big
VIEW IN TELEGRAM
Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers
Убийца... ВСЕГО.
Ладно, это преувеличение. Всего лишь мультимодальный преобразователь текста в картинки, видео, речь, 3D модели.
Умеет (см видео)
- создавать заданную композицию
- консистентно генерировать в заданном стиле
- креативный апскейл
- редактировать изображения
Код
Веса
Демо (генератор картинок)
#upscale #text2image #text2video #text2speech #textto3D #imageediting #image2image #multimodal
Убийца... ВСЕГО.
Ладно, это преувеличение. Всего лишь мультимодальный преобразователь текста в картинки, видео, речь, 3D модели.
Умеет (см видео)
- создавать заданную композицию
- консистентно генерировать в заданном стиле
- креативный апскейл
- редактировать изображения
Код
Веса
Демо (генератор картинок)
#upscale #text2image #text2video #text2speech #textto3D #imageediting #image2image #multimodal
🔥12