Нейронавт | Нейросети в творчестве

ImageBind

Мультимодальная модель от запрещенной в РФ Meta AI обеспечивает машины целостным пониманием, которое связывает объекты на фотографии с тем, как они будут звучать, их трехмерной формой, насколько они теплые или холодные и как они движутся. Таким образом железки становятся на шаг ближе к человеческой способности обучаться одновременно на разных типах информации.

Модель в опенсорсе, доступен код.

Демонстрация
Код

#multimodal

👍4❤1

736 views11:24

Нейронавт | Нейросети в творчестве

https://youtu.be/qM4X02HRRf0

Опробовал SeamlessM4T на мастер-классе Курта Воннегута.
Использовал демоспейс, в котором, как я понял, крутится самая старшая модель SeamlessM4T-Large. То есть, лучше не будет.

Первые впечатления

- забывает перевести значительные части аудиофайла. Закидываешь в него минуту (это максимум на демоспейсе) - переводит только первые 12 секунд. Это самый большой недостаток

- русский голос звучит довольно живо, в отличие от, например, нейродублера видео в Яндекс браузере

- при этом дубляж на русский звучит как косноязычный переводчик, не знающий как ставить ударения в самых обычных словах. Иногда добавляет лишние слоги в слова, иногда теряет

- судя по построению фраз есть ощущение что перевод осуществляется не напрямую с английской речи в русскую речь, а через текст. Хотя, конечно, не через текст, а через токены.

- если хочется поправить что-то в речи, можно сначала перегнать в текст, а потом текст в речь. В демоспейсе все это есть.

Вердикт. Надеюсь, что хотя бы часть недостатков можно списать на ограничения демоспейса. Если в колабе будет так же, то для дубляжа на русский эта модель бесполезна. Быстрее перевести и озвучить вручную

#dubbing #multimodal #nauronaut_art #llm #speech2speech

YouTube

ИИ-дубляж К Воннегута про линии историй | AI translation of Kurt Vonnegut on the Shapes of Stories

Нейросетевой дубляж лекции Курта Воннегута на русский язык мультимодальной моделью SeamlessM4T, см телеграм пост https://yangx.top/GreenNeuralRobots/2849

AI translation of Kurt Vonnegut on the Shapes of Stories made by SeamlessM4T model, see Telegram post h…

1.01K viewsedited 11:28

Нейронавт | Нейросети в творчестве

LLaVA v1.5

Говорят, у GPT-4V появился опренсорсный конкурент, который даже покруче будет

Демо
Код
Веса
Колаб

#multimodal #chatbot #LLM

🔥5🤯3👍2

1.22K views06:26

Нейронавт | Нейросети в творчестве

LLaVA-Plus: Large Language and Vision Assistants that Plug and Learn to Use Skills

Мультимодальная система агентов на базе LLaVA и пачки других нейронок:

Grounding DINO
Grounded-Segment-Anything
Recognize Anythging
Segment-Anything.
SEEM: Segment Everything Everywhere All at Once
Semantic-SAM
Segment-Anything

Гихаб
Демо

#VLM #multimodal #assistant

👍2

1.2K views11:36

Нейронавт | Нейросети в творчестве

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Визуально-языковая модель, понимает и картинки, и видео.

Код
Демо1
Демо2

#VLM #LLM #multimodal

👍1

914 views06:49

Нейронавт | Нейросети в творчестве

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

Google Bard научился смотреть видео на YouTube и пересказывать их. Можно попросить его показать подборку видео на тему, обсудить содержимое видео. Ну и другие расширения у Bard тоже есть. Для россиян через VPN

Говорят, что видео он не понимает, тупо читает титры

#assistant #chatbot #VLM #multimodal

925 viewsedited 11:14

Нейронавт | Нейросети в творчестве

2:53

This media is not supported in your browser

VIEW IN TELEGRAM

Seamless Communication

Meta AI выпустили новую версию своего нейропереводчика.
На этот раз три модели:

SeamlessM4T v2 - улучшенная версия SeamlessM4T.
Демо

SeamlessExpressive - модель с акцентом на выразительность речи.
Демо

SeamlessStreaming - модель перевода в реальном времени, задержка 2 секунды.
Демо

Гитхаб

#dubbing #multimodal #llm #speech2speech #text2speech #speech2text #tts #stt

👍2

1.21K views06:55

Нейронавт | Нейросети в творчестве

1:59

This media is not supported in your browser

VIEW IN TELEGRAM

Gemini 1.5

Новая мультимодалка от Google, круче чем Gemini Ultra (то версия 1.0)

- В основе совет экспертов (MoE).
- Может работать с контекстами длиной 1M токенов, что на порядок больше чем у конкурентов. Это примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
- Токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
- Доступ только у избранных

Посмотрите как она выполняет задания на 44-минутном фильме Бастера Китона. Думаю, схитрили, там разрешение видео небольшое

#MoE #multimodal #VLM #assistant

👍5🔥3

1.4K views13:08

Нейронавт | Нейросети в творчестве

0:43

This media is not supported in your browser

VIEW IN TELEGRAM

Pika научился делать видео со звуковыми эффектами

#multimodal #text2video #image2video

👍5

1.37K views07:27

Нейронавт | Нейросети в творчестве

2:25

Media is too big

VIEW IN TELEGRAM

Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers

Убийца... ВСЕГО.

Ладно, это преувеличение. Всего лишь мультимодальный преобразователь текста в картинки, видео, речь, 3D модели.

Умеет (см видео)
- создавать заданную композицию
- консистентно генерировать в заданном стиле
- креативный апскейл
- редактировать изображения

Код
Веса
Демо (генератор картинок)

#upscale #text2image #text2video #text2speech #textto3D #imageediting #image2image #multimodal

🔥12

2.01K views13:40

About

Blog

Apps

Platform