Нейронавт | Нейросети в творчестве
9.44K subscribers
3.66K photos
3.16K videos
40 files
4.12K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
ImageBind

Мультимодальная модель от запрещенной в РФ Meta AI обеспечивает машины целостным пониманием, которое связывает объекты на фотографии с тем, как они будут звучать, их трехмерной формой, насколько они теплые или холодные и как они движутся. Таким образом железки становятся на шаг ближе к человеческой способности обучаться одновременно на разных типах информации.

Модель в опенсорсе, доступен код.

Демонстрация
Код

#multimodal
👍41
https://youtu.be/qM4X02HRRf0

Опробовал SeamlessM4T на мастер-классе Курта Воннегута.
Использовал демоспейс, в котором, как я понял, крутится самая старшая модель SeamlessM4T-Large. То есть, лучше не будет.

Первые впечатления

- забывает перевести значительные части аудиофайла. Закидываешь в него минуту (это максимум на демоспейсе) - переводит только первые 12 секунд. Это самый большой недостаток

- русский голос звучит довольно живо, в отличие от, например, нейродублера видео в Яндекс браузере

- при этом дубляж на русский звучит как косноязычный переводчик, не знающий как ставить ударения в самых обычных словах. Иногда добавляет лишние слоги в слова, иногда теряет

- судя по построению фраз есть ощущение что перевод осуществляется не напрямую с английской речи в русскую речь, а через текст. Хотя, конечно, не через текст, а через токены.

- если хочется поправить что-то в речи, можно сначала перегнать в текст, а потом текст в речь. В демоспейсе все это есть.

Вердикт. Надеюсь, что хотя бы часть недостатков можно списать на ограничения демоспейса. Если в колабе будет так же, то для дубляжа на русский эта модель бесполезна. Быстрее перевести и озвучить вручную

#dubbing #multimodal #nauronaut_art #llm #speech2speech
LLaVA v1.5

Говорят, у GPT-4V появился опренсорсный конкурент, который даже покруче будет

Демо
Код
Веса
Колаб

#multimodal #chatbot #LLM
🔥5🤯3👍2
LLaVA-Plus: Large Language and Vision Assistants that Plug and Learn to Use Skills

Мультимодальная система агентов на базе LLaVA и пачки других нейронок:

Grounding DINO
Grounded-Segment-Anything
Recognize Anythging
Segment-Anything.
SEEM: Segment Everything Everywhere All at Once
Semantic-SAM
Segment-Anything

Гихаб
Демо

#VLM #multimodal #assistant
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Google Bard научился смотреть видео на YouTube и пересказывать их. Можно попросить его показать подборку видео на тему, обсудить содержимое видео. Ну и другие расширения у Bard тоже есть. Для россиян через VPN

Говорят, что видео он не понимает, тупо читает титры

#assistant #chatbot #VLM #multimodal
This media is not supported in your browser
VIEW IN TELEGRAM
Seamless Communication

Meta AI выпустили новую версию своего нейропереводчика.
На этот раз три модели:

SeamlessM4T v2 - улучшенная версия SeamlessM4T.
Демо

SeamlessExpressive - модель с акцентом на выразительность речи.
Демо

SeamlessStreaming - модель перевода в реальном времени, задержка 2 секунды.
Демо

Гитхаб

#dubbing #multimodal #llm #speech2speech #text2speech #speech2text #tts #stt
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 1.5

Новая мультимодалка от Google, круче чем Gemini Ultra (то версия 1.0)

- В основе совет экспертов (MoE).
- Может работать с контекстами длиной 1M токенов, что на порядок больше чем у конкурентов. Это примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
- Токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
- Доступ только у избранных

Посмотрите как она выполняет задания на 44-минутном фильме Бастера Китона. Думаю, схитрили, там разрешение видео небольшое

#MoE #multimodal #VLM #assistant
👍5🔥3
Media is too big
VIEW IN TELEGRAM
Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers

Убийца... ВСЕГО.

Ладно, это преувеличение. Всего лишь мультимодальный преобразователь текста в картинки, видео, речь, 3D модели.

Умеет (см видео)
- создавать заданную композицию
- консистентно генерировать в заданном стиле
- креативный апскейл
- редактировать изображения

Код
Веса
Демо (генератор картинок)

#upscale #text2image #text2video #text2speech #textto3D #imageediting #image2image #multimodal
🔥12