Нейронавт | Нейросети в творчестве

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

Метод ускорения видеогенерации через какие-то там трюки на обучении.

Модель генерирует высококачественные видео с разрешением 480P с начальной задержкой ~ 0,8 секунды, после чего кадры генерируются в потоковом режиме со скоростью ~ 16 кадров в секунду на одной H100 и ~ 10 кадров в секунду на одной 4090 с некоторой оптимизацией.

Уже работает #comfyui нативно и в враппере, просто нужна модель от HF.

Это модель 1.3B T2V, но в враппере ее можно использовать с модулем Vace для дополнительных входов.

Есть 3 модели, нужна только одна, dmd, кажется, работает хорошо...

Это малошаговая модель, вероятно, быстрее, чем использование Causvid lora (на модели 1.3b)

Используйте LCM SAMPLER

Код
воркфлоу

#text2video #optimization #realtime

❤10

1.92K viewsedited 14:17

Нейронавт | Нейросети в творчестве

1:00

This media is not supported in your browser

VIEW IN TELEGRAM

1:00

This media is not supported in your browser

VIEW IN TELEGRAM

1:00

This media is not supported in your browser

VIEW IN TELEGRAM

Seaweed APT2

Интерактивная модель генерации потокового видео по картинке в рилтайме от ByteDance, второе поколение. Первое было в январе

1 минута видео ,1 шаг, 24 кадра в секунду, потоковое разрешение 736x416 (эквивалент 640x480 - что???) в режиме реального времени на 1xh100 с интерактивным управлением!

Контроль позы, контроль камеры

Кода нет, ждем на сервисах

#image2video #realtime #cameracontrol #pose2video #posecontrol

👍6❤2🤷‍♂1

1.69K views07:05

Нейронавт | Нейросети в творчестве

Экспериментальный Wan2.1-Self-Forcing-VACE

Свежий метод ускорения прикрутили к WAN2.1

воркфлоу для пряморуких умельцев

Прикрутили к модели 14B, работает с T2V и I2V. В виде LoRA. можно использовать и с FusionX - спасибо @MaxKhtv

#text2video #optimization #realtime

0:09

Нейронавт | Нейросети в творчестве

👍5💯1

1.76K viewsedited 09:42

Нейронавт | Нейросети в творчестве

1:54

This media is not supported in your browser

VIEW IN TELEGRAM

Proactor

первый в мире проактивный ИИ-агент, который работает в реальном времени, анализирует обсуждения, выявляет потенциальные потребности и выполняет задачи до того, как пользователь их сформулирует. Он самостоятельно ~~нажимает красную кноп~~ включается в разговор, чтобы предоставить транскрипцию, резюме и помощь в режиме реального времени.

Записаться в вейтлист

#agent #realtime

👍8❤1🔥1

1.88K views07:16

Нейронавт | Нейросети в творчестве

1:03

This media is not supported in your browser

VIEW IN TELEGRAM

Google Magenta RT

модель создания музыки в реальном времени.

Впервые Google представили Magenta еще в 2016 году. С тех пор появился плагин к Ableton кроме всего прочего. И вот новая рилтаймовая модель

Генерирует музыку на ходу по текстовым запросам и/или аудиосэмплам

Модель основана на архитектуре MusicLM и использует блок-авторегрессию для генерации непрерывного потока музыки

Оперирует двухсекундными отрывками, поэтому из сэмпла может забрать только 2 секунды для образца стиля. Задержка 2 секунды - можно уменьшить для большей реактивности.

Собственный контекст - всего 10 секунд, поэтому не рассчитывайте на длинные музыкальные структуры.

Не умеет создавать песни, ибо на лирике не обучался.

Обещают добавить локальный запуск и кастомизацию

Код
HF
Колаб

#text2music #music2music #audio2music #musicediting #realtime #dj

❤6👍3👎1

1.74K viewsedited 06:22

Нейронавт | Нейросети в творчестве

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

3d-model-playground

Просто побаловаться с вебкой
Можно закинуть модельку и в реальном времени ее руками крутить и анимировать

#3d #realtime #webcam

1👍10

1.58K views12:16

Нейронавт | Нейросети в творчестве

3d-model-playground Просто побаловаться с вебкой Можно закинуть модельку и в реальном времени ее руками крутить и анимировать #3d #realtime #webcam

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

Еще несколько залипательных демок от кофаундера HuggingFace

#sound #realtime #webcam

1.6K views14:22

Нейронавт | Нейросети в творчестве

dynamicslab chaos Наконец кое-как работающий "Игровой движок" Можно загрузить свою локацию. Ооооочень тугой на управление #game #world #image2video

1:14

This media is not supported in your browser

Mirage: AI UGC game engine

Ладно, эти ребята молодцы

Движок называется Mirage

"первый в мире" игровой движок, который использует искусственный интеллект для создания игр в реальном времени. Игроки могут изменять игровой мир с помощью текстовых команд, клавиатуры или контроллера.

Возможности модели:

- Создание игр различных жанров (гонки, RPG, платформеры и др.).

- Генерация игрового контента в реальном времени на основе ввода пользователя.

- Поддержка длительного интерактивного опыта (более десяти минут).

- Облачный стриминг, позволяющий играть без скачивания игры.

Вот например можно потыкать еще Coastal Drift Demo

#game #realtime #world #text2world

👍16🥴1

5.49K views08:11

Нейронавт | Нейросети в творчестве

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

DoppleDanger

Замена лица в реальном времени с клонированием голоса.

До 20 fps на RTX3090, это выше чем DeepLiveCam

Под капотом не inswapper128 вроде, но навряд ли что-то лучше - какой-то ReSwapper. Впрочем в репо последнего есть сравнение, посмотрите

#realtime #faceswap #deepfake

👍12🤮3👏2😁2🎃2

10.1K views14:19

Нейронавт | Нейросети в творчестве

0:41

This media is not supported in your browser

VIEW IN TELEGRAM

Kyutai TTS

Генератор речи в реальном времени. Выдает аудиопоток начиная с первых текстовых токенов, без необходимости знать весь текст заранее.

Клонирует голоса на основе 10-секундного аудиообразца. Эта функция сейчас недоступна

Предоставляет таймкоды для каждого генерируемого слова. Это позволяет использовать модель для создания субтитров в реальном времени

Но на данный момент знает только английский и французский языки

Код
Веса
Колаб

#tts #text2speech #voicecloning #realtime

👍11

1.77K views08:11

About

Blog

Apps

Platform