Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
Метод ускорения видеогенерации через какие-то там трюки на обучении.
Модель генерирует высококачественные видео с разрешением 480P с начальной задержкой ~ 0,8 секунды, после чего кадры генерируются в потоковом режиме со скоростью ~ 16 кадров в секунду на одной H100 и ~ 10 кадров в секунду на одной 4090 с некоторой оптимизацией.
Уже работает #comfyui нативно и в враппере, просто нужна модель от HF.
Это модель 1.3B T2V, но в враппере ее можно использовать с модулем Vace для дополнительных входов.
Есть 3 модели, нужна только одна, dmd, кажется, работает хорошо...
Это малошаговая модель, вероятно, быстрее, чем использование Causvid lora (на модели 1.3b)
Используйте LCM SAMPLER
Код
воркфлоу
#text2video #optimization #realtime
Метод ускорения видеогенерации через какие-то там трюки на обучении.
Модель генерирует высококачественные видео с разрешением 480P с начальной задержкой ~ 0,8 секунды, после чего кадры генерируются в потоковом режиме со скоростью ~ 16 кадров в секунду на одной H100 и ~ 10 кадров в секунду на одной 4090 с некоторой оптимизацией.
Уже работает #comfyui нативно и в враппере, просто нужна модель от HF.
Это модель 1.3B T2V, но в враппере ее можно использовать с модулем Vace для дополнительных входов.
Есть 3 модели, нужна только одна, dmd, кажется, работает хорошо...
Это малошаговая модель, вероятно, быстрее, чем использование Causvid lora (на модели 1.3b)
Используйте LCM SAMPLER
Код
воркфлоу
#text2video #optimization #realtime
❤10
Seaweed APT2
Интерактивная модель генерации потокового видео по картинке в рилтайме от ByteDance, второе поколение. Первое было в январе
1 минута видео ,1 шаг, 24 кадра в секунду, потоковое разрешение 736x416 (эквивалент 640x480 - что???) в режиме реального времени на 1xh100 с интерактивным управлением!
Контроль позы, контроль камеры
Кода нет, ждем на сервисах
#image2video #realtime #cameracontrol #pose2video #posecontrol
Интерактивная модель генерации потокового видео по картинке в рилтайме от ByteDance, второе поколение. Первое было в январе
1 минута видео ,1 шаг, 24 кадра в секунду, потоковое разрешение 736x416 (эквивалент 640x480 - что???) в режиме реального времени на 1xh100 с интерактивным управлением!
Контроль позы, контроль камеры
Кода нет, ждем на сервисах
#image2video #realtime #cameracontrol #pose2video #posecontrol
👍6❤2🤷♂1
Экспериментальный Wan2.1-Self-Forcing-VACE
Свежий метод ускорения прикрутили к WAN2.1
воркфлоу для пряморуких умельцев
Прикрутили к модели 14B, работает с T2V и I2V. В виде LoRA. можно использовать и с FusionX - спасибо @MaxKhtv
#text2video #optimization #realtime
Свежий метод ускорения прикрутили к WAN2.1
воркфлоу для пряморуких умельцев
Прикрутили к модели 14B, работает с T2V и I2V. В виде LoRA. можно использовать и с FusionX - спасибо @MaxKhtv
#text2video #optimization #realtime
Telegram
Нейронавт | Нейросети в творчестве
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
Метод ускорения видеогенерации через какие-то там трюки на обучении.
Модель генерирует высококачественные видео с разрешением 480P с начальной задержкой ~ 0,8 секунды, после чего…
Метод ускорения видеогенерации через какие-то там трюки на обучении.
Модель генерирует высококачественные видео с разрешением 480P с начальной задержкой ~ 0,8 секунды, после чего…
👍5💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Proactor
первый в мире проактивный ИИ-агент, который работает в реальном времени, анализирует обсуждения, выявляет потенциальные потребности и выполняет задачи до того, как пользователь их сформулирует. Он самостоятельнонажимает красную кноп включается в разговор, чтобы предоставить транскрипцию, резюме и помощь в режиме реального времени.
Записаться в вейтлист
#agent #realtime
первый в мире проактивный ИИ-агент, который работает в реальном времени, анализирует обсуждения, выявляет потенциальные потребности и выполняет задачи до того, как пользователь их сформулирует. Он самостоятельно
Записаться в вейтлист
#agent #realtime
👍8❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Google Magenta RT
модель создания музыки в реальном времени.
Впервые Google представили Magenta еще в 2016 году. С тех пор появился плагин к Ableton кроме всего прочего. И вот новая рилтаймовая модель
Генерирует музыку на ходу по текстовым запросам и/или аудиосэмплам
Модель основана на архитектуре MusicLM и использует блок-авторегрессию для генерации непрерывного потока музыки
Оперирует двухсекундными отрывками, поэтому из сэмпла может забрать только 2 секунды для образца стиля. Задержка 2 секунды - можно уменьшить для большей реактивности.
Собственный контекст - всего 10 секунд, поэтому не рассчитывайте на длинные музыкальные структуры.
Не умеет создавать песни, ибо на лирике не обучался.
Обещают добавить локальный запуск и кастомизацию
Код
HF
Колаб
#text2music #music2music #audio2music #musicediting #realtime #dj
модель создания музыки в реальном времени.
Впервые Google представили Magenta еще в 2016 году. С тех пор появился плагин к Ableton кроме всего прочего. И вот новая рилтаймовая модель
Генерирует музыку на ходу по текстовым запросам и/или аудиосэмплам
Модель основана на архитектуре MusicLM и использует блок-авторегрессию для генерации непрерывного потока музыки
Оперирует двухсекундными отрывками, поэтому из сэмпла может забрать только 2 секунды для образца стиля. Задержка 2 секунды - можно уменьшить для большей реактивности.
Собственный контекст - всего 10 секунд, поэтому не рассчитывайте на длинные музыкальные структуры.
Не умеет создавать песни, ибо на лирике не обучался.
Обещают добавить локальный запуск и кастомизацию
Код
HF
Колаб
#text2music #music2music #audio2music #musicediting #realtime #dj
❤6👍3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
3d-model-playground
Просто побаловаться с вебкой
Можно закинуть модельку и в реальном времени ее руками крутить и анимировать
#3d #realtime #webcam
Просто побаловаться с вебкой
Можно закинуть модельку и в реальном времени ее руками крутить и анимировать
#3d #realtime #webcam
1👍10
Нейронавт | Нейросети в творчестве
dynamicslab chaos Наконец кое-как работающий "Игровой движок" Можно загрузить свою локацию. Ооооочень тугой на управление #game #world #image2video
Mirage: AI UGC game engine
Ладно, эти ребята молодцы
Движок называется Mirage
"первый в мире" игровой движок, который использует искусственный интеллект для создания игр в реальном времени. Игроки могут изменять игровой мир с помощью текстовых команд, клавиатуры или контроллера.
Возможности модели:
- Создание игр различных жанров (гонки, RPG, платформеры и др.).
- Генерация игрового контента в реальном времени на основе ввода пользователя.
- Поддержка длительного интерактивного опыта (более десяти минут).
- Облачный стриминг, позволяющий играть без скачивания игры.
Вот например можно потыкать еще Coastal Drift Demo
#game #realtime #world #text2world
Ладно, эти ребята молодцы
Движок называется Mirage
"первый в мире" игровой движок, который использует искусственный интеллект для создания игр в реальном времени. Игроки могут изменять игровой мир с помощью текстовых команд, клавиатуры или контроллера.
Возможности модели:
- Создание игр различных жанров (гонки, RPG, платформеры и др.).
- Генерация игрового контента в реальном времени на основе ввода пользователя.
- Поддержка длительного интерактивного опыта (более десяти минут).
- Облачный стриминг, позволяющий играть без скачивания игры.
Вот например можно потыкать еще Coastal Drift Demo
#game #realtime #world #text2world
👍16🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
DoppleDanger
Замена лица в реальном времени с клонированием голоса.
До 20 fps на RTX3090, это выше чем DeepLiveCam
Под капотом не inswapper128 вроде, но навряд ли что-то лучше - какой-то ReSwapper. Впрочем в репо последнего есть сравнение, посмотрите
#realtime #faceswap #deepfake
Замена лица в реальном времени с клонированием голоса.
До 20 fps на RTX3090, это выше чем DeepLiveCam
Под капотом не inswapper128 вроде, но навряд ли что-то лучше - какой-то ReSwapper. Впрочем в репо последнего есть сравнение, посмотрите
#realtime #faceswap #deepfake
👍12🤮3👏2😁2🎃2
This media is not supported in your browser
VIEW IN TELEGRAM
Kyutai TTS
Генератор речи в реальном времени. Выдает аудиопоток начиная с первых текстовых токенов, без необходимости знать весь текст заранее.
Клонирует голоса на основе 10-секундного аудиообразца. Эта функция сейчас недоступна
Предоставляет таймкоды для каждого генерируемого слова. Это позволяет использовать модель для создания субтитров в реальном времени
Но на данный момент знает только английский и французский языки
Код
Веса
Колаб
#tts #text2speech #voicecloning #realtime
Генератор речи в реальном времени. Выдает аудиопоток начиная с первых текстовых токенов, без необходимости знать весь текст заранее.
Клонирует голоса на основе 10-секундного аудиообразца. Эта функция сейчас недоступна
Предоставляет таймкоды для каждого генерируемого слова. Это позволяет использовать модель для создания субтитров в реальном времени
Но на данный момент знает только английский и французский языки
Код
Веса
Колаб
#tts #text2speech #voicecloning #realtime
👍11