This media is not supported in your browser
VIEW IN TELEGRAM
Генерация видео LTXV 13b в реальном времени (почти) на H100
Воркфлоу в комментариях
Реддит
#text2video #image2video #realtime #workflow
Воркфлоу в комментариях
Реддит
#text2video #image2video #realtime #workflow
😁6👍2❤1🤯1
QuickVideo
Ускорение понимания визуально-языковыми моделями длинных видео за счёт параллельного декодирования видео, эффективного предварительного заполнения памяти и совмещения декодирования с анализом, что позволяет добиться рилтайма
Код
#VLM #optimization #video2text #realtime
Ускорение понимания визуально-языковыми моделями длинных видео за счёт параллельного декодирования видео, эффективного предварительного заполнения памяти и совмещения декодирования с анализом, что позволяет добиться рилтайма
Код
#VLM #optimization #video2text #realtime
👍5
Media is too big
VIEW IN TELEGRAM
Оdyssey
Публичная демка видеогенератора миров в реальном времени в браузере.
Я специально крутился, ходил и оборачивался чтобы убедиться что он помнит что находится за спиной. Это-то он помнит но посмотрите как ни с того ни с сего корежит дверь на 1:08
Чем дальше уходишь от начальной точки, тем с большей неохотой движок позволяет тебе идти. Как будто резина натянута.
И еще. Набор миров один и тот же. Я несколько раз заходил, перещелкивал и миры и попадал на одни и те же несколько раз. Есть большие сомнения что миры сочинены на ходу. Сделаем скидку на то что это демо, ждем чего-то понятного и практичного
#realtime #scene #world
Публичная демка видеогенератора миров в реальном времени в браузере.
Я специально крутился, ходил и оборачивался чтобы убедиться что он помнит что находится за спиной. Это-то он помнит но посмотрите как ни с того ни с сего корежит дверь на 1:08
Чем дальше уходишь от начальной точки, тем с большей неохотой движок позволяет тебе идти. Как будто резина натянута.
И еще. Набор миров один и тот же. Я несколько раз заходил, перещелкивал и миры и попадал на одни и те же несколько раз. Есть большие сомнения что миры сочинены на ходу. Сделаем скидку на то что это демо, ждем чего-то понятного и практичного
#realtime #scene #world
👍11😱1
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
Метод ускорения видеогенерации через какие-то там трюки на обучении.
Модель генерирует высококачественные видео с разрешением 480P с начальной задержкой ~ 0,8 секунды, после чего кадры генерируются в потоковом режиме со скоростью ~ 16 кадров в секунду на одной H100 и ~ 10 кадров в секунду на одной 4090 с некоторой оптимизацией.
Уже работает #comfyui нативно и в враппере, просто нужна модель от HF.
Это модель 1.3B T2V, но в враппере ее можно использовать с модулем Vace для дополнительных входов.
Есть 3 модели, нужна только одна, dmd, кажется, работает хорошо...
Это малошаговая модель, вероятно, быстрее, чем использование Causvid lora (на модели 1.3b)
Используйте LCM SAMPLER
Код
воркфлоу
#text2video #optimization #realtime
Метод ускорения видеогенерации через какие-то там трюки на обучении.
Модель генерирует высококачественные видео с разрешением 480P с начальной задержкой ~ 0,8 секунды, после чего кадры генерируются в потоковом режиме со скоростью ~ 16 кадров в секунду на одной H100 и ~ 10 кадров в секунду на одной 4090 с некоторой оптимизацией.
Уже работает #comfyui нативно и в враппере, просто нужна модель от HF.
Это модель 1.3B T2V, но в враппере ее можно использовать с модулем Vace для дополнительных входов.
Есть 3 модели, нужна только одна, dmd, кажется, работает хорошо...
Это малошаговая модель, вероятно, быстрее, чем использование Causvid lora (на модели 1.3b)
Используйте LCM SAMPLER
Код
воркфлоу
#text2video #optimization #realtime
❤10
Seaweed APT2
Интерактивная модель генерации потокового видео по картинке в рилтайме от ByteDance, второе поколение. Первое было в январе
1 минута видео ,1 шаг, 24 кадра в секунду, потоковое разрешение 736x416 (эквивалент 640x480 - что???) в режиме реального времени на 1xh100 с интерактивным управлением!
Контроль позы, контроль камеры
Кода нет, ждем на сервисах
#image2video #realtime #cameracontrol #pose2video #posecontrol
Интерактивная модель генерации потокового видео по картинке в рилтайме от ByteDance, второе поколение. Первое было в январе
1 минута видео ,1 шаг, 24 кадра в секунду, потоковое разрешение 736x416 (эквивалент 640x480 - что???) в режиме реального времени на 1xh100 с интерактивным управлением!
Контроль позы, контроль камеры
Кода нет, ждем на сервисах
#image2video #realtime #cameracontrol #pose2video #posecontrol
👍6❤2🤷♂1
Экспериментальный Wan2.1-Self-Forcing-VACE
Свежий метод ускорения прикрутили к WAN2.1
воркфлоу для пряморуких умельцев
Прикрутили к модели 14B, работает с T2V и I2V. В виде LoRA. можно использовать и с FusionX - спасибо @MaxKhtv
#text2video #optimization #realtime
Свежий метод ускорения прикрутили к WAN2.1
воркфлоу для пряморуких умельцев
Прикрутили к модели 14B, работает с T2V и I2V. В виде LoRA. можно использовать и с FusionX - спасибо @MaxKhtv
#text2video #optimization #realtime
Telegram
Нейронавт | Нейросети в творчестве
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
Метод ускорения видеогенерации через какие-то там трюки на обучении.
Модель генерирует высококачественные видео с разрешением 480P с начальной задержкой ~ 0,8 секунды, после чего…
Метод ускорения видеогенерации через какие-то там трюки на обучении.
Модель генерирует высококачественные видео с разрешением 480P с начальной задержкой ~ 0,8 секунды, после чего…
👍5💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Proactor
первый в мире проактивный ИИ-агент, который работает в реальном времени, анализирует обсуждения, выявляет потенциальные потребности и выполняет задачи до того, как пользователь их сформулирует. Он самостоятельнонажимает красную кноп включается в разговор, чтобы предоставить транскрипцию, резюме и помощь в режиме реального времени.
Записаться в вейтлист
#agent #realtime
первый в мире проактивный ИИ-агент, который работает в реальном времени, анализирует обсуждения, выявляет потенциальные потребности и выполняет задачи до того, как пользователь их сформулирует. Он самостоятельно
Записаться в вейтлист
#agent #realtime
👍8❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Google Magenta RT
модель создания музыки в реальном времени.
Впервые Google представили Magenta еще в 2016 году. С тех пор появился плагин к Ableton кроме всего прочего. И вот новая рилтаймовая модель
Генерирует музыку на ходу по текстовым запросам и/или аудиосэмплам
Модель основана на архитектуре MusicLM и использует блок-авторегрессию для генерации непрерывного потока музыки
Оперирует двухсекундными отрывками, поэтому из сэмпла может забрать только 2 секунды для образца стиля. Задержка 2 секунды - можно уменьшить для большей реактивности.
Собственный контекст - всего 10 секунд, поэтому не рассчитывайте на длинные музыкальные структуры.
Не умеет создавать песни, ибо на лирике не обучался.
Обещают добавить локальный запуск и кастомизацию
Код
HF
Колаб
#text2music #music2music #audio2music #musicediting #realtime #dj
модель создания музыки в реальном времени.
Впервые Google представили Magenta еще в 2016 году. С тех пор появился плагин к Ableton кроме всего прочего. И вот новая рилтаймовая модель
Генерирует музыку на ходу по текстовым запросам и/или аудиосэмплам
Модель основана на архитектуре MusicLM и использует блок-авторегрессию для генерации непрерывного потока музыки
Оперирует двухсекундными отрывками, поэтому из сэмпла может забрать только 2 секунды для образца стиля. Задержка 2 секунды - можно уменьшить для большей реактивности.
Собственный контекст - всего 10 секунд, поэтому не рассчитывайте на длинные музыкальные структуры.
Не умеет создавать песни, ибо на лирике не обучался.
Обещают добавить локальный запуск и кастомизацию
Код
HF
Колаб
#text2music #music2music #audio2music #musicediting #realtime #dj
❤6👍3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
3d-model-playground
Просто побаловаться с вебкой
Можно закинуть модельку и в реальном времени ее руками крутить и анимировать
#3d #realtime #webcam
Просто побаловаться с вебкой
Можно закинуть модельку и в реальном времени ее руками крутить и анимировать
#3d #realtime #webcam
1👍10
Нейронавт | Нейросети в творчестве
dynamicslab chaos Наконец кое-как работающий "Игровой движок" Можно загрузить свою локацию. Ооооочень тугой на управление #game #world #image2video
Mirage: AI UGC game engine
Ладно, эти ребята молодцы
Движок называется Mirage
"первый в мире" игровой движок, который использует искусственный интеллект для создания игр в реальном времени. Игроки могут изменять игровой мир с помощью текстовых команд, клавиатуры или контроллера.
Возможности модели:
- Создание игр различных жанров (гонки, RPG, платформеры и др.).
- Генерация игрового контента в реальном времени на основе ввода пользователя.
- Поддержка длительного интерактивного опыта (более десяти минут).
- Облачный стриминг, позволяющий играть без скачивания игры.
Вот например можно потыкать еще Coastal Drift Demo
#game #realtime #world #text2world
Ладно, эти ребята молодцы
Движок называется Mirage
"первый в мире" игровой движок, который использует искусственный интеллект для создания игр в реальном времени. Игроки могут изменять игровой мир с помощью текстовых команд, клавиатуры или контроллера.
Возможности модели:
- Создание игр различных жанров (гонки, RPG, платформеры и др.).
- Генерация игрового контента в реальном времени на основе ввода пользователя.
- Поддержка длительного интерактивного опыта (более десяти минут).
- Облачный стриминг, позволяющий играть без скачивания игры.
Вот например можно потыкать еще Coastal Drift Demo
#game #realtime #world #text2world
👍16🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
DoppleDanger
Замена лица в реальном времени с клонированием голоса.
До 20 fps на RTX3090, это выше чем DeepLiveCam
Под капотом не inswapper128 вроде, но навряд ли что-то лучше - какой-то ReSwapper. Впрочем в репо последнего есть сравнение, посмотрите
#realtime #faceswap #deepfake
Замена лица в реальном времени с клонированием голоса.
До 20 fps на RTX3090, это выше чем DeepLiveCam
Под капотом не inswapper128 вроде, но навряд ли что-то лучше - какой-то ReSwapper. Впрочем в репо последнего есть сравнение, посмотрите
#realtime #faceswap #deepfake
👍12🤮3👏2😁2🎃2
This media is not supported in your browser
VIEW IN TELEGRAM
Kyutai TTS
Генератор речи в реальном времени. Выдает аудиопоток начиная с первых текстовых токенов, без необходимости знать весь текст заранее.
Клонирует голоса на основе 10-секундного аудиообразца. Эта функция сейчас недоступна
Предоставляет таймкоды для каждого генерируемого слова. Это позволяет использовать модель для создания субтитров в реальном времени
Но на данный момент знает только английский и французский языки
Код
Веса
Колаб
#tts #text2speech #voicecloning #realtime
Генератор речи в реальном времени. Выдает аудиопоток начиная с первых текстовых токенов, без необходимости знать весь текст заранее.
Клонирует голоса на основе 10-секундного аудиообразца. Эта функция сейчас недоступна
Предоставляет таймкоды для каждого генерируемого слова. Это позволяет использовать модель для создания субтитров в реальном времени
Но на данный момент знает только английский и французский языки
Код
Веса
Колаб
#tts #text2speech #voicecloning #realtime
👍11
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
StreamDiT: Real-Time Streaming Text-to-Video Generation
Генерация видео из текста в режиме реального времени, ресерч от Meta и ко.
Разрешение 512p, 16 fps на H100
Первая тройка видео - на модели 4B параметров
Вторая тройка видео - на модели 30B, не рилтайм
Кода нет
#realtime #text2video #research
Генерация видео из текста в режиме реального времени, ресерч от Meta и ко.
Разрешение 512p, 16 fps на H100
Первая тройка видео - на модели 4B параметров
Вторая тройка видео - на модели 30B, не рилтайм
Кода нет
#realtime #text2video #research
👍11
Media is too big
VIEW IN TELEGRAM
Проактивного ИИ-агента Proactor уже можно потестить
На бесплатном тарифе дают 30 минут транскрибации и 100 кредитов на прочие ИИ-ничтяки
Попробовать
#agent #realtime
На бесплатном тарифе дают 30 минут транскрибации и 100 кредитов на прочие ИИ-ничтяки
Попробовать
#agent #realtime
👍3🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
SpatialTrackerV2: 3D Point Tracking Made Easy
Ура, новый трекер. Создан при участии ByteDance
Определяет движение камеры, геометрию сцены и траектории точек в пространстве. Работает в режиме реального времени
Код
Демо
#tracking #realtime
Ура, новый трекер. Создан при участии ByteDance
Определяет движение камеры, геометрию сцены и траектории точек в пространстве. Работает в режиме реального времени
Код
Демо
#tracking #realtime
🔥11👍1
This media is not supported in your browser
VIEW IN TELEGRAM
MirageLSD
Стилизация видеопотока
Попробовал - устаревшая шляпа какая-то на уровне SD. Зато на деньги Андрея Карпаты.
На вход принимает текстом описание стиля. Но кладет болт на ваш текст в 70% случаев.
Попробовать - ждете очереди играете минут 5. Можно стилизовать видео с вебки, видеофайл
#stylize #video2video #realtime #online
Стилизация видеопотока
Попробовал - устаревшая шляпа какая-то на уровне SD. Зато на деньги Андрея Карпаты.
На вход принимает текстом описание стиля. Но кладет болт на ваш текст в 70% случаев.
Попробовать - ждете очереди играете минут 5. Можно стилизовать видео с вебки, видеофайл
#stylize #video2video #realtime #online
👍5😁1
Hedra Live Avatars
Аватары в реальном времени от Hedra
За болтовню на том конце отвечают Gemini, ElevenLabs или OpenAI
Попробовать если у вас есть кредиты
#avatar #realtime #voicemode #image2avatar
Аватары в реальном времени от Hedra
За болтовню на том конце отвечают Gemini, ElevenLabs или OpenAI
Попробовать если у вас есть кредиты
#avatar #realtime #voicemode #image2avatar
👍3❤1👎1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Kitten TTS
#sota маленьких голосовых моделей.
Работает без GPU, всего 15М параметров. Оптимизирована для рилтайма
По языкам нет информации. Должна завестись даже на Raspberry Pi
Младшая весит всего 25 мегабайт.
За две недели сделали - огонь!
Код
Веса
#tts #text2speech #realtime
#sota маленьких голосовых моделей.
Работает без GPU, всего 15М параметров. Оптимизирована для рилтайма
По языкам нет информации. Должна завестись даже на Raspberry Pi
Младшая весит всего 25 мегабайт.
За две недели сделали - огонь!
Код
Веса
#tts #text2speech #realtime
🔥12😱2🤔1
Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model
Вторая версия интерактивного генератора игровых миров от Skywork
Работает в реальном времени, 25 fps на A100 / H100, 24ГБ VRAM. Управление клавиатурой и мышью.
Опенсоросный ответ Genie 3
Основан на WanX, но без текстовой ветки, предсказывает следующие кадры только на основе визуала и действий.
Моделирует динамику сцен и создавать длительные видео
Код
HF
#image2world #image2game #realtime
Вторая версия интерактивного генератора игровых миров от Skywork
Работает в реальном времени, 25 fps на A100 / H100, 24ГБ VRAM. Управление клавиатурой и мышью.
Опенсоросный ответ Genie 3
Основан на WanX, но без текстовой ветки, предсказывает следующие кадры только на основе визуала и действий.
Моделирует динамику сцен и создавать длительные видео
Код
HF
#image2world #image2game #realtime
🔥5👍3👎1👨💻1