Нейронавт | Нейросети в творчестве
9.44K subscribers
3.66K photos
3.16K videos
40 files
4.12K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

Метод ускорения видеогенерации через какие-то там трюки на обучении.

Модель генерирует высококачественные видео с разрешением 480P с начальной задержкой ~ 0,8 секунды, после чего кадры генерируются в потоковом режиме со скоростью ~ 16 кадров в секунду на одной H100 и ~ 10 кадров в секунду на одной 4090 с некоторой оптимизацией.

Уже работает #comfyui нативно и в враппере, просто нужна модель от HF.

Это модель 1.3B T2V, но в враппере ее можно использовать с модулем Vace для дополнительных входов.

Есть 3 модели, нужна только одна, dmd, кажется, работает хорошо...

Это малошаговая модель, вероятно, быстрее, чем использование Causvid lora (на модели 1.3b)

Используйте LCM SAMPLER

Код
воркфлоу

#text2video #optimization #realtime
10
Seaweed APT2

Интерактивная модель генерации потокового видео по картинке в рилтайме от ByteDance, второе поколение. Первое было в январе

1 минута видео ,1 шаг, 24 кадра в секунду, потоковое разрешение 736x416 (эквивалент 640x480 - что???) в режиме реального времени на 1xh100 с интерактивным управлением!

Контроль позы, контроль камеры

Кода нет, ждем на сервисах

#image2video #realtime #cameracontrol #pose2video #posecontrol
👍62🤷‍♂1
This media is not supported in your browser
VIEW IN TELEGRAM
Proactor

первый в мире проактивный ИИ-агент, который работает в реальном времени, анализирует обсуждения, выявляет потенциальные потребности и выполняет задачи до того, как пользователь их сформулирует. Он самостоятельно нажимает красную кноп включается в разговор, чтобы предоставить транскрипцию, резюме и помощь в режиме реального времени.

Записаться в вейтлист

#agent #realtime
👍81🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Google Magenta RT

модель создания музыки в реальном времени.

Впервые Google представили Magenta еще в 2016 году. С тех пор появился плагин к Ableton кроме всего прочего. И вот новая рилтаймовая модель

Генерирует музыку на ходу по текстовым запросам и/или аудиосэмплам

Модель основана на архитектуре MusicLM и использует блок-авторегрессию для генерации непрерывного потока музыки

Оперирует двухсекундными отрывками, поэтому из сэмпла может забрать только 2 секунды для образца стиля. Задержка 2 секунды - можно уменьшить для большей реактивности.

Собственный контекст - всего 10 секунд, поэтому не рассчитывайте на длинные музыкальные структуры.

Не умеет создавать песни, ибо на лирике не обучался.

Обещают добавить локальный запуск и кастомизацию

Код
HF
Колаб

#text2music #music2music #audio2music #musicediting #realtime #dj
6👍3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
3d-model-playground

Просто побаловаться с вебкой
Можно закинуть модельку и в реальном времени ее руками крутить и анимировать

#3d #realtime #webcam
1👍10
Нейронавт | Нейросети в творчестве
dynamicslab chaos Наконец кое-как работающий "Игровой движок" Можно загрузить свою локацию. Ооооочень тугой на управление #game #world #image2video
Mirage: AI UGC game engine

Ладно, эти ребята молодцы

Движок называется Mirage

"первый в мире" игровой движок, который использует искусственный интеллект для создания игр в реальном времени. Игроки могут изменять игровой мир с помощью текстовых команд, клавиатуры или контроллера.

Возможности модели:

- Создание игр различных жанров (гонки, RPG, платформеры и др.).

- Генерация игрового контента в реальном времени на основе ввода пользователя.

- Поддержка длительного интерактивного опыта (более десяти минут).

- Облачный стриминг, позволяющий играть без скачивания игры.

Вот например можно потыкать еще Coastal Drift Demo

#game #realtime #world #text2world
👍16🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
DoppleDanger

Замена лица в реальном времени с клонированием голоса.

До 20 fps на RTX3090, это выше чем DeepLiveCam

Под капотом не inswapper128 вроде, но навряд ли что-то лучше - какой-то ReSwapper. Впрочем в репо последнего есть сравнение, посмотрите

#realtime #faceswap #deepfake
👍12🤮3👏2😁2🎃2
This media is not supported in your browser
VIEW IN TELEGRAM
Kyutai TTS

Генератор речи в реальном времени. Выдает аудиопоток начиная с первых текстовых токенов, без необходимости знать весь текст заранее.

Клонирует голоса на основе 10-секундного аудиообразца. Эта функция сейчас недоступна

Предоставляет таймкоды для каждого генерируемого слова. Это позволяет использовать модель для создания субтитров в реальном времени

Но на данный момент знает только английский и французский языки

Код
Веса
Колаб

#tts #text2speech #voicecloning #realtime
👍11