Media is too big
VIEW IN TELEGRAM
FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers
Мультиперсонажный оживлятор портретов по звуку или видео от Alibaba
Код ждем
#portrainanimation #image2video #speech2video
Мультиперсонажный оживлятор портретов по звуку или видео от Alibaba
Код ждем
#portrainanimation #image2video #speech2video
👍9
Media is too big
VIEW IN TELEGRAM
Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models
Реконструкция 4D сцен, снятых с ограниченного количества ракурсов. Недостающие данные дорисует, выдаст видео с нужного ракурса
Код ждем
Интерактивный вьюер
#4D #videoto4D #gaussian #novelview #rendering
Реконструкция 4D сцен, снятых с ограниченного количества ракурсов. Недостающие данные дорисует, выдаст видео с нужного ракурса
Код ждем
Интерактивный вьюер
#4D #videoto4D #gaussian #novelview #rendering
👍11
InScene: Flux.1-Kontext.dev LoRA
Лора под #kontext для сохранения контекста исходного изображения
#lora
Лора под #kontext для сохранения контекста исходного изображения
#lora
❤15👍2🤔1🤯1
Открываю рубрику для ваших работ, пока без названия. Будет определенный субъективный порог качества.
Дальше текст автора
Дальше текст автора
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Автор: Режиссер-оператор Антон Зимин
https://vimeo.com/1101861537
🛠️ Эксперимент: создание рекламного ролика с помощью нейросетей
⏱ Срок: примерно 1,5 месяца (с перерывами).
💡 Как всё началось: Однажды я увидел рекламный ролик полностью во сне, от начала до конца. Тема ИИ-видеогенераторов была на подъёме, поэтому я решил проверить, как нейронки справятся с чётко прописанным сценарием.
🎬 Рандомный ролик VS ролик по сценарию: Большинство красивых роликов, которые вы видите в сети — можно назвать результатом случайных попыток. Люди просто экспериментируют и выкладывают лучшее. Именно поэтому все ролики однотипные. Люди находят то, что модели удается делать лучше всего и генерят вариации на эти темы. Совсем другое дело, если у вас есть конкретный сценарий с прописанными движениями и эмоциями. В этом случае работа с ИИ сильно усложняется и становится намного дороже. У меня был именно такой случай: полное управление движением камеры, персонажами и элементами.
🔎 Что я пробовал:
• Kling 2
• Runway
• Sora
Несмотря на яркие проморолики и впечатляющие тесты на YouTube, ни один из генераторов не смог выдать результат, соответствующий моему сценарию. Персонажей можно было анимировать по промптам, но камера двигалась вяло и чаще всего не туда.
🤔 Теория заговора? У меня даже сложилось ощущение, что платные генераторы намеренно дают хуже результат, чтобы заставить тебя генерить больше за плаьные кредиты. Ведь на бесплатных кредитах почему-то получалось лучше! Возможно, это просто моя слабость к теориям цифрового заговора...
✅ Первый успех: Только в Higgsfield получилось сделать первый кадр, но и его пришлось разбить на две генерации. Я пытался использовать Wan с Lora для движений камеры, но снова не получилось нужного результата.
🚀 Wan Vace 14B — решение найдено: Вышла модель Wan Vace 14B, и я решил сделать весь ролик с её помощью. Для тех, кто не знает: это модель, которая позволяет генерировать видео с контролем по множеству параметров. Берёшь референсное видео и референсный кадр (с освещением, персонажем и т.д.), пишешь промпт — и получаешь микс. Если сделать всё правильно, то референсный кадр «оживает» и двигается примерно на 90% как в референсном видео. Можно варьировать степень схожести и другие параметры.
🖥️ Референсные видео: Все референсы я делал в Unreal Engine. Без особой детализации в UE можно сделать черновую анимацию всего ролика буквально за пару-тройку дней. Плюс Wan Vace в том, что сложная проработка сцен не нужна — для некоторых сцен хватает даже простых контуров.
📌 Итог: Оставшуюся часть ролика я доделал примерно за месяц. Можно было быстрее, но большую часть времени я потратил на изучение нюансов работы модели.
🚧 Ограничения Wan Vace:
• Не подходят слишком динамичные сцены (не успевает считать) движение.
• Плохо работает с травой и листвой
• Есть ограничение по длине сцены - приерно 120 кадров.
• Требовательна к ресурсам: 120 кадров генерируются примерно 1 час 10 минут на Blackwell RTX Pro 6000 и около 2-ч часов на A100, при этом нужно около 70 Гб видеопамяти
• Максималное разрешение 720р (которое потом, конечно апскейлится в разумных пределах и доводится до ума с помощью motion blur и других инструментов)
📝 Технические детали:
• Сервис аренды GPU: Runpod (довольно дешевый, но со своими нюансами)
• Интерфейс: ComfyUI
• Промпты: ChatGPT + много-много правок
• Картинки: «условно бесплатно» через ChatGPT, Sora и бесплатно в Piclumen. С подпиской Midjourney получилось бы намного быстрее
• Текст диктора: написал сам
• Голос: Elevenlabs
• Звуки: Freesound
• Музыка: Suno
• Монтаж и цветкор: Davinci Resolve
• Upscale финального кадра: Topaz
• Первый кадр: Higgsfield
• Тоннель из шипов и кусок финального кадра под пэкшотом: Kling 2.1 (бесплатные кредиты)
Потрачено примерно 20 тыс рублей.
Итог - я прошел через весь производственный процесс ИИ рекламного ролика с условными комментариями и доработками. Эксперимент, как мне кажется, удачный
instagram.com/dp_director_azimin
@antonzim
https://vimeo.com/1101861537
🛠️ Эксперимент: создание рекламного ролика с помощью нейросетей
⏱ Срок: примерно 1,5 месяца (с перерывами).
💡 Как всё началось: Однажды я увидел рекламный ролик полностью во сне, от начала до конца. Тема ИИ-видеогенераторов была на подъёме, поэтому я решил проверить, как нейронки справятся с чётко прописанным сценарием.
🎬 Рандомный ролик VS ролик по сценарию: Большинство красивых роликов, которые вы видите в сети — можно назвать результатом случайных попыток. Люди просто экспериментируют и выкладывают лучшее. Именно поэтому все ролики однотипные. Люди находят то, что модели удается делать лучше всего и генерят вариации на эти темы. Совсем другое дело, если у вас есть конкретный сценарий с прописанными движениями и эмоциями. В этом случае работа с ИИ сильно усложняется и становится намного дороже. У меня был именно такой случай: полное управление движением камеры, персонажами и элементами.
🔎 Что я пробовал:
• Kling 2
• Runway
• Sora
Несмотря на яркие проморолики и впечатляющие тесты на YouTube, ни один из генераторов не смог выдать результат, соответствующий моему сценарию. Персонажей можно было анимировать по промптам, но камера двигалась вяло и чаще всего не туда.
🤔 Теория заговора? У меня даже сложилось ощущение, что платные генераторы намеренно дают хуже результат, чтобы заставить тебя генерить больше за плаьные кредиты. Ведь на бесплатных кредитах почему-то получалось лучше! Возможно, это просто моя слабость к теориям цифрового заговора...
✅ Первый успех: Только в Higgsfield получилось сделать первый кадр, но и его пришлось разбить на две генерации. Я пытался использовать Wan с Lora для движений камеры, но снова не получилось нужного результата.
🚀 Wan Vace 14B — решение найдено: Вышла модель Wan Vace 14B, и я решил сделать весь ролик с её помощью. Для тех, кто не знает: это модель, которая позволяет генерировать видео с контролем по множеству параметров. Берёшь референсное видео и референсный кадр (с освещением, персонажем и т.д.), пишешь промпт — и получаешь микс. Если сделать всё правильно, то референсный кадр «оживает» и двигается примерно на 90% как в референсном видео. Можно варьировать степень схожести и другие параметры.
🖥️ Референсные видео: Все референсы я делал в Unreal Engine. Без особой детализации в UE можно сделать черновую анимацию всего ролика буквально за пару-тройку дней. Плюс Wan Vace в том, что сложная проработка сцен не нужна — для некоторых сцен хватает даже простых контуров.
📌 Итог: Оставшуюся часть ролика я доделал примерно за месяц. Можно было быстрее, но большую часть времени я потратил на изучение нюансов работы модели.
🚧 Ограничения Wan Vace:
• Не подходят слишком динамичные сцены (не успевает считать) движение.
• Плохо работает с травой и листвой
• Есть ограничение по длине сцены - приерно 120 кадров.
• Требовательна к ресурсам: 120 кадров генерируются примерно 1 час 10 минут на Blackwell RTX Pro 6000 и около 2-ч часов на A100, при этом нужно около 70 Гб видеопамяти
• Максималное разрешение 720р (которое потом, конечно апскейлится в разумных пределах и доводится до ума с помощью motion blur и других инструментов)
📝 Технические детали:
• Сервис аренды GPU: Runpod (довольно дешевый, но со своими нюансами)
• Интерфейс: ComfyUI
• Промпты: ChatGPT + много-много правок
• Картинки: «условно бесплатно» через ChatGPT, Sora и бесплатно в Piclumen. С подпиской Midjourney получилось бы намного быстрее
• Текст диктора: написал сам
• Голос: Elevenlabs
• Звуки: Freesound
• Музыка: Suno
• Монтаж и цветкор: Davinci Resolve
• Upscale финального кадра: Topaz
• Первый кадр: Higgsfield
• Тоннель из шипов и кусок финального кадра под пэкшотом: Kling 2.1 (бесплатные кредиты)
Потрачено примерно 20 тыс рублей.
Итог - я прошел через весь производственный процесс ИИ рекламного ролика с условными комментариями и доработками. Эксперимент, как мне кажется, удачный
instagram.com/dp_director_azimin
@antonzim
👍44🔥23❤12
This media is not supported in your browser
VIEW IN TELEGRAM
Опубликован код / веса сегментного 3D генератора PartCrafter
Демо ждем
Код
Веса
Колаб / Jupiter
#imageto3d #3d
Демо ждем
Код
Веса
Колаб / Jupiter
#imageto3d #3d
🔥11❤3👍3
👍9
This media is not supported in your browser
VIEW IN TELEGRAM
Опубликован код / веса оживлятора портретов FLOAT
Код
Веса
#talkinghead #speech2video #facialanimation #lipsync
Код
Веса
#talkinghead #speech2video #facialanimation #lipsync
👍9
NeMo Canary-Qwen-2.5B
#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.
Влез на вершину Open ASR Leaderboard
Гитхаб
HF
Демо
#ASR #speech2text #stt #llm #leaderboard
#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.
Влез на вершину Open ASR Leaderboard
Гитхаб
HF
Демо
#ASR #speech2text #stt #llm #leaderboard
👍10
Нейронавт | Нейросети в творчестве
Kimi K2 Новая версия китайской мультимодалки. Пишут что убийца cHatGPT и DeepSeek, но как всегда преувеличивают Архитертура #MoE, Триллион параметров, из них 32B активных. Заточена на агентные и программерские задачи. Есть две версии: Kimi-K2-Base: Базовая…
Qwen3-235B-A22B-Instruct-2507
Недолго музыка Kimi K2 играла
Новая версия не-ризонинг модели Qwen3-235B-A22B возглавила олимп. Ну может и не возглавила но побила DeepSeek V3, Claude 4 Opus Non-thinking и Kimi K2 на многих задачах
Архитектура - совет экспертов.
Рассуждалку ждем
Чат
Веса
#assistant #moe
Недолго музыка Kimi K2 играла
Новая версия не-ризонинг модели Qwen3-235B-A22B возглавила олимп. Ну может и не возглавила но побила DeepSeek V3, Claude 4 Opus Non-thinking и Kimi K2 на многих задачах
Архитектура - совет экспертов.
Рассуждалку ждем
Чат
Веса
#assistant #moe
👍13
OmniSVG: A Unified Scalable Vector Graphics Generation Model
Генератор SVG по тексту и по картинке
Модель способна генерировать SVG разной сложности — от простых иконок до сложных аниме-персонажей. Может отрисовывать персонажей по референсу
Код
Демо
#text2vector
Генератор SVG по тексту и по картинке
Модель способна генерировать SVG разной сложности — от простых иконок до сложных аниме-персонажей. Может отрисовывать персонажей по референсу
Код
Демо
#text2vector
🔥16👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights
Метод позволяет быстро адаптировать большие языковые модели к различным задачам без необходимости их полного переобучения.
Параметры настройки генерируются за секунды на основе текстового промпта и упаковываются в LoRa
Код
Демо
#llm #lora #finetuning
Метод позволяет быстро адаптировать большие языковые модели к различным задачам без необходимости их полного переобучения.
Параметры настройки генерируются за секунды на основе текстового промпта и упаковываются в LoRa
Код
Демо
#llm #lora #finetuning
👍10❤1
SageAttention3 - ранний доступ
Для раннего доступа к ускорятору генерации заполните анкету на HF.
Доступ дают владельцам GPU Blackwell (серия 50xx)
#optimization #news
Для раннего доступа к ускорятору генерации заполните анкету на HF.
Доступ дают владельцам GPU Blackwell (серия 50xx)
#optimization #news
huggingface.co
jt-zhang/SageAttention3 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍5😱1
VSF: Simple, Efficient, and Effective Negative Guidance in Few-Step Image Generation Models By Value Sign Flip
Улучшает обработку негативных промптов генераторами
Существующие методы (CFG) либо работают плохо, либо требуют серьезных изменений в модели (NegationCLIP).
VSF переворачивает вектор значений негативных вложений подсказок во время внимания.
- Поддерживает SD3.5, Flux, Wan
- Работает в томи числе с малошаговыми и одношаговыми моделями
- Не требует переобучения
- Отсутствует усиление незапрашиваемых концепций
- Маскирование внимания и дупликация токенов для изоляции влияния в заданных областях
На видео - Flux, позитивный промпт
Примеры работы с WAN 2.1 тут
Код
Демо Wan 2.1
#optimization #text2image #negativeprompt
Улучшает обработку негативных промптов генераторами
Существующие методы (CFG) либо работают плохо, либо требуют серьезных изменений в модели (NegationCLIP).
VSF переворачивает вектор значений негативных вложений подсказок во время внимания.
- Поддерживает SD3.5, Flux, Wan
- Работает в томи числе с малошаговыми и одношаговыми моделями
- Не требует переобучения
- Отсутствует усиление незапрашиваемых концепций
- Маскирование внимания и дупликация токенов для изоляции влияния в заданных областях
На видео - Flux, позитивный промпт
a canadian winter landscape in the style of a 19th century painting
и негативный промпт snow
с возрастающей силой от 1 до 8.9Примеры работы с WAN 2.1 тут
Код
Демо Wan 2.1
#optimization #text2image #negativeprompt
👍7🔥3