ViPE: Video Pose Engine for 3D Geometric Perception
Трекер камеры и плотностной глубины видео от NVIDIA.
Скорость 3-5 кадров в секунду, обрабатывает кинематографические шоты, материал с видеорегистраторов и даже панорамы на 360°.
Уже используется в Gen3c и Cosmos. Вот решили выпустить в опенсорс
Под капотом есть Video Depth Anything но для экономии VRAM можно запускать без него с флагом
На сайте проекта есть интерактивный вьюер 4D-облаком точек, полюбопытствуйте
Код
#video2depth #tracking #camera
Трекер камеры и плотностной глубины видео от NVIDIA.
Скорость 3-5 кадров в секунду, обрабатывает кинематографические шоты, материал с видеорегистраторов и даже панорамы на 360°.
Уже используется в Gen3c и Cosmos. Вот решили выпустить в опенсорс
Под капотом есть Video Depth Anything но для экономии VRAM можно запускать без него с флагом
--pipeline no_vda
На сайте проекта есть интерактивный вьюер 4D-облаком точек, полюбопытствуйте
Код
#video2depth #tracking #camera
👍6🔥3
Пока Perplexity пытается выкупить Chrome у Google за 34,5 млрд долларов, у нас новый игрок на рынке ИИ-браузеров
Основная фишка Strawberry - автоматизация. Он запоминает ваши действия и может повторять их. Ну и сам не промах - может исследовать компании, находить лиды в LinkedIn, работать с CRM, суммировать заметки, составлять последующие сообщения и автоматизировать задачи на любых сайтах.
Данные хранит локально, но при взаимодействии с AI-провайдерами (Google, OpenAI, Anthropic) информация обрабатывается через них.
Есть пробный период, а после его окончания доступ к функциям обойдётся в 30 долларов США в месяц.
Записаться в вейтлист
#browser #assistant
Основная фишка Strawberry - автоматизация. Он запоминает ваши действия и может повторять их. Ну и сам не промах - может исследовать компании, находить лиды в LinkedIn, работать с CRM, суммировать заметки, составлять последующие сообщения и автоматизировать задачи на любых сайтах.
Данные хранит локально, но при взаимодействии с AI-провайдерами (Google, OpenAI, Anthropic) информация обрабатывается через них.
Есть пробный период, а после его окончания доступ к функциям обойдётся в 30 долларов США в месяц.
Записаться в вейтлист
#browser #assistant
👍4🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation
Персонализация на видео от Tencent
генерация видео по текстовому описанию с сохранением идентичности персонажей (Identity-Preserving Text-to-Video Generation); 1
- создание видео с нечеловеческими субъектами
- генерация стилизованных видео
- замена лиц на видео
- генерация видео на основе заданной позы
Прикручено к WAN2.1. Ждем WAN2.2
Kijai уже интегрировал его в WanVideoWrapper, но имплементация отличается от оригинала, что может сказаться на результате. Авторы выпустили ноду препроцессора.
Код
HF
Stand-In Official Preprocessor ComfyUI Nodes
Kijai HF
воркфлоу
#workflow @comfyUI #personalization #referencing #faceswap #stylize
Персонализация на видео от Tencent
генерация видео по текстовому описанию с сохранением идентичности персонажей (Identity-Preserving Text-to-Video Generation); 1
- создание видео с нечеловеческими субъектами
- генерация стилизованных видео
- замена лиц на видео
- генерация видео на основе заданной позы
Прикручено к WAN2.1. Ждем WAN2.2
Kijai уже интегрировал его в WanVideoWrapper, но имплементация отличается от оригинала, что может сказаться на результате. Авторы выпустили ноду препроцессора.
Код
HF
Stand-In Official Preprocessor ComfyUI Nodes
Kijai HF
воркфлоу
#workflow @comfyUI #personalization #referencing #faceswap #stylize
🔥6❤1👍1
Qwen-Image Canny ControlNet
В полку контролнетов для #QwenImage прибыло.
Canny от команды DiffSynth-Studio
Если найдете ссылку на HF поделитесь пожалуйста чтоб не на китайском читать
[UPDATE]
HF
#controlnet
В полку контролнетов для #QwenImage прибыло.
Canny от команды DiffSynth-Studio
Если найдете ссылку на HF поделитесь пожалуйста чтоб не на китайском читать
[UPDATE]
HF
#controlnet
🔥9👍1
ComfyUI Wan2.2 Fun Native Support
Нативная поддержка Wan2.2-Fun (контролнет для видео) в #ComfyUI
+ поддержка Wan2.2 Fun InP - генерация видео от начального к конечному кадру
+поддержка LightX2V 4-Step LoRA
Ссылки на воркфлоу в статье
#controlnet #text2video #image2video #flf
Нативная поддержка Wan2.2-Fun (контролнет для видео) в #ComfyUI
+ поддержка Wan2.2 Fun InP - генерация видео от начального к конечному кадру
+поддержка LightX2V 4-Step LoRA
Ссылки на воркфлоу в статье
#controlnet #text2video #image2video #flf
🔥11👍3
GPT-OSS-120B on AMD MI300X
Не знаю зачем вам это, но вдруг кому-то нужно
Демоспейс GPT-OSS-120B от AMD
#assistant #chat
Не знаю зачем вам это, но вдруг кому-то нужно
Демоспейс GPT-OSS-120B от AMD
#assistant #chat
😁7👍4
Wan2.2-Fun-A14B-Control-GGUF
#gguf от QuantStack
Спасибо неизвестному подписчику
#wan22 #text2video #image2video
#gguf от QuantStack
Спасибо неизвестному подписчику
#wan22 #text2video #image2video
❤2👍2😁1
Media is too big
VIEW IN TELEGRAM
Hunyuan-GameCraft
"Игровой движок", о котором все писали в июне, вышел в опенсорс
Построен на базе на Hunyuan Video, в квантизированном виде запустится на 4090, но рилтайма на ней не ждите.
Гитхаб
HF
Демо ждем
#text2world #text2game
"Игровой движок", о котором все писали в июне, вышел в опенсорс
Построен на базе на Hunyuan Video, в квантизированном виде запустится на 4090, но рилтайма на ней не ждите.
Гитхаб
HF
Демо ждем
#text2world #text2game
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
VyvoTTS-LFM2-350M-Jenny
Новая голосовая модель. 350М параметров.
Говорит на английском. Но для дообучения на новый язык или на новый голос достаточно 6Gb VRAM. А для работы всего 2Gb
Авторы планируют выпустить еще несколько моделей, и на HF уже не только Jenny. Работают над поддержкой vLLM и другими фичами прежде чем полностью выпустить проект в опенсорс
#text2speech #tts #voicecloning
Новая голосовая модель. 350М параметров.
Говорит на английском. Но для дообучения на новый язык или на новый голос достаточно 6Gb VRAM. А для работы всего 2Gb
Авторы планируют выпустить еще несколько моделей, и на HF уже не только Jenny. Работают над поддержкой vLLM и другими фичами прежде чем полностью выпустить проект в опенсорс
#text2speech #tts #voicecloning
1👍14🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Higgsfield Draw-to-Video
У Higgsfield очередная обновка. Задаем промпт не текстом, а визуальными пометками на первом (и не только) кадре.
Работает с MiniMax, Veo 3 & Seedance Pro. За ваши деньги, разумеется.
#sketch2video #image2video #online
У Higgsfield очередная обновка. Задаем промпт не текстом, а визуальными пометками на первом (и не только) кадре.
Работает с MiniMax, Veo 3 & Seedance Pro. За ваши деньги, разумеется.
#sketch2video #image2video #online
👍14
Я сам внедрял скрипты, автоматизировал отчёты, процессы и задачи для клиентов - и теперь показываю, как это делать каждому.
В моём канале про автоматизацию и фриланс ты научишься:
Подписывайся и прокачай свой рабочий день: https://yangx.top/+K_BvaYrAsLY1ZWIy
#промо
Please open Telegram to view this post
VIEW IN TELEGRAM
1👎5❤3🔥2🌚2🍌1
Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning
Кросс-лингвальный генератор речи с эмоциями и клонированием голоса от Alibaba.
Модель научили разделять идентичность говорящего и эмоциональную составляющую в отдельные потоки обработки.
Говорит про английски и китайски.
Гитхаб - послушать примеры можно там
#text2speech #tts #voicecloning
Кросс-лингвальный генератор речи с эмоциями и клонированием голоса от Alibaba.
Модель научили разделять идентичность говорящего и эмоциональную составляющую в отдельные потоки обработки.
Говорит про английски и китайски.
Гитхаб - послушать примеры можно там
#text2speech #tts #voicecloning
👍4❤1