This media is not supported in your browser
VIEW IN TELEGRAM
Kling Sound
А также выпустили генератор звуков для видео
Или просто по текстовому описанию
#video2sound #text2sound #sfx #foley
А также выпустили генератор звуков для видео
Или просто по текстовому описанию
#video2sound #text2sound #sfx #foley
👍4🔥3⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
3d-model-playground
Просто побаловаться с вебкой
Можно закинуть модельку и в реальном времени ее руками крутить и анимировать
#3d #realtime #webcam
Просто побаловаться с вебкой
Можно закинуть модельку и в реальном времени ее руками крутить и анимировать
#3d #realtime #webcam
1👍10
Baidu выпустили в опенсорс семейство моделей ERNIE 4.5
#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.
Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)
Попробовать
Веса
Гитхаб
AI Studio
#assistant #reasoning #VLM
#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.
Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)
Попробовать
Веса
Гитхаб
AI Studio
#assistant #reasoning #VLM
👍6
XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation
Генератор картинок по тексту от ByteDance
Позволяет точно управлять несколькими объектами в одном изображении.
Детальная настройка семантических атрибутов, таких как поза, стиль и освещение
Код
Веса 1.2Gb + 1.8Gb - и что сегодня можно выжать из таких весов?
Демо ждем
#text2image #subjectcontrol #multisubject
Генератор картинок по тексту от ByteDance
Позволяет точно управлять несколькими объектами в одном изображении.
Детальная настройка семантических атрибутов, таких как поза, стиль и освещение
Код
Веса 1.2Gb + 1.8Gb - и что сегодня можно выжать из таких весов?
Демо ждем
#text2image #subjectcontrol #multisubject
👍4🤔4
Ovis-U1
Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений
- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.
- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.
- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.
Код
Веса
Демо
#vlm #text2image #imageediting #captioning #image2text
Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений
- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.
- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.
- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.
Код
Веса
Демо
#vlm #text2image #imageediting #captioning #image2text
👍8🔥1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Normalized Attention Guidance (NAG) Flux-Kontext-Dev
Демоспейс с прикрученным к Flux NAG
#imageediting #optimization
Демоспейс с прикрученным к Flux NAG
#imageediting #optimization
🔥8
HeyGen Video Agent
Видеоролики под ключ
Под соусом "Креативная операционная система", "Будущее создания видеороликов"
Записаться в вейтлист
#agent #text2movie
Видеоролики под ключ
Под соусом "Креативная операционная система", "Будущее создания видеороликов"
Записаться в вейтлист
#agent #text2movie
👍4
llama-nemoretriever-colembed-3b-v1
модель для поиска информации в текстовых и визуальных документах
первое место на бенчмарке ViDoRe
#search #leaderboard
модель для поиска информации в текстовых и визуальных документах
первое место на бенчмарке ViDoRe
#search #leaderboard
huggingface.co
nvidia/llama-nemoretriever-colembed-3b-v1 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
WebDancer
Ризонер-агент от Alibaba для автономного поиска информации на фреймворке ReAct
Гитхаб
Веса
#reasoning #search #agent
Ризонер-агент от Alibaba для автономного поиска информации на фреймворке ReAct
Гитхаб
Веса
#reasoning #search #agent
👍10
Radial Attention: O(nlogn) Sparse Attention with Energy Decay for Long Video Generation
ускорение генерации длинных видео с сохранением высокого качества. Плюс в дорожной карте увеличение максимального хронометража до 4 раз
Поддерживает Wan2.1-14B, HunyuanVideo, Mochi-1 и лоры
От команды SVDQuant / nunchaku
Код
ComfyUI ждем
#optimization #text2video
ускорение генерации длинных видео с сохранением высокого качества. Плюс в дорожной карте увеличение максимального хронометража до 4 раз
Поддерживает Wan2.1-14B, HunyuanVideo, Mochi-1 и лоры
От команды SVDQuant / nunchaku
Код
ComfyUI ждем
#optimization #text2video
❤6👍3
SimpleTuner v2.0
В свежем релизе инструмента - полная поддержка дообучения Flux Kontext
и еще миллион ничтяков
#finetuning #tools
В свежем релизе инструмента - полная поддержка дообучения Flux Kontext
и еще миллион ничтяков
#finetuning #tools
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Генератор 3D моделей Hi3DGen принят в программу ICCV2025
А код опубликован если кто не знал
#imageto3d #image2normal
А код опубликован если кто не знал
#imageto3d #image2normal
👍6
ComfyUI-OmniGen2
Большое упущение с моей стороны что не опубликовал до сих пор. Бежим играть с омнигеном2
#personalization #imageediting #text2image #image2image #referencing #comfyui
Большое упущение с моей стороны что не опубликовал до сих пор. Бежим играть с омнигеном2
#personalization #imageediting #text2image #image2image #referencing #comfyui
GitHub
GitHub - neverbiasu/ComfyUI-OmniGen2: A ComfyUI extension for OmniGen2
A ComfyUI extension for OmniGen2. Contribute to neverbiasu/ComfyUI-OmniGen2 development by creating an account on GitHub.
🔥8
Нейронавт | Нейросети в творчестве
ComfyUI-OmniGen2 Большое упущение с моей стороны что не опубликовал до сих пор. Бежим играть с омнигеном2 #personalization #imageediting #text2image #image2image #referencing #comfyui
ComfyUI
ComfyUI OmniGen2 Native Workflow Examples - ComfyUI
ComfyUI OmniGen2 Native Workflow Examples - Unified text-to-image, image editing, and multi-image composition model.
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
ContentV: Efficient Training of Video Generation Models with Limited Compute
Новая видеогенерилка от ByteDance, 8B параметров, минималистичная архитектура
Умеет в разные разрешения и хронометражи
Хвастаются временнОй согласованностью
#SOTA , 85.14 на VBench
Основано на SD3.5 Large и Wan-VAE
Гитхаб
HF
#text2video
Новая видеогенерилка от ByteDance, 8B параметров, минималистичная архитектура
Умеет в разные разрешения и хронометражи
Хвастаются временнОй согласованностью
#SOTA , 85.14 на VBench
Основано на SD3.5 Large и Wan-VAE
Гитхаб
HF
#text2video
👍3👎2🔥1🤮1