🔊 Ke-Omni-R-3B
👉 Открытая модель, которая понимает аудио и отвечает на вопросы по аудио.
🏆 Лидирует на бенчмарках аудиорассуждений.
📌 Построена на базе Qwen 3B.
🎥 Omni-R1
👉 Модель для видеоанализа, которая "смотрит" на видео и рассуждает на уровне каждого пикселя.
⚔️ Уже конкурирует с лучшими проприетарными решениями.
📌 Построена на Qwen 7B.
💡 Qwen2.5 - основа для мультимодального ИИ: текст + аудио + видео.
Если ты делаешь проекты в этой сфере — обязательно посмотри, что уже делают на базе Qwen.
#Qwen #AI #Multimodal #HuggingFace #OpenSource #LLM
📎 Модель: https://huggingface.co/KE-Team/Ke-Omni-R-3B
👉 Открытая модель, которая понимает аудио и отвечает на вопросы по аудио.
🏆 Лидирует на бенчмарках аудиорассуждений.
📌 Построена на базе Qwen 3B.
🎥 Omni-R1
👉 Модель для видеоанализа, которая "смотрит" на видео и рассуждает на уровне каждого пикселя.
⚔️ Уже конкурирует с лучшими проприетарными решениями.
📌 Построена на Qwen 7B.
💡 Qwen2.5 - основа для мультимодального ИИ: текст + аудио + видео.
Если ты делаешь проекты в этой сфере — обязательно посмотри, что уже делают на базе Qwen.
#Qwen #AI #Multimodal #HuggingFace #OpenSource #LLM
📎 Модель: https://huggingface.co/KE-Team/Ke-Omni-R-3B
❤3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥🔥 VideoPrism от GoogleDeepMind — универсальный видеоэнкодер нового поколения
Модель легко подключается к LLM или текстовому энкодеру, превращая видео в источник контекста.
🧠 Как работает:
• Сначала обучают CLIP-подобную video-text модель
• Затем дистиллируют видеоэнкодер в VideoPrism
• Получается компактный, но гибкий видеоэнкодер, готовый к интеграции в мультимодальные модели
Все модели доступны под лицензией A2.0
Установка:
• Github: https://github.com/google-deepmind/videoprism
• HF: https://huggingface.co/google/videoprism#model-description
• Arxiv: https://arxiv.org/pdf/2402.13217
• Blogpost: https://research.google/blog/videoprism-a-foundational-visual-encoder-for-video-understanding/
#AI #VideoAI #DeepLearning #GoogleDeepMind #LLM #multimodal
Модель легко подключается к LLM или текстовому энкодеру, превращая видео в источник контекста.
🧠 Как работает:
• Сначала обучают CLIP-подобную video-text модель
• Затем дистиллируют видеоэнкодер в VideoPrism
• Получается компактный, но гибкий видеоэнкодер, готовый к интеграции в мультимодальные модели
Все модели доступны под лицензией A2.0
Установка:
$ git clone https://github.com/google-deepmind/videoprism.git
$ cd videoprism
$ pip install .
• Github: https://github.com/google-deepmind/videoprism
• HF: https://huggingface.co/google/videoprism#model-description
• Arxiv: https://arxiv.org/pdf/2402.13217
• Blogpost: https://research.google/blog/videoprism-a-foundational-visual-encoder-for-video-understanding/
#AI #VideoAI #DeepLearning #GoogleDeepMind #LLM #multimodal
🔥3
🚀 X-Omni – универсальная дискретная авторегрессивная модель для изображений и текста, прокачанная через Reinforcement Learning!
✅ Единая архитектура для генерации и изображений, и языковых модальностей
✅ Идеальное выполнение инструкций даже самых сложных
✅ Точный рендер текста на английском и китайском
✅ Любые разрешения: красивые картинки без потери качества
🔍 В процессе RL-марафона эстетика растёт, способность следовать инструкциям и рендерить длинные надписи улучшаются с каждой итерацией.
📄 Paper: https://arxiv.org/pdf/2507.22058
💻 GitHub: https://github.com/X-Omni-Team/X-Omni
🌐 Проект: https://x-omni-team.github.io
#AI #XOmni #ReinforcementLearning #ImageGen #Multimodal
✅ Единая архитектура для генерации и изображений, и языковых модальностей
✅ Идеальное выполнение инструкций даже самых сложных
✅ Точный рендер текста на английском и китайском
✅ Любые разрешения: красивые картинки без потери качества
🔍 В процессе RL-марафона эстетика растёт, способность следовать инструкциям и рендерить длинные надписи улучшаются с каждой итерацией.
📄 Paper: https://arxiv.org/pdf/2507.22058
💻 GitHub: https://github.com/X-Omni-Team/X-Omni
🌐 Проект: https://x-omni-team.github.io
#AI #XOmni #ReinforcementLearning #ImageGen #Multimodal
❤3🔥3👍2🤔1