Машинное обучение RU

🔊 Ke-Omni-R-3B
👉 Открытая модель, которая понимает аудио и отвечает на вопросы по аудио.
🏆 Лидирует на бенчмарках аудиорассуждений.
📌 Построена на базе Qwen 3B.

🎥 Omni-R1
👉 Модель для видеоанализа, которая "смотрит" на видео и рассуждает на уровне каждого пикселя.
⚔️ Уже конкурирует с лучшими проприетарными решениями.
📌 Построена на Qwen 7B.

💡 Qwen2.5 - основа для мультимодального ИИ: текст + аудио + видео.
Если ты делаешь проекты в этой сфере — обязательно посмотри, что уже делают на базе Qwen.

#Qwen #AI #Multimodal #HuggingFace #OpenSource #LLM

📎 Модель: https://huggingface.co/KE-Team/Ke-Omni-R-3B

❤3👍1

2.29K views07:20

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

🎥🔥 VideoPrism от GoogleDeepMind — универсальный видеоэнкодер нового поколения

Модель легко подключается к LLM или текстовому энкодеру, превращая видео в источник контекста.

🧠 Как работает:
• Сначала обучают CLIP-подобную video-text модель
• Затем дистиллируют видеоэнкодер в VideoPrism
• Получается компактный, но гибкий видеоэнкодер, готовый к интеграции в мультимодальные модели

Все модели доступны под лицензией A2.0

Установка:

$ git clone https://github.com/google-deepmind/videoprism.git
$ cd videoprism
$ pip install .

• Github: https://github.com/google-deepmind/videoprism
• HF: https://huggingface.co/google/videoprism#model-description
• Arxiv: https://arxiv.org/pdf/2402.13217
• Blogpost: https://research.google/blog/videoprism-a-foundational-visual-encoder-for-video-understanding/

#AI #VideoAI #DeepLearning #GoogleDeepMind #LLM #multimodal

🔥3

1.81K views14:02

Машинное обучение RU

🚀 X-Omni – универсальная дискретная авторегрессивная модель для изображений и текста, прокачанная через Reinforcement Learning!

✅ Единая архитектура для генерации и изображений, и языковых модальностей
✅ Идеальное выполнение инструкций даже самых сложных
✅ Точный рендер текста на английском и китайском
✅ Любые разрешения: красивые картинки без потери качества

🔍 В процессе RL-марафона эстетика растёт, способность следовать инструкциям и рендерить длинные надписи улучшаются с каждой итерацией.

📄 Paper: https://arxiv.org/pdf/2507.22058
💻 GitHub: https://github.com/X-Omni-Team/X-Omni
🌐 Проект: https://x-omni-team.github.io

#AI #XOmni #ReinforcementLearning #ImageGen #Multimodal

❤3🔥3👍2🤔1

1.5K views08:35

About

Blog

Apps

Platform