Технозаметки Малышева
5.95K subscribers
3K photos
1.01K videos
38 files
3.24K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
加入频道
!!! Qwen2-VL: обновление мультимодальных моделей

Alibaba представила Qwen2-VL - усовершенствованную версию мультимодальной модели, способную:

• Анализировать изображения разного разрешения и пропорций
• Понимать видео длительностью более 20 минут
• Управлять мобильными устройствами и роботами
• Работать с текстом на разных языках, включая рукописный

Доступны три версии модели : 72B, 7B и 2B (оптимизирована для мобильных).
Улучшены навыки распознавания объектов, математических вычислений и кодирования.
Модель демонстрирует потенциал визуального агента с расширенными возможностями анализа видеоконтента.

По описанию, - очень круто! Надо пробовать.

DEMO

HuggingFace


#Qwen2VL #ComputerVision #Multimodal #Китай
-------
@tsingular
🍾1
NVIDIA выпускает серию мультимодалок NVEagle

NVIDIA представила семейство NVEagle - передовых мультимодальных языковых моделей.

Доступны версии 7B, 13B и 13B chat.

Ключевые особенности:
• Интеграция обработки визуальной и текстовой информации
• Смесь экспертных систем в визуальных энкодерах
• Конкатенация визуальных токенов от разных энкодеров
• Поддержка изображений высокого разрешения (до 1K)
• Улучшенная производительность в OCR и понимании документов

описание
Модели на Hugging Face.

#NVIDIA #NVEagle #ComputerVision
-------
@tsingular
👍7
LLaVA-o1: Новая открытая визуальная нейронка с пошаговыми рассуждениями

Вышла визуально-языковая модель LLaVA-o1 в 11 млрд. параметров.
Превосходит Gemini-1.5-pro и GPT-4o-mini в комплексных задачах анализа изображений.
Нейросеть применяет четырёхэтапный подход:
1. описание задачи
2. интерпретация картинки
3. логический анализ
4. формирование вывода
.

Файнтюн сделан на базе Llama-3.2-11B-Vision-Instruct на датасете LLaVA-o1-100k с использованием 8 GPU H100.
Демонстрирует особую эффективность в математических и научных задачах.

https://huggingface.co/Xkev/Llama-3.2V-11B-cot

А вот и парсер для сложных PDF документов, кстати.
46 гигов полный размер. в 2х4090 впритык будет.

Отдельно полезно пэйпер почитать, чтобы понять как оно под капотом устроено:
https://arxiv.org/html/2411.10440v1

#LLaVA #ComputerVision #agents #CoT
-------
@tsingular
2👍21
Media is too big
VIEW IN TELEGRAM
CAT4D: революция в создании динамических 3D сцен из обычного видео от команды Google Deepmind

Система комбинирует видео-диффузионную модель с многоракурсным преобразованием и оптимизацией через гауссово представление.

Технология не нуждается в синхронизированной мультикамерной съёмке, восстанавливая даже скрытые участки сцены.

Обучение выполнено на смеси синтетических и реальных датасетов: Objaverse, Kubric, CO3D.

Обработка занимает 1 минуту на 16×A100 GPU, оптимизация - 25 минут на одной карте.

Сайт
Paper

#Cat4D #computervision #3Dreconstruction #Google ##Deepmind
———
@tsingular
🔥61👍1
Media is too big
VIEW IN TELEGRAM
Meta* представила V-JEPA-v2: продвинутую ИИ-модель для понимания роботами окружающего пространства

Ян ЛеКун представил V-JEPA-v2 — новую версию самообучающейся модели компьютерного зрения, которая работает без размеченных данных.

Модель использует архитектуру joint embedding predictive, что обеспечивает более эффективное обучение и лучшую адаптацию к различным визуальным задачам.

Прорыв откроет возможности в автономных авто, ритейл-аналитике и медицинской визуализации, снизив затраты на разметку данных и ускорив внедрение ИИ-систем зрения.

Всего с 1.2 млрд параметров роботы смогут понимать окружающий мир без сложных размышлений, обучаясь непосредственно во время работы.

GitHub
HuggingFace
Сайт проекта
Paper

*Meta - запрещённая в РФ организация

#VJEPA #ComputerVision #Meta
———
@tsingular
65👍32🍓1