Neural Networks | Нейронные сети
11.8K subscribers
763 photos
169 videos
170 files
9.42K links
Все о машинном обучении

По всем вопросам - @notxxx1

№ 4959169263
加入频道
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ В ChatGPT для macOS появился режим записи и транскрипции.

OpenAI добавила Record mode для подписчиков ChatGPT Plus, использующих десктопное приложение на macOS. Инструмент позволяет записывать до 120 минут аудио, например, встречи, мозговые штурмы или голосовые заметки. По окончании записи ChatGPT автоматически создает редактируемое резюме на специальном холсте внутри приложения.
OpenAI в сети X

✔️ Google запускает ИИ-функцию, которая сама обзванивает компании от имени пользователя.

Google начала развертывание в США новой функции на базе ИИ, которая позволяет поиску самостоятельно обзванивать местные компании для сбора информации. Теперь при поиске услуг пользователь сможет нажать на специальную кнопку, чтобы ИИ уточнил цены и свободное время. Для этого система задаст несколько уточняющих вопросов, после чего совершит звонок.

Google говорит, что при каждом вызове система представляется как автоматизированный ассистент от имени пользователя. Новая функция доступна для всех пользователей в США, для подписчиков планов AI Pro и AI Ultra предусмотрены увеличенные лимиты этой функции.
techcrunch.com

✔️ Microsoft научила Copilot видеть и анализировать все, что происходит на экране.

Microsoft выпустила для участников программы Windows Insiders обновление Copilot Vision, которое позволяет ИИ-ассистенту сканировать и анализировать весь рабочий стол или окно конкретного приложения. Ранее эта функция могла работать только с двумя приложениями одновременно.

По заявлению Microsoft, новая возможность позволит пользователям получать подсказки и рекомендации в режиме реального времени. Например, можно попросить Copilot помочь с улучшением резюме, дать совет по творческому проекту или даже подсказать, что делать в новой игре.
blogs.windows.com

✔️ Человек обошел ИИ от OpenAI в финале соревнования по программированию AtCoder.

В эвристическом дивизионе финала мирового чемпионата AtCoder победу одержал человек, выступавший под ником FakePsyho. Он сумел опередить систему от OpenAI, которая лидировала большую часть дня и в итоге заняла 2 место среди 12 финалистов. Победа была одержана в последние 80 минут соревнования.

AtCoder World Finals Heuristic Test - это престижный конкурс по решению сложных задач оптимизации (NP-hard). В отличие от традиционных олимпиад, здесь требуется найти не единственно верный, а наилучший приближенный ответ за ограниченное время.
atcoder.jp

✔️ Цукерберг анонсировал строительство ЦОД для ИИ размером с Манхэттен.

Марк Цукерберг рассказал, что в ближайшем будущем его компания построит несколько гигантских дата-центров. По его словам, первый из них, проект «Prometheus», будет запущен в 2026 году, а другой, «Hyperion», в перспективе сможет масштабироваться до мощности в 5 гигаватт.

Цукерберг подчеркнул масштаб планов, заявив, что только один из строящихся кластеров «покроет значительную часть площади Манхэттена». Он также сослался на отчет SemiAnalysis, согласно которому гигант соцсетей станет первой ИИ-лабораторией, которая введет в эксплуатацию суперкластер мощностью более 1 ГВт.
theguardian.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🚀 Qwen выпустила новую большую модель — Qwen3-235B-A22B-Instruct-2507-FP8!

Qwen только что обновили свою флагманскую модель — Qwen3-235B-A22B, и это просто загляденье.

🧠 Во-первых, это *не* reasoning-модель. Команда Qwen официально заявила, что отказывается от гибридного режима (Instruct + Reasoning в одной модели). Вместо этого они будут выпускать отдельные модели: одна для инструкций, другая для рассуждений.
Сегодня вышла Instruct-версия, reasoning-модель уже в разработке.

⚙️ Архитектура — MoE (Mixture of Experts), активных параметров всего 22B из 235B. То есть модель намного легче, чем кажется — она вполне реалистична для inference, особенно в FP8-режиме.

📊 Метрики впечатляют:
- Обгоняет Kimi K2, у которого, между прочим, *триллион* параметров.
- По большинству бенчмарков работает лучше Claude 4 Opus (non-thinking).
- Особенно мощный прирост — в ARC-AGI: там, где другие модели пасуют, Qwen3 выдаёт серьёзный прогресс.

📜 Модель отлично справляется с:
- Пониманием инструкций
- Логическим выводом
- Обработкой длинных контекстов до 256K токенов

💬 В будущем планируют дистилляцию в младшие версии, так что праздник будет не только для тех, у кого RTX 6000 на столе.

Qwen серьёзно заявляет о себе как об одном из лидеров open-source LLM. Следим.

🟠 HF: https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 or https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
🟠ModelScope: https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507 or https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8

@ai_machinelearning_big_data


#qwen #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🚨 Oracle официально согласилась поставить OpenAI 2 МИЛЛИОНА AI-чипов

Что это значит?

OpenAI строит новый дата-центр под *чудовищную* нагрузку:
— 4.5 ГВт вычислений (это больше, чем у некоторых стран)
— стоимость — $30 млрд в год 😳

💸 SoftBank? Больше не при делах:
— «SoftBank не участвует в финансировании»
— переговоры по деньгам сорвались ещё в январе

Oracle теперь главный поставщик чипов для OpenAI.

4,5 гигаватта — этого достаточно, чтобы обеспечить электричеством 3,4 миллиона домов.
OpenAI буквально строит инфраструктуру с потреблением энергии на уровне небольшого города — только ради обучения ИИ.

🔜 Новость


@ai_machinelearning_big_data


#openai #news #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
📌 ИИ, который сам создает ИИ: ASI-ARCH нашел 106 новых SOTA-архитектур.

ASI-ARCH - экспериментальная демонстрация искусственного сверхинтеллекта для исследований в области ИИ, который способен полностью автономно вести научную работу по поиску новых нейросетевых архитектур.

Система самостоятельно выдвигает гипотезы, реализует их в виде исполняемого кода, обучает и проверяет на практике. Результатом этой работы стали 1773 автономных эксперимента, которые заняли свыше 20 000 GPU-часов и привели к открытию 106 новых SOTA-архитектур с линейным механизмом внимания.

🟡Весь процесс разделен на 2 этапа: поиск гипотез и их проверка.

На первом этапе, система работает с небольшими моделями размером около 20 млн параметров, обучая их на 1 млрд токенов. На этом этапе было проведено 1773 эксперимента, которые заняли примерно 10 000 GPU-часов.

Всего на этом этапе было отобрано 1350 перспективных кандидатов — все они превзошли базовую архитектуру DeltaNet как по лоссу, так и по метрикам на бенчмарках.

Второй этап - верификация. Кандидаты первого этапа были масштабированы до 340 млн параметров, чтобы соответствовать конфигурации DeltaNet. После фильтрации архитектур с избыточной сложностью или числом параметров осталось около 400 моделей.

Их обучение на 1 млрд. токенов потребовало ещё 10 000 GPU-часов. В итоге, именно из этой группы были выделены 106 архитектур, достигших SOTA-уровня.

Для финальной валидации исследователи отобрали 5 лучших моделей, обучили их на 15 млрд. токенов и сравнили с Mamba2, Gated DeltaNet и DeltaNet.

🟡 Анализ предпочтений системы показал интересные закономерности.

ASI-ARCH явно предпочитает работать с проверенными временем компонентами: гейтингом и свёрткой. Но самое главное - распределение компонентов в 106 лучших моделях имеет значительно менее выраженный long-tail distribution по сравнению с остальными 1667 сгенерированными архитектурами.

Это означает, что система добивается успеха не путем хаотичного перебора экзотических идей, а через итеративное улучшение набора проверенных техник. По сути, это очень напоминает методологию работы ученых-людей.

🟡Результаты.

Одна из лучших найденных ИИ-архитектур, PathGateFusionNet, показала средний результат по всем бенчмаркам 48.51. Для сравнения, Mamba2 набрала 47.84, а разработанная человеком Gated DeltaNet — 47.32. Другая генерация, ContentSharpRouter, достигла показателя 48.34.

Если посмотреть на отдельные тесты, то PathGateFusionNet получила на BoolQ 60.58 балла, а Gated DeltaNet - 60.12. AdaptiveEntropyRouter в версии на 340 млн. параметров показала результат на тестах 44.31, что на 2.21 пункта выше, чем у Gated DeltaNet (42.10).

И так практически во всем, улучшения наблюдаются по всему спектру задач.

🟡И самое интересное — откуда система черпает идеи? Источников всего 3:

🟢Cognition - знания, извлеченные из научной литературы;
🟢Analysis - выводы, сделанные на основе собственных прошлых экспериментов;
🟢Originality - абсолютно новые идеи.

Для всех 1773 сгенерированных архитектур распределение источников было таким:

🟠51.7% идей приходило из человеческой литературы;
🟠38.2% - из собственного анализа;
🟠10.1% были оригинальными.

Но если посмотреть только на 106 SOTA-итогов, картина меняется. Доля идей, основанных на Analysis, возрастает с 38.2% до 44.8%, а доля Cognition немного снижается до 48.6%.

Таким образом, чтобы достичь ощутимых результатов, ИИ недостаточно просто копировать и комбинировать человеческие наработки. Он должен анализировать собственный опыт, учиться на своих же удачах и провалах, синтезируя более совершенные решения.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Research #ASIARCH
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ GGUF-версии GPT-OSS от Unsloth.

Unsloth конвертировали обе GPT-OSS (20B и 120B) и исправили ошибки, чтобы повысить качество инференса.

🟡Оптимальный сетап:

🟢20B работает со скоростью более 10 токенов/с при полной точности на 14 ГБ оперативной памяти.

🟢120B с полной точностью будет давать >40 токенов/с на примерно 64 ГБ ОЗУ.

Минимальных требований для запуска моделей нет, запуститься можно даже если у вас всего 6 ГБ и только CPU, но инференс будет медленнее.

GPU не требуется , особенно для модели 20B, но его наличие значительно увеличивает скорость вывода (~80 токенов/с). С чем-то вроде H100 можно получить пропускную способность 140 токенов/с, и это значительно быстрее, чем у OpenAI в ChatGPT.

Модели можно запустить через llama.cpp, LM Studio или Open WebUI. Если модель 120B слишком медленная, попробуйте версию 20B - она очень быстрая и работает не хуже o3-mini.

Помимо моделей формата GGUF c полной точностью, Unsloth сделали версии с 4-bit и 16-bit точностью. 4-бинтый квант, кстати, можно файнтюнить на 24 ГБ VRAM.

📌 Подробная пошаговая инструкция по локальному запуску и файнтюну - в документации Unsloth.


🟡Набор моделей
🟡Документация


@ai_machinelearning_big_data

#AI #ML #GPTOSS #GGUF #Unsloth
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI инвестирует в Merge Labs - конкурента Neuralink.

OpenAI ведет переговоры об инвестициях в Merge Labs, стартап в области нейрокомпьютерных интерфейсов, который планирует создание высокоскоростных BCI-систем.

Merge Labs планирует привлечь 250 миллионов долларов при оценке в 850 миллионов. Сэм Альтман будет числиться сооснователем вместе с бывшим топ-менеджером Neuralink Алексом Бланиа, однако не будет заниматься операционной деятельностью. Ожидается, что основное финансирование поступит от венчурного подразделения OpenAI.

Этот шаг еще больше обостряет давнее соперничество между Альтманом и Маском, которые в 2015 году вместе основали OpenAI, но позже разошлись во взглядах.
ft.com

✔️ Контекстное окно Claude Sonnet 4 расширено до миллиона токенов.

Anthropic объявила о значительном увеличении контекстного окна для Claude Sonnet 4 до одного миллиона токенов. Это в 5 раз больше предыдущего лимита и позволит обрабатывать за один проход целые кодовые базы или большие массивы документов. Новая возможность уже доступна в публичной бете через API Anthropic, Amazon Bedrock, а в скором времени появится и в Google Cloud Vertex AI.

За расширение придется платить больше. Для запросов свыше 200 тыс. входных токенов цена удваивается и составит 6 долларов за миллион токенов. Стоимость выходных токенов также вырастет с 15 до 22.50 долларов за миллион.
anthropic.com

✔️ Microsoft ведет целенаправленную кампанию по найму топовых инженеров и исследователей из компании Марка Цукерберга.

Согласно внутренним документам, Microsoft составила список конкретных сотрудников с указанием их имен, ролей и принадлежности к командам: Reality Labs, GenAI Infrastructure и AI Research. Корпорация готова предложить им многомиллионные компенсационные пакеты - крупные бонусы при найме, конкурентные зарплаты, значительные пакеты акций и высокие годовые премии.

Для ускорения процесса в Microsoft внедрили специальную процедуру. Рекрутеры могут помечать кандидатов как "критически важные ИИ-таланты" и тогда процесс рассмотрения и утверждения на уровне руководства возможен в течение 24 часов.
businessinsider.com

✔️ AI2 выпустил открытую модель для робототехники.

Институт искусственного интеллекта Аллена представил MolmoAct 7B — опенсорсную модель для планирования движений роботов в трехмерном пространстве. Система интерпретирует команды на естественном языке, создает 3D-реконструкцию сцены и прокладывает траекторию движения, которую разработчик может просмотреть и скорректировать до того, как робот начнет действовать.

Модель на 7 млрд. параметров была обучена на 18 млн. примеров, в которых были включены 12 тыс. эпизодов из реального мира. В бенчмарке SimPLER система показала успешность выполнения задач в 72.1%, обойдя решения от Nvidia, Google и Microsoft.

AI2 опубликовал техотчет, веса и датасеты, позиционируя MolmoAct как свободно доступную альтернативу проприетарным решениям.
allenai.org

✔️ SEELE AI запустила публичное тестирование генератора 3D-игр по текстовому описанию.

Платформа создает полноценные, играбельные проекты на основе текстового описания на естественном языке, не требуя навыков программирования. Система использует большие модели для автоматической генерации всех ключевых элементов: 3D-сцен, персонажей и игровой логики, интегрируя текст, 3D-моделирование и физические движки.

Помимо основной генерации, инструмент поддерживает персонализацию созданных игр, предварительный просмотр в реальном времени и возможность оптимизации. SEELE AI позиционирует свой сервис не только как игровой инструмент, но и как платформу для создания контента в сфере образования, маркетинга и социальных сетей.
Попробовать инструмент можно на официальном сайте.
Seele AI в сети Х

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Google представила Gemma 3 270M — компактную модель

Модель 270 млн параметров (170M для эмбеддингов и 100M для трансформер-блоков), но с отличной способностью следовать промтпам прямо «из коробки».

🔹 Особенности
- 256k токенов
- Энергоэффективность: INT4-версия на Pixel 9 Pro расходует всего 0.75% батареи за 25 диалогов.
- Доступны предобученные и instruction-tuned чекпойнты.
- Поддержка Quantization-Aware Training (QAT) для запуска в INT4 без заметной потери качества.

💼 Когда использовать
- Массовые, чётко определённые задачи: анализ тональности, извлечение сущностей, обработка текста, комплаенс-проверки.
- Минимальные задержки и низкая стоимость инференса — можно запускать прямо на устройстве.
- Быстрые эксперименты с fine-tuning.
- Полная приватность данных благодаря on-device работе.
- Создание «флота» узкоспециализированных моделей.

В анонсе приводится пример, как Adaptive ML и SK Telecom дообучили Gemma 3 4B для мультиязычной модерации контента, превзойдя более крупные проприетарные модели.

Gemma 3 270M — отличная компактная модель, быстрая и дешёвая в работе.

🟠Подробности: https://developers.googleblog.com/en/introducing-gemma-3-270m/
🟠HF: https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

#news #ai #ml #Gemma #google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🍌Стало известно, что nano-banana — это модель от Google

Если вы пропустили, эта модель стала вирусной на Арене, благодаря своим возможностям редактирования изображений: меняет цвет волос, одежды, целые образы и фоны, сохраняя стиль и детали персонажа.

Nano-banana демонстрирует высокое качество и согласованность, по сравнению с другими моделями на рынке.

📌 Попробовать можно на арене.

@ai_machinelearning_big_data


#NANOBANANA #AI #GenerativeAI #AIart
This media is not supported in your browser
VIEW IN TELEGRAM
🆕 Hugging Face представили **AI Sheets** — no-code инструмент для создания и обработки таблиц с помощью ИИ.

- Выглядит как обычная таблица, но вместо формул — тысячи моделей
- Поддержка OpenAI-совместимых и локальных LLM
- Можно добавлять столбцы с промптами, редактировать данные вручную или через лайки
- Запуск онлайн или локально (Docker / pnpm)
- Полностью опенсорс (Apache-2.0), легко встроить в пайплайны
- Подходит для классификации, трансформации данных, синтетики и «vibe-тестов» моделей

⚡️ Попробовать

#AI #NoCode #datasets #HuggingFace #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Google расширила доступ к ИИ-поиску на 180 стран и добавила функцию бронирования.

Google начала масштабное развертывание диалогового поискового режима AI Mode для 180 стран. Ранее функция работала только в США, Великобритании и Индии. Пока доступен только английский язык, а страны Евросоюза в список не вошли из-за строгих правил в области данных и ИИ.

Вместе с географическим расширением Google представила первую агентную возможность в AI Mode. Теперь пользователи в США могут находить и бронировать столики в ресторанах через платформы OpenTable и Resy, прямо из поисковой выдачи. В будущем планируется добавить бронирование билетов и запись на услуги. Эта функция пока доступна только подписчикам платного тарифа Google AI Ultra.
9to5google.com

✔️ Runway представила платформу для создания интерактивных ИИ-миров.

Компания анонсировала бета-версию платформы Game Worlds, на которой пользователи в реальном времени могут создавать и исследовать полностью сгенерированных персонажей, сюжеты и окружения.

Одновременно с этим Runway добавила в свой продукт Act-Two новую функцию «Voices». Она дает возможность подбирать и настраивать голоса для ИИ-персонажей.

Эти нововведения - часть стратегии компании по демократизации создания иммерсивного контента, делая его доступным для авторов без специальных навыков в программировании или анимации.
RunwayML в сети X

✔️ Появились тестовые образцы нового ИИ-чипа Intel Jaguar Shores

В сети появились фото тестовых образцов следующего поколения ИИ-архитектуры Jaguar Shores. Размер корпуса 92,5 мм на 92,5 мм, он включает 4 отдельных кристалла и 8 площадок памяти HBM, что явно указывает на платформу для высокопроизводительных вычислений.

Jaguar Shores станет первым стоечным решением Intel, планируется использование памяти HBM4 от SK Hynix и совместная работа с будущими процессорами Xeon Diamond Rapids.
wccftech.com

✔️ Streaming Sortformer: модель для распознавания говорящих в реальном времени.

NVIDIA выпустила Streaming Sortformer - модель для диаризации речи, которая мгновенно определяет и маркирует участников разговора в реальном времени с низкой задержкой.

Модель оптимизирована для английского и китайского языков, способна отслеживать до 4 говорящих одновременно и предназначена для работы на GPU. По результатам тестов, Streaming Sortformer показывает более низкий уровень ошибок (DER) по сравнению с конкурирующими решениями.

Streaming Sortformer подойдет для применения в колл-центрах, при создании протоколов встреч и в интерактивных голосовых приложениях, где важно точно знать, кто, что и когда сказал. Модель доступна на Hugging Face.
developer.nvidia.com

✔️ AMD официально представила технологию FSR 4.

AMD выпустила новейшую технологию масштабирования изображения FidelityFX Super Resolution 4 (FSR 4). Это часть обновления FidelityFX SDK 2.0, где AMD впервые внедряет алгоритм апскейлинга на основе машинного обучения для улучшения качества графики и производительности в играх.

По сравнению с предыдущей версией 3.1, FSR 4 показывает улучшения в детализации изображения и временной стабильности, а также снижает артефакты гостинга движущихся объектов. FSR 4 поддерживается только видеокартами AMD Radeon RX 9000 серии и выше на архитектуре RDNA 4 и требует DirectX 12. AMD также предоставила плагины FSR 4 для Unreal Engine версий 5.1–5.6.
gpuopen.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 MAD: алгоритм безопасной работы с огромными датасетами.

Большие данные - это топливо для ИИ. Но как их использовать, чтобы не нарушить приватность, например датасета, где есть персональные данные?

Один из вариантов - метод дифференциально-приватного отбора. Он выбирает из огромного набора уникальные элементы так, чтобы нельзя было соотнести их с конкретным человеком. А если данных - больше миллиарда? Для этого нужен более надежный подход.

Таким алгоритмом стал Max Adaptive Degree (MAD), представленный Google на ICML 2025. Он не только эффективнее других параллельных методов, но и работает с наборами данных на десятки и сотни миллиардов записей.

🟡Стандартный MAD метод состоит из 3 шагов:

🟢Каждому элементу присваивается вес (обычно по частоте использования).

🟢К весу добавляется случайный шум для защиты приватности.

🟢Выбираются только те элементы, чей вес с шумом превышает определенный порог.

Но тут появляется новая проблема - популярные элементы получают избыточный вес, который можно было бы использовать для менее частых, но ценных данных.

MAD решает ее с помощью адаптивного взвешивания, перераспределяя вес: забирает часть у популярных элементов и отдает тем, чьи значения уже находятся у порога. Это позволяет отобрать больше полезных данных без потери приватности.

Простой пример: представьте 100 пользователей, у каждого по 3 элемента. Один элемент (A) есть у всех, а остальные элементы уникальны. В базовом алгоритме элемент A получит слишком много веса (намного больше необходимого), а уникальные элементы - слишком мало. MAD "забирает" часть веса у A и распределяет его между уникальными элементами, давая им шанс пройти порог.


🟡MAD2R.

Метод можно использовать в несколько итераций, публикуя промежуточные результаты с шумом. Так можно еще точнее распределять вес между раундами.

В первом раунде запускается MAD как обычно, а во втором удаляются уже найденные элементы и те, которые явно не пройдут порог. Для остальных элементов применяется "смещение" веса на основе данных первого раунда.

На практике MAD показал отличные результаты. Всего за 2 этапа он отобрал больше полезных элементов, чем другие методы. Например, в Common Crawl (800 млрд. записей) он выбрал набор слов, который покрыл 99.9% всех записей и 97% уникальных слов с полным соблюдением приватности.


🟡Статья
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Selection #MAD #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 MiniCPM-V 4.5: компактная модель, которая бьет гигантов в мультимодальном ИИ.

Проект OpenBMB выпустил MiniCPM-V 4.5, мультимодальную модель на основе Qwen3-8B и SigLIP2-400M для распознавания изображений, серий изображений и видео, которая может работать на мобильных устройствах на более чем 30 языках.

OpenBMB - некоммерческое подразделение китайской технологической компании ModelBest, под патронажем Университета Цинхуа.

Среди инвесторов материнской ModelBest - Habo (Huawei), Primavera Capital Group и государственный Shenzhen Guozhong Venture Capital Management.


🟡Киллер-фича модели - эффективная работа с видео.

Благодаря унифицированному 3D-Resampler модель сжимает видео в 96 раз: шесть кадров разрешением 448x448 преобразуются всего в 64 токена, тогда как большинству MLLM для этого потребовалось бы 1536 токенов.

Это позволяет обрабатывать видео с частотой кадров до 10 FPS и длинные ролики без роста вычислительных затрат, что подтверждается топовыми результатами на наборах Video-MME, LVBench и MLVU.

Архитектура LLaVA-UHD позволяет модели работать с изображениями до 1,8 мегапикселей и любым соотношением сторон, используя в 4 раза меньше визуальных токенов.

Модель предлагает гибкий режим работы: быстрый ризонинг для повседневных задач и глубокий для сложных сценариев, переключаемый по требованию.

При общем объеме в 8 млрд. параметров, MiniCPM-V 4.5 набирает 77.0 баллов по комплексному бенчу OpenCompass. Этот результат не просто улучшает предыдущие версии, модель превосходит GPT-4o-latest и Gemini-2.0 Pro, обходит открытую Qwen2.5-VL с 72 миллиардами параметров и устанавливает новый стандарт для общего MLLM на OmniDocBench.

🟡С инференсом тоже нет проблем.

Доступны варианты для CPU через llama.cpp и ollama, есть квантованные версии в форматах int4, GGUF и AWQ, поддержка бэкендов SGLang и vLLM, возможность дообучения через Transformers и LLaMA-Factory, а также WebUI и оптимизированное iOS-приложение.

▶️ Чтобы было проще разобраться во всех вариантах запуска, разработчики заботливо подготовили подробный cookbook.


📌Лицензирование: MiniCPM Model License.


🟡Модель
🟡Demo
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #MiniCPM #OpenBMB
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 Google Labs запустила инструмент для структурированной оценки языковых моделей.

Stax - экспериментальный инструмент для разработчиков, который предлагает замену неформальному «вайб-тестингу» больших языковых моделей на структурированный, основанный на данных подход.

Stax оценивает модели на кастомных или готовых автоматизированных оценщиках, фокусируясь на метриках: беглость ответа, безопасность, задержка и процент успешного прохождения ручной проверки.

Есть дашборд для сравнения результатов разных моделей с визуальными индикаторами производительности.

Ключевые возможности: быстрые и повторяемые оценки, настройка метрик под конкретные продукты и сквозной рабочий процесс для экспериментов от прототипа до продакшена.

Инструмент должен помочь разработчикам принимать обоснованные решения при выборе и развертывании моделей.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM