Новая версия уже доступна для тестирования и показывает заметные улучшения в:
🧠 кодинге
📊 логическом выводе
🔬 задачах по науке и математике
Pro-версия показывает прирост на 24 пункта Elo, удерживая лидерство на lmarena_ai с результатом 1470.
💬 Также улучшены стиль и структура ответов — Google учла фидбек пользователей.
Gemini обошёл Opus 4 в тестах на веб-разработку (WebDev Arena).
💰 Цены
— до 200 000 токенов: $1.25 вход / $10 выход (за 1M токенов)
— свыше 200 000 токенов: $2.50 вход / $15 выход (за 1M токенов)
🔧Модель достпна уже сейчас в:
- AI Studio
- Vertex AI
- Gemini app
https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/
@ai_machinelearning_big_data
#Gemini #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58❤29🔥11🥰5
Google выложил в открытый доступ на Github фуллстек-проект, который превращает пользовательские запросы в глубокие исследования с помощью Gemini. Его главная задача - находить информацию в интернете, анализировать ее и выдавать ответы с ссылками на источники, используя комбинацию React-интерфейса и бэкенда на базе LangGraph.
Проект включает в себя все необходимое: и фронтенд, и бэкенд.
Внутри бэкенда есть модуль, который отвечает за запуск цикла: сначала Gemini создает начальные запросы, затем система ищет информацию через API Google Search, оценивает, хватает ли данных, и при необходимости повторяет процесс.
Важная часть пайплайна — рефлексия. После каждого поиска агент проверяет, закрыты ли все «пробелы» в знаниях. Если информации недостаточно, он генерирует новые вопросы и повторяет цикл, пока не соберёт достаточно данных для ответа.
Проект адаптирован к продакшену, в нем используются Redis (для стриминга результатов в реальном времени) и PostgreSQL (для хранения истории диалогов и управления задачами). Это позволяет системе не терять прогресс даже при перезагрузках.
⚠️ Для практического использования потребуются API-ключи к Google Gemini и LangSmith.
@ai_machinelearning_big_data
#AI #ML #DeepSearch #Google #Gemini #LangGraph
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤82👍43🔥22😁8
🤖 Gemini Robotics: автономный AI для роботов
Google представили Gemini Robotics On-Device — первую модель, объединяющую зрение, язык и действия, которая работает прямо на роботах, без постоянного подключения к интернету.
🔍 Что делает эту модель особенной:
🔹 Объединяет универсальность и точность Gemini, но работает локально
🔹 Моделька справляется со сложными задачами с двумя руками (манипуляции, сборка, перенос)
🔹 Обучается новым действиям всего по 50–100 демкам
Модель уже поддерживает разные типы роботов — от гуманоидов до промышленных двухруких манипуляторов. И это несмотря на то, что изначально она была обучена только на датасете ALOHA под управлением человеческих инструкций.
🛠 В догонку выпустили SDK Gemini Robotics — для разработчиков, которые хотят дообучить модель под свои нужды, включая тесты в физическом симуляторе MuJoCo.
🌐 Полностью автономная работа — идеально для кейсов с плохой связью или требованиями к высокой скорости отклика.
Gemini Robotics продолжает двигаться к будущему, где AI становится частью физического мира.
👉 Подробнее: https://goo.gle/gemini-robotics-on-device
@ai_machinelearning_big_data
#ai #robots #vlm #google #Gemini
Google представили Gemini Robotics On-Device — первую модель, объединяющую зрение, язык и действия, которая работает прямо на роботах, без постоянного подключения к интернету.
🔍 Что делает эту модель особенной:
🔹 Объединяет универсальность и точность Gemini, но работает локально
🔹 Моделька справляется со сложными задачами с двумя руками (манипуляции, сборка, перенос)
🔹 Обучается новым действиям всего по 50–100 демкам
Модель уже поддерживает разные типы роботов — от гуманоидов до промышленных двухруких манипуляторов. И это несмотря на то, что изначально она была обучена только на датасете ALOHA под управлением человеческих инструкций.
🛠 В догонку выпустили SDK Gemini Robotics — для разработчиков, которые хотят дообучить модель под свои нужды, включая тесты в физическом симуляторе MuJoCo.
🌐 Полностью автономная работа — идеально для кейсов с плохой связью или требованиями к высокой скорости отклика.
Gemini Robotics продолжает двигаться к будущему, где AI становится частью физического мира.
👉 Подробнее: https://goo.gle/gemini-robotics-on-device
@ai_machinelearning_big_data
#ai #robots #vlm #google #Gemini
❤41👍25🔥10🥰2
VideoPrism - базовый визуальный энкодер от Google. Это универсальный инструмент, способный разобраться в самых разных нюансах видеоконтента: от простого распознавания объектов до генерации описаний или ответов на вопросы.
По заявлению создателей, VideoPrism демонстрирует топовые результаты на 31 из 33 общедоступных бенчмарков. В тестах на zero-shot, VideoPrism обошел аналоги в задачах классификации (Kinetics-600) и ответов на вопросы (MSRVTT-QA), даже не используя дополнительных модальностей вроде аудио.
В основе VideoPrism - ViT, но с существенными модификациями, учитывающими специфику видеоданных. В его создании инженеры Google DeepMind применили так называемый "факторизованный" подход, разделяя обработку пространственных и временных измерений и исключили слой глобального усреднения, чтобы сохранить максимум информации из каждого кадра и его временной позиции.
Секрет эффективности VideoPrism кроется в его тщательно продуманном двухэтапном методе обучения на гигантском корпусе данных в 600+ миллионов пар "видео-текст" и чуть менее миллиарда "изображение-текст" из набора данных WebLI:
На первом этапе модель осуществляет своего рода "синхронизацию" между видео- и текстовым энкодерами. Используя огромные массивы пар "видео-текст", они учатся сопоставлять визуальные данные с их семантическими описаниями посредством контрастивного обучения. Это позволяет видеоэнкодеру освоить основные визуальные концепции.
На втором этапе обучение продолжается уже исключительно на видеоданных, применяя усовершенствованную технику маскированного моделирования. Здесь часть видеороликов подвергается маскированию, а VideoPrism должен восстановливать скрытые части.
Token shuffling (предотвращает "копипасту" ошибок декодера) и global-local distillation (перенос знаний из первого этапа), помогают VideoPrism одновременно усваивать детали изображений и тонкости движений, избегая при этом "катастрофического забывания".
@ai_machinelearning_big_data
#AI #ML #Encoder #VideoPrism #Google #DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33❤13🔥11🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
• Лёгкий и мощный инструмент для разработки в командной строке
• Работает на базе Gemini 2.5 Pro
• Код агента в открытом доступе (Apache 2.0)
• Поддержка контекста в 1 миллион токенов
• Бесплатный тариф: до 60 запросов в минуту и 1000 в день
• Привязка к Google Search
• Поддержка MCP
• Интеграция с VS Code (Gemini Code Assist)
Запуск в cli:
npx https://github.com/google-gemini/gemini-cli
@ai_machinelearning_big_data
#AI #ML #agent #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
👍98❤72🔥26🥰2❤🔥1😁1🌚1🤣1
Инженеры Google DeepMind решили вдохнуть новую жизнь в классический подход «энкодер-декодер» выпустив семейство моделей T5Gemma.
Главная интрига заключается не в том, что они сделали, а в том, как. Вместо того чтобы обучать модели с нуля, они разработали метод «адаптации»: взяли уже готовую и предобученную модель-декодер Gemma 2 и, по сути, пересобрали ее в двухкомпонентную энкодер-декодерную архитектуру.
Метод открыл дорогу для интересных экспериментов. Например, стало возможно создавать «несбалансированные» модели, комбинируя большой энкодер с маленьким декодером, скажем, 9-миллиардный энкодер и 2-миллиардный декодер.
Такая конфигурация идеальна для задач суммаризации, где глубокое понимание исходного текста (работа энкодера) гораздо важнее, чем генерация сложного и витиеватого ответа (работа декодера). Это дает инженерам гибкий инструмент для тонкой настройки баланса между качеством и скоростью работы.
На тестах T5Gemma показывает результаты на уровне или даже лучше своих «однокомпонентных» аналогов. Асимметричная модель T5Gemma 9B-2B демонстрирует значительно более высокую точность, чем базовая Gemma 2 2B, но при этом скорость инференса у них почти идентична.
Даже сбалансированная T5Gemma 9B-9B оказывается точнее, чем Gemma 2 9B, при сопоставимой задержке. Это прямое доказательство того, что двухкомпонентная архитектура может быть и умнее, и эффективнее.
T5Gemma показывает впечатляющий рост в задачах, требующих логических рассуждений. Например, на математическом тесте GSM8K модель T5Gemma 9B-9B набирает на 9 баллов больше, чем Gemma 2 9B.
Эффект становится еще более выраженным после инструктивной донастройки. Здесь разрыв в производительности резко увеличивается: на бенчмарке MMLU модель T5Gemma 2B-2B IT опережает аналог Gemma 2 2B IT почти на 12 баллов.
@ai_machinelearning_big_data
#AI #ML #T5Gemma #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68❤39🔥24🤔10🥱5
Google Research продолжают развивать свою линейку специализированных медицинских ИИ-моделей, представив два важных пополнения: MedGemma и MedSigLIP.
Это серьезное пополнение экосистемы открытых и доступных инструментов для здравоохранения. Разработчики предлагают мощные базовые модели, которые можно дообучать и запускать на собственном железе, даже на потребительском GPU.
Младшая, 4-миллиардная версия, показывает себя как один из лучших открытых «малышей» (<8B), а после дообучения достигает SOTA в генерации отчетов по рентгеновским снимкам. В ходе одного из тестов 81% сгенерированных ею заключений были признаны сертифицированными радиологами достаточно точными.
Старшая, на 27 миллиардов, в текстовой версии, на бенчмарке MedQA набрала 87.7%. Это всего на 3 пункта ниже DeepSeek R1, но при этом модель требует в 10 раз меньше ресурсов для инференса.
Его задача - классификация, поиск и другие задачи со структурированным выходом. Он был создан адаптацией общей модели SigLIP на огромном массиве медицинских данных (от рентгена до гистологии и снимков глазного дна).
Они по-прежнему понимают немедицинский контекст и умеют работать с разными языками, что подтвердили исследователи из Тайваня, успешно применявшие модель в связке с литературе на традиционном китайском.
@ai_machinelearning_big_data
#AI #ML #LLM #MedGemma #MedSigLIP #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤105👍43🔥29🥱6👏5
Что делает Marin особенной:
— Полностью открыты не только веса, но показан весь процесс обучения: код, данные, гиперпараметры модели, логи, эксперименты — всё доступно на GitHub
— Модель обучена на 12.7 трлн токенов и в 14 из 19 тестов обошла Llama 3.1 8B
— Лицензия Apache 2.0, всё можно использовать, модифицировать и воспроизводить
— Levanter + JAX обеспечивают bit‑exact повторяемость и масштабируемость на TPU/GPU
Проект позиционируется как открытая лаборатория: каждый эксперимент оформляется через pull request, логируется в WandB, обсуждается в issue и фиксируется в истории репозитория. Даже неудачные эксперименты сохраняются ради прозрачности.
Выпущены две версии:
- Marin‑8B‑Base — сильный base-модель, превосходит Llama 3.1 8B
- Marin‑8B‑Instruct — обучена с помощью SFT, обгоняет OLMo 2, немного уступает Llama 3.1 Tulu
Это не просто открытые веса, а новый стандарт для научных вычислений в эпоху больших моделей.
* JAX — это фреймворк от Google для научных и численных вычислений, особенно популярен в сфере машинного обучения.
**TPU (Tensor Processing Unit) — это специализированный чип от Google, созданный для ускорения AI-задач.
@ai_machinelearning_big_data
#ai #ml #tpu #jax #google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73❤25👍19🥰2💯2🤔1
LangExtract - опенсорсная python-библиотека с функцией легковесного интерфейса к LLM, которая превращает большие объемы текста в структурированные данные.
Каждая извлеченная сущность, будь то имя, дата или дозировка лекарства, привязывается к точным символьным смещениям в исходном тексте. Это дает полную прослеживаемость и верифицируемость результата, просто подсветив найденные данные в оригинальном документе. Больше никаких «откуда модель это взяла?».
Вы определяете желаемый формат вывода с помощью специального представления данных и даете модели несколько примеров . Используя эти примеры, LangExtract следует заданной схеме, задействуя механизм контролируемой генерации, который поддерживается в моделях Gemini. Это гарантирует, что на выходе вы всегда будете получать данные в консистентном, предсказуемом формате.
Библиотека умеет бить текст на чанки, которые обрабатываются параллельно в несколько проходов, каждый из которых фокусируется на более узком контексте.
Для наглядности библиотека умеет генерировать интерактивную и полностью автономную HTML-визуализацию. Это позволяет за считаные минуты перейти от сырого текста к визуальному представлению, где можно исследовать тысячи извлеченных аннотаций.
При этом LangExtract не замыкается на экосистеме Google: он поддерживает гибкую смену LLM-бэкендов, позволяя работать как с облачными моделями, так и с опенсорсными решениями, развернутыми локально.
Информация может быть как явной (извлеченной из текста), так и основанной на внутренних знаниях модели. Разумеется, точность таких выведенных данных сильно зависит от возможностей конкретной LLM и качества предоставленных примеров в промпте.
Изначально идеи, заложенные в LangExtract, были применены для извлечения информации из медицинских текстов. Библиотека отлично справляется с идентификацией лекарств, их дозировок и других атрибутов в клинических записях.
Чтобы продемонстрировать возможности инструмента в узкоспециализированной области, Google создал на Hugging Face интерактивное демо RadExtract. В нем показано, как LangExtract может обработать радиологический отчет, написанный свободным текстом, и автоматически преобразовать его ключевые выводы в структурированный формат, подсвечивая важные находки.
@ai_machinelearning_big_data
#AI #ML #LangExtract #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68🔥25❤12👨💻1
🔥 Google DeepMind выпустили Gemini 2.5 Deep Think — для Ultra‑пользователей
🚀 Характеристики:
> 📏 Контекст — 1 миллион токенов
> 🧾 На выходе — до 192k токенов
📊 И результаты на бенчмарках сумасшедшие:
— HLE : 34.8%
— Live Code Bench: 86.6%
— AIME 2025: 99.2%
🤯 Пока все обсуждают выход GPT‑5, Google тихонько выкатили топ модель.
Бенчмарки — огонь. Я уже подумываю оформить подписку на Ultra.
🟠 Анонс
@ai_machinelearning_big_data
#ai #ml #Gemini #google
🚀 Характеристики:
> 📏 Контекст — 1 миллион токенов
> 🧾 На выходе — до 192k токенов
📊 И результаты на бенчмарках сумасшедшие:
— HLE : 34.8%
— Live Code Bench: 86.6%
— AIME 2025: 99.2%
Бенчмарки — огонь. Я уже подумываю оформить подписку на Ultra.
@ai_machinelearning_big_data
#ai #ml #Gemini #google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍87❤30🔥26😁3🥰1👨💻1
📊 По итогам матчей формируется открытый рейтинг моделей — кто реально умеет думать, а не просто угадывать.
Kaggle собирает рейтинг моделей, который будет обновляться по итогам матчей. В будущем добавят Го, покер и видеоигры.
Стримы первых соревнований пройдут: 5–7 августа на YouTube с Хикару, Леви и Магнусом Карлсеном.
@ai_machinelearning_big_data
#google #kaggle #arena
Please open Telegram to view this post
VIEW IN TELEGRAM
❤75👍34🔥17😁2👨💻2🤔1😢1
Модель 270 млн параметров (170M для эмбеддингов и 100M для трансформер-блоков), но с отличной способностью следовать промтпам прямо «из коробки».
🔹 Особенности
- 256k токенов
- Энергоэффективность: INT4-версия на Pixel 9 Pro расходует всего 0.75% батареи за 25 диалогов.
- Доступны предобученные и instruction-tuned чекпойнты.
- Поддержка Quantization-Aware Training (QAT) для запуска в INT4 без заметной потери качества.
- Массовые, чётко определённые задачи: анализ тональности, извлечение сущностей, обработка текста, комплаенс-проверки.
- Минимальные задержки и низкая стоимость инференса — можно запускать прямо на устройстве.
- Быстрые эксперименты с fine-tuning.
- Полная приватность данных благодаря on-device работе.
- Создание «флота» узкоспециализированных моделей.
В анонсе приводится пример, как Adaptive ML и SK Telecom дообучили Gemma 3 4B для мультиязычной модерации контента, превзойдя более крупные проприетарные модели.
Gemma 3 270M — отличная небольшая модель, быстрая и дешёвая в работе.
@ai_machinelearning_big_data
#news #ai #ml #Gemma #google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍97❤35🔥20🤔6
Большие данные - это топливо для ИИ. Но как их использовать, чтобы не нарушить приватность, например датасета, где есть персональные данные?
Один из вариантов - метод дифференциально-приватного отбора. Он выбирает из огромного набора уникальные элементы так, чтобы нельзя было соотнести их с конкретным человеком. А если данных - больше миллиарда? Для этого нужен более надежный подход.
Таким алгоритмом стал Max Adaptive Degree (MAD), представленный Google на ICML 2025. Он не только эффективнее других параллельных методов, но и работает с наборами данных на десятки и сотни миллиардов записей.
Но тут появляется новая проблема - популярные элементы получают избыточный вес, который можно было бы использовать для менее частых, но ценных данных.
MAD решает ее с помощью адаптивного взвешивания, перераспределяя вес: забирает часть у популярных элементов и отдает тем, чьи значения уже находятся у порога. Это позволяет отобрать больше полезных данных без потери приватности.
Простой пример: представьте 100 пользователей, у каждого по 3 элемента. Один элемент (A) есть у всех, а остальные элементы уникальны. В базовом алгоритме элемент A получит слишком много веса (намного больше необходимого), а уникальные элементы - слишком мало. MAD "забирает" часть веса у A и распределяет его между уникальными элементами, давая им шанс пройти порог.
Метод можно использовать в несколько итераций, публикуя промежуточные результаты с шумом. Так можно еще точнее распределять вес между раундами.
В первом раунде запускается MAD как обычно, а во втором удаляются уже найденные элементы и те, которые явно не пройдут порог. Для остальных элементов применяется "смещение" веса на основе данных первого раунда.
На практике MAD показал отличные результаты. Всего за 2 этапа он отобрал больше полезных элементов, чем другие методы. Например, в Common Crawl (800 млрд. записей) он выбрал набор слов, который покрыл 99.9% всех записей и 97% уникальных слов с полным соблюдением приватности.
@ai_machinelearning_big_data
#AI #ML #Selection #MAD #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤58👍24🔥12🗿5