AB-MCTS (Adaptive Branching Monte Carlo Tree Search) — новый алгоритм масштабирования во время инференса, который обеспечивает коллективный интеллект для ИИ, позволяя нескольким передовым моделям (например, Gemini 2.5 Pro, o4-mini и DeepSeek-R1-0528) сотрудничать.
Sakana AI вдохновилась принципами коллективного интеллекта, где лучшие решения достигаются через объединение разнообразных мнений.
Каждая модель обладает своими сильными сторонами и уникальными свойствами, которые алгоритм использует в качестве ресурсов для совместного решения задач.
Ключевые особенности AB-MCTS:
• Коллективное сотрудничество моделей — алгоритм объединяет предложения разных моделей, выбирает наиболее многообещающие варианты и проверяет их через симуляции.
• Адаптивное ветвление — дерево поиска расширяется динамически там, где это приносит наибольшую пользу.
• Высокая эффективность на ARC-AGI-2 — комбинация o4-mini, Gemini 2.5 Pro и R1 0528 показывает значительный прирост по сравнению с каждой моделью в отдельности.
Авторы приводят следующие результаты работы алгоритма на 120 задачах ARC-AGI-2:
• Repeated Sampling (o4-mini): 23,0 % решённых задач
• AB-MCTS (o4-mini): 27,5 % решённых задач (абсолютный прирост +4,5 п.п., относительный +19,6 %)
• Multi-LLM AB-MCTS (o4-mini + Gemini 2.5 Pro + DeepSeek-R1-0528): > 30 % решённых задач
Sakana AI пытается внедрять принципы эволюции и коллективного интеллекта в разработку передовых ИИ-систем, с целью воплотить командный подход человеческих экспертов в мире искусственного интеллекта.
• Исходный код TreeQuest (реализация алгоритма): https://github.com/SakanaAI/treequest
• Эксперименты на ARC-AGI-2: https://github.com/SakanaAI/ab-mcts-arc2
• Подробнее в блоге: https://sakana.ai/ab-mcts
• Статья: https://arxiv.org/abs/2503.04412
@ai_machinelearning_big_data
#Sakana #al #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💎Открытые уроки для специалистов в компьютерном зрении.
В рамках курса «Компьютерное зрение. Advanced»
🎓Урок 1: Инференс без задержек: как ускорить обработку видео для CV-моделей: https://tglink.io/baad53b57904
🔹Считывание видео и преобразование в тензоры для инференса и обучения.
🔹 Фреймворки и библиотеки: NVIDIA DALI, Video Processing Framework, torio, torchvision.io.
🔹 Сборка видеопотока из тензоров и стриминг через RTMP/RTSP — с GPU, без лишних копирований.
🎓Урок 2: YOLO-pose и MediaPipe в деле: распознаём позы и ключевые точки в реальном времени: https://tglink.io/baad53b57904
🔹 Знакомство с библиотекой Ultralytics и моделью YOLO-pose: как использовать её для задач Pose Estimation.
🔹 Разбор MediaPipe: определим лицевые и ручные ключевые точки
🔹 Готовые пайплайны для анализа движений, AR и трекинга
🎓Урок 3: Мультимодальные LLM: https://tglink.io/baad53b57904
🔹 Расскажем, как мультимодальные LLM модели видят изображения и понимают текст
➡️Регистрация: https://tglink.io/baad53b57904?erid=2W5zFHLzbU4
#реклама
О рекламодателе
В рамках курса «Компьютерное зрение. Advanced»
🎓Урок 1: Инференс без задержек: как ускорить обработку видео для CV-моделей: https://tglink.io/baad53b57904
🔹Считывание видео и преобразование в тензоры для инференса и обучения.
🔹 Фреймворки и библиотеки: NVIDIA DALI, Video Processing Framework, torio, torchvision.io.
🔹 Сборка видеопотока из тензоров и стриминг через RTMP/RTSP — с GPU, без лишних копирований.
🎓Урок 2: YOLO-pose и MediaPipe в деле: распознаём позы и ключевые точки в реальном времени: https://tglink.io/baad53b57904
🔹 Знакомство с библиотекой Ultralytics и моделью YOLO-pose: как использовать её для задач Pose Estimation.
🔹 Разбор MediaPipe: определим лицевые и ручные ключевые точки
🔹 Готовые пайплайны для анализа движений, AR и трекинга
🎓Урок 3: Мультимодальные LLM: https://tglink.io/baad53b57904
🔹 Расскажем, как мультимодальные LLM модели видят изображения и понимают текст
➡️Регистрация: https://tglink.io/baad53b57904?erid=2W5zFHLzbU4
#реклама
О рекламодателе
🚀 Open-source альтернатива Perplexity, собранная одним разработчиком — уже 8.4K звёзд на GitHub!
Scira (ранее MiniPerplx) — минималистичный AI-поисковик, который не просто ищет, но и цитирует источники.
Работает на Vercel AI SDK, поддерживает Grok 3, GPT‑4o, Claude 4, Gemini и другие модели.
💡 Без логина. Без paywall.
🔎 Ищет по Web, X, Reddit, YouTube, статьям, акциям, погоде, билетам — через 15+ API
🧠 Умеет запускать код, строить графики, использовать память, работать в защищённой RAG-среде
GitHub: https://github.com/zaidmukaddam/scira
Scira (ранее MiniPerplx) — минималистичный AI-поисковик, который не просто ищет, но и цитирует источники.
Работает на Vercel AI SDK, поддерживает Grok 3, GPT‑4o, Claude 4, Gemini и другие модели.
💡 Без логина. Без paywall.
🔎 Ищет по Web, X, Reddit, YouTube, статьям, акциям, погоде, билетам — через 15+ API
🧠 Умеет запускать код, строить графики, использовать память, работать в защищённой RAG-среде
GitHub: https://github.com/zaidmukaddam/scira
FlexTok — это токенизатор, который представляет изображение как последовательность токенов переменной длины, от самых грубых до самых детализированных.
В отличие от большинства image tokenizer'ов (где всегда фиксированное число токенов и они жёстко локализованы по патчам), здесь подход коarse-to-fine — как в PCA:
- первый токен даёт максимально сжатое представление,
- второй — добавляет детали,
- третий — ещё больше и т.д.
Такой порядок оказывается семантически разумным, хотя обучение шло без языевой подсказки. Получается структура, которую удобно использовать в генерации и понимании изображений.
Всё сделано без магии:
- используется nested dropout на токенах во время обучения,
- архитектура простая, основана на известных компонентах,
- токены можно интерпретировать по уровню детализации.
📎 Исходники: https://github.com/apple/ml-flextok
🖼️ Демка: https://huggingface.co/spaces/EPFL-VILAB/FlexTok
📊 Визуализации: https://flextok.epfl.ch
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Медиагигант TIME включил DeepMind в свой рейтинг TIME100-2025 в категории «Влияние в ИИ». Это отдельная категория признания пяти выдающихся компаний, которые внесли значимый вклад в развитие своих областей.
В 2024 году создатели AlphaFold из Google DeepMind получили Нобелевскую премию по химии, но помимо научных достижений, DeepMind активно развивает языковые общедоступные модели: Gemini 2.5 Pro до сих пор лидирует в тестах на «интеллект».
CEO Google DeepMind Демис Хассабис мечтает создать «универсального цифрового ассистента», способного не только помогать пользователям, но и проводить самостоятельные научные исследования.
time.com
15 европейских СМИ из 7 стран запустили Chat Europe, платформу на основе ИИ, которая обещает предоставлять новости о ЕС без дезинформации. Проект финансируется ЕС, использует модель Mistral и был разработан румынской компанией DRUID AI.
Пользовательские тесты показали проблемы: система часто ссылается на устаревшие данные и дает нерелевантные ответы. Например, запрос о ситуации в Германии выдал устаревшую информацию 2010 года, в то время как ChatGPT с веб-поиском - дал актуальный и всесторонний ответ.
Создатели чатбота заявляют непредвзятость сервиса и проверенные источники, но реальность пока не соответствует этим утверждениям. Эксперты ждут улучшений: если чатбот не научится отслеживать события в реальном времени, его польза останется под вопросом.
presseportal.de
OpenAI активно развивает консалтинговое направление для бизнеса, предлагая клиентам персонализацию моделей GPT-4o под их данные и разработку приложений - от чат-ботов до аналитических инструментов. За такие услуги компания запрашивает от $10 млн, ставя себя в один ряд с Palantir и Accenture.
Среди клиентов направления - Министерство обороны США и азиатский техногигант Grab. OpenAI явно стремится закрепиться не только как лаборатория для исследований, но и как партнер для масштабных внедрений.
theinformation.com
Huawei анонсировала открытый доступ к своей серии языковых моделей Pangu: компактной Pangu 7B и флагманской Pangu Pro MoE с 72 миллиардами параметров. Обе модели оптимизированы для инференса на чипах Ascend. Исходный код, веса и инструменты для работы с MoE-архитектурами уже доступны на платформе GitCode.
Разработчики получают возможность тестировать решения на чипах Huawei, что актуально в условиях санкций. Меньшая версия Pangu 7B в открытом доступе появится позже.
ecns.cn
Cloudflare начал блокировать ИИ-краулеры по умолчанию, теперь новые сайты автоматически получают опцию запрета сканирования без разрешения, а бета-версия сервиса Pay Per Crawl позволит монетизировать доступ.
Новый протокол идентификации ботов поможет сайтам отсеивать анонимных скраперов, требуя раскрытия целей сбора данных. Поддержку инициативе выразили крупнейшие медиахолдинги и цифровые площадки, они давно говорят о важности компенсации за использование контента.
cloudflare.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 Генеративный ИИ‑проект “под капотом”: всё на одном GitHub
Если вы хотите посмотреть, как собрать полноценную систему генеративного ИИ с нуля — обратите внимание на этот репозиторий:
📦 Внутри:
– Обработка изображений и текста
– Использование pre-trained моделей для генерации и анализа
– Интеграция с OpenAI API
– Отчёты, ноутбуки, визуализация результатов
– Чистая структура проекта: от данных до выводов
Подойдёт как учебный шаблон или стартовая база для своих экспериментов с мультимодальными ИИ‑сценариями.
https://github.com/HeyNina101/generative_ai_project
#generativeAI #opensource #ml #deeplearning
Если вы хотите посмотреть, как собрать полноценную систему генеративного ИИ с нуля — обратите внимание на этот репозиторий:
📦 Внутри:
– Обработка изображений и текста
– Использование pre-trained моделей для генерации и анализа
– Интеграция с OpenAI API
– Отчёты, ноутбуки, визуализация результатов
– Чистая структура проекта: от данных до выводов
Подойдёт как учебный шаблон или стартовая база для своих экспериментов с мультимодальными ИИ‑сценариями.
https://github.com/HeyNina101/generative_ai_project
#generativeAI #opensource #ml #deeplearning
ML-инженеры, какая встреча!
19 июля в Москве снова пройдет Turbo ML Conf от группы Т-Технологий. В этом году — еще масштабнее!
В программе 5 тематических потоков, продовые кейсы и технологии.
Среди спикеров — эксперты Т-Банка, Сбера, Яндекса и других ведущих специалистов.
Будет много нетворкинга, прикладные доклады, настольные игры, лимитированный мерч. Участие бесплатное.
Успейте оставить заявку
19 июля в Москве снова пройдет Turbo ML Conf от группы Т-Технологий. В этом году — еще масштабнее!
В программе 5 тематических потоков, продовые кейсы и технологии.
Среди спикеров — эксперты Т-Банка, Сбера, Яндекса и других ведущих специалистов.
Будет много нетворкинга, прикладные доклады, настольные игры, лимитированный мерч. Участие бесплатное.
Успейте оставить заявку
This media is not supported in your browser
VIEW IN TELEGRAM
🗣 Инженер рекомендательных систем рассказал про перспективы развития направления. В подкасте научному изданию N + 1 инженер рекомендательных систем Яндекса Николай Савушкин рассказал про тренд унификации и универсализации технологий.
Рекомендации в дальнейшем можно развивать:
- как ещё одну модальность LLM;
- как агента, который строит дерево вариантов для жизни и карьеры.
📌 Подробнее
@machinelearning_interview
Рекомендации в дальнейшем можно развивать:
- как ещё одну модальность LLM;
- как агента, который строит дерево вариантов для жизни и карьеры.
📌 Подробнее
@machinelearning_interview
📌 TorchScale — библиотека для масштабирования трансформеров от Microsoft. Когда стандартные архитектуры трансформеров упираются в ограничения глубины и длины последовательностей, этот проект предлагает набор решений: от DeepNet (1000+ слоёв) до революционного RetNet — потенциального преемника классических трансформеров.
Библиотека выглядит как исследовательский полигон: здесь собраны последние наработки Microsoft в области LLM, включая BitNet и Multiway-архитектуры для мультимодальных задач. Хотя проект требует PyTorch и мощных GPU, его минималистичный API позволяет быстро экспериментировать с передовыми подходами.
🤖 GitHub
@machinelearning_interview
Библиотека выглядит как исследовательский полигон: здесь собраны последние наработки Microsoft в области LLM, включая BitNet и Multiway-архитектуры для мультимодальных задач. Хотя проект требует PyTorch и мощных GPU, его минималистичный API позволяет быстро экспериментировать с передовыми подходами.
🤖 GitHub
@machinelearning_interview
📚 Best System Design Resources — удобная шпаргалка для интервью и прокачки архитектуры
* 100+ отобранных материалов: курсы, книги, статьи, интервью-чеклисты и блоги инженеров крупных компаний.
* Упор на практику для System Design Interview: есть готовые cheat-sheets от Exponent, ByteByteGo и DesignGuru, а также более 50 типовых задач.
* Секции «Курсы», «Книги», «Теория и алгоритмы», «Кейс-стади» и «Engineering Blogs» помогают быстро закрыть пробелы перед собеседованием.
* Более 2 500★ на GitHub — комьюнити регулярно дополняет подборку.
Полезно, если нужно системно повторить концепции перед FAANG-интервью или собрать личную базу знаний по архитектуре.
📌 Github
@machinelearning_interview
* 100+ отобранных материалов: курсы, книги, статьи, интервью-чеклисты и блоги инженеров крупных компаний.
* Упор на практику для System Design Interview: есть готовые cheat-sheets от Exponent, ByteByteGo и DesignGuru, а также более 50 типовых задач.
* Секции «Курсы», «Книги», «Теория и алгоритмы», «Кейс-стади» и «Engineering Blogs» помогают быстро закрыть пробелы перед собеседованием.
* Более 2 500★ на GitHub — комьюнити регулярно дополняет подборку.
Полезно, если нужно системно повторить концепции перед FAANG-интервью или собрать личную базу знаний по архитектуре.
📌 Github
@machinelearning_interview
Forwarded from Machinelearning
Мaitrix Org разработали WM-ABench, бенчмарк для оценки VLM в качестве так называемых «моделей мира». Идея проста: проверить, насколько хорошо топовые модели способны не просто распознавать картинки, а понимать окружающую действительность и предсказывать ее изменения.
Создатели, опираясь на когнитивную науку, создали фреймворк, который тестирует 15 самых популярных моделей по 23 параметрам, разделяя процесс на 2 ключевых этапа: восприятие и прогнозирование.
В основе бенчмарка - огромный датасет из более чем 100 тысяч примеров, сгенерированных в 6 различных симуляторах, от ThreeDWorld и Physion до Carla.
Чтобы модели не искали легких путей и не полагались на поверхностные совпадения, в тест добавили «сложные негативы» - контрфактические состояния, которые заставляют систему действительно анализировать происходящее.
Весь процесс был разделен на оценку восприятия (распознавание объектов, пространства, времени, движения) и прогнозирования (симуляция физики, транзитивный и композиционный вывод). Для калибровки сложности задач были установлены базовые показатели, основанные на результатах людей.
С простым визуальным восприятием, то есть с определение цвета или формы, все модели справляются отлично. Однако когда дело доходит до трехмерного пространственного мышления, динамики движения или временных последовательностей, начинаются серьезные проблемы.
Выяснилась и другая любопытная деталь: VLM склонны «спутывать» физические понятия. Например, если в сцене изменить только цвет объекта, модель может внезапно ошибиться в оценке его размера или скорости.
Оказалось, что цвет и форма являются самыми влиятельными атрибутами, которые искажают восприятие других, не связанных с ними характеристик.
Точное восприятие мира совершенно не гарантирует точного прогноза.
Исследование показало, что даже при идеально верном распознавании текущего состояния сцены модели проваливают предсказание физических взаимодействий.
Разрыв с человеческими способностями явный: в задачах на транзитивный вывод он достигает 46%, а композиционный вывод выполняется на уровне случайного угадывания.
У современных VLM отсутствуют базовые знания физики, необходимые для симуляции даже простейших событий. Они видят мир, но не понимают, по каким законам он живет.
@ai_machinelearning_big_data
#AI #ML #VLM #Benchmark #Maitrix
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Из окон офисов VK — самые красивые закаты. А в самих офисах обитают самые любимые коллеги!
Ребята не только делают сервисы VK быстрее и удобнее, но и любят делиться знаниями. Совсем скоро они проведут открытый Java AI-митап и расскажут о том, как мы масштабируем процессы, а ещё поделятся фишками, которые стоят за сервисами VK.
Откликайтесь, если откликается!
Ребята не только делают сервисы VK быстрее и удобнее, но и любят делиться знаниями. Совсем скоро они проведут открытый Java AI-митап и расскажут о том, как мы масштабируем процессы, а ещё поделятся фишками, которые стоят за сервисами VK.
Откликайтесь, если откликается!
This media is not supported in your browser
VIEW IN TELEGRAM
Что нового
- Читает длинные отчёты и создаёт аудиофайлы
- Удобное упарвление голосом: можно слушать, давать команды и одновременно делать другие дела
- Генерирует подкасты
- Озвучивает доки и презентации и многое другое
Когда удобнее слушать, чем читать — включите Manus и продолжайте работу.
https://audio.manus.space
Please open Telegram to view this post
VIEW IN TELEGRAM
Для амбициозных бакалавров и молодых специалистов
Хочешь развиваться осознанно и расти в профессии и доходе? Выбирай высшее образование у сильных экспертов.
Центральный университет ведет набор на пять программ магистратуры по популярным ИТ-направлениям. Обучение с фокусом на практике: студенты используют актуальный софт и решают реальные задачи от бизнес-заказчиков.
Партнеры — ведущие компании на рынке РФ: ВТБ, Сбер, Т-Банк, Яндекс, Avito, Ozon, Х5 Tech и другие. 62% магистрантов ЦУ находят новую работу с ростом зарплаты в 1,6 раза уже на первом курсе. Средняя зарплата — 195 тысяч рублей.
Обучение можно совмещать с работой, а поступить — уже с третьего курса.
Выбери свое направление:
— Онлайн-магистратура по ML.
— Продуктовая аналитика.
— Машинное обучение.
— Продуктовый менеджмент.
— Backend-разработка.
И подавай заявку на поступление уже сейчас.
Реклама. АНО ВО "Центральный университет", ИНН 7743418023, erid:2RanynhVH6Z
Хочешь развиваться осознанно и расти в профессии и доходе? Выбирай высшее образование у сильных экспертов.
Центральный университет ведет набор на пять программ магистратуры по популярным ИТ-направлениям. Обучение с фокусом на практике: студенты используют актуальный софт и решают реальные задачи от бизнес-заказчиков.
Партнеры — ведущие компании на рынке РФ: ВТБ, Сбер, Т-Банк, Яндекс, Avito, Ozon, Х5 Tech и другие. 62% магистрантов ЦУ находят новую работу с ростом зарплаты в 1,6 раза уже на первом курсе. Средняя зарплата — 195 тысяч рублей.
Обучение можно совмещать с работой, а поступить — уже с третьего курса.
Выбери свое направление:
— Онлайн-магистратура по ML.
— Продуктовая аналитика.
— Машинное обучение.
— Продуктовый менеджмент.
— Backend-разработка.
И подавай заявку на поступление уже сейчас.
Реклама. АНО ВО "Центральный университет", ИНН 7743418023, erid:2RanynhVH6Z
🔥 TorchOpt — мощная библиотека для дифференцируемой оптимизации, построенная поверх PyTorch. Она предлагает три режима дифференцирования (явный, неявный и нулевого порядка), что делает её универсальным инструментом для задач, где требуется оптимизация с учётом градиентов, включая метаобучение и двууровневую оптимизацию.
Библиотека сочетает гибкость функционального подхода с привычным объектно-ориентированным API PyTorch. Это позволяет легко интегрировать её в существующие проекты, не жертвуя производительностью. TorchOpt поддерживает распределённые вычисления через PyTorch RPC и ускоренные операции на CPU/GPU, что особенно полезно для масштабируемых экспериментов.
🤖 GitHub
@machinelearning_interview
Библиотека сочетает гибкость функционального подхода с привычным объектно-ориентированным API PyTorch. Это позволяет легко интегрировать её в существующие проекты, не жертвуя производительностью. TorchOpt поддерживает распределённые вычисления через PyTorch RPC и ускоренные операции на CPU/GPU, что особенно полезно для масштабируемых экспериментов.
🤖 GitHub
@machinelearning_interview
Forwarded from Machinelearning
Исследователи из из Гонконгского университета и инженеры Alibaba научили LLM генерировать семантически разные ответы, заставляя их «думать» в ортогональных направлениях.
Наверняка каждый, кто работает с LLM, сталкивался с их любовью к самоповторам. Запрашиваешь несколько вариантов решения, а получаешь одну и ту же мысль, просто перефразированную.
Стандартные подходы к декодированию,
temperature sampling
или diverse beam search
, создают лишь лексическое разнообразие, но пасуют, когда требуется семантическое. Это серьезная проблема для Best-of-N или RLHF. Ведь без по-настоящему разных идей и подходов к решению задачи эти методы теряют свою силу: выбирать лучший вариант не из чего, а обучать модель на однотипных примерах неэффективно.Решение предложили в методе SemDiD (Semantic-guided Diverse Decoding). Его суть, если кратко, перестать играть с токенами на поверхности и начать управлять генерацией напрямую в пространстве эмбеддингов.
Сначала, на старте, он принудительно направляет разные группы beams по ортогональным векторам в семантическом пространстве. Грубо говоря, это как дать команду разным поисковым группам двигаться строго на север, юг и запад, чтобы они гарантированно разошлись.
По мере генерации, когда жесткие директивы могут стать неоптимальными, включается второй механизм -
inter-group repulsion
. Он просто следит, чтобы смысловые траектории ответов не сближались, сохраняя их уникальность до самого конца.Но как, гоняясь за разнообразием, не получить на выходе бессвязный бред?
SemDiD подходит к контролю качества уникально. Он не пытается слепо максимизировать вероятность последовательности, а использует ее лишь как нижнюю границу, чтобы отсечь совсем уж плохие варианты.
Кроме того, алгоритм корректирует системные искажения, когда вероятность токенов искусственно завышается в зависимости от их позиции в тексте.
Для баланса между качеством и разнообразием используется адаптивный механизм на основе гармонического среднего, который в каждый момент времени уделяет больше внимания той метрике, которая проседает.
На бенчмарках для Best-of-N, от MMLU-Pro+ до GSM8K, SemDiD увеличивает покрытие (шанс найти верный ответ) на 1.4%-5.2% по сравнению с аналогами.
Генерируя для GRPO или RLOO семантически богатые наборы ответов, SemDiD предоставляет им более качественный материал для обучения. Это ускоряет сходимость на 15% и повышает финальную точность моделей.
@ai_machinelearning_big_data
#AI #ML #LLM #SemDiD
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM