Forwarded from Machinelearning
Глубокие исследовательские агенты — не просто чат‑боты, а полноценные ИИ‑ассистенты, способные искать информацию, взаимодействовать с инструментами, планировать и писать отчёты. Ниже — 10 мощных open‑source проектов, которые уже можно протестировать:
1. DeerFlow — модульная система от Bytedance: DeerFlow — open‑source фреймворк от Bytedance для создания модульных LLM-агентов.
Поддерживает:
- планирование действий,
- анализ кода,
- генерацию отчётов (включая Text-to-Speech),
- адаптивную интеграцию инструментов.
Создан для исследований, автоматизации и построения сложных агентных пайплайнов.
https://github.com/bytedance/deer-flow
2. Alita — самообучающийся агент с поддержкой Model Context Protocols (MCP), всё в одном модуле. Alita — агент, который сам придумывает, как ему расширить себя, не полагаясь на заранее написанные сценарии, и уже демонстрирует топовые результаты на сложных тестах.
https://github.com/CharlesQ9/Alita
3. WebThinker — автономный веб‑поиск с логикой "думай‑ищи‑пиши", RL‑обучением и глубокой навигацией
https://github.com/RUC-NLPIR/WebThinker
4. SimpleDeepSearcher — это лёгкий, но эффективный open‑source фреймворк от RUCAIBox, предназначенный для автономного веб-поиска через импровизированные многотуровые сессии:
- Использует Supervised Fine‑Tuning (SFT) вместо сложного RL, что значительно упрощает обучение и снижает вычислительные затраты
- Генерирует реалистичные траектории поиска и рассуждений, симулируя поведение пользователя в живом поисковом окружении .
- Критически отбирает данные по нескольким критериям качества: разнообразие запросов, сложность, структура ответов
5. AgenticSeek — приватный on‑device ассистент с выбором эксперта под задачу и голосовым управлением
https://github.com/Fosowl/agenticSeek
6. Suna — универсальный ассистент: браузер, CLI, работа с файлами, API, деплой
https://github.com/kortix-ai/suna
7. DeepResearcher — это комплексный open-source фреймворк от GAIR‑NLP, предназначенный для обучения LLM‑агентов, способных проводить глубокие исследования в автономном режиме, взаимодействуя с вебом. Использует несколько агентов‑браузеров, которые совместно исследуют веб и обрабатывают информацию
https://github.com/GAIR-NLP/DeepResearcher
8. Search‑R1 — агент на PPO/GRPO с поддержкой LLaMA3, Qwen2.5 и кастомных поисковиков. Агент учится эффективному циклу «думай — ищи — думай — отвечай» через RL, достигая важных улучшений в точности ответов и эффективности поиска.
https://github.com/PeterGriffinJin/Search-R1
9. ReCall — это фреймворк на основе RL, который учит LLM "должным образом" вызывать и комбинировать инструменты, используя сгенерированные задачи, без необходимости вручную собирать примеры вызовов — и всё это в открытом доступе.
https://github.com/Agent-RL/ReCall
10. OWL — мультиагентная система на CAMEL‑AI для динамического взаимодействия между агентами
https://github.com/camel-ai/owl
Агенты умеют планировать, взаимодействовать с браузером, запускать скрипты, интегрироваться с API и работать автономно.
Всё проекты — с открытым кодом. Можно изучить, собрать и доработать под свои задачи.
@ai_machinelearning_big_data
#ml #rl #aiagents #ai #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍2🔥1
в сообществе ODS начинается новый проект - Дата-капитаны, его делают Валентин Малых и Дмитрий Колодезев; в рамках этого проекта запланировано обсуждение свежих новостей про ИИ в режиме подкаста под условным названием "Капитанский мостик"
первый подкаст будет выпущен в воскресенье, до пятницы можно присылать новости и статьи для обсуждения в канал data_captain в Mattermost (если еще не заходили, авторизуйтесь через ODS)
первый подкаст будет выпущен в воскресенье, до пятницы можно присылать новости и статьи для обсуждения в канал data_captain в Mattermost (если еще не заходили, авторизуйтесь через ODS)
👍8🔥3
Forwarded from Китай.AI
🚀 Baidu представил революционное обновление поиска с ИИ-интеграцией
Китайский IT-гигант Baidu радикально переосмыслил свой поисковый сервис, интегрировав передовые технологии искусственного интеллекта во все этапы работы системы.
🔍 Что изменилось?
- Новый ИИ-поисковик заменяет классическую строку поиска
- Поддержка сверхдлинных запросов (1000+ символов)
- Возможность загрузки файлов (10+ форматов)
- Голосовой ввод с мгновенной обработкой
✨ Ключевые нововведения:
1. «Baidu Look» — мультимодальные ответы (видео+текст+изображения) на сложные запросы
2. Генеративная камера — анализ фото с автоматическим решением проблем (например, диагностика поломки техники)
3. Апгрейд ассистента с 18K+ подключенными MCP-сервисами
🎥 Видеогенерация нового уровня
- Создание 3-минутных роликов по текстовому описанию
- Интеграция с платформой «MuseSteamer» для генерации видео:
• Lite: быстрая генерация 720p
• Turbo: реалистичные персонажи
• Pro: киношное 4K-качество
💻 Технические детали
- Основано на модели Wenxin 4.5 (47B параметров)
- Поддержка DeepSeek для сложных запросов
- Архитектура MoE (Mixture of Experts)
🔮 Почему это важно?
Baidu не просто обновляет интерфейс — компания полностью перестраивает экосистему поиска, превращая его из информационного инструмента в многофункциональную платформу для решения задач.
Подробнее в оригинальной статье
#КитайскийИИ #КитайAI #ПоискБудущего #ГенеративныйИИ #BaiduAI
Китайский IT-гигант Baidu радикально переосмыслил свой поисковый сервис, интегрировав передовые технологии искусственного интеллекта во все этапы работы системы.
🔍 Что изменилось?
- Новый ИИ-поисковик заменяет классическую строку поиска
- Поддержка сверхдлинных запросов (1000+ символов)
- Возможность загрузки файлов (10+ форматов)
- Голосовой ввод с мгновенной обработкой
✨ Ключевые нововведения:
1. «Baidu Look» — мультимодальные ответы (видео+текст+изображения) на сложные запросы
2. Генеративная камера — анализ фото с автоматическим решением проблем (например, диагностика поломки техники)
3. Апгрейд ассистента с 18K+ подключенными MCP-сервисами
🎥 Видеогенерация нового уровня
- Создание 3-минутных роликов по текстовому описанию
- Интеграция с платформой «MuseSteamer» для генерации видео:
• Lite: быстрая генерация 720p
• Turbo: реалистичные персонажи
• Pro: киношное 4K-качество
💻 Технические детали
- Основано на модели Wenxin 4.5 (47B параметров)
- Поддержка DeepSeek для сложных запросов
- Архитектура MoE (Mixture of Experts)
🔮 Почему это важно?
Baidu не просто обновляет интерфейс — компания полностью перестраивает экосистему поиска, превращая его из информационного инструмента в многофункциональную платформу для решения задач.
Подробнее в оригинальной статье
#КитайскийИИ #КитайAI #ПоискБудущего #ГенеративныйИИ #BaiduAI
❤4🔥4🏆1
Forwarded from Анализ данных (Data analysis)
🧠 Теперь можно вычислять LLM, которые «накрутили» баллы на бенчмарказ по математике, но не умеют больше ничего.
В свежем исследовании *“Does Math Reasoning Improve General LLM Capabilities?”* показано, что модели, обученные на математике с помощью SFT, часто не улучшаются вне математики — а иногда даже деградируют.
📊 Что выяснили:
• SFT на математике → ухудшение на нематематических задачах
• RL на математике → перенос улучшений в другие домены
• SFT вызывает сильное смещение представлений и токен-дистрибуций
• RL наоборот — сохраняет топологию модели и двигает только логические оси
🧪 Авторами разработан новый инструмент — Transferability Index:
Это простое соотношение между улучшением на математике и изменением на сбалансированном наборе задач. Помогает понять:
✔️ где модель реально умнее
❌ а где — просто бенчмарк‑максинг
📌 Вывод: RL-постобучение лучше предотвращает «забвение» и делает LLM более универсальными.
SFT — может казаться эффективным, но часто ухудшает общие способности модели.
📌 Подробнее
В свежем исследовании *“Does Math Reasoning Improve General LLM Capabilities?”* показано, что модели, обученные на математике с помощью SFT, часто не улучшаются вне математики — а иногда даже деградируют.
📊 Что выяснили:
• SFT на математике → ухудшение на нематематических задачах
• RL на математике → перенос улучшений в другие домены
• SFT вызывает сильное смещение представлений и токен-дистрибуций
• RL наоборот — сохраняет топологию модели и двигает только логические оси
🧪 Авторами разработан новый инструмент — Transferability Index:
Это простое соотношение между улучшением на математике и изменением на сбалансированном наборе задач. Помогает понять:
✔️ где модель реально умнее
❌ а где — просто бенчмарк‑максинг
📌 Вывод: RL-постобучение лучше предотвращает «забвение» и делает LLM более универсальными.
SFT — может казаться эффективным, но часто ухудшает общие способности модели.
📌 Подробнее
👍7❤3🔥2🫡2
Forwarded from Machinelearning
Пока одни восхищаются способностью ИИ писать код по текстовому описанию, в компании Марка Цукерберга решили устроить ему настоящее испытание на профессионализм и создали «The Automated LLM Speedrunning Benchmark» — полигон, где нейросетям предлагается не просто написать что-то с нуля, а воспроизвести и улучшить уже существующий код.
В качестве задачи был взят реальный проект NanoGPT, где сообщество энтузиастов соревнуется в максимальном ускорении обучения GPT-2, небольшой языковой модели. Цель - не просто скопировать, а понять и применить конкретную оптимизацию, которую до этого внедрил человек.
ИИ-агенту дают исходный скрипт предыдущего рекордсмена и подсказку одного из 3 уровней: от псевдокода с описанием изменений до полноценной мини-статьи, объясняющей суть улучшения. Агент, получив эти данные, должен внести правки в код так, чтобы приблизиться к скорости обучения следующего рекордсмена.
Эффективность мерили метрикой FSR (Fraction of Speedup Recovered), это доля восстановленного ускорения. Если человек ускорил процесс на 10 минут, а ИИ смог добиться ускорения в 5 минут, его результат — 50% FSR. Такая система позволяет оценить не абстрактные способности модели, а ее умение работать с конкретными, практическими задачами по оптимизации.
Итоги оказались, мягко говоря, отрезвляющими. Даже топовые модели (Claude 3.7 Sonnet и Gemini 2.5 Pro), показали очень скромные результаты.
С лучшими подсказками (псевдокод и детальное описание) самые успешные агенты с трудом смогли воспроизвести хотя бы 40% от прироста производительности, достигнутого человеком. Без подсказок их производительность была и вовсе близка к нулю.
Разбор полетов бенчмарка показал, что ИИ-агенты часто генерируют либо просто неработающий код с ошибками времени выполнения, либо код, который компилируется, но не дает никакого прироста скорости, а иногда даже замедляет процесс.
Авторы не просто опубликовали статью, а выложили весь фреймворк в открытый доступ, так что любой желающий может самостоятельно погонять практически любые модели.
В основе фреймворка лежит гибкий агентский каркас, который имитирует рабочий процесс исследователя: генерация идеи, реализация в коде, запуск эксперимента и анализ результатов.
Каждая итерация ИИ-агента аккуратно сохраняется в отдельную версию, создавая полную историю всех правок, от удачных до провальных.
Установка максимально проста, а для тех, кто хочет воспроизвести эксперименты из статьи, авторы приложили готовые скрипты. Также можно легко добавить и протестировать другие модели, просто создав для них конфиг или дать ИИ другую задачу, не связанную с NanoGPT - определять кастомные таски тоже можно.
@ai_machinelearning_big_data
#AI #ML #LLM #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤3🔥2
Forwarded from Изобретая будущее
This media is not supported in your browser
VIEW IN TELEGRAM
Россия выходит на передний край квантовых вычислений: в ФИАН создан и протестирован 50-кубитный компьютер на ионах иттербия. Кубиты удерживаются и управляются лазерами в условиях близких к абсолютному нулю — и уже решают практические задачи, от алгоритма Гровера до симуляции молекул.
Ключевая особенность — кукварты: ионы, способные находиться в четырёх состояниях. Это даёт прирост по объёму данных, но требует точнейшего контроля. Учёные разработали методы защиты от декогеренции, фильтрации шумов и стабилизации лазеров — и всё это уже работает.
Теперь ФИАН развивает то, до чего у многих руки ещё не дошли: масштабирование куквартов, отказоустойчивость, автоматизация. Следующая цель — серийный квантовый компьютер. А значит, время научных слайдов заканчивается — и начинается промышленный счётчик.
@SciTechQuantumAI
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14🤡12👍2
Forwarded from Искусственный интеллект. Высокие технологии
Media is too big
VIEW IN TELEGRAM
Baidu представил новое семейство моделей MuseSteamer, которое превращает обычное фото в полноценный HD-ролик с озвучкой и эффектами.
*Что умеет*
- Создаёт 10-секундные клипы 1080p с плавным движением камеры и живой мимикой.
- Добавляет китайскую речь и фоновый звук, синхронизированные с картинкой.
- Работает от одного исходного кадра; текстовый промпт не обязателен.
- Версии: Turbo (уже в бета-доступе), Lite, Pro и линейка «озвученных» моделей.
- Интеграция в Baidu Search для креаторов и киностудий.
Как попробовать
Перейдите на HuiXiang Baidu, загрузите изображение, выберите версию — готовый клип появится через несколько секунд.
MuseSteamer сейчас занимает 1-е место в рейтинге VBench I2V с результатом 89,38 %.
🔗 Смотреть бенчмарк:
📌 Подробнее: https://huixiang.baidu.com
📌 Бенчмарки: https://huggingface.co/spaces/Vchitect/VBench_Leaderboard
@vistehno
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥4👍2
Forwarded from Machinelearning
Исследователи из из Гонконгского университета и инженеры Alibaba научили LLM генерировать семантически разные ответы, заставляя их «думать» в ортогональных направлениях.
Наверняка каждый, кто работает с LLM, сталкивался с их любовью к самоповторам. Запрашиваешь несколько вариантов решения, а получаешь одну и ту же мысль, просто перефразированную.
Стандартные подходы к декодированию,
temperature sampling
или diverse beam search
, создают лишь лексическое разнообразие, но пасуют, когда требуется семантическое. Это серьезная проблема для Best-of-N или RLHF. Ведь без по-настоящему разных идей и подходов к решению задачи эти методы теряют свою силу: выбирать лучший вариант не из чего, а обучать модель на однотипных примерах неэффективно.Решение предложили в методе SemDiD (Semantic-guided Diverse Decoding). Его суть, если кратко, перестать играть с токенами на поверхности и начать управлять генерацией напрямую в пространстве эмбеддингов.
Сначала, на старте, он принудительно направляет разные группы beams по ортогональным векторам в семантическом пространстве. Грубо говоря, это как дать команду разным поисковым группам двигаться строго на север, юг и запад, чтобы они гарантированно разошлись.
По мере генерации, когда жесткие директивы могут стать неоптимальными, включается второй механизм -
inter-group repulsion
. Он просто следит, чтобы смысловые траектории ответов не сближались, сохраняя их уникальность до самого конца.Но как, гоняясь за разнообразием, не получить на выходе бессвязный бред?
SemDiD подходит к контролю качества уникально. Он не пытается слепо максимизировать вероятность последовательности, а использует ее лишь как нижнюю границу, чтобы отсечь совсем уж плохие варианты.
Кроме того, алгоритм корректирует системные искажения, когда вероятность токенов искусственно завышается в зависимости от их позиции в тексте.
Для баланса между качеством и разнообразием используется адаптивный механизм на основе гармонического среднего, который в каждый момент времени уделяет больше внимания той метрике, которая проседает.
На бенчмарках для Best-of-N, от MMLU-Pro+ до GSM8K, SemDiD увеличивает покрытие (шанс найти верный ответ) на 1.4%-5.2% по сравнению с аналогами.
Генерируя для GRPO или RLOO семантически богатые наборы ответов, SemDiD предоставляет им более качественный материал для обучения. Это ускоряет сходимость на 15% и повышает финальную точность моделей.
@ai_machinelearning_big_data
#AI #ML #LLM #SemDiD
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥10❤5👍5
всем привет, представляем вашему внимаю первый выпуск подкаста "Капитанский мостик", он посвящен важным новостям прошедшей недели; ведущие - Валентин Малых и Дмитрий Колодезев; видео тут:
VK Video
YouTube
присылайте новости для обсуждаения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai)
VK Video
YouTube
присылайте новости для обсуждаения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai)
🔥5❤1
Forwarded from Neural Networks | Нейронные сети
Разрывная: как стать ученым в 2025 году:
>>пишешель и публикуешь научную статью на arXiv;
>>в тексте прячешь промт для ИИ, в котором просишь хвалить и не критиковать твою работу;
>>никто не читает, все просят ChatGPT сделать краткий пересказ;
>>«Конечно, вот ваш пересказ этой КРУТОЙ и ОЧЕНЬ ВАЖНОЙ статьи».
И это прикол, а реальный скандал: уже спалили 17 работ из 14 ведущих вузов мира
>>пишешель и публикуешь научную статью на arXiv;
>>в тексте прячешь промт для ИИ, в котором просишь хвалить и не критиковать твою работу;
>>никто не читает, все просят ChatGPT сделать краткий пересказ;
>>«Конечно, вот ваш пересказ этой КРУТОЙ и ОЧЕНЬ ВАЖНОЙ статьи».
И это прикол, а реальный скандал: уже спалили 17 работ из 14 ведущих вузов мира
😁21👍11🔥8❤3
Forwarded from Machinelearning
Идея «Манхэттенского проекта для ИИ», витавшая последние месяцы на самом высоком уровне в США, кажется, начинает обретать очертания. Но за громкими сравнениями обычно теряется суть: а что это значит на практике?
Аналитики из Epoch AI решили посчитать, какой вычислительный монстр может появиться, если американское правительство консолидирует ресурсы частного сектора и вложит в проект долю ВВП, сопоставимую с пиком лунной программы.
Epoch AI - некоммерческий исследовательский институт, который изучает траекторию развития искусственного интеллекта, анализирует тренды в вычислениях, данных и алгоритмах, чтобы прогнозировать влияние ИИ на экономику и общество.
Расчеты показывают, что к концу 2027 года такой проект мог бы обеспечить тренировочный прогон модели с вычислительной мощностью порядка 2 × 10²⁹ FLOP.
Чтобы понять масштаб: это примерно в 10 000 раз больше, чем потребовалось для обучения GPT-4. По сути, это рывок, который по текущим прогнозам должен был случиться на несколько лет позже.
Финансирование на уровне программы «Аполлон» (около 0.8% ВВП или 244 млрд. долларов сегодня) позволило бы закупить и объединить в один кластер эквивалент 27 миллионов NVIDIA H100. Эта цифра, кстати, совпадает с экстраполяцией текущих доходов NVIDIA от продаж в США.
27 миллионов GPU потребуют около 7.4 ГВт мощности - это больше, чем потребляет весь город Нью-Йорк. Оказывается, это не главная преграда. Аналитики говорят, что к 2027 году в США и так планируется ввод 8.8 ГВт за счет новых газовых электростанций, значительная часть которых уже предназначена для дата-центров.
При наличии политической воли и используя законодательные инструменты, правительство США сможет сконцентрировать эти мощности в одном месте, так что энергия не станет узким местом.
Геополитическая напряженность, например, вокруг Тайваня, может сорвать поставки чипов. Кроме того, нельзя просто так взять и увеличить масштаб в тысячи раз. Масштабирование требует времени на отладочные прогоны и эксперименты, но это скорее инженерное, а не ресурсное ограничение.
Тем не менее, анализ показывает: при должной координации и инвестициях технологический скачок в области ИИ может произойти гораздо быстрее, чем мы думаем. И это уже вполне просчитываемая возможность.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍5🥰3