Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
• Лёгкий и мощный инструмент для разработки в командной строке
• Работает на базе Gemini 2.5 Pro
• Код агента в открытом доступе (Apache 2.0)
• Поддержка контекста в 1 миллион токенов
• Бесплатный тариф: до 60 запросов в минуту и 1000 в день
• Привязка к Google Search
• Поддержка MCP
• Интеграция с VS Code (Gemini Code Assist)
Запуск в cli:
npx https://github.com/google-gemini/gemini-cli
@ai_machinelearning_big_data
#AI #ML #agent #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤7👍2
Forwarded from Machinelearning
Венчурный фонд Innovation Endeavors, основанный бывшим CEO Google Эриком Шмидтом, выпустил 126-страничный обзор о состоянии и тенденциях фундаментальных ИИ-моделей в 2025 году.
Каждый восьмой работник на планете использует ИИ-инструменты хотя бы раз в месяц, а 90 % прироста аудитории произошло за последние полгода. Многие «ИИ-приложения» уже приносят индустрии миллиарды долларов в год, охватывая инженерию, дизайн, бухгалтерию, юриспруденцию и другие сферы.
Современные языковые модели превосходят врачей по целому ряду диагностических задач и решают олимпиадную геометрию лучше, чем 99 % людей.
Самое неожиданное: если дать небольшой модели время подумать, то она может обойти гораздо более крупную – эксперименты показали, что 3B-модель с reasoning-механизмом обойдет 70B-модель.
Производительность, интеллект и окна контекста увеличиваются более чем в 10× каждый год. Например, окна контекста выросли примерно с 8 тысяч до миллиона токенов, а стоимость генерации одного токена на крупных моделях упала почти в 1000 раз за пару лет. Средняя «длительность» задачи, которую модель может завершить сама, удваивается примерно каждые 7 месяцев.
Модели рассуждения, обученные через CoT, дают новый путь к масштабированию и требуют активного посттренинга (RL с reward-моделями). Возможно, скоро именно дообучение станет важнее предобучения.
Крупнейшие игроки генерируют сотни миллионов выручки, но обучение топ-моделей дороже: LLaMA 4 ≳ $300 млн, GPT-4 ≈ $100 млн, а совокупные расходы OpenAI на обучение и данные достигают ~$3 млрд в год. Новая модель устаревает за три недели — конкуренция так высока, что open-source почти сравнялся с закрытыми платформами.
Выяснилось, что функции «узких» специалистов часто уходят к универсалам с ИИ-ассистентам, а профессии уровня "middle management" вымирают.
Model Context Protocol соединяет модели с почтой, дизайном, чатами и другими сервисами, а «клиентом» всё чаще выступает другой ИИ: крупные CRM и базы данных само-настраиваются через агентов.
В ИИ-облаках важнее продавать «сырые» GPU-часы, чем комплексное ПО; допвремя на GPU обычно выгоднее оптимизаций. NVIDIA остаётся безусловным лидером: отчёт Q1 зафиксировал 10× генерации токенов на инференсе за год. Появилась волна стартапов с трансформер-чипами — теперь переписывать ИИ-ПО под новое железо оправдано: вычислительные затраты многократно превышают зарплаты инженеров.
Доля венчура выросла с 10% в 2024 до 50+% в 2025. Компании вроде Anthropic показывают $2 млрд годового дохода с двукратным ростом, но их оценивают в 30 годовых выручек, что вызывает опасения перегрева. Некоторые стартапы привлекают инвестиции ещё на этапе идеи, без MVP, усиливая риски "пузыря".
75 % ИИ-фото-приложений потеряли основную выручку всего за полгода после пика, напоминая, что не каждое модное направление = устойчивый бизнес, тем более когда модели устаревают с космической скоростью.
⏩Полный отчёт
⏩Видео
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5🔥1
Forwarded from Machinelearning
Глубокие исследовательские агенты — не просто чат‑боты, а полноценные ИИ‑ассистенты, способные искать информацию, взаимодействовать с инструментами, планировать и писать отчёты. Ниже — 10 мощных open‑source проектов, которые уже можно протестировать:
1. DeerFlow — модульная система от Bytedance: DeerFlow — open‑source фреймворк от Bytedance для создания модульных LLM-агентов.
Поддерживает:
- планирование действий,
- анализ кода,
- генерацию отчётов (включая Text-to-Speech),
- адаптивную интеграцию инструментов.
Создан для исследований, автоматизации и построения сложных агентных пайплайнов.
https://github.com/bytedance/deer-flow
2. Alita — самообучающийся агент с поддержкой Model Context Protocols (MCP), всё в одном модуле. Alita — агент, который сам придумывает, как ему расширить себя, не полагаясь на заранее написанные сценарии, и уже демонстрирует топовые результаты на сложных тестах.
https://github.com/CharlesQ9/Alita
3. WebThinker — автономный веб‑поиск с логикой "думай‑ищи‑пиши", RL‑обучением и глубокой навигацией
https://github.com/RUC-NLPIR/WebThinker
4. SimpleDeepSearcher — это лёгкий, но эффективный open‑source фреймворк от RUCAIBox, предназначенный для автономного веб-поиска через импровизированные многотуровые сессии:
- Использует Supervised Fine‑Tuning (SFT) вместо сложного RL, что значительно упрощает обучение и снижает вычислительные затраты
- Генерирует реалистичные траектории поиска и рассуждений, симулируя поведение пользователя в живом поисковом окружении .
- Критически отбирает данные по нескольким критериям качества: разнообразие запросов, сложность, структура ответов
5. AgenticSeek — приватный on‑device ассистент с выбором эксперта под задачу и голосовым управлением
https://github.com/Fosowl/agenticSeek
6. Suna — универсальный ассистент: браузер, CLI, работа с файлами, API, деплой
https://github.com/kortix-ai/suna
7. DeepResearcher — это комплексный open-source фреймворк от GAIR‑NLP, предназначенный для обучения LLM‑агентов, способных проводить глубокие исследования в автономном режиме, взаимодействуя с вебом. Использует несколько агентов‑браузеров, которые совместно исследуют веб и обрабатывают информацию
https://github.com/GAIR-NLP/DeepResearcher
8. Search‑R1 — агент на PPO/GRPO с поддержкой LLaMA3, Qwen2.5 и кастомных поисковиков. Агент учится эффективному циклу «думай — ищи — думай — отвечай» через RL, достигая важных улучшений в точности ответов и эффективности поиска.
https://github.com/PeterGriffinJin/Search-R1
9. ReCall — это фреймворк на основе RL, который учит LLM "должным образом" вызывать и комбинировать инструменты, используя сгенерированные задачи, без необходимости вручную собирать примеры вызовов — и всё это в открытом доступе.
https://github.com/Agent-RL/ReCall
10. OWL — мультиагентная система на CAMEL‑AI для динамического взаимодействия между агентами
https://github.com/camel-ai/owl
Агенты умеют планировать, взаимодействовать с браузером, запускать скрипты, интегрироваться с API и работать автономно.
Всё проекты — с открытым кодом. Можно изучить, собрать и доработать под свои задачи.
@ai_machinelearning_big_data
#ml #rl #aiagents #ai #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍2🔥1
Forwarded from Machinelearning
Пока одни восхищаются способностью ИИ писать код по текстовому описанию, в компании Марка Цукерберга решили устроить ему настоящее испытание на профессионализм и создали «The Automated LLM Speedrunning Benchmark» — полигон, где нейросетям предлагается не просто написать что-то с нуля, а воспроизвести и улучшить уже существующий код.
В качестве задачи был взят реальный проект NanoGPT, где сообщество энтузиастов соревнуется в максимальном ускорении обучения GPT-2, небольшой языковой модели. Цель - не просто скопировать, а понять и применить конкретную оптимизацию, которую до этого внедрил человек.
ИИ-агенту дают исходный скрипт предыдущего рекордсмена и подсказку одного из 3 уровней: от псевдокода с описанием изменений до полноценной мини-статьи, объясняющей суть улучшения. Агент, получив эти данные, должен внести правки в код так, чтобы приблизиться к скорости обучения следующего рекордсмена.
Эффективность мерили метрикой FSR (Fraction of Speedup Recovered), это доля восстановленного ускорения. Если человек ускорил процесс на 10 минут, а ИИ смог добиться ускорения в 5 минут, его результат — 50% FSR. Такая система позволяет оценить не абстрактные способности модели, а ее умение работать с конкретными, практическими задачами по оптимизации.
Итоги оказались, мягко говоря, отрезвляющими. Даже топовые модели (Claude 3.7 Sonnet и Gemini 2.5 Pro), показали очень скромные результаты.
С лучшими подсказками (псевдокод и детальное описание) самые успешные агенты с трудом смогли воспроизвести хотя бы 40% от прироста производительности, достигнутого человеком. Без подсказок их производительность была и вовсе близка к нулю.
Разбор полетов бенчмарка показал, что ИИ-агенты часто генерируют либо просто неработающий код с ошибками времени выполнения, либо код, который компилируется, но не дает никакого прироста скорости, а иногда даже замедляет процесс.
Авторы не просто опубликовали статью, а выложили весь фреймворк в открытый доступ, так что любой желающий может самостоятельно погонять практически любые модели.
В основе фреймворка лежит гибкий агентский каркас, который имитирует рабочий процесс исследователя: генерация идеи, реализация в коде, запуск эксперимента и анализ результатов.
Каждая итерация ИИ-агента аккуратно сохраняется в отдельную версию, создавая полную историю всех правок, от удачных до провальных.
Установка максимально проста, а для тех, кто хочет воспроизвести эксперименты из статьи, авторы приложили готовые скрипты. Также можно легко добавить и протестировать другие модели, просто создав для них конфиг или дать ИИ другую задачу, не связанную с NanoGPT - определять кастомные таски тоже можно.
@ai_machinelearning_big_data
#AI #ML #LLM #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤3🔥2
Forwarded from Machinelearning
Исследователи из из Гонконгского университета и инженеры Alibaba научили LLM генерировать семантически разные ответы, заставляя их «думать» в ортогональных направлениях.
Наверняка каждый, кто работает с LLM, сталкивался с их любовью к самоповторам. Запрашиваешь несколько вариантов решения, а получаешь одну и ту же мысль, просто перефразированную.
Стандартные подходы к декодированию,
temperature sampling
или diverse beam search
, создают лишь лексическое разнообразие, но пасуют, когда требуется семантическое. Это серьезная проблема для Best-of-N или RLHF. Ведь без по-настоящему разных идей и подходов к решению задачи эти методы теряют свою силу: выбирать лучший вариант не из чего, а обучать модель на однотипных примерах неэффективно.Решение предложили в методе SemDiD (Semantic-guided Diverse Decoding). Его суть, если кратко, перестать играть с токенами на поверхности и начать управлять генерацией напрямую в пространстве эмбеддингов.
Сначала, на старте, он принудительно направляет разные группы beams по ортогональным векторам в семантическом пространстве. Грубо говоря, это как дать команду разным поисковым группам двигаться строго на север, юг и запад, чтобы они гарантированно разошлись.
По мере генерации, когда жесткие директивы могут стать неоптимальными, включается второй механизм -
inter-group repulsion
. Он просто следит, чтобы смысловые траектории ответов не сближались, сохраняя их уникальность до самого конца.Но как, гоняясь за разнообразием, не получить на выходе бессвязный бред?
SemDiD подходит к контролю качества уникально. Он не пытается слепо максимизировать вероятность последовательности, а использует ее лишь как нижнюю границу, чтобы отсечь совсем уж плохие варианты.
Кроме того, алгоритм корректирует системные искажения, когда вероятность токенов искусственно завышается в зависимости от их позиции в тексте.
Для баланса между качеством и разнообразием используется адаптивный механизм на основе гармонического среднего, который в каждый момент времени уделяет больше внимания той метрике, которая проседает.
На бенчмарках для Best-of-N, от MMLU-Pro+ до GSM8K, SemDiD увеличивает покрытие (шанс найти верный ответ) на 1.4%-5.2% по сравнению с аналогами.
Генерируя для GRPO или RLOO семантически богатые наборы ответов, SemDiD предоставляет им более качественный материал для обучения. Это ускоряет сходимость на 15% и повышает финальную точность моделей.
@ai_machinelearning_big_data
#AI #ML #LLM #SemDiD
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥10❤5👍5
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Ведущие ИИ-компании в партнерстве с Американской федерацией учителей создают Национальную академию по обучению искусственному интеллекту. В рамках инициативы стоимостью 22.5 миллиона долларов преподавателям от детского сада до старших классов предоставят бесплатные программы для интеграции ИИ в учебный процесс.
Проект стал ответом на стихийное распространение чат-ботов в школах, которое вызвало у педагогов опасения по поводу списывания и снижения качества обучения. Вместо запретов, технологические гиганты предлагают обучать учителей ответственному использованию новых инструментов, попутно формируя лояльность к своим продуктам у будущих пользователей.
wired.com
All-TNN - нейросеть, структура которой имитирует организацию нейронов в человеческом мозге. В отличие от традиционных CNN, которые отлично распознают текстуры, но плохо справляются с формами, All-TNN демонстрирует смещения, характерные для людей. Например, она «ожидает» увидеть самолет в верхней части изображения, а не в нижней.
Ключевое отличие - отказ от weight sharing, неестественного для биологических систем. Вместо этого каждый нейрон обучается индивидуально, но со сглаживающим ограничением, которое заставляет соседние нейроны учиться схожим признакам.
Несмотря на то, что All-TNN пока уступает CNN в точности классификации, она потребляет в 10 раз меньше энергии при 13х большем размере.
spectrum.ieee.org
По соглашению, Replit станет доступен в магазине Azure и будет интегрирован с облачными сервисами Microsoft, включая контейнеры, виртуальные машины и базу данных Neon Serverless Postgres. Компании позиционируют совместное предложение как инструмент для быстрого прототипирования, ориентированный не только на программистов, но и на бизнес-пользователей без опыта в кодинге.
Это событие примечательно, поскольку Replit традиционно считалась одним из ключевых клиентов и партнеров Google Cloud, где размещались созданные на платформе приложения. Replit подтвердил, что компания не уходит от Google, а расширяет поддержку на экосистему Microsoft, становясь мультиоблачным решением. Для Microsoft это партнерство - способ привлечь на свою платформу разработчиков и проекты, ранее ориентированные на конкурента.
prnewswire.com
Moonvalley, основанная выходцами из DeepMind, открыла публичный доступ к своей модели для генерации видео Marey, которая была обучена исключительно на открыто лицензированных данных. Решение позиционируется как инструмент для «гибридного кинопроизводства», предлагая кинопродакшену значительно больше контроля, чем стандартные text-to-video модели.
Модель отличается «осведомленностью о 3D-пространстве» и возможностью свободного управления виртуальной камерой. Пользователи могут в реальном времени изменять траекторию, панорамировать и масштабировать изображение простым движением мыши. Marey также позволяет контролировать объекты, персонажей и менять фон в исходном видео.
Доступ к Marey, способной генерировать ролики до 5 секунд, предоставляется по платной подписке - $14,99 за 100 кредитов, $34,99 за 250 кредитов и $149,99 за 1000 кредитов.
techcrunch.com
Техгигант приобрел миноритарную долю в EssilorLuxottica, крупнейшем в мире производителе очков и владельце бренда Ray-Ban. Сумма сделки составила 3,5 млрд. долларов за пакет акций размером менее 3%. Сделка значительно углубляет партнерство двух компаний, которые уже совместно выпускают умные очки Ray-Ban.
Для Марка Цукерберга это стратегический шаг в рамках его масштабного плана по развитию ИИ и созданию собственных аппаратных платформ. Умные очки рассматриваются как ключевое устройство будущего, которое избавит от привязки к смартфонам конкурентов, Apple и Google.
bloomberg.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥5❤4👍2
Forwarded from Machinelearning
Размер — 1 триллион параметров, при этом:
- 65.8% на SWE-bench Verified, против 50.2% у Claude Sonnet 4 и 40.8% у GPT-4.1
- Лучшие результаты среди открытых моделей по кодингу, математике и агентным задачам
- Архитектура MoE на базе DeepSeek V3, 1 трлн параметров, 32B активны.
Также доступна через API:
- $0.15 за миллион входных токенов (при попадании в кэш)
- $0.60 за миллион входных токенов (если кэш не сработал)
- $2.50 за миллион выходных токенов
Почти в 5 раз дешевле, чем Claude 4 Sonnet и Gemini 2.5 Pro!
@ai_machinelearning_big_data
#kimi #china #llm #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤5👍4
Forwarded from Machinelearning
🚀 Qwen выпустила новую большую модель — Qwen3-235B-A22B-Instruct-2507-FP8!
Qwen только что обновили свою флагманскую модель — Qwen3-235B-A22B, и это просто загляденье.
🧠 Во-первых, это *не* reasoning-модель. Команда Qwen официально заявила, что отказывается от гибридного режима (Instruct + Reasoning в одной модели). Вместо этого они будут выпускать отдельные модели: одна для инструкций, другая для рассуждений.
Сегодня вышла Instruct-версия, reasoning-модель уже в разработке.
⚙️ Архитектура — MoE (Mixture of Experts), активных параметров всего 22B из 235B. То есть модель намного легче, чем кажется — она вполне реалистична для inference, особенно в FP8-режиме.
📊 Метрики впечатляют:
- Обгоняет Kimi K2, у которого, между прочим, *триллион* параметров.
- По большинству бенчмарков работает лучше Claude 4 Opus (non-thinking).
- Особенно мощный прирост — в ARC-AGI: там, где другие модели пасуют, Qwen3 выдаёт серьёзный прогресс.
📜 Модель отлично справляется с:
- Пониманием инструкций
- Логическим выводом
- Обработкой длинных контекстов до 256K токенов
💬 В будущем планируют дистилляцию в младшие версии, так что праздник будет не только для тех, у кого RTX 6000 на столе.
Qwen серьёзно заявляет о себе как об одном из лидеров open-source LLM. Следим.
🟠 HF: https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 or https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
🟠 ModelScope: https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507 or https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
@ai_machinelearning_big_data
#qwen #ml #ai
Qwen только что обновили свою флагманскую модель — Qwen3-235B-A22B, и это просто загляденье.
🧠 Во-первых, это *не* reasoning-модель. Команда Qwen официально заявила, что отказывается от гибридного режима (Instruct + Reasoning в одной модели). Вместо этого они будут выпускать отдельные модели: одна для инструкций, другая для рассуждений.
Сегодня вышла Instruct-версия, reasoning-модель уже в разработке.
⚙️ Архитектура — MoE (Mixture of Experts), активных параметров всего 22B из 235B. То есть модель намного легче, чем кажется — она вполне реалистична для inference, особенно в FP8-режиме.
📊 Метрики впечатляют:
- Обгоняет Kimi K2, у которого, между прочим, *триллион* параметров.
- По большинству бенчмарков работает лучше Claude 4 Opus (non-thinking).
- Особенно мощный прирост — в ARC-AGI: там, где другие модели пасуют, Qwen3 выдаёт серьёзный прогресс.
📜 Модель отлично справляется с:
- Пониманием инструкций
- Логическим выводом
- Обработкой длинных контекстов до 256K токенов
💬 В будущем планируют дистилляцию в младшие версии, так что праздник будет не только для тех, у кого RTX 6000 на столе.
Qwen серьёзно заявляет о себе как об одном из лидеров open-source LLM. Следим.
@ai_machinelearning_big_data
#qwen #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤6👍2👌1
Forwarded from Анализ данных (Data analysis)
🚀 Qwen3-Coder — новая мощная open-source модель от Alibaba для кодинга
Модель с архитектурой MoE:
- 480B параметров в общей сложности
- 35B активных параметров
- Контекст 256k, но легко масштабируется до 1M токенов
📈 Производительность:
- На уровне Claude 4 Sonnet
- Лучше или на уровне GPT-4.1 на многих задачах
- Обходит Kimi K2, DeepSeek V3 на ряде бенчмарков
🧩 Модель уже доступна:
- На HuggingFace — можно скачать и запускать
- В OpenRouter — $1/M токенов вход, $5/M выход
(в 3 раза дешевле Claude Sonnet: $3 и $15)
Попробовать бесплатно можно:
🟡 Через чат: ttps://chat.qwen.ai/)
🟡 GitHub link: https://github.com/QwenLM/qwen-code
🟡 Blog:https://qwenlm.github.io/blog/qwen3-coder/
🟡 Model: https://hf.co/Qwen/Qwen3-Coder-480B-A35B-Instruct
Qwen3-Coder — это просто одна из лучших моделей для программирования, которые мы когда-либо видели.
#qwen #ml #ai #llm #Alibaba
@data_analysis_ml
Модель с архитектурой MoE:
- 480B параметров в общей сложности
- 35B активных параметров
- Контекст 256k, но легко масштабируется до 1M токенов
📈 Производительность:
- На уровне Claude 4 Sonnet
- Лучше или на уровне GPT-4.1 на многих задачах
- Обходит Kimi K2, DeepSeek V3 на ряде бенчмарков
🧩 Модель уже доступна:
- На HuggingFace — можно скачать и запускать
- В OpenRouter — $1/M токенов вход, $5/M выход
(в 3 раза дешевле Claude Sonnet: $3 и $15)
Попробовать бесплатно можно:
Qwen3-Coder — это просто одна из лучших моделей для программирования, которые мы когда-либо видели.
#qwen #ml #ai #llm #Alibaba
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥4❤1
Forwarded from Machinelearning
ASI-ARCH - экспериментальная демонстрация искусственного сверхинтеллекта для исследований в области ИИ, который способен полностью автономно вести научную работу по поиску новых нейросетевых архитектур.
Система самостоятельно выдвигает гипотезы, реализует их в виде исполняемого кода, обучает и проверяет на практике. Результатом этой работы стали 1773 автономных эксперимента, которые заняли свыше 20 000 GPU-часов и привели к открытию 106 новых SOTA-архитектур с линейным механизмом внимания.
На первом этапе, система работает с небольшими моделями размером около 20 млн параметров, обучая их на 1 млрд токенов. На этом этапе было проведено 1773 эксперимента, которые заняли примерно 10 000 GPU-часов.
Всего на этом этапе было отобрано 1350 перспективных кандидатов — все они превзошли базовую архитектуру DeltaNet как по лоссу, так и по метрикам на бенчмарках.
Второй этап - верификация. Кандидаты первого этапа были масштабированы до 340 млн параметров, чтобы соответствовать конфигурации DeltaNet. После фильтрации архитектур с избыточной сложностью или числом параметров осталось около 400 моделей.
Их обучение на 1 млрд. токенов потребовало ещё 10 000 GPU-часов. В итоге, именно из этой группы были выделены 106 архитектур, достигших SOTA-уровня.
Для финальной валидации исследователи отобрали 5 лучших моделей, обучили их на 15 млрд. токенов и сравнили с Mamba2, Gated DeltaNet и DeltaNet.
ASI-ARCH явно предпочитает работать с проверенными временем компонентами: гейтингом и свёрткой. Но самое главное - распределение компонентов в 106 лучших моделях имеет значительно менее выраженный long-tail distribution по сравнению с остальными 1667 сгенерированными архитектурами.
Это означает, что система добивается успеха не путем хаотичного перебора экзотических идей, а через итеративное улучшение набора проверенных техник. По сути, это очень напоминает методологию работы ученых-людей.
Одна из лучших найденных ИИ-архитектур, PathGateFusionNet, показала средний результат по всем бенчмаркам 48.51. Для сравнения, Mamba2 набрала 47.84, а разработанная человеком Gated DeltaNet — 47.32. Другая генерация, ContentSharpRouter, достигла показателя 48.34.
Если посмотреть на отдельные тесты, то PathGateFusionNet получила на BoolQ 60.58 балла, а Gated DeltaNet - 60.12. AdaptiveEntropyRouter в версии на 340 млн. параметров показала результат на тестах 44.31, что на 2.21 пункта выше, чем у Gated DeltaNet (42.10).
И так практически во всем, улучшения наблюдаются по всему спектру задач.
Для всех 1773 сгенерированных архитектур распределение источников было таким:
Но если посмотреть только на 106 SOTA-итогов, картина меняется. Доля идей, основанных на Analysis, возрастает с 38.2% до 44.8%, а доля Cognition немного снижается до 48.6%.
Таким образом, чтобы достичь ощутимых результатов, ИИ недостаточно просто копировать и комбинировать человеческие наработки. Он должен анализировать собственный опыт, учиться на своих же удачах и провалах, синтезируя более совершенные решения.
@ai_machinelearning_big_data
#AI #ML #Research #ASIARCH
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤3🔥2😁2
Forwarded from Machinelearning
Попросите любую LLM написать CUDA-код, и скорее всего, вы получите что-то, что либо не компилируется, либо работает мучительно медленно. Причина проста: качественного CUDA-кода в обучающих данных моделей почти не было.
Чтобы исправить это досадное упущение, Deep Reinforce AI создали систему CUDA-L1, которая основана на трехэтапном пайплайне: сначала supervised-обучение для освоения основ, затем self-supervised для практики и, наконец, контрастное обучение с подкреплением, чтобы было все максимально быстро.
Для этого существующий код был аугментирован - создавались его вариации, чтобы повысить насмотренность модели.
Обучаемой модели показывали несколько реализаций CUDA-ядер вместе с их показателями ускорения, например: «kernel_v1 дает ускорение 1.2x», «kernel_v2 — 2.8x», а «kernel_v3 — 1.5x». Затем задали 3 вопроса:
Таким образом, модель не гадает вслепую, а учится на конкретных примерах, анализируя причины разницы в производительности.
После обучения выяснилось, что более 30% сгенерированных реализаций пытались сжульничать - создавали дополнительные CUDA-потоки, которые выполнялись асинхронно.
Поскольку бенчмарк KernelBench отслеживал время только на основном потоке, код выглядел быстрее, чем был на самом деле, показывая фиктивное ускорение в 18 раз.
Другие уловки состояли в манипуляции гиперпараметрами задачи (уменьшение batch_size или размерностей) и кеширование результатов вычислений.
Во-первых, в качестве "адвоката дьявола" взяли adversarial-чекер на базе DeepSeek-R1, который анализировал код на предмет эксплойтов с точностью обнаружения более 60%.
Во-вторых, собрали базу данных из более чем 500 уникальных паттернов взлома, это повысило точность обнаружения на 25%.
И в-третьих, применили математическое сглаживание и нормализацию наград, где любое подозрительное ускорение (от 1.5x для простых операций) дополнительно проверялось.
Система успешно сгенерировала рабочий код для 249 из 250 задач, причем в 240 случаях код оказался быстрее базовой реализации.
Среднее ускорение по всем задачам составило 3.12 раза, максимальное - аж 120 раз. Медианное ускорение (50-й перцентиль) составило 1.42x, а 75-й перцентиль — 2.25x.
Производительность по уровням сложности задач распределилась следующим образом: на простых операциях среднее ускорение составило 2.78x, на последовательностях операторов - 3.55x, а на сложных задачах вроде полных слоев трансформера - 2.96x.
Код, оптимизированный на NVIDIA A100, был протестирован на других GPU. Результаты показали, что найденные паттерны оптимизации фундаментальны и работают на разных архитектурах.
Среднее ускорение на H100 составило 2.39x (успешных ускорений 227 из 250), на L40 — 3.12x (228/248), а на потребительской RTX 3090 — 2.50x (213/242).
@ai_machinelearning_big_data
#AI #ML #CUDA #DeepReinforce #ContrastiveRL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥8❤6
Forwarded from Machinelearning
Unsloth конвертировали обе GPT-OSS (20B и 120B) и исправили ошибки, чтобы повысить качество инференса.
Минимальных требований для запуска моделей нет, запуститься можно даже если у вас всего 6 ГБ и только CPU, но инференс будет медленнее.
GPU не требуется , особенно для модели 20B, но его наличие значительно увеличивает скорость вывода (~80 токенов/с). С чем-то вроде H100 можно получить пропускную способность 140 токенов/с, и это значительно быстрее, чем у OpenAI в ChatGPT.
Модели можно запустить через llama.cpp, LM Studio или Open WebUI. Если модель 120B слишком медленная, попробуйте версию 20B - она очень быстрая и работает не хуже o3-mini.
Помимо моделей формата GGUF c полной точностью, Unsloth сделали версии с 4-bit и 16-bit точностью. 4-бинтый квант, кстати, можно файнтюнить на 24 ГБ VRAM.
@ai_machinelearning_big_data
#AI #ML #GPTOSS #GGUF #Unsloth
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤4👍2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
- SimpleQA: 91% точности, чуть выше Perplexity Pro — и всё это полностью локально.
- Сценарии: быстрый веб-поиск и глубокое исследование (Deep Research).
Из чего сделана
- Базируется на Qwen3-4B-Thinking (контекст до 256k), дообучена в Jan на рассуждение и работу с инструментами.
Где запускать
- Jan, llama.cpp или vLLM.
Как включить поиск в Jan
- Settings → Experimental Features → On
- Settings → MCP Servers → включите поисковый MCP (например, Serper)
Модели
- Jan-v1-4B: https://huggingface.co/janhq/Jan-v1-4B
- Jan-v1-4B-GGUF: https://huggingface.co/janhq/Jan-v1-4B-GGUF
@ai_machinelearning_big_data
#ai #ml #local #Qwen #Jan
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤5🔥2