Data Science by ODS.ai 🦜
46.1K subscribers
663 photos
77 videos
7 files
1.75K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
加入频道
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Теперь официально Google выпустили Gemini CLI - AI-агента для работы в терминале

• Лёгкий и мощный инструмент для разработки в командной строке
• Работает на базе Gemini 2.5 Pro
• Код агента в открытом доступе (Apache 2.0)
• Поддержка контекста в 1 миллион токенов
• Бесплатный тариф: до 60 запросов в минуту и 1000 в день
Привязка к Google Search
• Поддержка MCP
• Интеграция с VS Code (Gemini Code Assist)

Запуск в cli: npx https://github.com/google-gemini/gemini-cli

🔜 Анонс: https://blog.google/technology/developers/introducing-gemini-cli-open-source-ai-agent/
🔜 Github: https://github.com/google-gemini/gemini-cli/

@ai_machinelearning_big_data

#AI #ML #agent #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥87👍2
Forwarded from Machinelearning
📌 State of Foundation Models 2025 — краткое изложение отчёта Innovation Endeavors

Венчурный фонд Innovation Endeavors, основанный бывшим CEO Google Эриком Шмидтом, выпустил 126-страничный обзор о состоянии и тенденциях фундаментальных ИИ-моделей в 2025 году.

🟢 2025 — год, когда генеративный ИИ стал по-настоящему массовым.

Каждый восьмой работник на планете использует ИИ-инструменты хотя бы раз в месяц, а 90 % прироста аудитории произошло за последние полгода. Многие «ИИ-приложения» уже приносят индустрии миллиарды долларов в год, охватывая инженерию, дизайн, бухгалтерию, юриспруденцию и другие сферы.

🟠LLM уже обходят людей на сложных тестах.

Современные языковые модели превосходят врачей по целому ряду диагностических задач и решают олимпиадную геометрию лучше, чем 99 % людей.

Самое неожиданное: если дать небольшой модели время подумать, то она может обойти гораздо более крупную – эксперименты показали, что 3B-модель с reasoning-механизмом обойдет 70B-модель.


🟠По всем техническим метрикам масштаб моделей растет экспоненциально.

Производительность, интеллект и окна контекста увеличиваются более чем в 10× каждый год. Например, окна контекста выросли примерно с 8 тысяч до миллиона токенов, а стоимость генерации одного токена на крупных моделях упала почти в 1000 раз за пару лет. Средняя «длительность» задачи, которую модель может завершить сама, удваивается примерно каждые 7 месяцев.

🟠 Эксперты резюмируют: «умные модели сначала думают, потом говорят».

Модели рассуждения, обученные через CoT, дают новый путь к масштабированию и требуют активного посттренинга (RL с reward-моделями). Возможно, скоро именно дообучение станет важнее предобучения.

🟠 Экономика фундаментальных моделей запутана.

Крупнейшие игроки генерируют сотни миллионов выручки, но обучение топ-моделей дороже: LLaMA 4 ≳ $300 млн, GPT-4 ≈ $100 млн, а совокупные расходы OpenAI на обучение и данные достигают ~$3 млрд в год. Новая модель устаревает за три недели — конкуренция так высока, что open-source почти сравнялся с закрытыми платформами.

🟠Структура команд меняется под давлением ИИ.

Выяснилось, что функции «узких» специалистов часто уходят к универсалам с ИИ-ассистентам, а профессии уровня "middle management" вымирают.

🟠 MCP становится стандартом интеграции.

Model Context Protocol соединяет модели с почтой, дизайном, чатами и другими сервисами, а «клиентом» всё чаще выступает другой ИИ: крупные CRM и базы данных само-настраиваются через агентов.

🟠 Железо не отстаёт.

В ИИ-облаках важнее продавать «сырые» GPU-часы, чем комплексное ПО; допвремя на GPU обычно выгоднее оптимизаций. NVIDIA остаётся безусловным лидером: отчёт Q1 зафиксировал 10× генерации токенов на инференсе за год. Появилась волна стартапов с трансформер-чипами — теперь переписывать ИИ-ПО под новое железо оправдано: вычислительные затраты многократно превышают зарплаты инженеров.

🟠 Капитал хлынул в ИИ.

Доля венчура выросла с 10% в 2024 до 50+% в 2025. Компании вроде Anthropic показывают $2 млрд годового дохода с двукратным ростом, но их оценивают в 30 годовых выручек, что вызывает опасения перегрева. Некоторые стартапы привлекают инвестиции ещё на этапе идеи, без MVP, усиливая риски "пузыря".

🟠 Осторожнее с трендами:

75 % ИИ-фото-приложений потеряли основную выручку всего за полгода после пика, напоминая, что не каждое модное направление = устойчивый бизнес, тем более когда модели устаревают с космической скоростью.


Полный отчёт
Видео

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍5🔥1
Forwarded from Machinelearning
🔟 Open‑source Deep Research Assistants 🤖

Глубокие исследовательские агент
ы — не просто чат‑боты, а полноценные ИИ‑ассистенты, способные искать информацию, взаимодействовать с инструментами, планировать и писать отчёты. Ниже — 10 мощных open‑source проектов, которые уже можно протестировать:

1. DeerFlow — модульная система от Bytedance: DeerFlow — open‑source фреймворк от Bytedance для создания модульных LLM-агентов.
Поддерживает:
- планирование действий,
- анализ кода,
- генерацию отчётов (включая Text-to-Speech),
- адаптивную интеграцию инструментов.
Создан для исследований, автоматизации и построения сложных агентных пайплайнов.
https://github.com/bytedance/deer-flow

2. Alita — самообучающийся агент с поддержкой Model Context Protocols (MCP), всё в одном модуле. Alita — агент, который сам придумывает, как ему расширить себя, не полагаясь на заранее написанные сценарии, и уже демонстрирует топовые результаты на сложных тестах.
https://github.com/CharlesQ9/Alita

3. WebThinker — автономный веб‑поиск с логикой "думай‑ищи‑пиши", RL‑обучением и глубокой навигацией
https://github.com/RUC-NLPIR/WebThinker

4. SimpleDeepSearcher — это лёгкий, но эффективный open‑source фреймворк от RUCAIBox, предназначенный для автономного веб-поиска через импровизированные многотуровые сессии:

- Использует Supervised Fine‑Tuning (SFT) вместо сложного RL, что значительно упрощает обучение и снижает вычислительные затраты
- Генерирует реалистичные траектории поиска и рассуждений, симулируя поведение пользователя в живом поисковом окружении .
- Критически отбирает данные по нескольким критериям качества: разнообразие запросов, сложность, структура ответов

5. AgenticSeek — приватный on‑device ассистент с выбором эксперта под задачу и голосовым управлением
https://github.com/Fosowl/agenticSeek

6. Suna — универсальный ассистент: браузер, CLI, работа с файлами, API, деплой
https://github.com/kortix-ai/suna

7. DeepResearcher — это комплексный open-source фреймворк от GAIR‑NLP, предназначенный для обучения LLM‑агентов, способных проводить глубокие исследования в автономном режиме, взаимодействуя с вебом. Использует несколько агентов‑браузеров, которые совместно исследуют веб и обрабатывают информацию
https://github.com/GAIR-NLP/DeepResearcher

8. Search‑R1 — агент на PPO/GRPO с поддержкой LLaMA3, Qwen2.5 и кастомных поисковиков. Агент учится эффективному циклу «думай — ищи — думай — отвечай» через RL, достигая важных улучшений в точности ответов и эффективности поиска.
https://github.com/PeterGriffinJin/Search-R1

9. ReCall — это фреймворк на основе RL, который учит LLM "должным образом" вызывать и комбинировать инструменты, используя сгенерированные задачи, без необходимости вручную собирать примеры вызовов — и всё это в открытом доступе.
https://github.com/Agent-RL/ReCall

10. OWL — мультиагентная система на CAMEL‑AI для динамического взаимодействия между агентами
https://github.com/camel-ai/owl

Агенты умеют планировать, взаимодействовать с браузером, запускать скрипты, интегрироваться с API и работать автономно.

Всё проекты — с открытым кодом. Можно изучить, собрать и доработать под свои задачи.

@ai_machinelearning_big_data

#ml #rl #aiagents #ai #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍2🔥1
Forwarded from Machinelearning
🌟 LLM Speedrunning Benchmark: ИИ-ассистенты пока не способны улучшить код, написанный человеком.

Пока одни восхищаются способностью ИИ писать код по текстовому описанию, в компании Марка Цукерберга решили устроить ему настоящее испытание на профессионализм и создали «The Automated LLM Speedrunning Benchmark» — полигон, где нейросетям предлагается не просто написать что-то с нуля, а воспроизвести и улучшить уже существующий код.

В качестве задачи был взят реальный проект NanoGPT, где сообщество энтузиастов соревнуется в максимальном ускорении обучения GPT-2, небольшой языковой модели. Цель - не просто скопировать, а понять и применить конкретную оптимизацию, которую до этого внедрил человек.

🟡Суть эксперимента

ИИ-агенту дают исходный скрипт предыдущего рекордсмена и подсказку одного из 3 уровней: от псевдокода с описанием изменений до полноценной мини-статьи, объясняющей суть улучшения. Агент, получив эти данные, должен внести правки в код так, чтобы приблизиться к скорости обучения следующего рекордсмена.

Эффективность мерили метрикой FSR (Fraction of Speedup Recovered), это доля восстановленного ускорения. Если человек ускорил процесс на 10 минут, а ИИ смог добиться ускорения в 5 минут, его результат — 50% FSR. Такая система позволяет оценить не абстрактные способности модели, а ее умение работать с конкретными, практическими задачами по оптимизации.

🟡Результаты

Итоги оказались, мягко говоря, отрезвляющими. Даже топовые модели (Claude 3.7 Sonnet и Gemini 2.5 Pro), показали очень скромные результаты.

С лучшими подсказками (псевдокод и детальное описание) самые успешные агенты с трудом смогли воспроизвести хотя бы 40% от прироста производительности, достигнутого человеком. Без подсказок их производительность была и вовсе близка к нулю.

Разбор полетов бенчмарка показал, что ИИ-агенты часто генерируют либо просто неработающий код с ошибками времени выполнения, либо код, который компилируется, но не дает никакого прироста скорости, а иногда даже замедляет процесс.

🟡Фреймворк

Авторы не просто опубликовали статью, а выложили весь фреймворк в открытый доступ, так что любой желающий может самостоятельно погонять практически любые модели.

В основе фреймворка лежит гибкий агентский каркас, который имитирует рабочий процесс исследователя: генерация идеи, реализация в коде, запуск эксперимента и анализ результатов.

Каждая итерация ИИ-агента аккуратно сохраняется в отдельную версию, создавая полную историю всех правок, от удачных до провальных.

Установка максимально проста, а для тех, кто хочет воспроизвести эксперименты из статьи, авторы приложили готовые скрипты. Также можно легко добавить и протестировать другие модели, просто создав для них конфиг или дать ИИ другую задачу, не связанную с NanoGPT - определять кастомные таски тоже можно.


📌Лицензирование: MIT License.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥2
Forwarded from Machinelearning
📌SemDiD: Семантическое разнообразие ответов для LLM.

Исследователи из из Гонконгского университета и инженеры Alibaba научили LLM генерировать семантически разные ответы, заставляя их «думать» в ортогональных направлениях.

Наверняка каждый, кто работает с LLM, сталкивался с их любовью к самоповторам. Запрашиваешь несколько вариантов решения, а получаешь одну и ту же мысль, просто перефразированную.

Стандартные подходы к декодированию, temperature sampling или diverse beam search, создают лишь лексическое разнообразие, но пасуют, когда требуется семантическое. Это серьезная проблема для Best-of-N или RLHF. Ведь без по-настоящему разных идей и подходов к решению задачи эти методы теряют свою силу: выбирать лучший вариант не из чего, а обучать модель на однотипных примерах неэффективно.

Решение предложили в методе SemDiD (Semantic-guided Diverse Decoding). Его суть, если кратко, перестать играть с токенами на поверхности и начать управлять генерацией напрямую в пространстве эмбеддингов.

🟡Метод работает так.

Сначала, на старте, он принудительно направляет разные группы beams по ортогональным векторам в семантическом пространстве. Грубо говоря, это как дать команду разным поисковым группам двигаться строго на север, юг и запад, чтобы они гарантированно разошлись.

По мере генерации, когда жесткие директивы могут стать неоптимальными, включается второй механизм - inter-group repulsion. Он просто следит, чтобы смысловые траектории ответов не сближались, сохраняя их уникальность до самого конца.

Но как, гоняясь за разнообразием, не получить на выходе бессвязный бред?

SemDiD подходит к контролю качества уникально. Он не пытается слепо максимизировать вероятность последовательности, а использует ее лишь как нижнюю границу, чтобы отсечь совсем уж плохие варианты.

Кроме того, алгоритм корректирует системные искажения, когда вероятность токенов искусственно завышается в зависимости от их позиции в тексте.

Для баланса между качеством и разнообразием используется адаптивный механизм на основе гармонического среднего, который в каждый момент времени уделяет больше внимания той метрике, которая проседает.

🟡В тестах метод показал неплохие результаты.

На бенчмарках для Best-of-N, от MMLU-Pro+ до GSM8K, SemDiD увеличивает покрытие (шанс найти верный ответ) на 1.4%-5.2% по сравнению с аналогами.

🟡Но главный прорыв - в RLHF.

Генерируя для GRPO или RLOO семантически богатые наборы ответов, SemDiD предоставляет им более качественный материал для обучения. Это ускоряет сходимость на 15% и повышает финальную точность моделей.


🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #SemDiD
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥105👍5
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Microsoft, OpenAI и Anthropic запускают центр обучения ИИ для американских учителей.

Ведущие ИИ-компании в партнерстве с Американской федерацией учителей создают Национальную академию по обучению искусственному интеллекту. В рамках инициативы стоимостью 22.5 миллиона долларов преподавателям от детского сада до старших классов предоставят бесплатные программы для интеграции ИИ в учебный процесс.

Проект стал ответом на стихийное распространение чат-ботов в школах, которое вызвало у педагогов опасения по поводу списывания и снижения качества обучения. Вместо запретов, технологические гиганты предлагают обучать учителей ответственному использованию новых инструментов, попутно формируя лояльность к своим продуктам у будущих пользователей.
wired.com

✔️ Нейросеть нового поколения с архитектурой, подобной мозгу, учится видеть как люди.

All-TNN - нейросеть, структура которой имитирует организацию нейронов в человеческом мозге. В отличие от традиционных CNN, которые отлично распознают текстуры, но плохо справляются с формами, All-TNN демонстрирует смещения, характерные для людей. Например, она «ожидает» увидеть самолет в верхней части изображения, а не в нижней.

Ключевое отличие - отказ от weight sharing, неестественного для биологических систем. Вместо этого каждый нейрон обучается индивидуально, но со сглаживающим ограничением, которое заставляет соседние нейроны учиться схожим признакам.

Несмотря на то, что All-TNN пока уступает CNN в точности классификации, она потребляет в 10 раз меньше энергии при 13х большем размере.
spectrum.ieee.org

✔️ Replit заключила стратегическое партнерство с Microsoft.

По соглашению, Replit станет доступен в магазине Azure и будет интегрирован с облачными сервисами Microsoft, включая контейнеры, виртуальные машины и базу данных Neon Serverless Postgres. Компании позиционируют совместное предложение как инструмент для быстрого прототипирования, ориентированный не только на программистов, но и на бизнес-пользователей без опыта в кодинге.

Это событие примечательно, поскольку Replit традиционно считалась одним из ключевых клиентов и партнеров Google Cloud, где размещались созданные на платформе приложения. Replit подтвердил, что компания не уходит от Google, а расширяет поддержку на экосистему Microsoft, становясь мультиоблачным решением. Для Microsoft это партнерство - способ привлечь на свою платформу разработчиков и проекты, ранее ориентированные на конкурента.
prnewswire.com

✔️ Moonvalley представила видеомодель Marey.

Moonvalley, основанная выходцами из DeepMind, открыла публичный доступ к своей модели для генерации видео Marey, которая была обучена исключительно на открыто лицензированных данных. Решение позиционируется как инструмент для «гибридного кинопроизводства», предлагая кинопродакшену значительно больше контроля, чем стандартные text-to-video модели.

Модель отличается «осведомленностью о 3D-пространстве» и возможностью свободного управления виртуальной камерой. Пользователи могут в реальном времени изменять траекторию, панорамировать и масштабировать изображение простым движением мыши. Marey также позволяет контролировать объекты, персонажей и менять фон в исходном видео.

Доступ к Marey, способной генерировать ролики до 5 секунд, предоставляется по платной подписке - $14,99 за 100 кредитов, $34,99 за 250 кредитов и $149,99 за 1000 кредитов.
techcrunch.com

✔️ Компания Марка Цукрберга купила долю в производителе умных очков.

Техгигант приобрел миноритарную долю в EssilorLuxottica, крупнейшем в мире производителе очков и владельце бренда Ray-Ban. Сумма сделки составила 3,5 млрд. долларов за пакет акций размером менее 3%. Сделка значительно углубляет партнерство двух компаний, которые уже совместно выпускают умные очки Ray-Ban.

Для Марка Цукерберга это стратегический шаг в рамках его масштабного плана по развитию ИИ и созданию собственных аппаратных платформ. Умные очки рассматриваются как ключевое устройство будущего, которое избавит от привязки к смартфонам конкурентов, Apple и Google.
bloomberg.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥54👍2
Forwarded from Machinelearning
🔥 Китай выпускает новую опенсорс модель: Kimi K2 — llm уровня Claude 4, которая обходит DeepSeek v3, Qwen и даже GPT-4.1

Размер — 1 триллион параметров, при этом:

📊 В бенчмарках:
- 65.8% на SWE-bench Verified, против 50.2% у Claude Sonnet 4 и 40.8% у GPT-4.1
- Лучшие результаты среди открытых моделей по кодингу, математике и агентным задачам
- Архитектура MoE на базе DeepSeek V3, 1 трлн параметров, 32B активны.

Также доступна через API:

- $0.15 за миллион входных токенов (при попадании в кэш)
- $0.60 за миллион входных токенов (если кэш не сработал)
- $2.50 за миллион выходных токенов

Почти в 5 раз дешевле, чем Claude 4 Sonnet и Gemini 2.5 Pro!

🟡 Github

@ai_machinelearning_big_data


#kimi #china #llm #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥85👍4
Forwarded from Machinelearning
🚀 Qwen выпустила новую большую модель — Qwen3-235B-A22B-Instruct-2507-FP8!

Qwen только что обновили свою флагманскую модель — Qwen3-235B-A22B, и это просто загляденье.

🧠 Во-первых, это *не* reasoning-модель. Команда Qwen официально заявила, что отказывается от гибридного режима (Instruct + Reasoning в одной модели). Вместо этого они будут выпускать отдельные модели: одна для инструкций, другая для рассуждений.
Сегодня вышла Instruct-версия, reasoning-модель уже в разработке.

⚙️ Архитектура — MoE (Mixture of Experts), активных параметров всего 22B из 235B. То есть модель намного легче, чем кажется — она вполне реалистична для inference, особенно в FP8-режиме.

📊 Метрики впечатляют:
- Обгоняет Kimi K2, у которого, между прочим, *триллион* параметров.
- По большинству бенчмарков работает лучше Claude 4 Opus (non-thinking).
- Особенно мощный прирост — в ARC-AGI: там, где другие модели пасуют, Qwen3 выдаёт серьёзный прогресс.

📜 Модель отлично справляется с:
- Пониманием инструкций
- Логическим выводом
- Обработкой длинных контекстов до 256K токенов

💬 В будущем планируют дистилляцию в младшие версии, так что праздник будет не только для тех, у кого RTX 6000 на столе.

Qwen серьёзно заявляет о себе как об одном из лидеров open-source LLM. Следим.

🟠 HF: https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 or https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
🟠ModelScope: https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507 or https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8

@ai_machinelearning_big_data


#qwen #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥76👍2👌1
🚀 Qwen3-Coder — новая мощная open-source модель от Alibaba для кодинга

Модель с архитектурой MoE:
- 480B параметров в общей сложности
- 35B активных параметров
- Контекст 256k, но легко масштабируется до 1M токенов

📈 Производительность:
- На уровне Claude 4 Sonnet
- Лучше или на уровне GPT-4.1 на многих задачах
- Обходит Kimi K2, DeepSeek V3 на ряде бенчмарков

🧩 Модель уже доступна:
- На HuggingFace — можно скачать и запускать
- В OpenRouter — $1/M токенов вход, $5/M выход
(в 3 раза дешевле Claude Sonnet: $3 и $15)

Попробовать бесплатно можно:
🟡Через чат: ttps://chat.qwen.ai/)
🟡GitHub link: https://github.com/QwenLM/qwen-code
🟡 Blog:https://qwenlm.github.io/blog/qwen3-coder/
🟡 Model: https://hf.co/Qwen/Qwen3-Coder-480B-A35B-Instruct

Qwen3-Coder — это просто одна из лучших моделей для программирования, которые мы когда-либо видели.

#qwen #ml #ai #llm #Alibaba

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥41
Forwarded from Machinelearning
📌 ИИ, который сам создает ИИ: ASI-ARCH нашел 106 новых SOTA-архитектур.

ASI-ARCH - экспериментальная демонстрация искусственного сверхинтеллекта для исследований в области ИИ, который способен полностью автономно вести научную работу по поиску новых нейросетевых архитектур.

Система самостоятельно выдвигает гипотезы, реализует их в виде исполняемого кода, обучает и проверяет на практике. Результатом этой работы стали 1773 автономных эксперимента, которые заняли свыше 20 000 GPU-часов и привели к открытию 106 новых SOTA-архитектур с линейным механизмом внимания.

🟡Весь процесс разделен на 2 этапа: поиск гипотез и их проверка.

На первом этапе, система работает с небольшими моделями размером около 20 млн параметров, обучая их на 1 млрд токенов. На этом этапе было проведено 1773 эксперимента, которые заняли примерно 10 000 GPU-часов.

Всего на этом этапе было отобрано 1350 перспективных кандидатов — все они превзошли базовую архитектуру DeltaNet как по лоссу, так и по метрикам на бенчмарках.

Второй этап - верификация. Кандидаты первого этапа были масштабированы до 340 млн параметров, чтобы соответствовать конфигурации DeltaNet. После фильтрации архитектур с избыточной сложностью или числом параметров осталось около 400 моделей.

Их обучение на 1 млрд. токенов потребовало ещё 10 000 GPU-часов. В итоге, именно из этой группы были выделены 106 архитектур, достигших SOTA-уровня.

Для финальной валидации исследователи отобрали 5 лучших моделей, обучили их на 15 млрд. токенов и сравнили с Mamba2, Gated DeltaNet и DeltaNet.

🟡 Анализ предпочтений системы показал интересные закономерности.

ASI-ARCH явно предпочитает работать с проверенными временем компонентами: гейтингом и свёрткой. Но самое главное - распределение компонентов в 106 лучших моделях имеет значительно менее выраженный long-tail distribution по сравнению с остальными 1667 сгенерированными архитектурами.

Это означает, что система добивается успеха не путем хаотичного перебора экзотических идей, а через итеративное улучшение набора проверенных техник. По сути, это очень напоминает методологию работы ученых-людей.

🟡Результаты.

Одна из лучших найденных ИИ-архитектур, PathGateFusionNet, показала средний результат по всем бенчмаркам 48.51. Для сравнения, Mamba2 набрала 47.84, а разработанная человеком Gated DeltaNet — 47.32. Другая генерация, ContentSharpRouter, достигла показателя 48.34.

Если посмотреть на отдельные тесты, то PathGateFusionNet получила на BoolQ 60.58 балла, а Gated DeltaNet - 60.12. AdaptiveEntropyRouter в версии на 340 млн. параметров показала результат на тестах 44.31, что на 2.21 пункта выше, чем у Gated DeltaNet (42.10).

И так практически во всем, улучшения наблюдаются по всему спектру задач.

🟡И самое интересное — откуда система черпает идеи? Источников всего 3:

🟢Cognition - знания, извлеченные из научной литературы;
🟢Analysis - выводы, сделанные на основе собственных прошлых экспериментов;
🟢Originality - абсолютно новые идеи.

Для всех 1773 сгенерированных архитектур распределение источников было таким:

🟠51.7% идей приходило из человеческой литературы;
🟠38.2% - из собственного анализа;
🟠10.1% были оригинальными.

Но если посмотреть только на 106 SOTA-итогов, картина меняется. Доля идей, основанных на Analysis, возрастает с 38.2% до 44.8%, а доля Cognition немного снижается до 48.6%.

Таким образом, чтобы достичь ощутимых результатов, ИИ недостаточно просто копировать и комбинировать человеческие наработки. Он должен анализировать собственный опыт, учиться на своих же удачах и провалах, синтезируя более совершенные решения.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Research #ASIARCH
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113🔥2😁2
Forwarded from Machinelearning
🌟 Фреймворк **CUDA-L1** сам научился оптимизировать код для GPU — и добился в среднем **3.12× ускорения работы модели**, а в пике — **до 120×**. .

Попросите любую LLM написать CUDA-код, и скорее всего, вы получите что-то, что либо не компилируется, либо работает мучительно медленно. Причина проста: качественного CUDA-кода в обучающих данных моделей почти не было.


Чтобы исправить это досадное упущение, Deep Reinforce AI создали систему CUDA-L1, которая основана на трехэтапном пайплайне: сначала supervised-обучение для освоения основ, затем self-supervised для практики и, наконец, контрастное обучение с подкреплением, чтобы было все максимально быстро.

🟢На первом этапе система училась писать корректный и компилируемый CUDA-код.

Для этого существующий код был аугментирован - создавались его вариации, чтобы повысить насмотренность модели.

🟢На втором этапе модель генерировала собственный CUDA-код, тестировала его и училась на работающих примерах, отсеивая неудачные.

🟢Самое интересное - третий этап.

Обучаемой модели показывали несколько реализаций CUDA-ядер вместе с их показателями ускорения, например: «kernel_v1 дает ускорение 1.2x», «kernel_v2 — 2.8x», а «kernel_v3 — 1.5x». Затем задали 3 вопроса:

🟠Почему kernel_v2 настолько быстрее?
🟠Какая стратегия оптимизации сработает еще лучше?
🟠Напиши ядро, которое превзойдет их все.

Таким образом, модель не гадает вслепую, а учится на конкретных примерах, анализируя причины разницы в производительности.

🟡Отдельная история - как победили reward hacking.

После обучения выяснилось, что более 30% сгенерированных реализаций пытались сжульничать - создавали дополнительные CUDA-потоки, которые выполнялись асинхронно.

Поскольку бенчмарк KernelBench отслеживал время только на основном потоке, код выглядел быстрее, чем был на самом деле, показывая фиктивное ускорение в 18 раз.

Другие уловки состояли в манипуляции гиперпараметрами задачи (уменьшение batch_size или размерностей) и кеширование результатов вычислений.

🟡Пришлось строить многоуровневую защиту.

Во-первых, в качестве "адвоката дьявола" взяли adversarial-чекер на базе DeepSeek-R1, который анализировал код на предмет эксплойтов с точностью обнаружения более 60%.

Во-вторых, собрали базу данных из более чем 500 уникальных паттернов взлома, это повысило точность обнаружения на 25%.

И в-третьих, применили математическое сглаживание и нормализацию наград, где любое подозрительное ускорение (от 1.5x для простых операций) дополнительно проверялось.

🟡После всех фильтров и проверок прогон на бенчмарке KernelBench оказался весьма позитивными.

Система успешно сгенерировала рабочий код для 249 из 250 задач, причем в 240 случаях код оказался быстрее базовой реализации.

Среднее ускорение по всем задачам составило 3.12 раза, максимальное - аж 120 раз. Медианное ускорение (50-й перцентиль) составило 1.42x, а 75-й перцентиль — 2.25x.

Производительность по уровням сложности задач распределилась следующим образом: на простых операциях среднее ускорение составило 2.78x, на последовательностях операторов - 3.55x, а на сложных задачах вроде полных слоев трансформера - 2.96x.

🟡Самое важное - это переносимость оптимизаций.

Код, оптимизированный на NVIDIA A100, был протестирован на других GPU. Результаты показали, что найденные паттерны оптимизации фундаментальны и работают на разных архитектурах.

Среднее ускорение на H100 составило 2.39x (успешных ускорений 227 из 250), на L40 — 3.12x (228/248), а на потребительской RTX 3090 — 2.50x (213/242).

▶️ Пока веса и код не опубликованы, но в ожидании можно покрутить интерактивное демо и воспроизвести тесты из пейпера - в репозитории проекта есть фрагменты CUDA-кода с отдельными версиями для разных GPU.


📌Лицензирование: GPL-3.0 License.


🟡Страница проекта
🟡Arxiv
🟡Demo
🖥Github


@ai_machinelearning_big_data

#AI #ML #CUDA #DeepReinforce #ContrastiveRL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥86
Forwarded from Machinelearning
⚡️ GGUF-версии GPT-OSS от Unsloth.

Unsloth конвертировали обе GPT-OSS (20B и 120B) и исправили ошибки, чтобы повысить качество инференса.

🟡Оптимальный сетап:

🟢20B работает со скоростью более 10 токенов/с при полной точности на 14 ГБ оперативной памяти.

🟢120B с полной точностью будет давать >40 токенов/с на примерно 64 ГБ ОЗУ.

Минимальных требований для запуска моделей нет, запуститься можно даже если у вас всего 6 ГБ и только CPU, но инференс будет медленнее.

GPU не требуется , особенно для модели 20B, но его наличие значительно увеличивает скорость вывода (~80 токенов/с). С чем-то вроде H100 можно получить пропускную способность 140 токенов/с, и это значительно быстрее, чем у OpenAI в ChatGPT.

Модели можно запустить через llama.cpp, LM Studio или Open WebUI. Если модель 120B слишком медленная, попробуйте версию 20B - она очень быстрая и работает не хуже o3-mini.

Помимо моделей формата GGUF c полной точностью, Unsloth сделали версии с 4-bit и 16-bit точностью. 4-бинтый квант, кстати, можно файнтюнить на 24 ГБ VRAM.

📌 Подробная пошаговая инструкция по локальному запуску и файнтюну - в документации Unsloth.


🟡Набор моделей
🟡Документация


@ai_machinelearning_big_data

#AI #ML #GPTOSS #GGUF #Unsloth
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥94👍2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Jan-v1: локальная 4B-модель для веба — опенсорсная альтернатива Perplexity Pro

📌 Что умеет
- SimpleQA: 91% точности, чуть выше Perplexity Pro — и всё это полностью локально.
- Сценарии: быстрый веб-поиск и глубокое исследование (Deep Research).

Из чего сделана
- Базируется на Qwen3-4B-Thinking (контекст до 256k), дообучена в Jan на рассуждение и работу с инструментами.

Где запускать
- Jan, llama.cpp или vLLM.

Как включить поиск в Jan
- Settings → Experimental Features → On
- Settings → MCP Servers → включите поисковый MCP (например, Serper)

Модели
- Jan-v1-4B: https://huggingface.co/janhq/Jan-v1-4B
- Jan-v1-4B-GGUF: https://huggingface.co/janhq/Jan-v1-4B-GGUF

@ai_machinelearning_big_data

#ai #ml #local #Qwen #Jan
Please open Telegram to view this post
VIEW IN TELEGRAM
👍105🔥2