NVIDIA показала, как 1.5B-модель можно раскачать до топовых результатов в логике, математике, коду и STEM-задачам — без увеличения параметров модели.
📈 Результат после месяцев обучения:
+55% к логическим задачам
+14.7% к математике
+13.9% к коду
+25.1% к сложным STEM-вопросам
🛠 Как они это сделали:
– Использовали RL (обучение с подкреплением) на 5 типах задач, включая 40K примеров по математике и 24K по программированию
– Все ответы проверялись автоматически в "песочнице", которая оценивает, правильный ли результат
– Применили улучшенную стратегию обучения — *Group Relative Policy Optimization* — и добавили несколько хитрых трюков:
Все эти приёмы помогли сохранить интерес модели к поиску новых решений, а не скатываться к заученным паттернам.
Итог: модель не "застывает", а продолжает исследовать — и выдает стабильный рост качества без расширения архитектуры.
📄 Почитать статью полностью : arxiv.org/abs/2507.12507
@ai_machinelearning_big_data
#ml #ai #nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥122👍34❤18😐2🗿2😁1👨💻1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Alibaba опять в ударе, сегодня у нас релиз Wan2.2
Это первая в мире open-source модель генерации видео с архитектурой MoE и полным кинематографическим контролем!
🚀 Что внутри:
🔸 Первая MoE‑модель для видео — масштабируется без лишней нагрузки. Разные эксперты отвечают за этапы диффузии, работая в команде.
🔸 Кинематографический контроль — управляем светом, цветом, движением камеры и композицией прямо из prompt’а.
🔸 Полная open-source линейка:
-
-
-
📈 Умеет лучше всех генерировать *сложные движения* и выглядит уже почти как кино 🎥
🟢 GitHub: https://github.com/Wan-Video/Wan2.2
🟢 Hugging Face: https://huggingface.co/Wan-AI
🟢 ModelScope: https://modelscope.cn/organization/Wan-AI
@ai_machinelearning_big_data
#AI #VideoAI #GenerativeAI #OpenSource #Wan
Это первая в мире open-source модель генерации видео с архитектурой MoE и полным кинематографическим контролем!
🚀 Что внутри:
🔸 Первая MoE‑модель для видео — масштабируется без лишней нагрузки. Разные эксперты отвечают за этапы диффузии, работая в команде.
🔸 Кинематографический контроль — управляем светом, цветом, движением камеры и композицией прямо из prompt’а.
🔸 Полная open-source линейка:
-
Wan2.2-T2V-A14B
— текст → видео -
Wan2.2-I2V-A14B
— изображение → видео -
Wan2.2-TI2V-5B
— объединённая генерация 📈 Умеет лучше всех генерировать *сложные движения* и выглядит уже почти как кино 🎥
@ai_machinelearning_big_data
#AI #VideoAI #GenerativeAI #OpenSource #Wan
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥91👍28❤25👌2👨💻1
Media is too big
VIEW IN TELEGRAM
Обновленный интерфейс Copilot теперь расположен в левом верхнем углу окна бразуера. Он получил оптимизированный дизайн, голосовое управление и улучшенное понимание контекста.
Copilot способен анализировать содержимое нескольких открытых вкладок одновременно. Это позволяет, например, сравнивать варианты путешествий или выбирать ресторан, не переключаясь между страницами. Система автоматически распознает URL-адреса, поисковые запросы и команды в чате.
Новый режим уже доступен бесплатно. В будущем Microsoft планирует добавить функции сортировки истории по проектам и контекстные рекомендации.
Mustafa Suleyman (CEO Microsoft AI) в сети X
Runway представила свою новую модель Aleph. Она может вносить точечные изменения в уже существующие видеоролики с помощью текстовых команд. Пользователи могут добавлять и удалять объекты, изменять время суток, убирать дым или отражения.
Одной из самых заметных функций стала генерация совершенно новых ракурсов камеры. Модель также способна изменять возраст персонажей, перекрашивать объекты, создавать эффект зеленого экрана и переносить движение с видео на статичные изображения.
Сейчас Aleph доступна только для корпоративных и креативных партнеров, среди которых уже есть голливудская студия Lionsgate. Широкий доступ планируется в будущем.
runwayml.com
На Всемирной конференции по искусственному интеллекту в Шанхае Huawei впервые публично продемонстрировала свою новую вычислительную систему CloudMatrix 384. Эксперты рассматривают ее как прямого конкурента самой продвинутой на сегодня системы от Nvidia - GB200 NVL72.
CloudMatrix состоит из 384 новейших чипов 910C и, по некоторым метрикам, превосходит решение Nvidia, которое использует 72 чипа B200. Как отмечают аналитики из SemiAnalysis, Huawei компенсирует более слабую производительность отдельных чипов за счет их большего количества и инноваций на системном уровне.
Система уже эксплуатируется на облачной платформе Huawei.
reuters.com
Alibaba анонсировала свои первые умные очки Quark. Устройство, которое выйдет на рынок Китая к концу 2025 года, позиционируется как конкурент умным очкам от Ray-Ban.
По капотом у Quark большая языковая модель Qwen и ИИ-ассистент Quark, которые управляют функциями звонков, прослушивания музыки, перевода в реальном времени и покупок. Очки тесно интегрированы с экосистемой Alibaba: платежным сервисом Alipay, торговой площадкой Taobao и картографическим сервисом Amap.
Технологически устройство работает на чипе Qualcomm AR1 и, по заявлению компании, получилось на 40% тоньше существующих аналогов на рынке.
scmp.com
Независимый лейбл Hallwood заключил сделку с Imoliver - самым прослушиваемым автором, создающим музыку с помощью нейросети. Imoliver уже набрал более 3 миллионов прослушиваний своей песни "Stone" на платформе Suno.
Теперь трек выйдет на всех основных стриминговых сервисах 8 августа, а полноценный альбом запланирован на октябрь. Глава Suno Майки Шульман назвал это событие "ключевой вехой для будущего музыки".
hollywoodreporter.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46❤25🔥10🥰3👨💻1
В новом семействе GLM, Z.AI объединили в одной модели возможности для рассуждений, кодинга и агентных сценариев. Семейство построено на архитектуре MoE и может работать в двух режимах:
thinking mode
для сложных задач с использованием инструментов и non-thinking mode
для быстрых ответов.Интересно, что разработчики пошли по пути увеличения глубины модели (количества слоев), а не ширины (скрытого измерения), так как обнаружили, что модели с большим количеством слоев лучше справляются с рассуждениями.
Он поддерживает как синхронное, так и асинхронное обучение, что критически важно для агентных задач. Его инфраструктура полностью разделяет движки для роллаутов (сбора опыта) и движки для обучения, которые могут работать на разном железе.
Для их оценки использовались 3 бенчмарка. На TAU-bench модель GLM-4.5 показала результат в 70.1 балла, что практически идентично Claude 4 Sonnet (70.3) и заметно лучше, чем у o3 (61.2).
На бенчмарке для вызова функций Berkeley Function Calling Leaderboard v3 результат составил 77.8, снова опережая Claude 4 Sonnet с ее 75.2 баллами.
Но самый показательный результат был на BrowseComp, сложном тесте для веб-браузинга. В нем GLM-4.5 набрала 26.4, что выше, чем у Claude-4-Opus (18.8) и почти как у o4-mini-high (28.3).
Что касается классических задач на рассуждения, здесь модели показывают уверенные, хотя и не рекордные, результаты.
На MMLU Pro у GLM-4.5 84.6 балла, чуть меньше, чем у Claude 4 Opus (87.3) и Grok 4 (86.6).
В математическом тесте AIME24 модель набрала 91.0, ближайшие лидеры Qwen3 и Grok 4 - 94.1 и 94.3 соответственно.
На GPQA разрыв побольше: 79.1 у GLM-4.5 против 87.7 у Grok 4, а на сложном тесте по научной литературе HLE модель получила 14.4 балла, уступив Gemini 2.5 Pro (21.1) и Grok 4 (23.9).
В задачах, связанных с кодом, на тесте SWE-bench Verified модель набрала 64.2 балла, немного уступая Claude 4 Sonnet (70.4) и o3 (69.1), но опережая многие другие.
А вот в агентном кодинге, который оценивался людьми с помощью Claude Code, картина иная. В прямом сравнении GLM-4.5 выигрывает у Kimi K2 в 53.9% случаев и обходит Qwen3-Coder с винрейтом 80.8%.
Самый важный показатель - успешность вызова инструментов, где GLM-4.5 достигла 90.6%, опередив Claude-4-Sonnet (89.5%) и Kimi-K2 (86.2%).
@ai_machinelearning_big_data
#AI #ML #GLM #MoE #ZAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤63👍20🔥16👨💻1
✨ Что нового:
<think>
— теперь только быстрый "non-thinking" режим⚙️ С 3B активных параметров Qwen3-30B-A3B уже приближается к уровню GPT-4o и Qwen3-235B-A22B NT, при этом модель доступна для локального запуска.
@ai_machinelearning_big_data
#AI #ML #qwen #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
❤80👍36🔥19😍4👨💻1
Media is too big
VIEW IN TELEGRAM
Компания Марка Цукерберга предприняла агрессивную попытку переманить ключевых сотрудников из стартапа Thinking Machines Lab, основанного бывшим CTO OpenAI Мирой Мурати. По данным инсайдеров, компания сделала предложения более чем десятку специалистов. Одно из них превышало миллиард долларов за несколько лет, другие находились в диапазоне от 200 до 500 миллионов за 4 года.
Несмотря на беспрецедентные суммы, все сотрудники отклонили предложения Meta. Причинами отказа называют и без того высокое состояние, значительные доли в собственном стартапе и нежелание работать под руководством Марка Цукерберга.
wired.com
Робототехнический стартап SkildAI анонсировал «Skild Brain», фундаментальную ИИ-модель, которая может служить универсальным программным "мозгом" для широкого спектра роботов: от гуманоидов до промышленных манипуляторов.
На демонстрациях роботы успешно ориентировались в незнакомой среде и выполняли сложные многоэтапные действия. По словам основателей, новая технология сокращает разрыв между достижениями в области генеративного ИИ и их практическим применением в физической робототехнике.
SkildAI , вышедшая из стелс-режима в июле 2024 года, уже привлекла инвестиции от Amazon, SoftBank и Sequoia Capital.
skild.ai
Google расширил возможности NotebookLM, добавив функцию Video Overviews. Она автоматически генерирует видеоролики с озвучкой, которые наглядно объясняют содержимое загруженных файлов. Система сама подбирает изображения, цитаты, диаграммы и цифры из исходных материалов и представляет их в виде пошаговых слайдов.
Новая функция, дополняющая уже существующие аудиообзоры, позволяет гибко настраивать результат. Пользователи могут указать целевую аудиторию, задать учебные цели или выделить конкретные темы для фокуса.
Кроме того, Google обновила интерфейс Studio, разрешив сохранять несколько результатов одного типа (например, несколько майнд-карт) в одном блокноте. Обновление уже доступно для англоязычных пользователей, в будущем планируется поддержка других языков.
blog.google
Adobe выпустила в бета-версии Photoshop новые функции на базе модели Firefly. Одной из самых ожидаемых стала Generative Upscale, она увеличивает разрешение изображений до 8 мегапикселей без потери качества.
Инструмент Remove был обновлен, чтобы более реалистично и чисто убирать с фотографий лишние объекты, оставляя меньше артефактов. Появилась и совершенно новая функция Harmonize. Она автоматически анализирует контекст изображения и подгоняет цвет, свет и тени добавленных объектов, чтобы создать цельную композицию без долгой ручной коррекции.
Кроме того, Adobe анонсировала функцию Projects для более удобного управления файлами. Все нововведения уже доступны для тестирования в десктопной и веб-версиях Photoshop.
blog.adobe.com
ChatGPT Agent, способный выполнять многошаговые задачи, продемонстрировал неожиданную способность: он может проходить проверку "Я не робот" от Cloudflare. Пользователь Reddit опубликовал скриншоты, на которых агент в рамках задачи по конвертации видео самостоятельно нажимает на галочку "Подтвердите, что вы человек", комментируя свои действия.
Этот случай наглядно демонстрирует, насколько продвинулись ИИ-агенты. Они способны анализировать визуальный контекст, распознавая элементы веб-страниц и взаимодействуя с ними, как человек. В данном случае система поняла необходимость верификации и успешно ее прошла.
Прохождение CAPTCHA - лишь один из примеров возможностей нового агента. Другие пользователи уже показывают, как агент по их поручению заказывает продукты в супермаркете, самостоятельно составляя список покупок по общим критериям и укладываясь в заданный бюджет.
arstechnica.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤78👍31🔥11🙈6🤔4👨💻1💘1
Stack Overflow Developer Survey — это крупнейшее ежегодное исследование среди разработчиков по всему миру, которое проводит платформа Stack Overflow.
В 15‑й год в опросе приняли участие более 49 000 разработчиков из 177 стран. Опрос охватил 62 вопроса по 314 технологиям
76 % респондентов — профессиональные разработчики, большинство из них (66 %) — в возрасте 25–44 лет
- 80 % пишут код с помощью AI.
- Но лишь 29 % доверяют результатам ИИ (в 2024 было 40 %).
- 66 % тратят больше времени на отладку AI-кода, чем на его написание.
🏆 Claude Sonnet от Anthropic стала самой уважаемой LLM-моделью года — её отметили 67.5 % опрошенных.
💡 Но по желанию использовать на первом месте всё ещё OpenAI GPT — 51.2 % хотят с ней работать чаще всего.
- Cargo признан самым уважаемым DevOps‑инструментом (обогнал даже Terraform).
- Rust стабильно в топе любимых языков.
💡 Учёба и рост:
- 69 % изучают новые технологии, 44 % — с помощью AI.
- 36 % учат код ради AI-задач.
👨💻 VS Code лидирует, но Neovim — кумир:
- VS Code — самый используемый редактор.
- Neovim — самый «перспективный».
🧑🤝🧑 Сообщества & платформы
- 84 % разработчиков активно использовали Stack Overflow ( верится с трудом) в течение года (GitHub 67 %, YouTube 61 %)
- В опросе выяснилось: 35 % посещают SO из‑за проблем, связанных с AI‑кодом — ищут проверенную людьми информацию
📉 Меньше участников:
- В 2025 — 49k респондентов (в 2023 было 90k).
- Разработчики всё чаще критикуют перекос в сторону AI.
😕 Удовлетворённость работой & зарплаты
- Предыдущий опрос показал, что 80 % разработчиков были либо неудовлетворены, либо в состоянии «разочарованности» на работе. Интересно, как изменились показатели в 2025 году.
- В 2024 году выяснилось, что гибкость и зарплата перестали вносить равный вклад в удовлетворённость, теперь зарплата выше оказывает сильный эффект для топ‑25 % зарплатной шкалы
.- К примеру, мобильные и back‑end разработчики в UK и Нидерландах стали более удоволетворены работой за счёт более высоких зарплат
📎 Отчёт целиком: https://survey.stackoverflow.co/2025
@ai_machinelearning_big_data
#ai #stackoverflow
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍88❤28🔥11😁3💋2🤔1👨💻1
Media is too big
VIEW IN TELEGRAM
Глава техногиганта в своем обращении определил видение компании на ближайшее десятилетие. Центральное место в нем занимает концепция персонализированного ИИ-помощника, который будет доступен каждому.
Цукерберг прямо противопоставил этот подход видению конкурентов, где сверхинтеллект централизованно автоматизирует всю работу, а человечество живет на его обеспечении. Сам Марк считает, что прогресс достигается через реализацию индивидуальных устремлений.
Ключевым элементом этой экосистемы станут персональные устройства, в первую очередь очки, которые будут считывать контекст пользователя и станут основным вычислительным устройством. Цукерберг также отметил, что, несмотря на симпатию к open-source, компания будет более осмотрительно подходить к вопросам безопасности, решая, какие технологии можно делать открытыми.
businessinsider.com
Google объявила о своем намерении присоединиться к добровольному Кодексу по регулированию моделей ИИ общего назначения, предложенному Еврокомиссией. Таким образом, компания последует примеру других ключевых игроков рынка.
Вместе с тем, в Google выразили обеспокоенность по поводу грядущего AI Act. По мнению компании, некоторые его положения, выходящие за рамки действующего законодательства об авторском праве, и потенциальные задержки в процессах утверждения могут замедлить развитие и внедрение ИИ в Европе. Компания также опасается, что ее могут вынудить раскрыть коммерческие тайны.
blog.google
Стартап WithNeo анонсировал NEO - мультиагентную ИИ-систему для автоматизации всего цикла разработки в машинном обучении. Платформа использует 11 специализированных агентов, которые без участия человека выполняют весь спектр задач: от очистки данных и выбора моделей до настройки гиперпараметров и вывода кода в продакшен.
В WithNeo заявляют, что такой подход дает возможность просто описывать желаемый результат, а не писать код и связывать воедино разные компоненты. Инструмент позиционируется как следующий шаг в эволюции ИИ-ассистентов, превосходящий стандартные "копайлоты". В ходе ранних тестов система выбила медали в 34% соревнований на Kaggle.
heyneo.so
AlphaEarth Foundations, ИИ-модель от Google Deepmind, которая объединяет спутниковые данные (оптические, радарные, LiDAR) и климатическую информацию в единое цифровое представление планеты. По заявлению компании, система снижает количество ошибок на 23.9% и сжимает данные в 16 раз по сравнению с существующими методами, что удешевляет и ускоряет анализ массивов изображений.
Модель генерирует поля эмбеддингов с разрешением 10 метров для каждого квадрата 10x10 метров на Земле. Это позволяет отслеживать вырубку лесов, состояние посевов и другие изменения почти в реальном времени.
Набор данных Satellite Embedding доступен через платформу Google Earth Engine. Компания подчеркивает, что разрешение достаточно для экологического мониторинга, но не позволяет идентифицировать людей.
deepmind.google
Ideogram AI выпустил модель Ideogram Character, решающую одну из главных проблем text-to-image систем - сохранение визуальной консистентности персонажа на разных изображениях.
Новый инструмент позволяет поддерживать идентичность героя, используя всего одно референсное изображение. После этого пользователи могут генерировать того же персонажа в разных стилях, с разными эмоциями и при различном освещении без необходимости дообучения модели.
Функция уже начала развертываться для всех пользователей. На бесплатном тарифе дают опробовать функцию 10 раз. Ideogram Character доступна как в веб-версии, так и в приложении для iOS.
about.ideogram.ai
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤65👍28🔥11🤬3🤔2👨💻1
В основе технологического стека - семейство моделей Codestral, с обновленной моделью Codestral 25.08.
Эта версия показала измеримые улучшения, подтвержденные на реальных кодовых базах: на 30% увеличилось количество принятых автодополнений, на 10% вырос объем сохраняемого после подсказки кода, а число генераций, когда модель производит слишком длинный и некорректный код, сократилось на 50%.
В режиме чата модель также стала лучше: ее способность следовать инструкциям выросла на 5% по метрике IF Eval v8, а общие возможности в программировании улучшились в среднем на 5% по тесту MultiplE.
За это отвечает Codestral Embed, модель для создания векторных представлений, специально спроектированная для кода, а не для обычного текста. По заявлениям Mistral, она превосходит эмбеддинг-решения от OpenAI и Cohere в реальных задачах по извлечению кода.
Ключевое преимущество - возможность настройки размерности эмбеддингов (до 256 измерений с квантованием до INT8), что позволяет балансировать между качеством поиска и хранением данных, сохраняя высокую производительность.
Они реализованные через Devstral - агентскую систему на базе фреймворка OpenHands. Система ориентирована на задачи рефакторинга, генерации тестов и создание pull-реквестов.
На бенче SWE-Bench Verified модель Devstral Small 1.1 выбивает 53.6%, а Devstral Medium - 61.6%, значительно опережая Claude 3.5 и GPT-4.1-mini.
Devstral Small (24 млрд параметров) может работать на одной Nvidia RTX 4090 или Mac с 32 ГБ ОЗУ, что идеально для локальных или изолированных сред.
Все эти возможности объединяются в плагине Mistral Code для IDE от JetBrains и VS Code. Он автодополняет код с помощью Codestral 25.08 и автоматизирует рутину: написание коммитов или docstring’ов через Devstral, и семантический поиск на базе Codestral Embed.
Плагин учитывает контекст из
Git diffs
, истории терминала и инструментов статического анализа.Для корпоративных клиентов предусмотрено развертывание в облаке, VPC или полностью on-prem, а также интеграция с SSO, ведение логов аудита и отсутствие обязательной телеметрии.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65❤35🔥9🤣2😁1😢1👨💻1