Media is too big
VIEW IN TELEGRAM
Apple накрыла волна увольнений ведущих инженеров из ИИ-подразделения. Jian Zhang, возглавлявший исследования ИИ в области робототехники, перешел к Марку Цукербергу. За ним последовали еще 3 ключевых сотрудника из команды Foundation Models, которая занималась разработкой платформы Apple Intelligence. Всего, за последнее время, команда потеряла около 10 человек.
Основными причинами ухода называют как агрессивный наем со стороны конкурентов, предлагающих огромные зарплаты, так и внутренние проблемы. Низкий моральный дух в команде связывают со слабой реакцией на анонс Apple Intelligence и возможным решением компании использовать сторонние ИИ-модели вместо собственных разработок.
bloomberg.com
ИИ-платформа для работы с заметками NotebookLM получила крупное обновление аудиофункций. Теперь сервис может генерировать на основе пользовательского контента аудио-дорожки в 3 новых форматах.
Режим «Brief» создает быструю двухминутную аудиосводку по ключевым идеям. В режиме «Critique» два ИИ-собеседника анализируют текст, выступая в роли редакторов. Самый необычный формат — «Debate», который имитирует спор с противоположными точками зрения для стресс-теста идей. Кроме того, добавили новые мужские и женские голоса, чтобы дать пользователям больше возможностей для персонализации.
NotebookLM в сети Х
Этот релиз - вторая версия модели SFX для генерации звуковых эффектов по текстовому описанию. В v2 повысили качество звука и частотe дискретизации до 48 кГц, а максимальная длительность увеличена с 22 до 30 секунд. Добавилась возможность бесшовно создавать зацикленные звуки, что особенно полезно для фоновых эмбиент-дорожек. Генерация доступна как через веб-интерфейс, так и по API.
Обновление затронуло и связанный инструмент SB-1 Soundboard — браузерную звуковую панель, которая теперь также поддерживает модель v2 и получила поддержку MIDI. Новые звуковые эффекты доступны в форматах MP3 и WAV на всех тарифных планах, включая бесплатный.
ElevenLabs в сети Х
Amazon представил функцию Lens Live, которая обновляет визуальный поиск в мобильном приложении. Теперь пользователям не нужно делать снимок — достаточно навести камеру на объект, и система в реальном времени начнет показывать совпадающие или похожие товары из каталога. Прямо в интерфейсе камеры можно сфокусироваться на конкретной вещи, добавить ее в корзину или список желаний. В Lens Live интегрирован ИИ-ассистент Rufus, который предлагает краткие сводки о товаре и генерирует уточняющие вопросы.
Технически решение работает на базе легковесной on-device CV-модели для распознавания объектов. Для сопоставления с базой данных Amazon применяется модель глубокого обучения с использованием Amazon OpenSearch и SageMaker. Функция уже доступна части пользователей в США на iOS.
aboutamazon.com
Microsoft совместно с банком Barclays разработала архитектуру аналогового оптического компьютера (AOC) для решения задач оптимизации и ИИ. Согласно исследованию, опубликованному в Nature, новая система решает "проблему Фон Неймана", объединяя вычисления и память, и не нуждается в цифро-аналоговых преобразованиях.
Расчетная производительность AOC - 500 TOPS на ватт при 8-битной точности. Это делает его более чем в 100 раз энергоэффективнее топовых графических процессоров. Система построена на базе доступных компонентов: проекторы, линзы и сенсоры, а вычисления производятся за счет изменения интенсивности проходящего света.
Microsoft планирует поделиться с научным сообществом алгоритмом-решателем и цифровым двойником установки для дальнейшего изучения технологии.
news.microsoft.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥59❤29👍18💘1
Tencent опубликовали довольно интересный проект - POINTS-Reader. Это VLM для OCR английского и китайского языков на 4 млрд. параметров на базе Qwen2.5-3B-Instruct, которая обошла GPT-4o и Gemini на бенче
OmniDocBench
.POINTS-Reader - это философия предельной простоты c прямолинейным конвейером: на вход подается изображение документа и фиксированный промпт, а на выходе получается извлеченный текст.
Никаких этапов постобработки, скриптов для очистки или дополнительных моделей — результат сразу готов к использованию.
Помимо скромной базовой Qwen2.5, в POINTS-Reader использовали умеренный по нынешним меркам Vision Transformer -
NaViT
на 600 млн. параметров. И это осознанный инженерный шаг в угоду простоте и производительности.Современные фреймворки для инференса, будь то SGLang или vLLM, в первую очередь оптимизированы под LLM-часть, из-за чего громоздкий ViT становится узким местом и серьезно замедляет всю систему.
Такая компактная архитектура превосходно показала себя на тестах. На комплексном
OmniDocBench
модель набрала 0.133 для английских документов и 0.212 для китайских. Эти цифры ставят POINTS-Reader в один ряд с гораздо более тяжелыми и сложными системами.Секрет проекта кроется в двухэтапной стратегии подготовки данных, которая полностью отказывается от дистилляции знаний у моделей-учителей.
На первом этапе модель получает базовые навыки OCR, обучаясь на синтетике. Дальше начинается самый интересный этап — непрерывная самоэволюция. Модель используется для генерации аннотаций на реальных документах, после чего лучшие из полученных образцов используются для ее дообучения. Этот итеративный процесс позволяет постоянно повышать качество как самой модели, так и генерируемых ею данных.
Этот метод к самосовершенствованию описан в техотчете как очень гибкий и применимый, по словам Tencent, практически к любой другой архитектуре.
Модель пока не очень уверенно справляется со сложными макетами, вроде газетной верстки, что может приводить к повторению или пропуску контента. Аналогичные трудности возникают и при обработке рукописного текста, например, в чеках или заметках. Кроме того, на данный момент POINTS-Reader поддерживает только английский и китайский языки.
@ai_machinelearning_big_data
#AI #ML #VLM #POINTSReader #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤38👍16🔥5🥰2💋2💘1
UDR — настраиваемый агент для глубокого ресёрча, который «оборачивается» вокруг любого LLM.
Почему это важно:
По сути, это гибкий ресёрч-агент, который можно адаптировать под любой рабочий процесс.
@ai_machinelearning_big_data
#NVIDIA #UDR #UniversalDeepResearch #AI #LLM #ResearchAgent #AIAgents #DeepResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍73❤25🔥11😁1🤔1👀1💘1
Модельку можно запускать прямо на телефоне или ноутбуке, без интернета и с сохранением приватности.
EmbeddingGemma - новый лидер среди открытых многоязычных моделей <500M на MTEB
• 308M параметров, но по качеству обгоняет все модели до 500M (по MTEB)
• Работает очень быстро: менее 15 мс на EdgeTPU (256 токенов)
• Понимает 100+ языков
• Размер эмбеддингов можно уменьшать (768 → 128) без потери качества
• Контекст до 2000 токенов
• Уже доступна в Sentence-Transformers, LangChain, llama.cpp, transformers.js, Weaviate и др.
@ai_machinelearning_big_data
#AI #Google #Gemma #EmbeddingGemma #ML #DeepLearning #LLM #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93🔥28❤22🥰2🤔2💘1
Media is too big
VIEW IN TELEGRAM
Функция "Проекты" (Projects) теперь доступна не только по подписке, но и для бесплатных пользователей ChatGPT. "Проекты" работают как цифровые рабочие пространства, где можно объединять чаты, справочные файлы и пользовательские инструкции, связанные с одной долгосрочной задачей. Основная фишка "Проектов" - встроенная память. ChatGPT запоминает контекст всех разговоров и документов в рамках конкретного проекта.
Вместе с этим OpenAI увеличила лимиты на загрузку файлов (до 5 для бесплатных аккаунтов, Plus до 25, а Pro до 40), добавила элементы управления памятью для каждого проекта и возможность их кастомизации. Обновление уже доступно в веб-версии и в приложении для Android, релиз для iOS ожидается в ближайшее время.
OpenAI в сети X
Китайский стартап разрабатывает платформу на базе агентного ИИ. Новая система проектируется для самостоятельного выполнения многошаговых задач от имени пользователя, требуя лишь минимальных начальных инструкций.
Ключевой особенностью ИИ-агента станет способность к самообучению и улучшению своих действий на основе предыдущего опыта. По информации от источников, знакомых с планами компании, основатель DeepSeek Лян Вэньфэн нацелен на запуск нового программного обеспечения уже в четвертом квартале этого года.
bloomberg.com
Облачный провайдер CoreWeave объявил о приобретении стартапа OpenPipe. Компания помогает разработчикам создавать кастомизированные ИИ-агенты с использованием RL через свой популярный опен-сорс инструментарий ART (Agent Reinforcement Trainer).
Эта сделка продолжает стратегию CoreWeave по расширению технологического стека, начатую с покупки платформы Weights & Biases в марте. Вся команда и клиентская база OpenPipe переходят в CoreWeave. Финансовые условия сделки стороны не раскрывают.
businesswire.com
Компания анонсировала создание собственной экосистемы для найма, которая объединит ИИ-платформу для поиска работы и расширенную программу сертификации, чтобы напрямую связать работодателей с кандидатами, чьи навыки в области ИИ можно верифицировать. Сама платформа будет использовать модели для сопоставления компетенций соискателей с требованиями вакансий, опираясь на собственную таксономию навыков.
Система сертификации вырастет из OpenAI Academy и предложит несколько уровней квалификации: от базовой ИИ-грамотности до продвинутого промпт-инжиниринга. Процесс обучения и сдачи экзаменов будет интегрирован в режим Study непосредственно в ChatGPT. Для корпоративных клиентов предусмотрена интеграция через SSO и API, а также механизм обратной связи для адаптации учебных курсов под реальные запросы рынка.
openai.com
Инженеры из Университет Эссекса при поддержке NVIDIA установили новый мировой рекорд в компьютерном моделировании. Эксперимент позволил впервые на практике наблюдать термодинамический предел — ключевое понятие, объясняющее, как свойства материи проявляются в макроскопических системах.
Для симуляции использовалась стоечная архитектура NVIDIA GB200 NVL72, которая позволила смоделировать поведение до 70 триллионов взаимодействующих частиц. Система достигла рекордной производительности почти в 115 000 обновлений решетки в наносекунду.
Результаты исследования, опубликованные в Physical Review Research, могут ускорить разработку новых дисплеев, магнитных материалов и дать более глубокое понимание фундаментальных свойств материи.
essex.ac.uk
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤32👍22🔥11💘1
Автор новостного ресурса Daily Dose of Data Science собрал самые интересные релизы крупных датасетов и моделей. Среди них — Yambda-5B от команды Яндекса, крупнейший в мире открытый музыкальный рекомендательный датасет.
В Yambda-5B 4,79 млрд обезличенных взаимодействий: прослушивания, лайки и дизлайки треков. Датасет уже привлек внимание мировых исследователей и обещает стать важным инструментом для развития рекомендательных систем.
🔗 Подробнее
@ai_machinelearning_big_data
#ai #ml #dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34👍19🥰9❤8😁2🍓2🗿2💘1
Примеры выглядят кафово: Minecraft в швейцарских Альпах, на фестивале Burning Man или с альтернативными наборами персонажей.
Игровой мир можно менять «на лету», без подргузки.
Демку можно попробовать в вебе или использовать как мод для Minecraft.
@ai_machinelearning_big_data
#AI #Gaming #Minecraft #Oasis2 #DecartAI #GameDev #Mods #AIDemo #RealtimeAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤40👍16😐9🥰5🗿1💘1
BAAI представила InfoSeek — открытую методику синтеза данных и учебный контур для глубоких исследований. Задачи такого класса выходят за рамки обычного извлечения фактов: модель должна раскладывать вопрос на подзадачи, координировать многошаговое рассуждение и проверять ответы по источникам.
Эти задачи формализуются как HCSP — иерархические задачи удовлетворения ограничений, решение которых возникает только при последовательном сужении кандидатов на нескольких уровнях, где каждый внутренний узел сам является подзадачей, а зависимость между узлами образует дерево исследования.
Базовая идея проста: данные строятся вокруг древа исследования. Вершины - сущности или атомарные факты, ребра - проверяемые отношения из Википедии и открытых страниц. Алгоритм синтеза явно управляет структурой, чтобы исключить недоопределенность или ранние "короткие замыкания".
В HCSP ответ формально равен пересечению множеств, заданных текущими ограничениями и рекурсивными подвопросами; в терминах дерева корень — финальный ответ. Такой подход не только задаёт глубину и ширину рассуждения, но и делает каждый промежуточный шаг проверяемым по конкретным утверждениям.
Планировщик контролирует глобальную сложность, выбирая цель и тип расширения, а Браузер добывает факты и ссылки из страницы сущности. 4 операции покрывают весь жизненный цикл:
Качество контролируется по 2 осям: сложность и проверяемость. Сначала вопросы прогоняются "в лоб": если мощная базовая модель отвечает правильно без поиска, образец исключается, так было отсеяно около 2%. Затем проверяется решаемость на фиксированном наборе страниц с примесями-дистракторами и все двусмысленное удаляется.
Итог: датасет с 50 тыс. пар вопрос–ответ и 16,5 тыс. траекторий размышлений с метками извлечения.
Тесты показали, что InfoSeek переносится за пределы домашнего домена. На классических наборах для извлечения фактов и мульти‑hop вопросов компактная модель InfoSeeker‑3B опережает типовые RAG и агентные пайплайны.
На BrowseComp‑Plus с фиксированным корпусом 100K страниц и BM25 точность достигает 16,5% при среднем 8,24 обращения к поиску, что выше, чем у Gemini 2.5 Flash, Sonnet 4 и GPT‑4.1 и значительно выше Qwen3‑32B и Search‑R1‑32B.
Замена обучающего набора NQ+HQA на InfoSeek поднимает точность с 3,0% до 16,5% и делает запросы осмысленно более частыми.
@ai_machinelearning_big_data
#AI #ML #DeepResearch #Dataset #InfoSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45❤15🔥9💘1
По бенчмаркам Qwen3-Max-Preview опережает предыдущий флагман Qwen3-235B-A22B-2507.
Внутренние тесты и первые отзывы пользователей говорят о том, что модель стала сильнее в диалогах, агентных задачах, следовании инструкциям и обладает более широкими знаниями.
Qwen обещают очень скоро выпустить ещё что-то интересное.
Qwen3-Max-Preview уже доступна в Qwen Chat и через Alibaba Cloud API.
Масштабирование работает.
@ai_machinelearning_big_data
#AI #Qwen3 #LLM #AlibabaCloud #QwenChat
Please open Telegram to view this post
VIEW IN TELEGRAM
❤57🔥36👍35