Институт искусственного интеллекта Аллена выпустил OLMoASR, семейство из 6 моделей для автоматического распознавания английской речи.
По результатам тестов на 21 датасете, модели OLMoASR показали производительность, сопоставимую с Whisper от OpenAI, а в некоторых случаях и превзошли ее, особенно при работе с длинными аудиозаписями.
Проект полностью открытый: опубликованы не только веса моделей, но и датасет, код для обработки данных, а также скрипты для обучения и оценки. Все компоненты, включая код и данные, доступны на GitHub и Hugging Face.
@ai_machinelearning_big_data
#AI #ML #ASR #OLMoASR #AI2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36❤15👍6🥰6
This media is not supported in your browser
VIEW IN TELEGRAM
В этом году она пройдет 27 сентября в Москве и онлайн. Лидеры ML/AI рынка в третий раз соберутся, чтобы разобрать реальные кейсы и работающие решения, а не абстрактные исследования.
- RecSys - тренд на трансформеры и генеративные подходы
- NLP - от хаоса LLM в 2023 к зрелым бизнес-решениям
- CV - диффузионные модели и VLM
В этом году было подано рекордное количество заявок, программному комитету пришлось попотеть, чтобы выбрать самые достойные доклады при конкурсе из 8 заявок на место.
- Яндекс - От classifier-free guidance к диалогу: куда движется генерация изображений?
- Sber AI - Создание памяти для LLM на примере GigaChat
- Т-Банк - Синтетические данные против дефицита реальных: как мы прокачиваем LLM
- Отдельный онлайн-трек с докладами
- Keynote от Андрея Окунькова, лауреата Филдсовской медали. Это кстати эксклюзивная информация для ML-сообщества, анонса о выступлении Окунькова еще не было на сайте 🔥
Количество мест ограничено
▶️Регистрируйтесь, чтобы не пропустить
Реклама ООО «ЯНДЕКС» ИНН 7736207543
Please open Telegram to view this post
VIEW IN TELEGRAM
❤29🔥11🥰5😁3🤬2👏1🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 Демонстрация Unitree G1 прошла на UFC Shanghai
Президент UFC Дана Уайт столкнулся с неожиданным приемом робота на шоу в Шанхае.
В мае те же G1 участвовали в «Mecha Fighting Series» на World Robot Competition в Ханчжоу
Живые спорт-ивенты всё чаще становятся витриной для робототехники.
@ai_machinelearning_big_data
#Unitree #ufc #robots
Президент UFC Дана Уайт столкнулся с неожиданным приемом робота на шоу в Шанхае.
В мае те же G1 участвовали в «Mecha Fighting Series» на World Robot Competition в Ханчжоу
Живые спорт-ивенты всё чаще становятся витриной для робототехники.
@ai_machinelearning_big_data
#Unitree #ufc #robots
👍63😁23❤14🥰3🤔2
This media is not supported in your browser
VIEW IN TELEGRAM
Инженеры показали гуманоида, играющего в настольный теннис и способного отбить 106 ударов подряд.
Работает полностью автономно, без телоуправления.
- Планировщик прогнозирует траекторию мяча и выбирает точку, время и скорость удара.
- Контроллер на основе RL превращает план в согласованные движения рук и ног, удерживая баланс при замахе.
- Обучение основано на видео с реальных матчей, поэтому удары выглядят естественно, а не «роботизировано».
- Контур управления работает быстрее секунды, что позволяет вести долгие розыгрыши без сбоев.
@ai_machinelearning_big_data
#Berkeley #robots
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42❤27🔥14🥰3💘2🤨1
На Youtube вышла документалка о том, как создавался язык программирования Python и о том, как IT-сообщество сделало его одним из основ современной кодовой базы.
Для тех, кто хочет посмотреть на русском, можно открыть ссылку в Яндекс Браузере и включить нейросетевую озвучку живыми голосами.
@ai_machinelearning_big_data
#coding #Python
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥66👍47❤27💘2🥰1
Forwarded from Яндекс
Media is too big
VIEW IN TELEGRAM
Подписывайтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
🥱27❤19👍9🔥3🎄2😁1
✨ Awesome-falsehood — это подборка «заблуждений программистов», в которые мы часто верим, но которые на самом деле ложные.
В списке собраны распространённые ошибки и мифы из разных областей: даты и время, email, география, телефонные номера, почтовые адреса, интернационализация, работа с сетью, бизнес-логика, мультимедиа, типографика, идентификация пользователей, общество и даже наука.
- Помогает не попадаться на типичные грабли.
- Каждый раздел содержит реальные примеры и пояснения, почему привычные предположения не работают.
- От банального «валидный email всегда содержит один @» до сложного — «почтовый адрес можно записать в фиксированном формате» или «часовые пояса не меняются».
🔥 Репозиторий давно стал must-read для разработчиков, чтобы проектировать системы без скрытых багов.
👉 Провеить свои заблуждения иожно здесь: https://github.com/kdeldycke/awesome-falsehood
@ai_machinelearning_big_data
#awesome #github
В списке собраны распространённые ошибки и мифы из разных областей: даты и время, email, география, телефонные номера, почтовые адреса, интернационализация, работа с сетью, бизнес-логика, мультимедиа, типографика, идентификация пользователей, общество и даже наука.
- Помогает не попадаться на типичные грабли.
- Каждый раздел содержит реальные примеры и пояснения, почему привычные предположения не работают.
- От банального «валидный email всегда содержит один @» до сложного — «почтовый адрес можно записать в фиксированном формате» или «часовые пояса не меняются».
🔥 Репозиторий давно стал must-read для разработчиков, чтобы проектировать системы без скрытых багов.
👉 Провеить свои заблуждения иожно здесь: https://github.com/kdeldycke/awesome-falsehood
@ai_machinelearning_big_data
#awesome #github
❤35👍21🔥7👀6
👾Самое время собрать свою команду из IT-акул: Открыта регистрация на самый масштабный онлайн-хакатон в мире!
💸 40 млн рублей призового фонда:
— 1 млн рублей — для тех, кто займёт первое место
— 600 тысяч — второе
— 400 тысяч — третье
💼 20 актуальных задач от ведущих компаний страны: Газпромбанк.Тех, VK Tech, Kaspersky, АФЛТ-Системс (Группа «Аэрофлот»), Союзмультфильм, Avito, Итэлма.
⏳ 14 дней на разработку решений
Принять участие могут:
✔️ граждане РФ и других стран от 18 лет
✔️ специализация: Front / Back / FullStack, Web-разработчика, UX / UI дизайнеры, Product / Project-менеджеры, Data Scientists, Data Engineers, аналитики и другие специалисты
✔️ местоположение — неважно, всё проходит онлайн
Других ограничений нет!
📅 Успейте зарегистрироваться до 18 сентября!
Регистрация по ссылке 👉🏻 https://i.moscow/lct?utm_source=sp&utm_medium=social&utm_campaign=ai_machinelearning_big_data/?erid=2VtzqxNwh1L
📲 А больше новостей и подробностей — на нашем канале, подписывайтесь: https://yangx.top/leaders_hack
💸 40 млн рублей призового фонда:
— 1 млн рублей — для тех, кто займёт первое место
— 600 тысяч — второе
— 400 тысяч — третье
💼 20 актуальных задач от ведущих компаний страны: Газпромбанк.Тех, VK Tech, Kaspersky, АФЛТ-Системс (Группа «Аэрофлот»), Союзмультфильм, Avito, Итэлма.
⏳ 14 дней на разработку решений
Принять участие могут:
✔️ граждане РФ и других стран от 18 лет
✔️ специализация: Front / Back / FullStack, Web-разработчика, UX / UI дизайнеры, Product / Project-менеджеры, Data Scientists, Data Engineers, аналитики и другие специалисты
✔️ местоположение — неважно, всё проходит онлайн
Других ограничений нет!
📅 Успейте зарегистрироваться до 18 сентября!
Регистрация по ссылке 👉🏻 https://i.moscow/lct?utm_source=sp&utm_medium=social&utm_campaign=ai_machinelearning_big_data/?erid=2VtzqxNwh1L
📲 А больше новостей и подробностей — на нашем канале, подписывайтесь: https://yangx.top/leaders_hack
❤25🤣12🔥5🥰3👍2😁2
🚀 OpenAI **gpt-oss** с ультрадлинным контекстом!
Unsloth выпустили Flex Attention, который даёт до 61K контекста для gpt-oss bf16 при обучении на GPU с 80GB.
📊 Что это значит:
- 8× больше контекста
- потребляет на 50% меньше VRAM
- 1.5× быстрее по сравнению с альтернативами (включая FA3)
Для BF16 LoRA теперь можно тренировать с ~60K контекстом на одной H100 80GB.
🔗 Подробнее: https://docs.unsloth.ai/basics/long-context-gpt-oss-training
@ai_machinelearning_big_data
#Unsloth #OpenAI #gptoss #chatgpt
Unsloth выпустили Flex Attention, который даёт до 61K контекста для gpt-oss bf16 при обучении на GPU с 80GB.
📊 Что это значит:
- 8× больше контекста
- потребляет на 50% меньше VRAM
- 1.5× быстрее по сравнению с альтернативами (включая FA3)
Для BF16 LoRA теперь можно тренировать с ~60K контекстом на одной H100 80GB.
🔗 Подробнее: https://docs.unsloth.ai/basics/long-context-gpt-oss-training
@ai_machinelearning_big_data
#Unsloth #OpenAI #gptoss #chatgpt
👍48❤18🔥10💅4
Media is too big
VIEW IN TELEGRAM
Разработкой занимается новое подразделение компании Марка Цукерберга Superintelligence Labs. Модель, которую некоторые внутри компании называют Llama 4.5, должна исправить недостатки предыдущих версий: слабую производительность в кодинге и логических рассуждениях. Параллельно команда работает над исправлением ошибок в уже выпущенных версиях Llama 4 и фоном допиливает флагманскую модель "Behemoth".
businessinsider.com
FastVLM - линейка ультрабыстрых VL-моделей с гибридным энкодером FastViTHD, который значительно сокращает количество визуальных токенов и ускоряет их обработку. В сравнении с LLaVA-1.5, FastVLM показала в 3.2 раза более быстрый TTFT при сопоставимой производительности, а с LLaVa-OneVision модель достигает аналогичных результатов на бенчмарках, используя в 3.4 раза меньший энкодер.
В семейство входят три модели размером 500 миллионов, 1.5 миллиарда и 7 миллиардов параметров. Все они уже доступны на Hugging Face для некоммерческого использования.
huggingface.co
Обновление принесло значительные улучшения в качестве движений, визуальной детализации, согласованности и точности исполнения текстовых запросов. Новая функция Agent позволяет создать 5–30-секундный ролик, просто загрузив одно фото.
Генерация видео в разрешении 360p занимает 5 секунд, а 1080p - около минуты. До 1 сентября 2025 года доступ к V5 предоставляется бесплатно. Модель работает через веб-интерфейс, мобильные приложения и API.
Pixverse в сети X
Интеграция позволяет разработчикам генерировать и рефакторить код, а также общаться с ИИ, не покидая редактор. Изменения применяются в реальном времени и могут быть проверены в интерфейсе, похожем на pull-request.
Gemini работает через открытый протокол Agent Client Protocol, созданный Zed для связи ИИ-агентов со средами разработки. Zed основан на Rust и позиционируется как открытая альтернатива Microsoft VS Code.
developers.googleblog.com
Исследователи из Университета Ваасы предложили дешевую и экологичную альтернативу электронным датчикам для контроля состояния продуктов. Технология основана на использовании функциональных чернил, которые меняют цвет при изменении температуры или влажности, а сверточные нейронные сети с высокой точностью распознают даже малейшие изменения, которые не улавливают традиционные методы машинного зрения. Это решает проблему своевременного обнаружения порчи или повреждений.
Такие индикаторы можно наносить прямо на упаковку вместе с обычными этикетками, что почти не увеличивает стоимость. Технология может найти применение в пищевой промышленности и в фармацевтике для отслеживания условий хранения продукции.
interestingengineering.com
xAI обвиняет Xuechen Li в краже технологий Grok и попытке передать их OpenAI.
Факты:
- Продал акции xAI на $7 млн и уволился.
- Скопировал секретные файлы Grok на личное хранилище.
- Удалял логи и признался письменно.
xAI требует: вернуть и удалить данные, запретить Li работать над ИИ в OpenAI и выплатить компенсацию.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍66❤26🔥14💘1
Официальный аккаунт Qwen в сети X (ex-Twitter) написал, что сентябрь обещает быть "потрясающим" и нам всем нужно готовиться к волне интересных событий.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥87👍25❤13🥰8😁1
Stax - экспериментальный инструмент для разработчиков, который предлагает замену неформальному «вайб-тестингу» больших языковых моделей на структурированный, основанный на данных подход.
Stax оценивает модели на кастомных или готовых автоматизированных оценщиках, фокусируясь на метриках: беглость ответа, безопасность, задержка и процент успешного прохождения ручной проверки.
Есть дашборд для сравнения результатов разных моделей с визуальными индикаторами производительности.
Ключевые возможности: быстрые и повторяемые оценки, настройка метрик под конкретные продукты и сквозной рабочий процесс для экспериментов от прототипа до продакшена.
Инструмент должен помочь разработчикам принимать обоснованные решения при выборе и развертывании моделей.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤46👍14🔥5🤬4👀4
💡 Исследователи из ByteDance и Stanford предложили новый метод для генерации длинных видео — Mixture of Contexts.
🔑 В чём проблема:
Когда видео становится длинным, внимание модели сильно «раздувается»: растёт стоимость вычислений, модель теряет детали на генерациях, забывает персонажей и «дрейфует».
⚡ Чем интересен Mixture of Contexts:
- Видео разбивается на куски (кадры, шоты, подписи).
- Каждый запрос выбирает только нужные чанки, вместо того чтобы учитывать всю историю.
- Для этого используется простая оценка релевантности: сравнение признаков чанков с текущим запросом.
- Обязательно учитываются два «якоря»: полный текстовый промпт и локальный шот для деталей видео.
- Causal mask блокирует внимание к будущим кадрам, чтобы не было зацикливаний.
- Дальше применяется Flash Attention только к выбранным чанкам — вычисления растут не с длиной всего видео, а только с полезным контекстом.
📊 Результаты:
- В 7 раз меньше FLOPs
- В 2.2 раза быстрее работа
- На длинных сценах (180k токенов) отсекается 85% ненужного внимания
🎥 Итог:
- Короткие клипы сохраняют качество
- Длинные сцены становятся более плавными, а персонажи — стабильными
- Время генерации заметно сокращается
Главное: модель учится сама понимать, на что смотреть, получая «память» на минуты видео без изменения базовой архитектуры.
🟠 Подробнее
@ai_machinelearning_big_data
#AI #ML #ByteDance #Stanford #videogeneration
🔑 В чём проблема:
Когда видео становится длинным, внимание модели сильно «раздувается»: растёт стоимость вычислений, модель теряет детали на генерациях, забывает персонажей и «дрейфует».
⚡ Чем интересен Mixture of Contexts:
- Видео разбивается на куски (кадры, шоты, подписи).
- Каждый запрос выбирает только нужные чанки, вместо того чтобы учитывать всю историю.
- Для этого используется простая оценка релевантности: сравнение признаков чанков с текущим запросом.
- Обязательно учитываются два «якоря»: полный текстовый промпт и локальный шот для деталей видео.
- Causal mask блокирует внимание к будущим кадрам, чтобы не было зацикливаний.
- Дальше применяется Flash Attention только к выбранным чанкам — вычисления растут не с длиной всего видео, а только с полезным контекстом.
📊 Результаты:
- В 7 раз меньше FLOPs
- В 2.2 раза быстрее работа
- На длинных сценах (180k токенов) отсекается 85% ненужного внимания
🎥 Итог:
- Короткие клипы сохраняют качество
- Длинные сцены становятся более плавными, а персонажи — стабильными
- Время генерации заметно сокращается
Главное: модель учится сама понимать, на что смотреть, получая «память» на минуты видео без изменения базовой архитектуры.
@ai_machinelearning_big_data
#AI #ML #ByteDance #Stanford #videogeneration
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤105🔥28👍19👏2
Что внутри:
- Доступны модели Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B
- Поддержка 33 языков
- Chimera-7B — это первая в индустрии откртытая ансамблевая модель
- 1-е место в 30 из 31 категорий на международном конкурсе WMT25 (Workshop on Machine Translation 2025, крупнейшая в мире конференция-соревнование по машинному переводу)
- Hunyuan-MT-7B лидирует среди моделей своего размера
Demo: https://hunyuan.tencent.com/modelSquare/home/list
@ai_machinelearning_big_data
#AI #NLP #Translation #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤61👍27🔥14🍾3
Media is too big
VIEW IN TELEGRAM
OpenRouter выступает в роли единого API для доступа к множеству LLM, а его лидерборд отслеживает реальный объем использования моделей по количеству сгенерированных токенов.
Резкий рост популярности, скорее всего, связан с удачным позиционированием и экономикой. Grok Code Fast 1 предлагается как быстрый и недорогой инструмент для агентного кодинга. Выгодная цена и большой контекст делают модель идеальной для инструментов с высоким трафиком: IDE-ассистентов и кодинг-агентов, которые доминируют в списке самых популярных приложений на OpenRouter.
Важно понимать, что рейтинг отражает именно объем генерации, а не качество или точность модели. Он не измеряет безопасность или корректность кода. Поэтому первое место следует трактовать как "самая используемая модель на данной платформе в текущий момент", а не как "лучшая модель на рынке".
openrouter.ai
Команда из Университета Цинхуа разработала новый метол создания 3D-контента — Droplet3D, который использует видео для обучения моделей. Он извлекает из видеоданных информацию о пространственной согласованности и семантике объектов, что позволяет генерировать более качественные и разнообразные 3D-модели.
Для обучения была создан датасет Droplet3D-4M из 4 миллионов 3D-объектов с подробными текстовыми описаниями. На его основе дообучили видео-диффузионную модель DropletVideo.
Модель создает по текстовому запросу или изображению последовательные многовидовые рендеры, причем не только отдельных объектов, но и целых сцен. Код, набор данных и веса модели опубликованы в открытом доступе под лицензией Apache 2.0.
dropletx.github.io
Среди потенциальных арендаторов: AWS, Google, Microsoft и xAI, причем с Google переговоры продвинулись дальше всего.
Проект мощностью 5 ГВт станет крупнейшим объектом ИИ-инфраструктуры за пределами США. 1 Гвт уже зарезервирован под дата-центр Stargate от OpenAI, MGX, Softbank и Oracle. Остальные мощности G42 планирует оснащать чипами от AMD, Cerebras и Qualcomm, чтобы диверсифицировать поставки и не зависеть только от Nvidia.
Одной из бизнес-моделей кампуса станет концепция "цифровых посольств". G42 разрабатывает предложение для иностранных правительств по размещению их данных в ОАЭ, что может стать безопасной альтернативой, защищенной от стихийных бедствий и кибератак.
semafor.com
Инженеры из Университета Пенсильвании впервые успешно передали квантовые сигналы через коммерческие оптоволоконные сети с использованием стандартных интернет-протоколов (IP). Команда разработала специальный "Q-чип", который упаковывает квантовые сигналы вместе с традиционными, что позволяет им стабильно передаваться по обычным оптоволоконным линиям, при этом система автоматически корректирует шумовые помехи.
До этого момента квантовая связь требовала специализированной, изолированной инфраструктуры. Теперь доказана возможность использования существующих сетей, а это удешевляет и ускоряет создание квантового интернета.
science.org
Небольшой карибский остров Ангилья, неожиданно стал одним из главных бенефициаров ИИ-лихорадки. Еще в 1980-х годах острову было присвоено доменное имя
.ai,
которое теперь оказалось "золотой жилой". В 2024 году доходы Ангильи от продажи доменов составили 39 млн. долларов, это почти четверть (23%) всех доходов территории. Количество сайтов в зоне .ai за последние 5 лет выросло более чем в 10 раз, а за последний год — удвоилось.you.ai
bbc.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍34❤21🔥5