NeMo-Inspector от NVIDIA — это инструмент, который превращает анализ генераций из рутины в осмысленный процесс. Он не просто показывает результаты, а помогает их систематизировать, сравнивать и даже чистить данные.
NeMo-Inspector не просто просмотрщик логов. Это полноценная среда, где можно менять промпты на лету, маркировать проблемные данные и проверять гипотезы.
Для инженеров, которые хотят не просто получать ответы от LLM, но и понимать, как они рождаются, NeMo-Inspector мастхэв. Он не даст магии, зато сэкономит часы ручного разбора и поможет найти слабые места даже в сложных пайплайнах, а поддержка Markdown, LaTeX и подсветки синтаксиса сделает работу с математическими задачами или кодом менее муторной.
Гибкость проводимого анализа - особенность NeMo-Inspector. Вы можете сравнивать, как одна модель справляется с разными параметрами (температура, top_p) или как разные модели решают одну задачу. Допустим, проверяете, повышает ли CoT точность ответов. NeMo-Inspector выведет результаты бок о бок, а еще посчитает статистику: доля правильных ответов, «уверенность» модели (persistence) или кастомные метрики, которые можно задать самостоятельно через Python-функции.
Из практических кейсов: NeMo-Inspector помог «почистить» синтетический датасет GSM-Plus, где 46,99% данных оказались проблемными (в некоторых вопросах было по два знака вопроса — модель путалась, на какой отвечать). В проекте с OpenMath-Mistral-7B выяснилось, что 26% ошибок связаны с падением качества сгенерированного кода. После доработки датасета точность модели выросла на 4,17%.
@ai_machinelearning_big_data
#AI #ML #LLM #NeMoInspector #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43❤28🔥13🍓4
NVIDIA представила новую модель автоматического распознавания речи (ASR) — Parakeet-tdt-0.6b-v2 c 600 млн. параметров для английского языка. Она не просто транскрибирует аудио в текст, но и распознает пунктуацию, капитализацию и временные метки с точностью до слова.
Модель устойчива к шумам и справляется даже с расшифровкой песен или чисел. Это достигнуто за счет обучения на данных, в которые включили «шумные» источники (YouTube, записи телефонных разговоров и уличные диалоги). Как отмечают авторы, RTFx-показатель равен 3380 (при батче 128), что позволяет использовать Parakeet для масштабных промышленных задач.
В основе Parakeet - гибридная архитектура. Она комбинирует скоростной кодировщик FastConformer с декодером TDT, который оптимизирован для транскрипции.
TDT - декодер, который предсказывает слова, звуки и их длительность. Вместо того чтобы проверять каждый кусочек аудиозаписи по порядку, TDT «перепрыгивает» через лишние сегменты, опираясь на прогноз времени, которое занимает текущий токен. Это сокращает вычисления, экономит время и при этом не теряется точность.
Fast Conformer — это переработанная архитектура Conformer, которая ускоряет распознавание речи за счет увеличения downsampling до 8x с помощью более легких сверток и упрощенных блоков, и замены стандартного внимания на комбинацию локального контекста и одного глобального токена.
Обучение Parakeet проводилось в 2 этапа: сначала на 128 GPU A100 с использованием псевдоразмеченных данных, а затем — на 500 часах человеческой транскрипции. Часть обучающего датасета пока недоступна публично, их NVIDIA обещает открыть после конференции Interspeech 2025.
Результаты на бенчмарке Open ASR впечатляют: средняя ошибка (WER) составляет всего 6.05% при greedy decoding без внешней языковой модели. Для сравнения, на чистом аудио из LibriSpeech WER составляет 1.69%, а сильном зашумлении (SNR 5) показатель не превышает 8.39%. В телефонии, где аудио сжимается через μ-law, потери в точности минимальны — всего 4.1%. По этим результатам, Parakeet-tdt-0.6b-v2 может стать универсальным инструментом для колл-центров или мобильных приложений.
Модель поддерживает форматы
.wav
и .flac
с частотой 16 кГц и требует всего 2 ГБ оперативной памяти. Для интеграции разработчикам понадобится фреймворк NeMo от NVIDIA, он упрощает настройку под конкретные задачи.@ai_machinelearning_big_data
#AI #ML #ASR #Parakeet #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56❤27🔥21