🤖Handl: New dataset labeling tool release
Handl is a tool to label and manage data for machine learning. It employs 25k qualified crowdworkers who help tech companies to deal with data preparation and get paid for it. Consensus algorithm ensures the quality of labeling for any type of data — images, texts, and sounds.
#Handl was released today at Product Hunt, so developers might benefit from community upvotes, please consider supporting such useful tool on Product Hunt.
Link: https://handl.ai
Product Hunt url: https://www.producthunt.com/posts/handl-3
#handl #machinelearning #ai #data #datalabeling
Handl is a tool to label and manage data for machine learning. It employs 25k qualified crowdworkers who help tech companies to deal with data preparation and get paid for it. Consensus algorithm ensures the quality of labeling for any type of data — images, texts, and sounds.
#Handl was released today at Product Hunt, so developers might benefit from community upvotes, please consider supporting such useful tool on Product Hunt.
Link: https://handl.ai
Product Hunt url: https://www.producthunt.com/posts/handl-3
#handl #machinelearning #ai #data #datalabeling
On the concept of 'intellectual debt'
There is technical debt — when you know you should rewrite some stuff, or implement some features, but they don't seem critical at the moment. So article introduces a concept of 'intellectual debt', which resies with more broad and common use of #MachineLearning and #DeepLearning (specially, the latter). What happens when AI gives us seemingly correct answers that we wouldn't have thought of ourselves, without any theory to explain them?
Link: https://www.newyorker.com/tech/annals-of-technology/the-hidden-costs-of-automated-thinking
#Meta #common #lyrics
There is technical debt — when you know you should rewrite some stuff, or implement some features, but they don't seem critical at the moment. So article introduces a concept of 'intellectual debt', which resies with more broad and common use of #MachineLearning and #DeepLearning (specially, the latter). What happens when AI gives us seemingly correct answers that we wouldn't have thought of ourselves, without any theory to explain them?
Link: https://www.newyorker.com/tech/annals-of-technology/the-hidden-costs-of-automated-thinking
#Meta #common #lyrics
The New Yorker
The Hidden Costs of Automated Thinking
Overreliance on artificial intelligence may put us in intellectual debt.
Model for tweaking graph visualization layout parameters
New #MachineLearning model builds a WYSIWYG interface to intuitively produce a layout you want!
Demo: http://kwonoh.net/dgl
Paper: http://arxiv.org/abs/1904.12225
#Visualization #ML
New #MachineLearning model builds a WYSIWYG interface to intuitively produce a layout you want!
Demo: http://kwonoh.net/dgl
Paper: http://arxiv.org/abs/1904.12225
#Visualization #ML
Survey of machine-learning experimental methods at NeurIPS2019 and ICLR2020
Good thread about what ML scientists do experiments on their papers
twitter: https://twitter.com/deliprao/status/1235697595919421440
report: https://hal.archives-ouvertes.fr/hal-02447823/document
#Survey #NeurIPS #ICLR #Experiments #ml
Good thread about what ML scientists do experiments on their papers
twitter: https://twitter.com/deliprao/status/1235697595919421440
report: https://hal.archives-ouvertes.fr/hal-02447823/document
#Survey #NeurIPS #ICLR #Experiments #ml
Twitter
Delip Rao
Survey of #MachineLearning experimental methods (aka "how do ML folks do their experiments") at #NeurIPS2019 and #ICLR2020, a thread of results:
ReBotNet: Fast Real-time Video Enhancement
The authors introduce a novel Recurrent Bottleneck Mixer Network (ReBotNet) method, designed for real-time video enhancement in practical scenarios, such as live video calls and video streams. ReBotNet employs a dual-branch framework, where one branch focuses on learning spatio-temporal features, and the other aims to enhance temporal consistency. A common decoder combines the features from both branches to generate the improved frame. This method incorporates a recurrent training approach that utilizes predictions from previous frames for more efficient enhancement and superior temporal consistency.
To assess ReBotNet, the authors use two new datasets that simulate real-world situations and show that their technique surpasses existing methods in terms of reduced computations, decreased memory requirements, and quicker inference times.
Paper: https://arxiv.org/abs/2303.13504
Project link: https://jeya-maria-jose.github.io/rebotnet-web/
A detailed unofficial overview of the paper: https://andlukyane.com/blog/paper-review-rebotnet
#deeplearning #cv #MachineLearning #VideoEnhancement #AI #Innovation #RealTimeVideo
The authors introduce a novel Recurrent Bottleneck Mixer Network (ReBotNet) method, designed for real-time video enhancement in practical scenarios, such as live video calls and video streams. ReBotNet employs a dual-branch framework, where one branch focuses on learning spatio-temporal features, and the other aims to enhance temporal consistency. A common decoder combines the features from both branches to generate the improved frame. This method incorporates a recurrent training approach that utilizes predictions from previous frames for more efficient enhancement and superior temporal consistency.
To assess ReBotNet, the authors use two new datasets that simulate real-world situations and show that their technique surpasses existing methods in terms of reduced computations, decreased memory requirements, and quicker inference times.
Paper: https://arxiv.org/abs/2303.13504
Project link: https://jeya-maria-jose.github.io/rebotnet-web/
A detailed unofficial overview of the paper: https://andlukyane.com/blog/paper-review-rebotnet
#deeplearning #cv #MachineLearning #VideoEnhancement #AI #Innovation #RealTimeVideo
👍16❤3
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Все мы любим scikit-learn за его простоту и мощь. Но что если ваши модели обучаются слишком долго на больших данных? 🤔 NVIDIA предлагает решение!
Вы берете свой обычный скрипт cо scikit-learn, добавляете всего две строки в начало, и он начинает работать в 10, 50, а то и 100+ раз быстрее на NVIDIA GPU!
✨ Как это работает?
Библиотека cuml от NVIDIA содержит супероптимизированные для GPU версии многих алгоритмов машинного обучения. С помощью простого вызова
cuml.patch.apply()
вы "патчите" установленный у вас scikit-learn прямо в памяти.Теперь, когда вы вызываете, например,
KNeighborsClassifier
или PCA
из sklearn:Ключевые преимущества:
2 строчки:import cuml.patch и cuml.patch.apply().
Топ инструмент для всех, кто работает с scikit-learn на задачах, требующих значительных вычислений, и у кого есть GPU от NVIDIA.
👇 Как использовать:
Установите RAPIDS cuml (лучше через conda, см. сайт RAPIDS):
python
conda install -c rapidsai -c conda-forge -c nvidia cuml rapids-build-backend
Добавьте в начало скрипта:
import cuml.patch
cuml.patch.apply()
Используйте scikit-learn как обычно!
Попробуйте и почувствуйте разницу! 😉
▪Блог-пост
▪Colab
▪Github
▪Ускоряем Pandas
@ai_machinelearning_big_data
#python #datascience #machinelearning #scikitlearn #rapids #cuml #gpu #nvidia #ускорение #машинноеобучение #анализданных
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21❤4👍3🤡1
Forwarded from Техножнец
🌋 RLHF И GRPO: КОГДА "РЕВОЛЮЦИЯ" ОКАЗАЛАСЬ ПЕРЕОЦЕНКОЙ СТАРЫХ СПОСОБНОСТЕЙ 🌋
Привет, синтеты! 👋
Последние недели стали жестоким отрезвлением для энтузиастов reinforcement learning в языковых моделях. То, что казалось прорывом в рассуждениях ИИ, оказалось просто более эффективным способом извлечения уже существующих знаний. Разбираем крах иллюзий!
Начало 2025: DeepSeek R1 с GRPO показал "aha moment" — модель самостоятельно развивала стратегии решения задач!
Апрель 2025: Исследователи доказали — никакого "момента озарения" не было. Модель уже умела всё это до RLVR-тренировки.
🤖 ЧТО ЭТО ОЗНАЧАЕТ?
#RLHF #GRPO #DeepSeekR1 #AIReality #MachineLearning
Исследования по теме:
Обучение языковых моделей следованию инструкциям с человеческой обратной связью: https://arxiv.org/abs/2203.02155
DeepSeek-R1 (Момент озарения): https://arxiv.org/abs/2501.12948
Понимание R1-подобного обучения: критический взгляд: https://arxiv.org/pdf/2503.20783
Действительно ли обучение с подкреплением стимулирует способности к рассуждению в LLM за пределами базовой модели?: https://arxiv.org/abs/2504.13837
Обучение с подкреплением дообучает малые подсети в больших языковых моделях: https://arxiv.org/abs/2505.11711
Ложные награды: переосмысление обучающих сигналов в RLVR: https://arxiv.org/abs/2506.10947
🌋
Привет, синтеты! 👋
Последние недели стали жестоким отрезвлением для энтузиастов reinforcement learning в языковых моделях. То, что казалось прорывом в рассуждениях ИИ, оказалось просто более эффективным способом извлечения уже существующих знаний. Разбираем крах иллюзий!
🎭 ОТ ЭЙФОРИИ К РЕАЛЬНОСТИ
Начало 2025: DeepSeek R1 с GRPO показал "aha moment" — модель самостоятельно развивала стратегии решения задач!
Апрель 2025: Исследователи доказали — никакого "момента озарения" не было. Модель уже умела всё это до RLVR-тренировки.
🔬 АНАТОМИЯ РАЗОЧАРОВАНИЯ
RLHF vs RLVR vs GRPO:
RLHF — обучение через человеческую обратную связь (классика)
RLVR — обучение через проверяемые награды (математика/код)
GRPO — групповая оптимизация политики (новинка от DeepSeek)
Все они работают по одному принципу: усиливают то, что модель уже знает, но НЕ создают новые знания.
💣 СЕНСАЦИОННЫЕ ОТКРЫТИЯ
"Spurious Rewards" — бомба!
Исследователи дали Qwen2.5 СЛУЧАЙНЫЕ награды за математику. Результат? Улучшение на 21%! Даже награждение НЕПРАВИЛЬНЫХ ответов давало почти тот же эффект, что и правильных.
86% параметров DeepSeek R1 НЕ ОБНОВЛЯЛИСЬ
Во время RL-тренировки изменилось меньше 14% весов модели. "Революционное обучение" затронуло крошечную часть нейросети.
Длинные ответы ≠ лучшие рассуждения
Рост качества от длинных chain-of-thought не связан с улучшением логики. GRPO просто штрафует короткие неправильные ответы меньше, чем длинные неправильные.
🎯 ПРОБЛЕМА ГЕНЕРАЛИЗАЦИИ
Большинство "прорывных" RLVR-исследований тестировались на моделях Qwen. Оказалось:
Qwen уникально хороши в коде и "думают" на Python
RL просто усиливает эту особенность
На Llama3 те же методы работают хуже или вредят
Принуждение Llama3 к Python-стилю рассуждений УБИВАЕТ точность на 23-28%
🤖 ЧТО ЭТО ОЗНАЧАЕТ?
Реальность GRPO и RLVR:
✅ Эффективно извлекают скрытые способности
✅ Улучшают консистентность ответов
✅ Работают как "точная настройка" распределения вероятностей
❌ НЕ создают новые типы рассуждений
❌ НЕ расширяют границы знаний модели
❌ НЕ генерализуются между архитектурами
🔮 ПЕРСПЕКТИВЫ
Дистилляция побеждает RL: 7B модель, обученная на данных DeepSeek R1, решает задачи, которые базовая модель не могла. Передача знаний работает, усиление — нет.
Эра пре-тренинга жива: Пока RL только перемешивает существующие знания, создание новых остается за классическим обучением на больших корпусах.
💭 ИТОГ ДЛЯ СИНТЕТОВ
RLHF, RLVR и GRPO — не магия, а продвинутая калибровка. Они делают модели более предсказуемыми и полезными, но не умнее. "Aha moment" оказался "уже знал, но не показывал" moment.
Урок: Скептически относитесь к громким заявлениям о "новых типах рассуждений". Чаще всего это улучшенная презентация старых способностей.
#RLHF #GRPO #DeepSeekR1 #AIReality #MachineLearning
Исследования по теме:
Обучение языковых моделей следованию инструкциям с человеческой обратной связью: https://arxiv.org/abs/2203.02155
DeepSeek-R1 (Момент озарения): https://arxiv.org/abs/2501.12948
Понимание R1-подобного обучения: критический взгляд: https://arxiv.org/pdf/2503.20783
Действительно ли обучение с подкреплением стимулирует способности к рассуждению в LLM за пределами базовой модели?: https://arxiv.org/abs/2504.13837
Обучение с подкреплением дообучает малые подсети в больших языковых моделях: https://arxiv.org/abs/2505.11711
Ложные награды: переосмысление обучающих сигналов в RLVR: https://arxiv.org/abs/2506.10947
🌋
👏7👍5❤3🌚3
Forwarded from Machinelearning
Что она умеет:
-
- Автоматическая пунктуация, капитализация и точные таймстампы до слова.
- Поддержка русского, французского, немецкого, испанского и многих других языков.
Чем интересна
- До 10× быстрее инференс, чем у моделей в 3 раза больше.
- Уже показывает state-of-the-art точность среди открытых моделей на Hugging Face.
- Лицензия CC-BY-4.0 — можно свободно использовать в проектах.
Под капотом:
- Архитектура: FastConformer-энкодер + Transformer-декодер (~978M параметров).
- Форматы:
.wav
и .flac
, моно 16 кГц. - Легко интегрируется через NVIDIA NeMo или прямо с Hugging Face.
Где пригодится:
Всего ~978M параметров → легче, быстрее и дешевле в использовании, чем большие модели конкурентов.
@ai_machinelearning_big_data
#AI #NVIDIA #SpeechRecognition #ASR #AST #Multilingual #MachineLearning #DeepLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥3👍2