Forwarded from New Yorko Times (Yury Kashnitsky)
Еще немного фэйлов
#fail #fake_text_detection #kaggle
Собесов больше нет, а фэйлить хочется. Особенно рассказывать о них публично. Снижать publication bias тксказать. Так что вот еще.
Вторая попытка организовать соревнование по детекции LLM-генерированного контента тоже провалилась. Народ снова повыбивал 99+, причем в решениях я видел даже pre-BERT модели типа AWD LSTM. Будет семинар при ACL, на котором победители расскажут про решения, но уже понятно, что там особого научного прорыва не будет, скорее эксплойт наших косяков. На бумаге все норм, сделали сореву и воркшоп при топовой конфе, но по сути так себе.
Есть еще пара фэйлов, если чуть копнуть в историю. В стиле «мужик сказал - мужик сделал вид, что нихрена не говорил». Как-то мы с Андреем Лукьяненко участвовали в необычном соревновании на кэггле, где надо было эссе писать. Так вот мы ничего не выиграли, где-то на 50 место приземлились. Напрягло чутка, что среди победителей был обзор методов оптимизации, каких на Medium найдешь сотню.
А еще я как-то хотел больше ютуб-видео снимать, и этого, очевидно, не произошло 😅 так что больше обещать не буду, хотя есть идеи вернуться с новым контентом к своим 20к подписчикам. Ща только зарегаюсь в Роскомнадзоре.
#fail #fake_text_detection #kaggle
Собесов больше нет, а фэйлить хочется. Особенно рассказывать о них публично. Снижать publication bias тксказать. Так что вот еще.
Вторая попытка организовать соревнование по детекции LLM-генерированного контента тоже провалилась. Народ снова повыбивал 99+, причем в решениях я видел даже pre-BERT модели типа AWD LSTM. Будет семинар при ACL, на котором победители расскажут про решения, но уже понятно, что там особого научного прорыва не будет, скорее эксплойт наших косяков. На бумаге все норм, сделали сореву и воркшоп при топовой конфе, но по сути так себе.
Есть еще пара фэйлов, если чуть копнуть в историю. В стиле «мужик сказал - мужик сделал вид, что нихрена не говорил». Как-то мы с Андреем Лукьяненко участвовали в необычном соревновании на кэггле, где надо было эссе писать. Так вот мы ничего не выиграли, где-то на 50 место приземлились. Напрягло чутка, что среди победителей был обзор методов оптимизации, каких на Medium найдешь сотню.
А еще я как-то хотел больше ютуб-видео снимать, и этого, очевидно, не произошло 😅 так что больше обещать не буду, хотя есть идеи вернуться с новым контентом к своим 20к подписчикам. Ща только зарегаюсь в Роскомнадзоре.
👍3🤡1😭1
Работа с данными на Kaggle
Меня попросили сделать доклад о примерах того, как в соревнованиях на Kaggle была важна работа с данными (примеры анализа, magic/golden features, внешние источники, понимание домена и так далее).
Я повспоминал былое и поискал подобные соревнования, получился примерно такой список:
Home Credit Default Risk - На основе суммы кредита, ежемесячной суммы выплаты и количества выплат (этого не было в данных, но сделали модель для предсказания) удалось восстановить процентную ставку (которой не было в данных). А процентная ставка - очень сильный сигнал, ибо по факту отражает степень риска клиента.
Instant Gratification - это была задачка с синтетическими данными. Многим удалось сделать reverse engineering функции генерации данных, и благодаря этому получить 0.97+ AUC.
Santander Customer Transaction - люди обнаружили, что в тесте часть данных была синтетической. Был довольно хитрый подход - синтетические данные определяли по распределению значений. Суть в том, что в данных было 200 независимых признаков. Если просто тренировать на них модель, она найдёт какие-нибудь паттерны и оверфитнется. Было несколько решений проблемы: Построить 200 моделей или Naive Bayes, использовать shuffle augmentation, использовать деревянные модели с малой глубиной.
Red Hat Business Value - в данных были лики, которые позволяли для многих строк довольно точно определять таргет. Поэтому многие строили отдельные модели для ликованых строк и для других.
Intel & MobileODT Cervical Cancer Screening - нашлись случаи, когда фото одного и того же человека были в трейне и тесте, использование этой информации улучшало модели.
IEEE-CIS Fraud Detection - организаторы соревнования убрали userid, но людям удалось сделать reverse engineering с высокой точность, и это было ключом к успеху.
Quora Question Pairs - участникам удалось построить графы вопросом на трейне совместно с тестом, что давало большой буст.
Two Sigma Connect: Rental Listing Inquiries - timestamp-ы папок с картинками сильно коррелировали с таргетом
Bosch Production Line Performance - определенные последовательности данных имели значительно более высокий шанс failure (таргета).
Sberbank Russian Housing Market - было важно извлечь год из данных и добавить макроэкономические данные
Rossmann Store Sales - было очень полезно использовать внешние данные (погода, праздники и прочее).
Какие ещё были подобные интересные соревнования?
#kaggle #datascience
Меня попросили сделать доклад о примерах того, как в соревнованиях на Kaggle была важна работа с данными (примеры анализа, magic/golden features, внешние источники, понимание домена и так далее).
Я повспоминал былое и поискал подобные соревнования, получился примерно такой список:
Home Credit Default Risk - На основе суммы кредита, ежемесячной суммы выплаты и количества выплат (этого не было в данных, но сделали модель для предсказания) удалось восстановить процентную ставку (которой не было в данных). А процентная ставка - очень сильный сигнал, ибо по факту отражает степень риска клиента.
Instant Gratification - это была задачка с синтетическими данными. Многим удалось сделать reverse engineering функции генерации данных, и благодаря этому получить 0.97+ AUC.
Santander Customer Transaction - люди обнаружили, что в тесте часть данных была синтетической. Был довольно хитрый подход - синтетические данные определяли по распределению значений. Суть в том, что в данных было 200 независимых признаков. Если просто тренировать на них модель, она найдёт какие-нибудь паттерны и оверфитнется. Было несколько решений проблемы: Построить 200 моделей или Naive Bayes, использовать shuffle augmentation, использовать деревянные модели с малой глубиной.
Red Hat Business Value - в данных были лики, которые позволяли для многих строк довольно точно определять таргет. Поэтому многие строили отдельные модели для ликованых строк и для других.
Intel & MobileODT Cervical Cancer Screening - нашлись случаи, когда фото одного и того же человека были в трейне и тесте, использование этой информации улучшало модели.
IEEE-CIS Fraud Detection - организаторы соревнования убрали userid, но людям удалось сделать reverse engineering с высокой точность, и это было ключом к успеху.
Quora Question Pairs - участникам удалось построить графы вопросом на трейне совместно с тестом, что давало большой буст.
Two Sigma Connect: Rental Listing Inquiries - timestamp-ы папок с картинками сильно коррелировали с таргетом
Bosch Production Line Performance - определенные последовательности данных имели значительно более высокий шанс failure (таргета).
Sberbank Russian Housing Market - было важно извлечь год из данных и добавить макроэкономические данные
Rossmann Store Sales - было очень полезно использовать внешние данные (погода, праздники и прочее).
Какие ещё были подобные интересные соревнования?
#kaggle #datascience
👍17🔥2
Kaggle Benchmarks
Теперь на Kaggle есть и benchmarks.
Вчера опубликовали блогпост об этом. Сейчас доступно около 70, среди них SciCode, GPQA, SimpleQA, LiveCodeBench, BrowseComp, FACTS Grounding, MATH-500, MMLU, MathVista, MGSM, ECLeKTic.
Среди прочего, хотят делать communiti-driven evaluation, как пример приводят ICML 2025 Experts - опросили участников ICML “What’s the trickiest, most interesting, or simply your favorite question to test a large language model?” и на основе этого создали бенчмарк.
Не очень понимаю чем это отличается от других платформ для benchmarks, но пусть будет :)
#datascience #kaggle
Теперь на Kaggle есть и benchmarks.
Вчера опубликовали блогпост об этом. Сейчас доступно около 70, среди них SciCode, GPQA, SimpleQA, LiveCodeBench, BrowseComp, FACTS Grounding, MATH-500, MMLU, MathVista, MGSM, ECLeKTic.
Среди прочего, хотят делать communiti-driven evaluation, как пример приводят ICML 2025 Experts - опросили участников ICML “What’s the trickiest, most interesting, or simply your favorite question to test a large language model?” и на основе этого создали бенчмарк.
Не очень понимаю чем это отличается от других платформ для benchmarks, но пусть будет :)
#datascience #kaggle
Kaggle
Find Benchmarks | Kaggle
Use and download benchmarks for your machine learning projects.
🔥5👍1
Kaggle... Game Arena
Kaggle прям пошёл выдавать новые продукты один за другим. Теперь запустили Kaggle Game Arena - платформа, где LLM соревнуются в играх.
Для затравки запустили 3х-дневное соревнование, где 8 LLM будут играть друг с другом в шахматы.
https://www.kaggle.com/game-arena
Блогпост про это: https://www.kaggle.com/blog/introducing-game-arena
Сама платформа будет при поддержке DeepMind.
#datascience #kaggle
Kaggle прям пошёл выдавать новые продукты один за другим. Теперь запустили Kaggle Game Arena - платформа, где LLM соревнуются в играх.
Для затравки запустили 3х-дневное соревнование, где 8 LLM будут играть друг с другом в шахматы.
https://www.kaggle.com/game-arena
Блогпост про это: https://www.kaggle.com/blog/introducing-game-arena
Сама платформа будет при поддержке DeepMind.
#datascience #kaggle
🔥7❤1