Интересные штуки одной строкой:
Для новичков (и не только):
1. d2l.ai - очень большая книга по диплёрнингу с кучей numpy-имплементаций. И все эти имплементации вы можете запускать прямо в браузере.
1. How to read research papers by Andwer Ng
чуть более advanced:
1. Jigsaw Multilingual Toxic Comment Classification - Kaggle + Jigsaw + Multilingual + TPU. Идеальное сочетание.
1. XGLUE - GLUE для мультиязычных моделей
1. Aligned Cross Entropy for Non-Autoregressive Machine Translation - новая SOTA от FAIR по неавторегрессионному NMT
1. Why There is No ImageNet Moment in Speech to Text Yet
1. Optuna - оптимизатор гиперпараметров для PyTorch + Lightning. Интерфейс ужасный до жути (распределение на гиперпараметры задаётся внутри класса модели), но фичи интересные. Я больше советую wandb sweeps, но интересно если кто-нибудь сравнит их.
Для новичков (и не только):
1. d2l.ai - очень большая книга по диплёрнингу с кучей numpy-имплементаций. И все эти имплементации вы можете запускать прямо в браузере.
1. How to read research papers by Andwer Ng
чуть более advanced:
1. Jigsaw Multilingual Toxic Comment Classification - Kaggle + Jigsaw + Multilingual + TPU. Идеальное сочетание.
1. XGLUE - GLUE для мультиязычных моделей
1. Aligned Cross Entropy for Non-Autoregressive Machine Translation - новая SOTA от FAIR по неавторегрессионному NMT
1. Why There is No ImageNet Moment in Speech to Text Yet
1. Optuna - оптимизатор гиперпараметров для PyTorch + Lightning. Интерфейс ужасный до жути (распределение на гиперпараметры задаётся внутри класса модели), но фичи интересные. Я больше советую wandb sweeps, но интересно если кто-нибудь сравнит их.
YouTube
Stanford CS230: Deep Learning | Autumn 2018 | Lecture 8 - Career Advice / Reading Research Papers
Andrew Ng, Adjunct Professor & Kian Katanforoosh, Lecturer - Stanford University
http://onlinehub.stanford.edu/
Andrew Ng
Adjunct Professor, Computer Science
Kian Katanforoosh
Lecturer, Computer Science
To follow along with the course schedule and syllabus…
http://onlinehub.stanford.edu/
Andrew Ng
Adjunct Professor, Computer Science
Kian Katanforoosh
Lecturer, Computer Science
To follow along with the course schedule and syllabus…
Modern (не совсем) Deep Learning Techiniques Applied to NLP - похоже на то, что кто-то не из NLP попытался собрать все техники предбертовой эры в одном месте. И в общем получилось неплохо, хотя местами и устаревшие/неработающие пока/воообще вещи (рекурсивные сети/память/RL).
DL in NLP
🤗 Awesome NLP Paper Discussions github.com/huggingface/awesome-papers "Each week, the Hugging Face team has a science day where one team member presents an awesome NLP paper. We've decided to share this discussion with the community. See planned future discussions…
Кстати если вы забыли про саммари статьи от (not Hugging fot the Moment) Face, как это сделал я - то зря.
Вот хорошее саммари по Scaling Laws for Language Models, пожалуй одной из самых крутых статей за последние несколько месяцев.
Вот хорошее саммари по Scaling Laws for Language Models, пожалуй одной из самых крутых статей за последние несколько месяцев.
Google Docs
HF reading group 03/24: Scaling Laws for Neural Language Models
HF reading group 03/24 Scaling Laws for Neural Language Models Background Language model pre-training can feel like a wholly different beast compared to others parts of the ML toolkit, especially supervised learning. Having…
The Transformer Family
Lilian Weng
Хороший обзор различных вариаций трансформера, которых уже стало на удивление много. Кажется даже больше, чем вариантов LSTM.
В посте автор разбирает следующие:
1. Transformer-XL
1. Adaptive Attention Span
1. Image Transformer (Localized Attention Span)
1. Sparse Transformer
1. Reformer
1. Universal Transformer
1. GTrXL
Вся область альтернативных трансформеров пока что кажется диким западом, но вдруг найдёте что-то полезное для своей задачи.
Lilian Weng
Хороший обзор различных вариаций трансформера, которых уже стало на удивление много. Кажется даже больше, чем вариантов LSTM.
В посте автор разбирает следующие:
1. Transformer-XL
1. Adaptive Attention Span
1. Image Transformer (Localized Attention Span)
1. Sparse Transformer
1. Reformer
1. Universal Transformer
1. GTrXL
Вся область альтернативных трансформеров пока что кажется диким западом, но вдруг найдёте что-то полезное для своей задачи.
Lil'Log
The Transformer Family
Я только что проделал грандиозную работу - закрыл все вкладки в браузере (последние из них были открыты где-то с сентября). Результатом стал список статей, которые я хотел прочитать, но этого не сделал. Отобрал из него те, которые всё ещё выглядят интересно, вдруг кому-то будет полезно.
Список
Когда-нибудь я их все прочитаю (нет).
Список
Когда-нибудь я их все прочитаю (нет).
Evernote
List of papers you want to read. Papers TODO
A Mean Field Theory of Batch Normalization On the Information Bottleneck Theory of Deep Learning Backward Feature Correction: How Deep Learning Performs Deep Learning Learning Discrete Distributions b...
Отличный тред в твиттере на тему языковых моделей и воспроизводимости
TL;DR воспроизводить сложно, можно сильно понизить перплексию модели (c 90 до 66 wikitext-2) случайно дропая целые эмбеддинги, да и в обычный дропаут в эмбеддинги хорошо помогает. Цена за перплексию - адски возрастающий compute (с 15 минут до 7 часов).
Вообще я тоже заметил, что у языковых моделей после какого-то момента сходимость резко замедляется. Может быть power normalization может помочь или какой-нибудь аггресивный lr scheduler? Если кто-то решал похожие проблемы - заходите в чат.
TL;DR воспроизводить сложно, можно сильно понизить перплексию модели (c 90 до 66 wikitext-2) случайно дропая целые эмбеддинги, да и в обычный дропаут в эмбеддинги хорошо помогает. Цена за перплексию - адски возрастающий compute (с 15 минут до 7 часов).
Вообще я тоже заметил, что у языковых моделей после какого-то момента сходимость резко замедляется. Может быть power normalization может помочь или какой-нибудь аггресивный lr scheduler? Если кто-то решал похожие проблемы - заходите в чат.
Twitter
Tim Dettmers
How can you successfully train transformers on small datasets like PTB and WikiText-2? Are LSTMs better on small datasets? I ran 339 experiments worth 568 GPU hours and came up with some answers. I do not have time to write a blog post, so here a twitter…
Подборка интересных штук
попроще:
1. Автоград и тренировка нейросетки в 50 строк numpy-кода от Карпатогго: MicoGrad
1. Наброс на то, что DS - это не так классно, как вам описывают на курсах (оказывается там не только fitpredict надо делать)
не попроще:
1. Тред от Рудера про то, что сопоставлять векторные представления далёких языков сложно не столько потому что языки очень различные, а потому что эмбеддинги для неевропейских языков натренированы криво (статья)
1. Свежая статья по Multiagent RL + NLP
1. Translation Artifacts in Cross-lingual Transfer Learning
попроще:
1. Автоград и тренировка нейросетки в 50 строк numpy-кода от Карпатогго: MicoGrad
1. Наброс на то, что DS - это не так классно, как вам описывают на курсах (оказывается там не только fitpredict надо делать)
не попроще:
1. Тред от Рудера про то, что сопоставлять векторные представления далёких языков сложно не столько потому что языки очень различные, а потому что эмбеддинги для неевропейских языков натренированы криво (статья)
1. Свежая статья по Multiagent RL + NLP
1. Translation Artifacts in Cross-lingual Transfer Learning
Twitter
Andrej Karpathy
ok I'm pretty sure I wrote the tiniest autograd engine with a neural net library on top of it, weighing about ~50 LOC for the engine, ~50 LOC for the neural net library, and it's super cute and totally works. MicroGrad: https://t.co/yR8pK3ai7w 😂
Прочитал подробнее Translation Artifacts in Cross-lingual Transfer Learning и это выглядит как очень интересный подвид даталика. Даже скорее даталик наоборот.
В чём проблема: мультиязычные датасеты в часто создаются с помощью машинного перевода (XNLI, XQUAD, ...). Train остаётся в английском а в test куча примеров, переведённых с английского на какой-нибудь другой язык. Сейчас будет звучать очевидно, но раньше никто до этого не догадывался - такой перевод делает test отличным от train не только по языку, но и по некоторым артефактам системы машинного перевода. С помощью пары экспериментов на XNLI и нового тестового сета (созданного людьми), авторы статьи приходят к выводу, что: the loss of performance when generalizing from original data to machine translated data is substantially larger than the loss of performance when generalizing from one language to another.
Кроме этого авторы предлагают пересмотреть наши взгляды на аугментацию машинным переводом, так как получается что это не только парафразинг, но и по сути трансформация более значимая, чем использование другого языка.
Подробнее в статье.
В чём проблема: мультиязычные датасеты в часто создаются с помощью машинного перевода (XNLI, XQUAD, ...). Train остаётся в английском а в test куча примеров, переведённых с английского на какой-нибудь другой язык. Сейчас будет звучать очевидно, но раньше никто до этого не догадывался - такой перевод делает test отличным от train не только по языку, но и по некоторым артефактам системы машинного перевода. С помощью пары экспериментов на XNLI и нового тестового сета (созданного людьми), авторы статьи приходят к выводу, что: the loss of performance when generalizing from original data to machine translated data is substantially larger than the loss of performance when generalizing from one language to another.
Кроме этого авторы предлагают пересмотреть наши взгляды на аугментацию машинным переводом, так как получается что это не только парафразинг, но и по сути трансформация более значимая, чем использование другого языка.
Подробнее в статье.
На фоне вчерашней статьи, XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization выглядит уже не так впечатляюще, но всё-таки.
По сути это GLUE с тестом для 40 языков из 12 различных семейств. Некоторые из тестсетов переведены автоматически, некоторые - людьми. XLM-R перфомит лучше всех моделей, ему в спину дышит BERT-Large с переведённым (обратно) на английский тестсетом (что как-то не очень честно, тк современные NMT системы используют backtranslation для тренировки). Но в любом случае во всех задачах модели ещё очень далеки от людей. В общем приятно, что теперь есть единая система тестирования новых мультиязычных моделей, которая имеет большие шансы стать стандартом.
По сути это GLUE с тестом для 40 языков из 12 различных семейств. Некоторые из тестсетов переведены автоматически, некоторые - людьми. XLM-R перфомит лучше всех моделей, ему в спину дышит BERT-Large с переведённым (обратно) на английский тестсетом (что как-то не очень честно, тк современные NMT системы используют backtranslation для тренировки). Но в любом случае во всех задачах модели ещё очень далеки от людей. В общем приятно, что теперь есть единая система тестирования новых мультиязычных моделей, которая имеет большие шансы стать стандартом.
Forwarded from Valentin Malykh
коллеги, всем привет, мы совместно с коллегами из Mail.Ru запускаем соревнование по машинному переводу с китайского на русский; все, кому интересно поучаствовать в улучшении качества перевода между двумя крупнейшими языками мира, присоединяйтесь! https://mlbootcamp.ru/round/26/tasks/
в поддержку соревнования я написал пост об истории машинного перевода: https://habr.com/ru/company/huawei/blog/492702/
в поддержку соревнования я написал пост об истории машинного перевода: https://habr.com/ru/company/huawei/blog/492702/
Недавно видел курс, в котором NLP начинают с трансфомеров и хотел его сюда запостить. Но потерял 😶
Вместо него подборка твитов (а где ещё новости находить)
1. Тред по unsupervised MT от человека, фамилию которого я почти понял как произносить
1. В AI Dungeon теперь есть мультиплеер и более тонкая настройка генерации вашей истории
1. Статья о том, что BERT на удивление хорошо генерализует на out-of-distribution примеры
1. Я бы назвал это тизер-трейлером статьи - картинка безумной нейросети от команды Ричарда Сохера, которая делает conversational machine reading
Вместо него подборка твитов (а где ещё новости находить)
1. Тред по unsupervised MT от человека, фамилию которого я почти понял как произносить
1. В AI Dungeon теперь есть мультиплеер и более тонкая настройка генерации вашей истории
1. Статья о том, что BERT на удивление хорошо генерализует на out-of-distribution примеры
1. Я бы назвал это тизер-трейлером статьи - картинка безумной нейросети от команды Ричарда Сохера, которая делает conversational machine reading
Twitter
Mikel Artetxe
We have seen impressive progress on unsupervised MT under ideal conditions (large high-quality corpora, similar domains, relatively close languages). But what happens if we move to more challenging settings? This is a great paper addressing this important…
Forwarded from addmeto
Майкрософт тут утверждает, что они с помощью машинлернинга научились различать важность и категорию найденной в коде ошибки с вероятностью выше 97%. Нет, в данном случае никакого "понимания" кода конечно нет, есть просто категоризация "на глаз" - не очень сложная задача, к которой майкрософт применил голову https://www.microsoft.com/security/blog/2020/04/16/secure-software-development-lifecycle-machine-learning/
Microsoft News
Secure the software development lifecycle with machine learning
A collaboration between data science and security produced a machine learning model that accurately identifies and classifies security bugs based solely on report names.
Я тут решил почитать эту статью. Почувствовал себя немного в 2016 (Logistic Regression, Naive Bayes, Adaboost, ух) и немного ужаснулся с того, что они accuracy репортят в такой несбалансированной задаче (это она 97%). Но TPR FPR сходу выглядят адекватно (по крайней мере не константа предсказывается), так что забавно (и очень странно) что можно вот так просто с помощью логрега можно детектить баги.
UPD: эта статья не про поиск багов в коде, а про определение типа бага (security issue или нет) по тексту issue. Так что результаты неудивительны, но и задача не такая интересная.
UPD: эта статья не про поиск багов в коде, а про определение типа бага (security issue или нет) по тексту issue. Так что результаты неудивительны, но и задача не такая интересная.
Docs
Identifying Security Bug Reports Based on Report Titles and Noisy Data
Learn about Microsoft's lessons-learned from using machine learning to improve the accuracy of labeling in security bug reports (SCRs).
DL in NLP
Недавно видел курс, в котором NLP начинают с трансфомеров и хотел его сюда запостить. Но потерял 😶 Вместо него подборка твитов (а где ещё новости находить) 1. Тред по unsupervised MT от человека, фамилию которого я почти понял как произносить 1. В AI Dungeon…
Благодаря чату мы всё-таки нашли этот курс - ChrisMcCormickAI
Кроме него ещё вспоминали deeplearning.cs.cmu.edu и курс по NLP от fastai
Спасибо всем, кто помогал
Кроме него ещё вспоминали deeplearning.cs.cmu.edu и курс по NLP от fastai
Спасибо всем, кто помогал
DL in NLP
Прочитал подробнее Translation Artifacts in Cross-lingual Transfer Learning и это выглядит как очень интересный подвид даталика. Даже скорее даталик наоборот. В чём проблема: мультиязычные датасеты в часто создаются с помощью машинного перевода (XNLI, XQUAD…
Внезапно статья обновилась (кстати о том, почему arxiv лучше конференций) и теперь включает в себя не только критику текущего подхода, но и новый датасет.
esXNLI интересен тем, что изначально сделан на испанском, а затем переведён (человеками) на английский. Позволит исследовать насколько артефакты машинного перевода влияют на трансфер да и много всего другого.
esXNLI интересен тем, что изначально сделан на испанском, а затем переведён (человеками) на английский. Позволит исследовать насколько артефакты машинного перевода влияют на трансфер да и много всего другого.
GitHub
GitHub - artetxem/esxnli: A bilingual NLI dataset annotated in Spanish and human translated into English
A bilingual NLI dataset annotated in Spanish and human translated into English - artetxem/esxnli
Чат становится для меня ещё одним источником годноты. Вы просто лучшие 😎
(спасибо @Cookie_thief, @someotherusername и @Vanshi87)
1. Tokenizers: How machines read - хороший пост описывающий путь от .split(' ') до BPE и sentencepiece
1. Просто огненная (и большая) лекция по self-supervised в NLP начиная от n-gram LM и заканчивая ELECTRA от Alec Radford (автор GPT). Слайды для тех, кто так больше любит. Нашёл там новые вещи и для себя.
2. В догонку предыдущему пункту - оказывается курс Deep Unsupervised Learning 2020 от Беркли идёт прямо сейчас и постит все свои материалы в открытый доступ
1. CUDA error 59: Device-side assert triggered - пост про ошибку которую встречали все и которая ничего не говорит тебе о том, как себя исправить (зато пост скажет)
1. Гугл запускает умный поиск по своим репозиториям (TensorFlow, Go, Angular, Basil, ...). Может быть теперь в коде TF можно будет разобраться?
(спасибо @Cookie_thief, @someotherusername и @Vanshi87)
1. Tokenizers: How machines read - хороший пост описывающий путь от .split(' ') до BPE и sentencepiece
1. Просто огненная (и большая) лекция по self-supervised в NLP начиная от n-gram LM и заканчивая ELECTRA от Alec Radford (автор GPT). Слайды для тех, кто так больше любит. Нашёл там новые вещи и для себя.
2. В догонку предыдущему пункту - оказывается курс Deep Unsupervised Learning 2020 от Беркли идёт прямо сейчас и постит все свои материалы в открытый доступ
1. CUDA error 59: Device-side assert triggered - пост про ошибку которую встречали все и которая ничего не говорит тебе о том, как себя исправить (зато пост скажет)
1. Гугл запускает умный поиск по своим репозиториям (TensorFlow, Go, Angular, Basil, ...). Может быть теперь в коде TF можно будет разобраться?
Для тех, кто интересуется interpretability, bias, fairness и прочей важной чепухой - OpenAI в коллаборации с почти всеми выпустила отчёт отвечающий на скорее бизнесовые задачи, чем исследовательские. Он отвечает на вопросы:
1. Can I (as a user) verify the claims made about the level of privacy protection guaranteed by a new AI system?
1. Can I (as a regulator) trace the steps that led to an accident caused by an autonomous vehicle?
1. Can I (as an academic) conduct impartial research on the risks associated with large-scale AI systems when I lack the computing resources of industry?
1. Can I (as an AI developer) verify that my competitors in a given area of AI development will follow best practices rather than cut corners to gain an advantage?
У отчёта есть шансы повлиять на то, куда движется индустрия. Так что это не только ответы на вопросы "что и как мы можем сделать" но и на вопрос "что будет через 3-5 лет". Если лень читать всё, просто в каждой главе ищите пункты Problem и Recommendation.
1. Can I (as a user) verify the claims made about the level of privacy protection guaranteed by a new AI system?
1. Can I (as a regulator) trace the steps that led to an accident caused by an autonomous vehicle?
1. Can I (as an academic) conduct impartial research on the risks associated with large-scale AI systems when I lack the computing resources of industry?
1. Can I (as an AI developer) verify that my competitors in a given area of AI development will follow best practices rather than cut corners to gain an advantage?
У отчёта есть шансы повлиять на то, куда движется индустрия. Так что это не только ответы на вопросы "что и как мы можем сделать" но и на вопрос "что будет через 3-5 лет". Если лень читать всё, просто в каждой главе ищите пункты Problem и Recommendation.
Openai
Improving verifiability in AI development
We’ve contributed to a multi-stakeholder report by 58 co-authors at 30 organizations, including the Centre for the Future of Intelligence, Mila, Schwartz Reisman Institute for Technology and Society, Center for Advanced Study in the Behavioral Sciences, and Center…