🔥 пост с обзором на ряд недавних NLP публикаций
Тык
Тык
Medium
NLP Research Highlights — Issue #1
Introducing a new dedicated series to highlight the latest interesting natural language processing (NLP) research.
Automatically Neutralizing Subjective Bias in Text
Pryzant et al.
arxiv.org/abs/1911.09709
Забавная новая задача повышения объективности текста. Датасет намайнили из правок Википедии, в качестве модельки используют систему из двух моделей: BERT детектирует субъективные выражения, а LSTM их исправляет.
Интересно, что будет, если применить эту модель к моей ленте твиттера.
Pryzant et al.
arxiv.org/abs/1911.09709
Забавная новая задача повышения объективности текста. Датасет намайнили из правок Википедии, в качестве модельки используют систему из двух моделей: BERT детектирует субъективные выражения, а LSTM их исправляет.
Интересно, что будет, если применить эту модель к моей ленте твиттера.
Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping
Dodge et al.
arxiv.org/abs/2002.06305
Мы с другом шутили, что random seed - это тоже гиперпараметр. Ещё никогда мы не были так правы.
Взяв обычный BERT и правильно подобрав random seed (на valid) можно получить результаты лучше, чем у RoBERTa, XLNet и др (на valid ???). Давайте допустиим, что авторы не просто переобучились (что вообще весьма вероятно - статьи с Архива такие статьи с Ахрива). Random seed определяет две важные вещи - инициализацию и порядок данных при обучении. Мы издревле знаем, что инициализация критически важна для нейросеток - если инициализируете из неправильного распределения может вообще не сойтись, а если из правильного - сможете обучить хоть CNN в 10 000 слоёв без skip-connection. По важности порядка данных гуглите curriculum learning. Также, если использовать seed только для инициализации, можно найти такие, которые будут трансфериться (показывать хорошие результататы) между датасетами, что забавно и даже логично.
Dodge et al.
arxiv.org/abs/2002.06305
Мы с другом шутили, что random seed - это тоже гиперпараметр. Ещё никогда мы не были так правы.
Взяв обычный BERT и правильно подобрав random seed (на valid) можно получить результаты лучше, чем у RoBERTa, XLNet и др (на valid ???). Давайте допустиим, что авторы не просто переобучились (что вообще весьма вероятно - статьи с Архива такие статьи с Ахрива). Random seed определяет две важные вещи - инициализацию и порядок данных при обучении. Мы издревле знаем, что инициализация критически важна для нейросеток - если инициализируете из неправильного распределения может вообще не сойтись, а если из правильного - сможете обучить хоть CNN в 10 000 слоёв без skip-connection. По важности порядка данных гуглите curriculum learning. Также, если использовать seed только для инициализации, можно найти такие, которые будут трансфериться (показывать хорошие результататы) между датасетами, что забавно и даже логично.
Introducing BART
Блогпост, рассказывающий о ещё одной бертоподобной модели и её интеграции в 🤗.
Если кто пропустил, в канале тоже был пост о ней.
Блогпост, рассказывающий о ещё одной бертоподобной модели и её интеграции в 🤗.
Если кто пропустил, в канале тоже был пост о ней.
TensorGoose
Introducing BART
Episode 1 – a mysterious new Seq2Seq model with state of the art summarization performance visits a popular open source library
На днях прошёл TF Dev Summit - главная конференция TensorFlow, на которой показывают новые фичи, а также то, чего добилось коммьюнити за последний год. Обычно, про него как-то мало пишут в новостях, поэтому давайте это исправим.
Записи всех выступлений доступны на офсайте, а очень короткое саммари из тех пунктов, которые заинтересовали меня можете почитать тут.
Записи всех выступлений доступны на офсайте, а очень короткое саммари из тех пунктов, которые заинтересовали меня можете почитать тут.
Telegraph
TF Dev Summit 2020 summary
Который уже год я встречаю людей, которые рассказывают мне про новую классную фичу через полгода после того, как она была анонсирована на TF dev summit. Давайте не будем этими людьми и разберёмся в основных нововведениях прямо сейчас. Core 1. Сделали ноый…
A Survey of Long-Term Context in Transformers
pragmatic.ml/a-survey-of-methods-for-incorporating-long-term-context/
Хороший обзор статей, в которых пытаются работать с текстами длинее 512 токенов.
1. Sparse Transformers
1. Adaptive Span Transformers
1. Transformer-XL
1. Compressive Transformers
1. Reformer
1. Routing Transformer
pragmatic.ml/a-survey-of-methods-for-incorporating-long-term-context/
Хороший обзор статей, в которых пытаются работать с текстами длинее 512 токенов.
1. Sparse Transformers
1. Adaptive Span Transformers
1. Transformer-XL
1. Compressive Transformers
1. Reformer
1. Routing Transformer
machine learning musings
A Survey of Long-Term Context in Transformers
Exploring 6 noteworthy approaches for incorporating longer-term context in transformer models.
🤗 Awesome NLP Paper Discussions
github.com/huggingface/awesome-papers
"Each week, the Hugging Face team has a science day where one team member presents an awesome NLP paper. We've decided to share this discussion with the community. See planned future discussions below."
github.com/huggingface/awesome-papers
"Each week, the Hugging Face team has a science day where one team member presents an awesome NLP paper. We've decided to share this discussion with the community. See planned future discussions below."
GitHub
GitHub - huggingface/awesome-papers: Papers & presentation materials from Hugging Face's internal science day
Papers & presentation materials from Hugging Face's internal science day - huggingface/awesome-papers
Немножно разбавлю ваши ленты чем-нибудь не про вирус
1. Technical Writing Courses - два небольших (3 часа в сумме) курса по тому, как писать технические тексты. Должно быть полезно как для документации, так и для статей.
1. Читаем статьи за вас. Январь — Февраль 2020
1. How to generate text: using different decoding methods for language generation with Transformers - хороший пост с основными методами генерации текста и примерами кода (от beam search до nucleus sampling)
1. В Lightning добавили profiler
1. Pre-trained Models for Natural Language Processing: A Survey, Qiu et al - ещё одна обзорная статья по предтренировке в NLP
Сидите дома, читайте статьи, не болейте.
1. Technical Writing Courses - два небольших (3 часа в сумме) курса по тому, как писать технические тексты. Должно быть полезно как для документации, так и для статей.
1. Читаем статьи за вас. Январь — Февраль 2020
1. How to generate text: using different decoding methods for language generation with Transformers - хороший пост с основными методами генерации текста и примерами кода (от beam search до nucleus sampling)
1. В Lightning добавили profiler
1. Pre-trained Models for Natural Language Processing: A Survey, Qiu et al - ещё одна обзорная статья по предтренировке в NLP
Сидите дома, читайте статьи, не болейте.
Google for Developers
Technical Writing | Google for Developers
Technical Writing Courses for Engineers
Скорее всего в этом чате мало олдфагов, кто помнит, что именно Валя основал курс по NLP от iPavlov. Теперь он делает новый курс и вы всё ещё можете на него зарегистрироваться.
Forwarded from Valentin Malykh
всем привет, вероятно, не все слышали, что Huawei Russian Research Institute проводит (онлайн) курс по обработке естественного языка (NLP); лучшим студентам курса будут выделены облачные мощности для выполнения заданий и проектов; на курсе прошло 4 занятия, но до сдачи первого задания еще две недели; записаться на курс и узнать больше можно тут: https://registerathuawei.timepad.ru/event/1269978/
registerathuawei.timepad.ru
Natural Language Processing from Huawei Russian Research Institute / События на TimePad.ru
Huawei Russian Research Institute (Huawei RRI) в рамках программы взаимодействия с ведущими российскими университетами (МФТИ, МГУ, МГТУ им. Н. Э. Баумана и др.) представляет курс “Natural Language Processing” или “Обработка естественного языка”, который пройдет…
Google зарелизила новую версию диалогового датасета - Taskmaster-2.
17к диалогов, 7 доменов
17к диалогов, 7 доменов
Rethinking Batch Normalization in Transformers
Shen et al.
arxiv.org/abs/2003.07845
Авторы изучают нормализацию в трансформерах. Первое, что нашли: дисперсия in-batch статистик в NLP задачах на порядки выше, чем в CV. А следовательно она большая и в градиентах, а следовательно она может влиять на сходимость - как быстро и куда. Дальше они предлагают новый тип нормализации - PowerNorm - и доказывают, что он (так же, как и BatchNorm) повышает липциц-гладкость поверхности лосса. Эксперименты показывают буст (небольшой) в машинном переводе и (заметный) в языковом моделировании.
Нам надо больше таких исследований - в архитектуру трансформера заложено много общепринятых, но мало изученных практик. Давайте эти практики проверять и улучшать.
Shen et al.
arxiv.org/abs/2003.07845
Авторы изучают нормализацию в трансформерах. Первое, что нашли: дисперсия in-batch статистик в NLP задачах на порядки выше, чем в CV. А следовательно она большая и в градиентах, а следовательно она может влиять на сходимость - как быстро и куда. Дальше они предлагают новый тип нормализации - PowerNorm - и доказывают, что он (так же, как и BatchNorm) повышает липциц-гладкость поверхности лосса. Эксперименты показывают буст (небольшой) в машинном переводе и (заметный) в языковом моделировании.
Нам надо больше таких исследований - в архитектуру трансформера заложено много общепринятых, но мало изученных практик. Давайте эти практики проверять и улучшать.
Вчера было 1 апреля, а это означает конференцию SIGBOVIK в CMU. Приметившиеся статьи:
1. Новый алгоритм сортировки - turk sort - "uses human intelligence to compare the elements of a (possibily) heterogeneous list"
1. Artificial General Relativity - "In this paper I (switching to ’I’ to avoid sounding pretentious with ’we’) introduce Artificial General Relativity (AGR) which, when achieved, will allow us to control gravity and spacetime."
1. Image-to-image neural network for addition and subtraction of a pair of not very large numbers
Proceedings: тык
Аудиозапись конференции: тык
1. Новый алгоритм сортировки - turk sort - "uses human intelligence to compare the elements of a (possibily) heterogeneous list"
1. Artificial General Relativity - "In this paper I (switching to ’I’ to avoid sounding pretentious with ’we’) introduce Artificial General Relativity (AGR) which, when achieved, will allow us to control gravity and spacetime."
1. Image-to-image neural network for addition and subtraction of a pair of not very large numbers
Proceedings: тык
Аудиозапись конференции: тык
GitHub
GitHub - cole-k/turksort: 👥 Sorting powered by human intelligence
👥 Sorting powered by human intelligence. Contribute to cole-k/turksort development by creating an account on GitHub.