DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
加入频道
В случайной сетке нашли подсетку, которая работает сравнимо с resnet-34 и при этом меньше resnet-34. Алгоритм поиска прилагается. Пора исследовать таким образом трансформеры.
Forwarded from Just links
What's Hidden in a Randomly Weighted Neural Network?

https://arxiv.org/abs/1911.13299
иллюстрация алгоритма
Попробовал nbdev. Пока что кажется очень сырой штукой, к которой обязательно нужны туториалы для использования. Ховард обещал - будем ждать.
Towards Lingua Franca Named Entity Recognition with BERT
Moon, Awasthy et al. [IBM]
arxiv.org/abs/1912.01389

Мультиязычный NER + различные исследования вокруг него. SOTA на CoNLL02 (голландский и испанский), OntoNotes (арабский и китайский)
Writing Across the World's Languages: Deep Internationalization for Gboard, the Google Keyboard
Vaan Esch et al. [Google]
arxiv.org/abs/1912.01218

Technical report о google keyboard и том как туда добавили 900 языков.

Кажется, большие компании начинают вспоминать, что в этом мире существуют другие языки, кроме английского.
Трансформеры могут в математику лучше Вольфрама (и, скорее всего, тебя тоже).

Пара интересных фактов из статьи:

При решении диффуров, разные (высоковероятные) пути в beam search соответствуют разным представлениям одного и того же решения.

Система была натренирована с использованием SymPy, но способна решать задачи, которые SymPy не может.

Подход не %100 нейронный, решения нейросети проверяются классическими системами. Но классические системы получить эти решения не могут.

twitter.com/GuillaumeLample/status/1202178956063064064
Написание нейросетки на нумпае позволяет действительно понять эту нейросетку, расширяет сознание и подогревает стул, на котором вы сидите. В общем очень рекомендую.

Как раз об этом книжка Grokking Deep Learning, а решения упражнений (от полносвязных сеток до эмбеддингов и LSTM) выложены на GitHub.

github.com/iamtrask/Grokking-Deep-Learning/blob/master/README.md

После этого советую попробовать написать трансформер на том же нумпае. Потому что на самом деле архитектура проще той же LSTM, но это не очевидно, пока сам не попробуешь.
TensorFlow 2.1 (release candidate)

Что хорошего:
Гугл услышал нас и теперь по дефолту через pip install tensorflow ставится версия с поддержкой gpu. Если у вас gpu нету, ничего падать не будет и всё будет считаться на cpu (а сразу так можно было?)

Новый слой TextVectorization - делает за вас весь препроцессинг. Если он ещё и в bpe умеет, то это must have (но скорее всего не умеет)

Видно что они продолжают работать над главной задачей TF 2.X - ясный и однозначный API. Получается плохо, но движение правильное. Может быть TF-код будет возможно не только писать, но и читать через пару-тройку релизов.

github.com/tensorflow/tensorflow/releases/tag/v2.1.0-rc0?linkId=78227050
Вчера была мысль, что основной задачей разработчиков фреймворков-числодробилок является сделать их быстрыми. И от этого только больше удивляешься таким примерам: дефолтный способ преобразования нумпай-тензора в pytorch сильно медленее хитрого с небольшим ароматом питоновской магии comrehensions.
Forwarded from Deep Learning Highlights
знай врага в лицо!
Больше экспериментов по «интерполяционному» режиму обучения, который прослеживается в оверпараметризованных моделях (нейросети, бустинг итд)
Странная, но забавная идея: добавлять/убирать ноды в ваш кластер прямо во время обучения. Теперь можно с PuTorch Elastic. Вдруг кому понадобится.

(Пришёл домой, который отапливает твой сервер с 8 Tesla V100 и подключил свой ноутбук к нему, чтобы языковая моделька на неделю раньше поспела, утром отключил и пошёл ну работу)

twitter.com/PyTorch/status/1202978616679645185
Forwarded from Deep Learning
Controlling Text Generation with Plug and Play Language Models (uber.com)
AI Dungeon 2
aiweirdness.com/post/189511103367/play-ai-dungeon-2-become-a-dragon-eat-the-moon

Мы прямо сейчас лабой играем в эту текстовую игру, которая использует GPT-2 для генерации истории и реакции на твои ответы. Она прекрасна.