В случайной сетке нашли подсетку, которая работает сравнимо с resnet-34 и при этом меньше resnet-34. Алгоритм поиска прилагается. Пора исследовать таким образом трансформеры.
Forwarded from Just links
Попробовал nbdev. Пока что кажется очень сырой штукой, к которой обязательно нужны туториалы для использования. Ховард обещал - будем ждать.
Towards Lingua Franca Named Entity Recognition with BERT
Moon, Awasthy et al. [IBM]
arxiv.org/abs/1912.01389
Мультиязычный NER + различные исследования вокруг него. SOTA на CoNLL02 (голландский и испанский), OntoNotes (арабский и китайский)
Moon, Awasthy et al. [IBM]
arxiv.org/abs/1912.01389
Мультиязычный NER + различные исследования вокруг него. SOTA на CoNLL02 (голландский и испанский), OntoNotes (арабский и китайский)
Writing Across the World's Languages: Deep Internationalization for Gboard, the Google Keyboard
Vaan Esch et al. [Google]
arxiv.org/abs/1912.01218
Technical report о google keyboard и том как туда добавили 900 языков.
Кажется, большие компании начинают вспоминать, что в этом мире существуют другие языки, кроме английского.
Vaan Esch et al. [Google]
arxiv.org/abs/1912.01218
Technical report о google keyboard и том как туда добавили 900 языков.
Кажется, большие компании начинают вспоминать, что в этом мире существуют другие языки, кроме английского.
Трансформеры могут в математику лучше Вольфрама (и, скорее всего, тебя тоже).
Пара интересных фактов из статьи:
При решении диффуров, разные (высоковероятные) пути в beam search соответствуют разным представлениям одного и того же решения.
Система была натренирована с использованием SymPy, но способна решать задачи, которые SymPy не может.
Подход не %100 нейронный, решения нейросети проверяются классическими системами. Но классические системы получить эти решения не могут.
twitter.com/GuillaumeLample/status/1202178956063064064
Пара интересных фактов из статьи:
При решении диффуров, разные (высоковероятные) пути в beam search соответствуют разным представлениям одного и того же решения.
Система была натренирована с использованием SymPy, но способна решать задачи, которые SymPy не может.
Подход не %100 нейронный, решения нейросети проверяются классическими системами. Но классические системы получить эти решения не могут.
twitter.com/GuillaumeLample/status/1202178956063064064
Twitter
Guillaume Lample
Our new paper, Deep Learning for Symbolic Mathematics, is now on arXiv arxiv.org/abs/1912.01412 We added *a lot* of new results compared to the original submission. With @f_charton (1/7)
Написание нейросетки на нумпае позволяет действительно понять эту нейросетку, расширяет сознание и подогревает стул, на котором вы сидите. В общем очень рекомендую.
Как раз об этом книжка Grokking Deep Learning, а решения упражнений (от полносвязных сеток до эмбеддингов и LSTM) выложены на GitHub.
github.com/iamtrask/Grokking-Deep-Learning/blob/master/README.md
После этого советую попробовать написать трансформер на том же нумпае. Потому что на самом деле архитектура проще той же LSTM, но это не очевидно, пока сам не попробуешь.
Как раз об этом книжка Grokking Deep Learning, а решения упражнений (от полносвязных сеток до эмбеддингов и LSTM) выложены на GitHub.
github.com/iamtrask/Grokking-Deep-Learning/blob/master/README.md
После этого советую попробовать написать трансформер на том же нумпае. Потому что на самом деле архитектура проще той же LSTM, но это не очевидно, пока сам не попробуешь.
GitHub
Grokking-Deep-Learning/README.md at master · iamtrask/Grokking-Deep-Learning
this repository accompanies the book "Grokking Deep Learning" - iamtrask/Grokking-Deep-Learning
TensorFlow 2.1 (release candidate)
Что хорошего:
Гугл услышал нас и теперь по дефолту через pip install tensorflow ставится версия с поддержкой gpu. Если у вас gpu нету, ничего падать не будет и всё будет считаться на cpu (а сразу так можно было?)
Новый слой TextVectorization - делает за вас весь препроцессинг. Если он ещё и в bpe умеет, то это must have (но скорее всего не умеет)
Видно что они продолжают работать над главной задачей TF 2.X - ясный и однозначный API. Получается плохо, но движение правильное. Может быть TF-код будет возможно не только писать, но и читать через пару-тройку релизов.
github.com/tensorflow/tensorflow/releases/tag/v2.1.0-rc0?linkId=78227050
Что хорошего:
Гугл услышал нас и теперь по дефолту через pip install tensorflow ставится версия с поддержкой gpu. Если у вас gpu нету, ничего падать не будет и всё будет считаться на cpu (а сразу так можно было?)
Новый слой TextVectorization - делает за вас весь препроцессинг. Если он ещё и в bpe умеет, то это must have (но скорее всего не умеет)
Видно что они продолжают работать над главной задачей TF 2.X - ясный и однозначный API. Получается плохо, но движение правильное. Может быть TF-код будет возможно не только писать, но и читать через пару-тройку релизов.
github.com/tensorflow/tensorflow/releases/tag/v2.1.0-rc0?linkId=78227050
GitHub
Release TensorFlow 2.1.0-rc0 · tensorflow/tensorflow
Release 2.1.0
TensorFlow 2.1 will be the last TF release supporting Python 2. Python 2 support officially ends an January 1, 2020. As announced earlier, TensorFlow will also stop supporting Python ...
TensorFlow 2.1 will be the last TF release supporting Python 2. Python 2 support officially ends an January 1, 2020. As announced earlier, TensorFlow will also stop supporting Python ...
Вчера была мысль, что основной задачей разработчиков фреймворков-числодробилок является сделать их быстрыми. И от этого только больше удивляешься таким примерам: дефолтный способ преобразования нумпай-тензора в pytorch сильно медленее хитрого с небольшим ароматом питоновской магии comrehensions.
Больше экспериментов по «интерполяционному» режиму обучения, который прослеживается в оверпараметризованных моделях (нейросети, бустинг итд)
Странная, но забавная идея: добавлять/убирать ноды в ваш кластер прямо во время обучения. Теперь можно с PuTorch Elastic. Вдруг кому понадобится.
(Пришёл домой, который отапливает твой сервер с 8 Tesla V100 и подключил свой ноутбук к нему, чтобы языковая моделька на неделю раньше поспела, утром отключил и пошёл ну работу)
twitter.com/PyTorch/status/1202978616679645185
(Пришёл домой, который отапливает твой сервер с 8 Tesla V100 и подключил свой ноутбук к нему, чтобы языковая моделька на неделю раньше поспела, утром отключил и пошёл ну работу)
twitter.com/PyTorch/status/1202978616679645185
Twitter
PyTorch
PyTorch Elastic for distributed elastic training — where nodes can join and leave during training — is now available as an experimental feature, along with ClassyVision, a new framework for large-scale training of image and video classification models: h…
AI Dungeon 2
aiweirdness.com/post/189511103367/play-ai-dungeon-2-become-a-dragon-eat-the-moon
Мы прямо сейчас лабой играем в эту текстовую игру, которая использует GPT-2 для генерации истории и реакции на твои ответы. Она прекрасна.
aiweirdness.com/post/189511103367/play-ai-dungeon-2-become-a-dragon-eat-the-moon
Мы прямо сейчас лабой играем в эту текстовую игру, которая использует GPT-2 для генерации истории и реакции на твои ответы. Она прекрасна.
AI Weirdness
Play AI Dungeon 2. Become a dragon. Eat the moon.
I wrote earlier about a neural net-powered dungeon crawling text adventure game called GPT-2-Adventure in which gameplay is incoherent and dreamlike, as you encounter slippery sign text, circular passages, and unexpected lozenge rooms. A PhD student named…