ТГУ | Томский государственный университет
from Михаил Пожидаев
Ничего так не успокаивает и не напоминает, что жизнь прекрасна, как чтение интеллектуальной литературы. Ещё раз обратим внимание на статью «Attention is all you need», пять лет назад развернувшую компьютерную лингвистику на 180 градусов.
Одна из фундаментальных проблем компьютерной лингвистики — способ цифрового представления «смысла» текста. Всё здесь было перепробовано: онтологии, формальные грамматики, векторные представления и т. д. В случае векторных представлений, когда «смысл» текста кодируется в последовательность чисел, может применяться много различных способов вычислений.
Нам нужно выстроить цепочку чисел с плавающей точкой таким образом, что другая цепочка, кодирующая близкое по смыслу предложение, отличалась бы от первой незначительно. Близкие предложения — близкие цепочки. Как это сделать? Долгое время использовались итеративные вычисления с обратной связью (так называемые рекуррентные модели), но в какой-то момент заметили, что качество результата существенно улучшается при учёте своего рода «внимания» к разным частям текста. Метод так и назвали — механизм внимания. Он имитирует внимание человека, когда мозг анализирует связи между словами в тексте.
Авторы статьи обнаружили, что качество кодирования «смысла» текста существенно улучшается, если для кодирования использовать один только механизм внимания. У этого наблюдения может быть фундаментальный смысл — вдруг человек тоже воспринимает текст сугубо только на основе взаимосвязей слов? Никаких рекуррентных моделей, никаких обратных связей более не требуется.
На основе этого наблюдения группа исследователей из Google под руководством Ашиша Васвани построила новую лингвистическую модель, которую назвали Трансформером. Трансформер лёг в основу практически всех современных интеллектуальных лингвистических алгоритмов, включая BERT, который используется для обогащения запроса пользователя в поисковых системах, и генеративные модели. Самым ярким представителем генеративных моделей является GPT-3, привлекшая внимание способностью дописывать неоконченный текст. И вспомним лишний раз прямое назначение Трансформера — машинный перевод.
Неожиданная сложность с применением моделей этого класса оказалась в том, что их поведение трудно контролировать. Результат прекрасный, но не всегда тот, который ожидали разработчики. Теперь же предстоит научиться управлять поведением всего, что основано на Трансформере, чтобы получать пользу для большего количества задач.
https://arxiv.org/abs/1706.03762
#трансформер #лингвистика #NLP... подробнее на канале: ТГУ | Томский государственный университет
@
from Михаил Пожидаев
Ничего так не успокаивает и не напоминает, что жизнь прекрасна, как чтение интеллектуальной литературы. Ещё раз обратим внимание на статью «Attention is all you need», пять лет назад развернувшую компьютерную лингвистику на 180 градусов.
Одна из фундаментальных проблем компьютерной лингвистики — способ цифрового представления «смысла» текста. Всё здесь было перепробовано: онтологии, формальные грамматики, векторные представления и т. д. В случае векторных представлений, когда «смысл» текста кодируется в последовательность чисел, может применяться много различных способов вычислений.
Нам нужно выстроить цепочку чисел с плавающей точкой таким образом, что другая цепочка, кодирующая близкое по смыслу предложение, отличалась бы от первой незначительно. Близкие предложения — близкие цепочки. Как это сделать? Долгое время использовались итеративные вычисления с обратной связью (так называемые рекуррентные модели), но в какой-то момент заметили, что качество результата существенно улучшается при учёте своего рода «внимания» к разным частям текста. Метод так и назвали — механизм внимания. Он имитирует внимание человека, когда мозг анализирует связи между словами в тексте.
Авторы статьи обнаружили, что качество кодирования «смысла» текста существенно улучшается, если для кодирования использовать один только механизм внимания. У этого наблюдения может быть фундаментальный смысл — вдруг человек тоже воспринимает текст сугубо только на основе взаимосвязей слов? Никаких рекуррентных моделей, никаких обратных связей более не требуется.
На основе этого наблюдения группа исследователей из Google под руководством Ашиша Васвани построила новую лингвистическую модель, которую назвали Трансформером. Трансформер лёг в основу практически всех современных интеллектуальных лингвистических алгоритмов, включая BERT, который используется для обогащения запроса пользователя в поисковых системах, и генеративные модели. Самым ярким представителем генеративных моделей является GPT-3, привлекшая внимание способностью дописывать неоконченный текст. И вспомним лишний раз прямое назначение Трансформера — машинный перевод.
Неожиданная сложность с применением моделей этого класса оказалась в том, что их поведение трудно контролировать. Результат прекрасный, но не всегда тот, который ожидали разработчики. Теперь же предстоит научиться управлять поведением всего, что основано на Трансформере, чтобы получать пользу для большего количества задач.
https://arxiv.org/abs/1706.03762
#трансформер #лингвистика #NLP... подробнее на канале: ТГУ | Томский государственный университет
@
Telegram
ТГУ | Томский государственный университет
Ничего так не успокаивает и не напоминает, что жизнь прекрасна, как чтение интеллектуальной литературы. Ещё раз обратим внимание на статью «Attention is all you need», пять лет назад развернувшую компьютерную лингвистику на 180 градусов.
Одна из фундаментальных…
Одна из фундаментальных…