DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
加入频道
Новости из чатика #NLP в ODS:

VK Research зарелизили код распаралелленного и ускоренного алгоритма построения словаря для BPE. Говорят, что на практике ускоряет в 5-7 раз.

Код: github.com/VKCOM/YouTokenToMe
Пост на медиуме: medium.com/@vktech/youtokentome-a-tool-for-quick-text-tokenization-from-the-vk-team-aa6341215c5a
The lottery ticket hypothesis suggests that by training DNNs from “lucky” initializations, we can train networks which are 10-100x smaller with minimal performance losses. In new work, we extend our understanding of this phenomenon in several ways... https://ai.facebook.com/blog/understanding-the-generalization-of-lottery-tickets-in-neural-networks https://twitter.com/facebookai/status/1199042155743862784/video/1


Do lottery tickets contain generic inductive biases or are they overfit to the particular dataset and optimizer used to find them? Encouragingly, we found that lottery tickets generalize across related, but distinct datasets and across optimizers: https://arxiv.org/abs/1906.02773


Is the lottery ticket phenomenon a general property of DNNs or merely an artifact of supervised image classification? We show that the lottery ticket phenomenon is a general property which is present in both #reinforcementlearning and #NLP


Can we begin to explain lottery tickets theoretically? We introduce a new theoretical framework on the formation of lottery tickets to help researchers advance toward a better understanding of lucky initializations

Via twitter.com/facebookai/status/1199042159334154241
Replika на Data Fest 2020

На этих выходных проходил Data Fest 2020 и одним из самых классных выступлений в секции #nlp было выступление о том, как сделана Replika. Они делают чатбота, который просто разговаривает с вами и может поднять вам настроение, помочь справиться с стрессом. И работает бот довольно классно.

Теперь о том, как он сделан. Если коротко: ранжирование на берте + генерация на GPT-3 (Replika одной из первых получила доступ к OpenAI API) + очень много всего остального включая CV модельки и AR. Подробнее можете посмотреть в записи доклада или, если совсем нет времени, просмотреть слайды.

А если хотите сами поговорить с ботом, то можете скачать их приложение.
​​Summarizing Books with Human Feedback

#OpenAI fine-tuned #GPT3 to summarize books well enough to be human-readable. Main approach: recursively split text into parts and then meta-summarize summaries.

This is really important because once there will be a great summarization #SOTA we won't need editors to write posts for you. And researchers ultimatively will have some asisstance interpreting models' results.

BlogPost: https://openai.com/blog/summarizing-books/
ArXiV: https://arxiv.org/abs/2109.10862

#summarization #NLU #NLP
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp #gpt4

🌸Ресурсы для prompt engineering🌸

Набор библиотек и инструментов, которые помогут быстрее подобрать лучшие затравки для языковых моделей и запустить новое приложение.

🟣Платформы:

Dust.tt
Dust.tt — платформа, которая помогает создавать приложения с большими языковыми моделями на базе запросов к API. Есть простой в использовании веб-интерфейс для создания цепочек подсказок и бизнес-логики, а также набор стандартных блоков и настраиваемый язык программирования для анализа и контроля выходных данных языковой модели. Есть также интерактивный помощник в форме Chrome extension и поддержка разных API

Human Loop
Human Loop — платформа с демо GPT-4 и другими LLM, похожая на демо OpenAI, но с некоторыми дополнительными функциями. Можно получать метрики качества работы моделей от людей-разметчиков.

Promptify
Библиотека и маркетплейс затравок и готовых приложений на них. Под капотом — уже отточенные методы подбора затравок и промпт-тюнинга.

🟣Python-библиотеки:

LangChain
LangChain — библиотека с поддержкой различных LLM, методов контроля результатов, шаблонов для создания затравок под самые разные приложения, включая чат-боты, суммаризацию, внешние базы знаний.

BetterPrompt
BetterPrompt — библиотека для тестирования затравок для LLM перед отправкой в PROD

PromptSource
PromptSourceбиблиотека для контроля версий затравок, и подбора готовых затравок для различных задач и датасетов. Можно оценивать свою языковую модель ровно в тех же условиях, что и все остальные на таких бенчмарках, как SuperGLUE, есть интеграция с HuggingFace.

OpenPrompt
OpenPrompt — библиотека для промт-тюнинга и подбора оптимальных затравок под задачу. Есть интеграция с моделями HuggingFace

TextBox
TextBox 2.0 — фреймворк для работы с LLM и их оценкой. Поддерживаются 47 разных языковых моделей и различные методы подбора затравок, few-shot, zero-shot, автоматические метрики оценки качества

🟣Другие инструменты:
ThoughtSource
ThoughtSource открытая библиотека для сбора самых разных методов работы с chain-of-thought reasoning у LLM. Поддерживает множество моделей, датасетов, метрик и стилей формулировок для ризонинга.

GPT Index / LlamaIndex 🦙
GPT Index библиотека с инструментами для оптимальной работы с внешними данными, базами знаний в различных форматах и их интеграции с LLM.

Interactive Composition Explorer
ICE — библиотека для дебага chain-of-thougths, есть визуализация цепочек затравок для дебага LLM.
Please open Telegram to view this post
VIEW IN TELEGRAM
32👍4
Forwarded from Kali Novskaya (Tatiana Shavrina)
🌸Все данные для тестов LLM скомпрометированы? 🌸
#nlp #про_nlp #nlp_papers

Часто можно услышать критику о том, что результатам оценки LLM не стоит доверять, так как многие бенчмарки и датасеты уже давно лежат на гитхабе, а значит, наверняка попали в обучение моделей.

Как надежно тестировать языковые модели, если у нас часто нет доступа к их обучающим данным, а некоторые так и полностью от нас закрыты? Что, если данные были скомпрометированы?

Авторы Alpaca представили новый метод, позволяющий оценить риск утечки (контаминации) датасета, т.е. его ненамеренное/намеренное попадание в обучающую выборку у языковых моделей.

Идея простая: будем считать, что модель "запоминает" задания и ответы на них в той же последовательности, как они идут в датасете. Давайте проверим, сможем ли мы установить статистически значимую разницу в качестве решений задачи, если будем показывать моделям набор тестов задачи в том порядке, как он идут в самом датасете, или же в перемешанном порядке.
Спойлер: да, можем.

Искусственный эксперимент, при котором небольшой модели (1.4 млрд параметров) при обучении на Википедии "подкладывают" тестовые сеты различных датасетов — один раз, десять раз и т.д. — показывает, что при 10 и более копиях теста в обучении разница в качестве решения устанавливается достаточно надежно, и можно с уверенностью сказать, что можель опирается на запоминание, а не на обобщение или другие "возникающие" интеллектуальные способности.

Авторы протестировали несколько LLM (LLaMA2-7B, Mistral-7B, Pythia-1.4B, GPT-2 XL, BioMedLM) на публичных датасетах — и некоторые из них оказались действительно скомпрометированы. Например, Arc challenge точно попал в обучение Mistral, да еще и 10+ раз!

Выводы:
🟣Мы уже можем тестировать языковые модели, в том числе доступные только по API, на "честность" решения самых разных задач, а также можем проверять, не меняется ли картина во времени.
🟣Реальную сложность представляет обнаружение утечки теста, когда он попал в обучение всего один раз (не удается стат значимо установить разницу в качестве решений)
🟣Нас может ждать глобальный и регулярный пересмотр подхода к тестированию моделей, так как открытые ответы регулярно выкладываются на открытые площадки и, соответственно, компрометируются. Оценка LLM должна быть привязана ко времени?
🟣Остается проверить так все модели OpenAI?

🟣Статья: Proving Test Set Contamination in Black Box Language Models link
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥102
Forwarded from Kali Novskaya (Tatiana Shavrina)
🌸Бесплатные курсы по LLM🌸
#nlp #про_nlp

Небольшое обновление поста про бесплатные курсы NLP/LLM, на этот раз добавлю англоязычных материалов. Всё разбила на две группы: посложнее и поприкладнее-попроще.

🌸Для MLE:
Для курсов требуется английский, требуется Python, основы машинного обучения, базовая теория вероятности и статистика, линейная алгебра.

🟣CS224N: Natural Language Processing with Deep Learning
https://web.stanford.edu/class/cs224n/
Крутой стэнфордский курс, идет каждый год с обновлениями. В этом году впервые лекции решили не выкладывать на youtube, хотя остались в публичном доступе все лекции 2023 — их очень советую.

🟣Chris Manning — конспекты
https://web.stanford.edu/class/cs224n/readings/cs224n-self-attention-transformers-2023_draft.pdf
Преподаватель курса выше и один из самых успешных ученых, авторов исследовательских работ без большого компьюта (DPO, Backpack language models), Крис Маннинг все материалы лекций выкладывает в открытый доступ. По датам обновлений видно, что обновленные материалы -- для курса 2024 года, пользуйтесь! https://web.stanford.edu/class/cs224n/readings/

🟣Dan Jurafsky — Speech and Language Processing (3rd ed. draft)
Автор основного за последние 20 лет учебника по NLP, и тоже из Стэнфорда, Дэн Журафски продолжает выкладывать в открытый доступ новые главы учебника, постоянно обновляя старые. Это вообще практически единственная книга, которую можно прочитать целиком и уже иметь ключи к пониманию 80% происходящего в индустрии.
Последнее обновление учебника – 5 января 2024:
https://web.stanford.edu/~jurafsky/slpdraft/

🟣Transformers United
https://web.stanford.edu/class/cs25/prev_years/2023_winter/index.html
Второй по важности курс, чтобы понимать, что происходит — с общей направленностью на NLP, CV и мультимодальные модели.


🌸Курсы попроще
Требуется только английский и Python

🟣HuggingFace NLP Course
https://huggingface.co/learn/nlp-course/
Верхнеуровневый курс прикладной направленности, научит запускать инференс и тюнинг основных моделей, позволит примерно понять, что происходит внутри и какие параметры ставить для каких задач.

🟣Cohere LLM University
https://docs.cohere.com/docs/llmu
Все настроено, конечно, чтобы вас научить работать именно с продуктами Cohere, но сами по себе обзорные материалы неплохие. Из плюсов — есть Discord сообщество курса.

🟣Learn Prompting
https://learnprompting.org/docs/intro
Хороший дополняемый сборник лучших практик по промпт-инжинирингу, построению chain-of-thought, reasoning, построению ансамблей и систем проверки пайплайнов с промптами.
Please open Telegram to view this post
VIEW IN TELEGRAM
54🔥22👍11🥰3