Forwarded from Machinelearning
WordLlama — это быстрый и легкий набор инструментов для обработки естественного языка для задач нечеткой дедупликации, оценки сходства и ранжирования слов.
Он оптимизирован для CPU и способен создавать эффективные представления текстовых лексем, используя компоненты из больших языковых моделей, например LLama3.
Ключевые особенности WordLlama:
Эксперименты на наборе данных MTEB показывают, что WordLlama превосходит GloVe 300d по всем показателям, несмотря на значительно меньший размер (16 МБ против >2 ГБ).
WordLlama демонстрирует высокую производительность в задачах кластеризации, реранжирования, классификации текстов и семантического поиска.
В будущем разработчики планируют добавить функции для семантического разделения текста, а также примеры блокнотов и конвейеры RAG.
@ai_machinelearning_big_data
#AI #ML #Toolkit #NLP #WordLlama
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Этот открытый учебник считается де-факто стандартом и одним из самых авторитетных и всеобъемлющих ресурсов для изучения областей обработки естественного языка (NLP), вычислительной лингвистики и обработки речи.
Книга разделена на три части, включающие 24 основные главы и 8 приложений.
Темы охватывают широкий спектр, включая:
Для каждой главы доступны слайды в форматах PPTX и PDF, что делает ресурс полезным для преподавателей.
Для всех, кто заинтересован в изучении NLP это фантастически полезный ресурс.
@ai_machinelearning_big_data
#freebook #opensource #nlp
Please open Telegram to view this post
VIEW IN TELEGRAM