Data Science by ODS.ai 🦜
46K subscribers
666 photos
77 videos
7 files
1.75K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
加入频道
Most common libraries for Natural Language Processing:

CoreNLP from Stanford group:
http://stanfordnlp.github.io/CoreNLP/index.html

NLTK, the most widely-mentioned NLP library for Python:
http://www.nltk.org/

TextBlob, a user-friendly and intuitive NLTK interface:
https://textblob.readthedocs.io/en/dev/index.html

Gensim, a library for document similarity analysis:
https://radimrehurek.com/gensim/

SpaCy, an industrial-strength NLP library built for performance:
https://spacy.io/docs/

Source: https://itsvit.com/blog/5-heroic-tools-natural-language-processing/

#nlp #digest #libs
Forwarded from Machinelearning
⚡️ Новые разработки команды FAIR в области ИИ.

Подразделение FAIR компании Марка Цукерберга представила новые исследовательские результаты, направленные на развитие исследований в ИИ, а их открытая публикация должна способствовать ускорению общего прогресса:

🟢Motivo - базовая модель для управления виртуальными воплощенными агентами.

Модель обучена с применением нового алгоритма, который позволяет представлять состояния, движения и вознаграждения в едином латентном пространстве. Motivo демонстрирует высокую производительность в сравнении со специализированными методами, превосходит современные подходы неконтролируемого обучения с подкреплением и проявляет устойчивость к изменениям окружающей среды.
🟡Paper 🟡Demo 🟡Github

🟢Video Seal - система для нанесения водяных знаков на видео.

Метод добавляет незаметные водяные знаки, устойчивые к редактированию и сжатию, чтобы маркировать и отслеживать происхождение сгенерированных видеоматериалов. Video Seal является развитием предыдущей разработки Audio Seal.
🟡Paper 🟡Demo 🟡Github

🟢Flow Matching - генеративная парадигма для множества модальностей.

Метод, который постепенно заменяет классическую диффузию и повышает производительность и эффективность обобщения при создании изображений, видео, аудио и 3D-структур.
Он уже применяется в продуктах Movie Gen, Audiobox и Melody Flow, а также в Stable-Diffusion-3, Flux, Fold-Flow и Physical Intelligence Pi_0.
🟡Paper 🟡Github

🟢Explore Theory-of-Mind - техника генерации данных для обучения моделей теории разума.

Этот подход позволяет создавать разнообразные и сложные сценарии для обучения LLM. Экспериментальное применение Explore Theory-of-Mind с Llama-3.1 7B привело к увеличению точности на 27 пунктов на тесте ToMi.
🟡Paper 🟡Github 🟡Dataset

🟢Large Concept Model (LCM) - метод обучения языковых моделей, который предсказывает не следующий токен, а следующую концепцию.

Основная идея LCM заключается в том, чтобы отделить рассуждения от представления языка, и она вдохновлена тем, как люди могут планировать высокоуровневые мысли для общения. LCM значительно отличается от типичного LLM. Вместо того чтобы предсказывать следующую лексему, LCM обучается предсказывать следующую концепцию или идею высокого уровня, представленную полным предложением в мультимодальном и многоязычном пространстве эмбедингов.
🟡Paper 🟡Github

🟢Dynamic Byte Latent Transformer - иерархическая модель, работающая с байтами напрямую без токенизации.

DBLT превосходит модели на основе токенизаторов по надежности, в среднем на 7 пунктов, и отлично справляется с обработкой longtail и rare sequences of unseen symbols.
🟡Paper 🟡Github

🟢Memory Layers – метод масштабирования слоев памяти, повышающий фактологичность моделей.

Метод, который помогает эффективно хранить и извлекать информацию через специальные "слои памяти" без значительного роста вычислительных затрат. Он позволяет моделям работать лучше и точнее на задачах, связанных с фактами.
🟡Paper 🟡Github

🟢EvalGym - библиотека для оценки text-to-image моделей.

Она позволяет легко использовать воспроизводимые автоматические оценки T2I-моделей и поддерживает настройку с использованием пользовательских метрик, датасетов и визуализаций.
🟡Paper 🟡Github

🟢CLIP 1.2 - улучшенная версия vision-language энкодера.
🟡Paper 🟡Github 🟡Dataset 🟡Model


@ai_machinelearning_big_data

#AI #ML #FAIR #Digest
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥651