#ruvdsпереводы #языковые-модели
Всё, что вам нужно — это внимание (часть 1)
Рейтинг: 45
https://habr.com/ru/post/723538
Всё, что вам нужно — это внимание (часть 1)
Рейтинг: 45
https://habr.com/ru/post/723538
Хабр
Всё, что вам нужно — это внимание (часть 1)
Источник Примечание переводчика: Недавно на Хабре мы рассказывали о статьях, которые нужно прочитать, если вы хотите заниматься искусственным интеллектом. Среди них была культовая статья Attention is...
#яндекс #языковые_модели
Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT
⭐️⭐️◽️◽️◽️
📖 Читать
Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT
⭐️⭐️◽️◽️◽️
📖 Читать
#яндекс #языковые_модели
Яндекс разработал и выложил в опенсорс YaFSDP — инструмент для ускорения обучения LLM и сокращения расходов на GPU
Сегодня мы выкладываем в опенсорс наш новый инструмент — алгоритм YaFSDP, который помогает существенно ускорить процесс обучения больших языковых моделей.В этой статье мы расскажем о том, как можно организовать обучение больших языковых моделей на кластере и какие проблемы при этом возникают. Рассмотрим альтернативные методы ZeRo и FSDP, которые помогают организовать этот процесс. И объясним, чем YaFSDP отличается от них.
⭐️⭐️⭐️◽️◽️
📖 Читать
Яндекс разработал и выложил в опенсорс YaFSDP — инструмент для ускорения обучения LLM и сокращения расходов на GPU
Сегодня мы выкладываем в опенсорс наш новый инструмент — алгоритм YaFSDP, который помогает существенно ускорить процесс обучения больших языковых моделей.В этой статье мы расскажем о том, как можно организовать обучение больших языковых моделей на кластере и какие проблемы при этом возникают. Рассмотрим альтернативные методы ZeRo и FSDP, которые помогают организовать этот процесс. И объясним, чем YaFSDP отличается от них.
⭐️⭐️⭐️◽️◽️
📖 Читать
#распознавание_текста #языковые_модели
Модели T-lite и T-pro: training report
Привет! Я Дима Стоянов, MLE в команде разработки фундаментальных моделей. Мы продолжаем рассказывать о наших моделях T-lite и T-pro. Общие характеристики и результаты бенчмарков описывали в предыдущей публикации. В этой статье раскроем детали предобучения: от подготовки данных до финальных экспериментов, а совсем скоро поделимся особенностями этапа post-training.
⭐️⭐️◽️◽️◽️
📖 Читать
Модели T-lite и T-pro: training report
Привет! Я Дима Стоянов, MLE в команде разработки фундаментальных моделей. Мы продолжаем рассказывать о наших моделях T-lite и T-pro. Общие характеристики и результаты бенчмарков описывали в предыдущей публикации. В этой статье раскроем детали предобучения: от подготовки данных до финальных экспериментов, а совсем скоро поделимся особенностями этапа post-training.
⭐️⭐️◽️◽️◽️
📖 Читать
👍1