Всем привет!
В свете последних потрясающих новостей про LLM хочу поделиться ещё одним любопытным исследованием🙂
Недавний релиз DeepSeek R1 показал, что обучение мощных LLM может стоить значительно дешевле, чем у лидеров рынка. Теперь исследователи из Стэнфорда решили проверить, насколько быстро и дёшево можно дообучить существующую открытую модель, чтобы она конкурировала с проприетарными решениями.
💎 Они взяли Qwen2.5-32B-Instruct и применили knowledge distillation — способ передачи знаний от более мощной модели (учителя) к компактной модели (ученику). Ученик обучается воспроизводить ответы учителя, что позволяет достичь высокой производительности при меньших вычислительных затратах. В данном случае, модель-ученик обучалась на небольшом, но тщательно отобранном датасете из 1000 примеров, сгенерированных Gemini Thinking Experimental (кстати, можно скачать его с HuggingFace).
🫣 Итоги...
Получившаяся модель обошла o1-preview на 27% в тестах MATH и AIME24, сохранив компактность и эффективность.
Но главный результат — скорость и доступность: весь процесс обучения занял 26 минут на 16-ти GPU NVIDIA H100, что сравнимо со стоимостью запуска DeepSeek R1.
📖 Код работы опубликован на GitHub, а обученная модель доступна на Hugging Face.
Этот эксперимент подтверждает тренд на снижение стоимости и времени обучения LLM. Возможно, вскоре появятся всё более доступные «open-weight» решения, которые смогут конкурировать с закрытыми моделями крупнейших компаний😎
#nlp@data_easy
В свете последних потрясающих новостей про LLM хочу поделиться ещё одним любопытным исследованием
Недавний релиз DeepSeek R1 показал, что обучение мощных LLM может стоить значительно дешевле, чем у лидеров рынка. Теперь исследователи из Стэнфорда решили проверить, насколько быстро и дёшево можно дообучить существующую открытую модель, чтобы она конкурировала с проприетарными решениями.
Получившаяся модель обошла o1-preview на 27% в тестах MATH и AIME24, сохранив компактность и эффективность.
Но главный результат — скорость и доступность: весь процесс обучения занял 26 минут на 16-ти GPU NVIDIA H100, что сравнимо со стоимостью запуска DeepSeek R1.
Этот эксперимент подтверждает тренд на снижение стоимости и времени обучения LLM. Возможно, вскоре появятся всё более доступные «open-weight» решения, которые смогут конкурировать с закрытыми моделями крупнейших компаний
#nlp@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
❤22🔥5👍4
Всем привет!
Сегодня снова про LLM🌿
Для тех, кто ещё не посмотрел лекцию Андрея Карпаты Deep Dive into LLMs like ChatGPT, держите небольшой обзор💜
В 3.5-часовом видео он подробно объясняет, из чего состоят большие языковые модели и как их обучают, рассказывает про их частые проблемы и, конечно, про DeepSeek😊
Ещё из интересного...
📋 Глупые ошибки, которые, на самом деле, закономерны:
🔵 LLM не могут правильно посчитать количество букв в слове из-за особенностей токенизации;
🔵 у LLM бывают беды с определением следования дат из-за религиозных текстов, в которых их порядок тоже перепутан.
📋 Откуда берутся галлюцинации и как с ними бороться:
🔵 раньше модели не обучались говорить «я не знаю», теперь же с этим борются через специальный этап дообучения с учителем (SFT);
🔵 ещё вариант — интегрировать их с поиском, чтобы LLM могла гуглить перед ответом.
📋 Чем интересен DeepSeek R1 и какие источники Карпаты использует, чтобы следить за LLM-прогрессом (lmarena, AINews, Twitter).
➡️ Ссылка на оригинал лекции: тык
PS: Андрей Карпаты - ex-директор по ИИ в Tesla и сооснователь OpenAI.
С праздником, любимые подписчики!💜
#nlp@data_easy
Сегодня снова про LLM
Для тех, кто ещё не посмотрел лекцию Андрея Карпаты Deep Dive into LLMs like ChatGPT, держите небольшой обзор
В 3.5-часовом видео он подробно объясняет, из чего состоят большие языковые модели и как их обучают, рассказывает про их частые проблемы и, конечно, про DeepSeek
Ещё из интересного...
PS: Андрей Карпаты - ex-директор по ИИ в Tesla и сооснователь OpenAI.
С праздником, любимые подписчики!
#nlp@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Deep Dive into LLMs like ChatGPT
This is a general audience deep dive into the Large Language Model (LLM) AI technology that powers ChatGPT and related products. It is covers the full training stack of how the models are developed, along with mental models of how to think about their "psychology"…
🔥7❤6👍2
Привет, друзья!🦋
В последнее время часто говорят про спад в IT, сокращения и падение зарплат... Свежее исследование Habr-карьеры показывает обратное: ЗП IT-специалистов во втором полугодии 2024 года выросли на 19% по сравнению с предыдущим, медианная ЗП составила 180k (по всем IT-направлениям). В самой статье можете посмотреть детализацию по городам, направлениям и языкам программирования🐶 🐶
Насчёт количества IT-вакансий - в 2024 году их, действительно, стало меньше, чем в 2023: в среднем на 5%.Но примечательно, что в сфере ИИ число предложений, наоборот, увеличилось на 43% 💃
А на скринах держите сводки средних ЗП в разрезе грейдов для профессий "Data Scientist" и "ML-разработчик", данные с той же Habr-карьеры💲
PS: кто ещё там не зарегистрировался - за указание своей ЗП можно получить доступ к таким же графикам по всем направлениям в IT😊
PPS: рост ЗП покрыл официальную инфляцию😀
#карьера@data_easy
В последнее время часто говорят про спад в IT, сокращения и падение зарплат... Свежее исследование Habr-карьеры показывает обратное: ЗП IT-специалистов во втором полугодии 2024 года выросли на 19% по сравнению с предыдущим, медианная ЗП составила 180k (по всем IT-направлениям). В самой статье можете посмотреть детализацию по городам, направлениям и языкам программирования
Насчёт количества IT-вакансий - в 2024 году их, действительно, стало меньше, чем в 2023: в среднем на 5%.
А на скринах держите сводки средних ЗП в разрезе грейдов для профессий "Data Scientist" и "ML-разработчик", данные с той же Habr-карьеры
PS: кто ещё там не зарегистрировался - за указание своей ЗП можно получить доступ к таким же графикам по всем направлениям в IT
PPS: рост ЗП покрыл официальную инфляцию
#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥10👍7✍4🔥3
Привет, друзья!
Добавила новое видео на YouTube📺 Гид по нейросетям в DS: как выбрать модель для CV,NLP, аудио✨
В нём краткая инструкция для новичков по выбору подходящей модели для различных задач в CV, NLP и обработке аудио😌
- с чего начать?
- какие базовые модели попробовать?
- где искать SOTA-решения?(конечно, Papers with Code😁)
Буду рада вашей поддержке! ❤️ Рекомендательные системы Ютуба лучше подхватывают активные видео, лайк, комментарий и просто просмотр очень помогут!🥰
И, конечно, пишите, что хотели бы разобрать в следующих выпусках🤪
С первым весенним днём!🌸
UPD: также доступно на rutube
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
Добавила новое видео на YouTube
В нём краткая инструкция для новичков по выбору подходящей модели для различных задач в CV, NLP и обработке аудио
- с чего начать?
- какие базовые модели попробовать?
- где искать SOTA-решения?
Буду рада вашей поддержке! ❤️ Рекомендательные системы Ютуба лучше подхватывают активные видео, лайк, комментарий и просто просмотр очень помогут!
И, конечно, пишите, что хотели бы разобрать в следующих выпусках
С первым весенним днём!🌸
UPD: также доступно на rutube
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16🔥9👍4🤩3
Добавила хэштеги ко всем актуальным постам канала
#python@data_easy
#математика@data_easy
#аналитика@data_easy
#classic_ml@data_easy
#dl@data_easy
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#mlops@data_easy
#лайфхаки@data_easy
#карьера@data_easy
#полезный_ии@data_easy
ситуацию!
#мем@data_easy
https://yangx.top/+v1fdmoHV3JwyYTJi
https://youtube.com/@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
EasyData-chat
Чат канала EasyData❤️
❤8🔥5👍1
Вечер пятницы - не для серьёзных постов😎
Выполняем план по приумножению #мем@data_easy
Делитесь своими шутками в комментариях😔
Выполняем план по приумножению #мем@data_easy
Делитесь своими шутками в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣11😁4👍3
Привет, друзья!
На канале вышло новое видео с наглядным объяснением основ градиентного спуска↗️ 📉
Буду рада вашим комментариям✨
➡️ Ссылка на youtube
➡️ Ссылка на rutube
Продуктивной предстоящей недели!😎
#математика@data_easy
На канале вышло новое видео с наглядным объяснением основ градиентного спуска
Буду рада вашим комментариям
Продуктивной предстоящей недели!
#математика@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Градиентный спуск – основа машинного обучения | Простое объяснение без сложных формул
Что такое градиентный спуск и почему он играет ключевую роль в машинном обучении? В этом видео просто и наглядно объясняется, как происходит обучение моделей и что в этом процессе делает градиентный спуск. Всё доступно, без сложных формул – только суть, картинки…
🔥15❤9👍4
Привет, друзья!🌞
Сегодня обсудим тему хранения данных🗃 При работе с ML или аналитикой часто приходится сохранять промежуточные и конечные результаты в виде файлов - от датасетов до чекпоинтов моделей. И обычные базы данных, а тем более локальные диски и файловые системы быстро становятся неудобными... В таких случаях отлично подходит Amazon S3 (Simple Storage Service) - надёжное облачное хранилище, которое стало стандартом в индустрии.
📂 Что такое S3 и как оно устроено?
S3 - это объектное хранилище, в котором данные организуются не в файлы и папки, а в бакеты (buckets) - контейнеры, внутри которых хранятся объекты (файлы любого типа). У каждого объекта есть свой уникальный ключ (путь, по нему можно получить доступ к файлу) и метаданные.
📂 Главные принципы работы с S3:
➡️ Бакеты - это аналог корневых папок, в них лежат файлы (объекты).
➡️ Объекты - это загружаемые файлы (CSV, JSON, изображения, модели и т. д.), доступные по URL.
➡️ Политики доступа - гибко настраиваются, можно делать файлы публичными или закрытыми.
➡️ Версионирование - можно хранить несколько версий одного файла.
➡️ Архивы - для экономии места можно настроить автоматическое перемещение старых данных в архивное хранилище Glacier.
📂 Как развернуть S3 у себя?
➡️ Можно воспользоваться облачной версией (AWS S3), для этого:
- зарегистрируйтесь на AWS
- в консоли AWS создайте новый S3-бакет
- настройте права доступа (приватно или публично)
- загружайте файлы и работайте с ними через API или веб-интерфейс
Первые 5 ГБ хранилища бесплатны, дальше - зависит от объёма (около $0.023 за 1 ГБ).
➡️ Или полностью бесплатные аналоги S3 для локальной работы - MinIO и LocalStack, можно запустить их через Docker.
К слову, S3 легко интегрируется с Python, Spark, MLflow и другими инструментами для анализа данных и машинного обучения.
Хорошего вечера! 🚀
#mlops@data_easy
Сегодня обсудим тему хранения данных🗃 При работе с ML или аналитикой часто приходится сохранять промежуточные и конечные результаты в виде файлов - от датасетов до чекпоинтов моделей. И обычные базы данных, а тем более локальные диски и файловые системы быстро становятся неудобными... В таких случаях отлично подходит Amazon S3 (Simple Storage Service) - надёжное облачное хранилище, которое стало стандартом в индустрии.
S3 - это объектное хранилище, в котором данные организуются не в файлы и папки, а в бакеты (buckets) - контейнеры, внутри которых хранятся объекты (файлы любого типа). У каждого объекта есть свой уникальный ключ (путь, по нему можно получить доступ к файлу) и метаданные.
- зарегистрируйтесь на AWS
- в консоли AWS создайте новый S3-бакет
- настройте права доступа (приватно или публично)
- загружайте файлы и работайте с ними через API или веб-интерфейс
К слову, S3 легко интегрируется с Python, Spark, MLflow и другими инструментами для анализа данных и машинного обучения.
Хорошего вечера! 🚀
#mlops@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16❤4👍1👨💻1
boto3_examples.py
2 KB
Привет, друзья!
Долго об этом думала и решилась — пора менять вектор развития. Сколько можно настраивать гиперпараметры, бороться с переобучением, разгребать логи и объяснять, что "предсказание — это не стопроцентная гарантия!" Хочется чего-то более осязаемого…
С сегодняшнего дня я становлюсь фермером. Буду выращивать клубнику, бороться с вредителями и обучать нейросети отличать спелые ягоды от неспелых(ладно, все-таки Data Science совсем бросить не получится😁) .
В продолжение предыдущего поста держите небольшую шпаргалку по библиотеке boto3 для работы с S3 на Python. Составляла для себя, чтобы быстрее обрабатывать данные об урожае — возможно, пригодится и вам🔆
🔗Ссылка на официальную документацию тут.
Солнечного дня!🌅
#mlops@data_easy
Долго об этом думала и решилась — пора менять вектор развития. Сколько можно настраивать гиперпараметры, бороться с переобучением, разгребать логи и объяснять, что "предсказание — это не стопроцентная гарантия!" Хочется чего-то более осязаемого…
С сегодняшнего дня я становлюсь фермером. Буду выращивать клубнику, бороться с вредителями и обучать нейросети отличать спелые ягоды от неспелых
В продолжение предыдущего поста держите небольшую шпаргалку по библиотеке boto3 для работы с S3 на Python. Составляла для себя, чтобы быстрее обрабатывать данные об урожае — возможно, пригодится и вам
🔗Ссылка на официальную документацию тут.
Солнечного дня!🌅
#mlops@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21🤣10👍5❤4🤔3
Привет, друзья!
Конечно, предыдущий пост был шуткой😄
Я снова в деле и сегодня поделюсь подборкой полезных приёмов в Pandas, которые помогут сэкономить время при написании кода, а некоторые ещё и ускорят его🚀
➡️ Для удобства все материалы смотрите в статье.
Всем красивого кода и с Праздником!🕊️
#лайфхаки@data_easy
#python@data_easy
#аналитика@data_easy
Конечно, предыдущий пост был шуткой😄
Я снова в деле и сегодня поделюсь подборкой полезных приёмов в Pandas, которые помогут сэкономить время при написании кода, а некоторые ещё и ускорят его
Всем красивого кода и с Праздником!🕊️
#лайфхаки@data_easy
#python@data_easy
#аналитика@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegraph
6 трюков в Pandas, которые сэкономят время
Когда только начинаешь работать с данными, кажется, что всё сводится к .groupby(), for-циклам и магическому df[df["col"] == "val"]. Но потом приходит понимание: эффективность — в деталях. Вот 6 трюков в Pandas, которые сэкономят вам часы рутины и сделают…
😍10❤8🔥7👍3
Изучаем_Spark_Молниеносный_анализ_данных_by_Захария_М_,_Венделл.pdf
15.7 MB
Привет, друзья!
Сегодня поговорим про Apache Spark - один из самых мощных инструментов для обработки больших данных😎
💡 Что это такое?
Apache Spark - это платформа для быстрой и распределённой работы с большими данными. Она делит их на части и параллельно обрабатывает на нескольких серверах (кластере).
💡 Чем Spark хорош?
1. Быстрота: в отличие от других традиционных систем, Spark держит данные в оперативной памяти, что позволяет выполнять цепочки преобразований в разы быстрее.
Для сравнения: многие классические SQL-базы хранят данные на диске и только частично кэшируют их в памяти для ускорения запросов.
К слову, Pandas тоже работает в памяти, как и Spark, но рассчитан на обработку только на одной машине - если данные не помещаются в память, начинаются проблемы с производительностью.
2. Распределённость и масштабируемость: упомянутую выше проблему Spark решает! Он умеет распределять данные и обработку между множеством серверов в кластере, масштабируя работу на необходимый объем ресурсов.
3. Универсальность: Spark поддерживает сразу несколько сценариев работы с данными.
Можно писать SQL-запросы (Spark SQL), строить пайплайны машинного обучения (Spark MLlib), обрабатывать потоковые данные в реальном времени (Spark Structured Streaming) и работать с графовыми структурами (Spark GraphX).
4. Поддержка нескольких языков: можно писать код на Python (через библиотеку PySpark, причём она поддерживает и синтаксис SQL), Scala, Java и R.
💡 Как писать код для Spark?
Синтаксис для Python реализован через библиотеку PySpark, он очень напоминает по логике работу с Pandas и Polars.
Данные также представлены в виде таблиц (DataFrame), а операции можно писать цепочкой методов (select, filter, groupBy и т.д.). Можно даже писать чистые SQL-запросы к таблицам.
Главное отличие: в PySpark все операции "ленивые", они накапливаются в план выполнения и запускаются только при явном запросе результата (collect, show, write).
💡 И, конечно, полезные материалы!
1. Методичка ИТМО по Spark.
2. Хорошее обучающее видео на русском.
3. Книга "Learning Spark" от O’Reilly во вложении - очень крутое введение в тему (возможно, вам удастся найти более новую версию:)).
4. Документация Databricks по PySpark (тут много базовых примеров).
5. И официальная документация PySpark.
Удачи с большими данными, друзья! 🌟
#mlops@data_easy
Сегодня поговорим про Apache Spark - один из самых мощных инструментов для обработки больших данных
Apache Spark - это платформа для быстрой и распределённой работы с большими данными. Она делит их на части и параллельно обрабатывает на нескольких серверах (кластере).
1. Быстрота: в отличие от других традиционных систем, Spark держит данные в оперативной памяти, что позволяет выполнять цепочки преобразований в разы быстрее.
Для сравнения: многие классические SQL-базы хранят данные на диске и только частично кэшируют их в памяти для ускорения запросов.
К слову, Pandas тоже работает в памяти, как и Spark, но рассчитан на обработку только на одной машине - если данные не помещаются в память, начинаются проблемы с производительностью.
2. Распределённость и масштабируемость: упомянутую выше проблему Spark решает! Он умеет распределять данные и обработку между множеством серверов в кластере, масштабируя работу на необходимый объем ресурсов.
3. Универсальность: Spark поддерживает сразу несколько сценариев работы с данными.
Можно писать SQL-запросы (Spark SQL), строить пайплайны машинного обучения (Spark MLlib), обрабатывать потоковые данные в реальном времени (Spark Structured Streaming) и работать с графовыми структурами (Spark GraphX).
4. Поддержка нескольких языков: можно писать код на Python (через библиотеку PySpark, причём она поддерживает и синтаксис SQL), Scala, Java и R.
Синтаксис для Python реализован через библиотеку PySpark, он очень напоминает по логике работу с Pandas и Polars.
Данные также представлены в виде таблиц (DataFrame), а операции можно писать цепочкой методов (select, filter, groupBy и т.д.). Можно даже писать чистые SQL-запросы к таблицам.
Главное отличие: в PySpark все операции "ленивые", они накапливаются в план выполнения и запускаются только при явном запросе результата (collect, show, write).
1. Методичка ИТМО по Spark.
2. Хорошее обучающее видео на русском.
3. Книга "Learning Spark" от O’Reilly во вложении - очень крутое введение в тему (возможно, вам удастся найти более новую версию:)).
4. Документация Databricks по PySpark (тут много базовых примеров).
5. И официальная документация PySpark.
Удачи с большими данными, друзья! 🌟
#mlops@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17🔥11❤🔥7👍1🐳1
Привет, друзья!
Открыла на днях ChatGPT и обнаружила слева вверху новую кнопку "Sora". Щёлкнула и попала в целую галерею с потрясающим завораживающим контентом, который сгенерировала нейросеть OpenAI😍
Sora - это модель генерации видео по текстовому описанию, представленная OpenAI в феврале 2024.
Она превращает промпты в видеоролики или картинки.
Её особенности: реалистичная графика и свет, длинные и непрерывные сцены, а также физически точные эффекты (по типу следов на снегу, правильные тени...)
Но как оказалось, доступ к Sora пока есть не у всех:( OpenAI раскатывает её постепенно в тестовом режиме для части пользователей (без подписок), и, видимо, мне посчастливилось попасть в их число. Многие выкладывают свои сгенерированные видео в открытый доступ - для этого в Sora есть отдельная "лента" с массой креативных работ. Держите небольшую подборку❤️
Кто тоже попал в число бета-тестеров?🔎
#полезный_ии@data_easy
Открыла на днях ChatGPT и обнаружила слева вверху новую кнопку "Sora". Щёлкнула и попала в целую галерею с потрясающим завораживающим контентом, который сгенерировала нейросеть OpenAI
Sora - это модель генерации видео по текстовому описанию, представленная OpenAI в феврале 2024.
Она превращает промпты в видеоролики или картинки.
Её особенности: реалистичная графика и свет, длинные и непрерывные сцены, а также физически точные эффекты (по типу следов на снегу, правильные тени...)
Но как оказалось, доступ к Sora пока есть не у всех:( OpenAI раскатывает её постепенно в тестовом режиме для части пользователей (без подписок), и, видимо, мне посчастливилось попасть в их число. Многие выкладывают свои сгенерированные видео в открытый доступ - для этого в Sora есть отдельная "лента" с массой креативных работ. Держите небольшую подборку
Кто тоже попал в число бета-тестеров?
#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤8👍4