EasyData – Telegram

EasyData

950 subscribers

152 photos

10 videos

22 files

80 links

Добро пожаловать!
Меня зовут Мария Жарова, и это мой блог про науку о данных✨

Лайфхаки из будней MLщика, полезности по Data Science и ответы на вопросы, которые волнуют новичков и не только🌝

Автор @NaNCat

About

Blog

Apps

Platform

950 subscribers

Всем привет!
В свете последних потрясающих новостей про LLM хочу поделиться ещё одним любопытным исследованием

🙂

Недавний релиз DeepSeek R1 показал, что обучение мощных LLM может стоить значительно дешевле, чем у лидеров рынка. Теперь исследователи из Стэнфорда решили проверить, насколько быстро и дёшево можно дообучить существующую открытую модель, чтобы она конкурировала с проприетарными решениями.

💎 Они взяли Qwen2.5-32B-Instruct и применили knowledge distillation — способ передачи знаний от более мощной модели (учителя) к компактной модели (ученику). Ученик обучается воспроизводить ответы учителя, что позволяет достичь высокой производительности при меньших вычислительных затратах. В данном случае, модель-ученик обучалась на небольшом, но тщательно отобранном датасете из 1000 примеров, сгенерированных Gemini Thinking Experimental (кстати, можно скачать его с HuggingFace).

🫣

Итоги...
Получившаяся модель обошла o1-preview на 27% в тестах MATH и AIME24, сохранив компактность и эффективность.
Но главный результат — скорость и доступность: весь процесс обучения занял 26 минут на 16-ти GPU NVIDIA H100, что сравнимо со стоимостью запуска DeepSeek R1.

📖 Код работы опубликован на GitHub, а обученная модель доступна на Hugging Face.

Этот эксперимент подтверждает тренд на снижение стоимости и времени обучения LLM. Возможно, вскоре появятся всё более доступные «open-weight» решения, которые смогут конкурировать с закрытыми моделями крупнейших компаний😎

#nlp@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

❤22🔥5👍4

980 viewsedited 14:28

Всем привет!
Сегодня снова про LLM 🌿
Для тех, кто ещё не посмотрел лекцию Андрея Карпаты Deep Dive into LLMs like ChatGPT, держите небольшой обзор 💜

В 3.5-часовом видео он подробно объясняет, из чего состоят большие языковые модели и как их обучают, рассказывает про их частые проблемы и, конечно, про DeepSeek😊

Ещё из интересного...
📋 Глупые ошибки, которые, на самом деле, закономерны:
🔵 LLM не могут правильно посчитать количество букв в слове из-за особенностей токенизации;
🔵у LLM бывают беды с определением следования дат из-за религиозных текстов, в которых их порядок тоже перепутан.

📋 Откуда берутся галлюцинации и как с ними бороться:
🔵раньше модели не обучались говорить «я не знаю», теперь же с этим борются через специальный этап дообучения с учителем (SFT);
🔵ещё вариант — интегрировать их с поиском, чтобы LLM могла гуглить перед ответом.

📋 Чем интересен DeepSeek R1 и какие источники Карпаты использует, чтобы следить за LLM-прогрессом (lmarena, AINews, Twitter).

➡️Ссылка на оригинал лекции: тык

PS: Андрей Карпаты - ex-директор по ИИ в Tesla и сооснователь OpenAI.

С праздником, любимые подписчики! 💜

#nlp@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Deep Dive into LLMs like ChatGPT

This is a general audience deep dive into the Large Language Model (LLM) AI technology that powers ChatGPT and related products. It is covers the full training stack of how the models are developed, along with mental models of how to think about their "psychology"…

🔥7❤6👍2

1.07K viewsedited 15:48

Привет, друзья!🦋
В последнее время часто говорят про спад в IT, сокращения и падение зарплат... Свежее исследование Habr-карьеры показывает обратное: ЗП IT-специалистов во втором полугодии 2024 года выросли на 19% по сравнению с предыдущим, медианная ЗП составила 180k (по всем IT-направлениям). В самой статье можете посмотреть детализацию по городам, направлениям и языкам программирования🐶

🐶

Насчёт количества IT-вакансий - в 2024 году их, действительно, стало меньше, чем в 2023: в среднем на 5%. Но примечательно, что в сфере ИИ число предложений, наоборот, увеличилось на 43%

💃

А на скринах держите сводки средних ЗП в разрезе грейдов для профессий "Data Scientist" и "ML-разработчик", данные с той же Habr-карьеры💲

PS: кто ещё там не зарегистрировался - за указание своей ЗП можно получить доступ к таким же графикам по всем направлениям в IT 😊

PPS: рост ЗП покрыл официальную инфляцию 😀

#карьера@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥10👍7✍4🔥3

1.05K views15:07

Привет, друзья!
Добавила новое видео на YouTube 📺 Гид по нейросетям в DS: как выбрать модель для CV,NLP, аудио

✨

В нём краткая инструкция для новичков по выбору подходящей модели для различных задач в CV, NLP и обработке аудио😌
- с чего начать?
- какие базовые модели попробовать?
- где искать SOTA-решения? (конечно, Papers with Code😁)

Буду рада вашей поддержке! ❤️ Рекомендательные системы Ютуба лучше подхватывают активные видео, лайк, комментарий и просто просмотр очень помогут! 🥰

И, конечно, пишите, что хотели бы разобрать в следующих выпусках🤪

С первым весенним днём!🌸

UPD: также доступно на rutube

#cv@data_easy
#nlp@data_easy
#аудио@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16🔥9👍4🤩3

924 viewsedited 10:33

➡️

НАВИГАЦИЯ

⬅️

Добавила хэштеги ко всем актуальным постам канала🤩

🖱

Технические посты по направлениям:

#python@data_easy
#математика@data_easy
#аналитика@data_easy
#classic_ml@data_easy
#dl@data_easy
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#mlops@data_easy

🖱

Маленькие технические полезности, которые не попали в предыдущие рубрики:
#лайфхаки@data_easy

🖱

Всё про поиск работы - лайфхаки, каналы с вакансиями, задачи для собеседований:
#карьера@data_easy

🖱

Новости в сфере ИИ и обзоры на полезные нейросети:
#полезный_ии@data_easy

🖱

Важная рубрика, которой оказалось очень мало в канале, будем исправлять
ситуацию!
#мем@data_easy

🖱

Уютный чат для общения:
https://yangx.top/+v1fdmoHV3JwyYTJi

🖱

YouTube канал EasyData:
https://youtube.com/@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Чат канала EasyData❤️

❤8🔥5👍1

989 viewsedited 11:57

EasyData pinned «➡️НАВИГАЦИЯ ⬅️ Добавила хэштеги ко всем актуальным постам канала🤩 🖱 Технические посты по направлениям: #python@data_easy #математика@data_easy #аналитика@data_easy #classic_ml@data_easy #dl@data_easy #cv@data_easy #nlp@data_easy #аудио@data_easy #mlops@data_easy…»

11:57

И с праздником, дорогие подписчицы!🌷
Всем радости, побольше улыбок, тепла, исполнения всех желаний и весеннего настроения🤗

❤105

1.08K views11:57

Вечер пятницы - не для серьёзных постов😎
Выполняем план по приумножению #мем@data_easy

Делитесь своими шутками в комментариях😔

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤣11😁4👍3

855 views15:31

Привет, друзья!
На канале вышло новое видео с наглядным объяснением основ градиентного спуска

↗️

📉

Буду рада вашим комментариям✨

➡️ Ссылка на youtube
➡️ Ссылка на rutube

Продуктивной предстоящей недели!😎

#математика@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Градиентный спуск – основа машинного обучения | Простое объяснение без сложных формул

Что такое градиентный спуск и почему он играет ключевую роль в машинном обучении? В этом видео просто и наглядно объясняется, как происходит обучение моделей и что в этом процессе делает градиентный спуск. Всё доступно, без сложных формул – только суть, картинки…

🔥15❤9👍4

914 viewsedited 13:03

Привет, друзья!🌞
Сегодня обсудим тему хранения данных🗃 При работе с ML или аналитикой часто приходится сохранять промежуточные и конечные результаты в виде файлов - от датасетов до чекпоинтов моделей. И обычные базы данных, а тем более локальные диски и файловые системы быстро становятся неудобными... В таких случаях отлично подходит Amazon S3 (Simple Storage Service) - надёжное облачное хранилище, которое стало стандартом в индустрии.

📂

Что такое S3 и как оно устроено?
S3 - это объектное хранилище, в котором данные организуются не в файлы и папки, а в бакеты (buckets) - контейнеры, внутри которых хранятся объекты (файлы любого типа). У каждого объекта есть свой уникальный ключ (путь, по нему можно получить доступ к файлу) и метаданные.

📂

Главные принципы работы с S3:
➡️ Бакеты - это аналог корневых папок, в них лежат файлы (объекты).
➡️ Объекты - это загружаемые файлы (CSV, JSON, изображения, модели и т. д.), доступные по URL.
➡️ Политики доступа - гибко настраиваются, можно делать файлы публичными или закрытыми.
➡️ Версионирование - можно хранить несколько версий одного файла.
➡️ Архивы - для экономии места можно настроить автоматическое перемещение старых данных в архивное хранилище Glacier.

📂

Как развернуть S3 у себя?
➡️ Можно воспользоваться облачной версией (AWS S3), для этого:
- зарегистрируйтесь на AWS
- в консоли AWS создайте новый S3-бакет
- настройте права доступа (приватно или публично)
- загружайте файлы и работайте с ними через API или веб-интерфейс

Первые 5 ГБ хранилища бесплатны, дальше - зависит от объёма (около $0.023 за 1 ГБ).

➡️ Или полностью бесплатные аналоги S3 для локальной работы - MinIO и LocalStack, можно запустить их через Docker.

К слову, S3 легко интегрируется с Python, Spark, MLflow и другими инструментами для анализа данных и машинного обучения.

Хорошего вечера! 🚀

#mlops@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16❤4👍1👨‍💻1

1.04K viewsedited 14:35

boto3_examples.py

Привет, друзья!
Долго об этом думала и решилась — пора менять вектор развития. Сколько можно настраивать гиперпараметры, бороться с переобучением, разгребать логи и объяснять, что "предсказание — это не стопроцентная гарантия!" Хочется чего-то более осязаемого…

С сегодняшнего дня я становлюсь фермером. Буду выращивать клубнику, бороться с вредителями и обучать нейросети отличать спелые ягоды от неспелых (ладно, все-таки Data Science совсем бросить не получится😁).

В продолжение предыдущего поста держите небольшую шпаргалку по библиотеке boto3 для работы с S3 на Python. Составляла для себя, чтобы быстрее обрабатывать данные об урожае — возможно, пригодится и вам 🔆

🔗Ссылка на официальную документацию тут.

Солнечного дня!🌅

#mlops@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥21🤣10👍5❤4🤔3

1.02K viewsedited 10:41

Привет, друзья!
Конечно, предыдущий пост был шуткой😄
Я снова в деле и сегодня поделюсь подборкой полезных приёмов в Pandas, которые помогут сэкономить время при написании кода, а некоторые ещё и ускорят его🚀

➡️Для удобства все материалы смотрите в статье.

Всем красивого кода и с Праздником!🕊️

#лайфхаки@data_easy
#python@data_easy
#аналитика@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

6 трюков в Pandas, которые сэкономят время

Когда только начинаешь работать с данными, кажется, что всё сводится к .groupby(), for-циклам и магическому df[df["col"] == "val"]. Но потом приходит понимание: эффективность — в деталях. Вот 6 трюков в Pandas, которые сэкономят вам часы рутины и сделают…

😍10❤8🔥7👍3

936 viewsedited 15:18

Доброго вечера!
Держите свежую порцию #мем@data_easy

😁19🤣6❤2⚡2🤪1

838 views15:35

Изучаем_Spark_Молниеносный_анализ_данных_by_Захария_М_,_Венделл.pdf

Привет, друзья!
Сегодня поговорим про Apache Spark - один из самых мощных инструментов для обработки больших данных😎

💡

Что это такое?
Apache Spark - это платформа для быстрой и распределённой работы с большими данными. Она делит их на части и параллельно обрабатывает на нескольких серверах (кластере).

💡

Чем Spark хорош?
1. Быстрота: в отличие от других традиционных систем, Spark держит данные в оперативной памяти, что позволяет выполнять цепочки преобразований в разы быстрее.
Для сравнения: многие классические SQL-базы хранят данные на диске и только частично кэшируют их в памяти для ускорения запросов.
К слову, Pandas тоже работает в памяти, как и Spark, но рассчитан на обработку только на одной машине - если данные не помещаются в память, начинаются проблемы с производительностью.

2. Распределённость и масштабируемость: упомянутую выше проблему Spark решает! Он умеет распределять данные и обработку между множеством серверов в кластере, масштабируя работу на необходимый объем ресурсов.

3. Универсальность: Spark поддерживает сразу несколько сценариев работы с данными.
Можно писать SQL-запросы (Spark SQL), строить пайплайны машинного обучения (Spark MLlib), обрабатывать потоковые данные в реальном времени (Spark Structured Streaming) и работать с графовыми структурами (Spark GraphX).

4. Поддержка нескольких языков: можно писать код на Python (через библиотеку PySpark, причём она поддерживает и синтаксис SQL), Scala, Java и R.

💡

Как писать код для Spark?
Синтаксис для Python реализован через библиотеку PySpark, он очень напоминает по логике работу с Pandas и Polars.
Данные также представлены в виде таблиц (DataFrame), а операции можно писать цепочкой методов (select, filter, groupBy и т.д.). Можно даже писать чистые SQL-запросы к таблицам.
Главное отличие: в PySpark все операции "ленивые", они накапливаются в план выполнения и запускаются только при явном запросе результата (collect, show, write).

💡

И, конечно, полезные материалы!
1. Методичка ИТМО по Spark.
2. Хорошее обучающее видео на русском.
3. Книга "Learning Spark" от O’Reilly во вложении - очень крутое введение в тему (возможно, вам удастся найти более новую версию:)).
4. Документация Databricks по PySpark (тут много базовых примеров).
5. И официальная документация PySpark.

Удачи с большими данными, друзья! 🌟

#mlops@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17🔥11❤‍🔥7👍1🐳1

774 views16:58

This media is not supported in your browser

VIEW IN TELEGRAM

Привет, друзья!
Открыла на днях ChatGPT и обнаружила слева вверху новую кнопку "Sora". Щёлкнула и попала в целую галерею с потрясающим завораживающим контентом, который сгенерировала нейросеть OpenAI 😍

Sora - это модель генерации видео по текстовому описанию, представленная OpenAI в феврале 2024.
Она превращает промпты в видеоролики или картинки.
Её особенности: реалистичная графика и свет, длинные и непрерывные сцены, а также физически точные эффекты (по типу следов на снегу, правильные тени...)

Но как оказалось, доступ к Sora пока есть не у всех:( OpenAI раскатывает её постепенно в тестовом режиме для части пользователей (без подписок), и, видимо, мне посчастливилось попасть в их число. Многие выкладывают свои сгенерированные видео в открытый доступ - для этого в Sora есть отдельная "лента" с массой креативных работ. Держите небольшую подборку❤️

Кто тоже попал в число бета-тестеров?🔎

#полезный_ии@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11❤8👍4

861 views15:16