EasyData
949 subscribers
152 photos
10 videos
22 files
80 links
Добро пожаловать!
Меня зовут Мария Жарова, и это мой блог про науку о данных

Лайфхаки из будней MLщика, полезности по Data Science и ответы на вопросы, которые волнуют новичков и не только🌝

Автор @NaNCat
加入频道
Привет, друзья!🦋
В последнее время часто говорят про спад в IT, сокращения и падение зарплат... Свежее исследование Habr-карьеры показывает обратное: ЗП IT-специалистов во втором полугодии 2024 года выросли на 19% по сравнению с предыдущим, медианная ЗП составила 180k (по всем IT-направлениям). В самой статье можете посмотреть детализацию по городам, направлениям и языкам программирования🐶🐶

Насчёт количества IT-вакансий - в 2024 году их, действительно, стало меньше, чем в 2023: в среднем на 5%. Но примечательно, что в сфере ИИ число предложений, наоборот, увеличилось на 43%💃

А на скринах держите сводки средних ЗП в разрезе грейдов для профессий "Data Scientist" и "ML-разработчик", данные с той же Habr-карьеры💲

PS: кто ещё там не зарегистрировался - за указание своей ЗП можно получить доступ к таким же графикам по всем направлениям в IT 😊

PPS: рост ЗП покрыл официальную инфляцию 😀

#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥10👍74🔥3
Привет, друзья!
Добавила новое видео на YouTube 📺 Гид по нейросетям в DS: как выбрать модель для CV,NLP, аудио

В нём краткая инструкция для новичков по выбору подходящей модели для различных задач в CV, NLP и обработке аудио😌
- с чего начать?
- какие базовые модели попробовать?
- где искать SOTA-решения? (конечно, Papers with Code😁)

Буду рада вашей поддержке! ❤️ Рекомендательные системы Ютуба лучше подхватывают активные видео, лайк, комментарий и просто просмотр очень помогут! 🥰

И, конечно, пишите, что хотели бы разобрать в следующих выпусках🤪

С первым весенним днём!🌸

UPD: также доступно на rutube

#cv@data_easy
#nlp@data_easy
#аудио@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
16🔥9👍4🤩3
➡️НАВИГАЦИЯ ⬅️
Добавила хэштеги ко всем актуальным постам канала🤩

🖱 Технические посты по направлениям:

#python@data_easy
#математика@data_easy
#аналитика@data_easy
#classic_ml@data_easy
#dl@data_easy
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#mlops@data_easy

🖱Маленькие технические полезности, которые не попали в предыдущие рубрики:
#лайфхаки@data_easy

🖱 Всё про поиск работы - лайфхаки, каналы с вакансиями, задачи для собеседований:
#карьера@data_easy

🖱Новости в сфере ИИ и обзоры на полезные нейросети:
#полезный_ии@data_easy

🖱Важная рубрика, которой оказалось очень мало в канале, будем исправлять
ситуацию!

#мем@data_easy

🖱Уютный чат для общения:
https://yangx.top/+v1fdmoHV3JwyYTJi

🖱YouTube канал EasyData:
https://youtube.com/@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥5👍1
EasyData pinned «➡️НАВИГАЦИЯ ⬅️ Добавила хэштеги ко всем актуальным постам канала🤩 🖱 Технические посты по направлениям: #python@data_easy #математика@data_easy #аналитика@data_easy #classic_ml@data_easy #dl@data_easy #cv@data_easy #nlp@data_easy #аудио@data_easy #mlops@data_easy…»
И с праздником, дорогие подписчицы!🌷
Всем радости, побольше улыбок, тепла, исполнения всех желаний и весеннего настроения🤗
105
Вечер пятницы - не для серьёзных постов😎
Выполняем план по приумножению #мем@data_easy

Делитесь своими шутками в комментариях😔
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣11😁4👍3
Привет, друзья!🌞
Сегодня обсудим тему хранения данных🗃 При работе с ML или аналитикой часто приходится сохранять промежуточные и конечные результаты в виде файлов - от датасетов до чекпоинтов моделей. И обычные базы данных, а тем более локальные диски и файловые системы быстро становятся неудобными... В таких случаях отлично подходит Amazon S3 (Simple Storage Service) - надёжное облачное хранилище, которое стало стандартом в индустрии.

📂 Что такое S3 и как оно устроено?
S3 - это объектное хранилище, в котором данные организуются не в файлы и папки, а в бакеты (buckets) - контейнеры, внутри которых хранятся объекты (файлы любого типа). У каждого объекта есть свой уникальный ключ (путь, по нему можно получить доступ к файлу) и метаданные.

📂Главные принципы работы с S3:
➡️ Бакеты - это аналог корневых папок, в них лежат файлы (объекты).
➡️ Объекты - это загружаемые файлы (CSV, JSON, изображения, модели и т. д.), доступные по URL.
➡️ Политики доступа - гибко настраиваются, можно делать файлы публичными или закрытыми.
➡️ Версионирование - можно хранить несколько версий одного файла.
➡️ Архивы - для экономии места можно настроить автоматическое перемещение старых данных в архивное хранилище Glacier.

📂 Как развернуть S3 у себя?
➡️ Можно воспользоваться облачной версией (AWS S3), для этого:
- зарегистрируйтесь на AWS
- в консоли AWS создайте новый S3-бакет
- настройте права доступа (приватно или публично)
- загружайте файлы и работайте с ними через API или веб-интерфейс
Первые 5 ГБ хранилища бесплатны, дальше - зависит от объёма (около $0.023 за 1 ГБ).
➡️ Или полностью бесплатные аналоги S3 для локальной работы - MinIO и LocalStack, можно запустить их через Docker.

К слову, S3 легко интегрируется с Python, Spark, MLflow и другими инструментами для анализа данных и машинного обучения.

Хорошего вечера! 🚀

#mlops@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥164👍1👨‍💻1
boto3_examples.py
2 KB
Привет, друзья!
Долго об этом думала и решилась — пора менять вектор развития. Сколько можно настраивать гиперпараметры, бороться с переобучением, разгребать логи и объяснять, что "предсказание — это не стопроцентная гарантия!" Хочется чего-то более осязаемого…

С сегодняшнего дня я становлюсь фермером. Буду выращивать клубнику, бороться с вредителями и обучать нейросети отличать спелые ягоды от неспелых (ладно, все-таки Data Science совсем бросить не получится😁).

В продолжение предыдущего поста держите небольшую шпаргалку по библиотеке boto3 для работы с S3 на Python. Составляла для себя, чтобы быстрее обрабатывать данные об урожае — возможно, пригодится и вам 🔆

🔗Ссылка на официальную документацию тут.

Солнечного дня!🌅

#mlops@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21🤣10👍54🤔3
Привет, друзья!
Конечно, предыдущий пост был шуткой😄
Я снова в деле и сегодня поделюсь подборкой полезных приёмов в Pandas, которые помогут сэкономить время при написании кода, а некоторые ещё и ускорят его🚀

➡️Для удобства все материалы смотрите в статье.

Всем красивого кода и с Праздником!🕊️

#лайфхаки@data_easy
#python@data_easy
#аналитика@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
😍108🔥7👍3
Доброго вечера!
Держите свежую порцию #мем@data_easy
😁19🤣622🤪1
Изучаем_Spark_Молниеносный_анализ_данных_by_Захария_М_,_Венделл.pdf
15.7 MB
Привет, друзья!
Сегодня поговорим про Apache Spark - один из самых мощных инструментов для обработки больших данных😎

💡 Что это такое?
Apache Spark - это платформа для быстрой и распределённой работы с большими данными. Она делит их на части и параллельно обрабатывает на нескольких серверах (кластере).

💡 Чем Spark хорош?
1. Быстрота: в отличие от других традиционных систем, Spark держит данные в оперативной памяти, что позволяет выполнять цепочки преобразований в разы быстрее.
Для сравнения: многие классические SQL-базы хранят данные на диске и только частично кэшируют их в памяти для ускорения запросов.
К слову, Pandas тоже работает в памяти, как и Spark, но рассчитан на обработку только на одной машине - если данные не помещаются в память, начинаются проблемы с производительностью.

2. Распределённость и масштабируемость: упомянутую выше проблему Spark решает! Он умеет распределять данные и обработку между множеством серверов в кластере, масштабируя работу на необходимый объем ресурсов.

3. Универсальность: Spark поддерживает сразу несколько сценариев работы с данными.
Можно писать SQL-запросы (Spark SQL), строить пайплайны машинного обучения (Spark MLlib), обрабатывать потоковые данные в реальном времени (Spark Structured Streaming) и работать с графовыми структурами (Spark GraphX).

4. Поддержка нескольких языков: можно писать код на Python (через библиотеку PySpark, причём она поддерживает и синтаксис SQL), Scala, Java и R.

💡 Как писать код для Spark?
Синтаксис для Python реализован через библиотеку PySpark, он очень напоминает по логике работу с Pandas и Polars.
Данные также представлены в виде таблиц (DataFrame), а операции можно писать цепочкой методов (select, filter, groupBy и т.д.). Можно даже писать чистые SQL-запросы к таблицам.
Главное отличие: в PySpark все операции "ленивые", они накапливаются в план выполнения и запускаются только при явном запросе результата (collect, show, write).

💡 И, конечно, полезные материалы!
1. Методичка ИТМО по Spark.
2. Хорошее обучающее видео на русском.
3. Книга "Learning Spark" от O’Reilly во вложении - очень крутое введение в тему (возможно, вам удастся найти более новую версию:)).
4. Документация Databricks по PySpark (тут много базовых примеров).
5. И официальная документация PySpark.

Удачи с большими данными, друзья! 🌟

#mlops@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
17🔥11❤‍🔥7👍1🐳1
Привет, друзья!
Открыла на днях ChatGPT и обнаружила слева вверху новую кнопку "Sora". Щёлкнула и попала в целую галерею с потрясающим завораживающим контентом, который сгенерировала нейросеть OpenAI 😍

Sora - это модель генерации видео по текстовому описанию, представленная OpenAI в феврале 2024.
Она превращает промпты в видеоролики или картинки.
Её особенности: реалистичная графика и свет, длинные и непрерывные сцены, а также физически точные эффекты (по типу следов на снегу, правильные тени...)

Но как оказалось, доступ к Sora пока есть не у всех:( OpenAI раскатывает её постепенно в тестовом режиме для части пользователей (без подписок), и, видимо, мне посчастливилось попасть в их число. Многие выкладывают свои сгенерированные видео в открытый доступ - для этого в Sora есть отдельная "лента" с массой креативных работ. Держите небольшую подборку❤️

Кто тоже попал в число бета-тестеров?🔎

#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥118👍4