EasyData

Привет, друзья!
Сегодня поговорим про Apache Spark - один из самых мощных инструментов для обработки больших данных😎

💡

Что это такое?
Apache Spark - это платформа для быстрой и распределённой работы с большими данными. Она делит их на части и параллельно обрабатывает на нескольких серверах (кластере).

💡

Чем Spark хорош?
1. Быстрота: в отличие от других традиционных систем, Spark держит данные в оперативной памяти, что позволяет выполнять цепочки преобразований в разы быстрее.
Для сравнения: многие классические SQL-базы хранят данные на диске и только частично кэшируют их в памяти для ускорения запросов.
К слову, Pandas тоже работает в памяти, как и Spark, но рассчитан на обработку только на одной машине - если данные не помещаются в память, начинаются проблемы с производительностью.

2. Распределённость и масштабируемость: упомянутую выше проблему Spark решает! Он умеет распределять данные и обработку между множеством серверов в кластере, масштабируя работу на необходимый объем ресурсов.

3. Универсальность: Spark поддерживает сразу несколько сценариев работы с данными.
Можно писать SQL-запросы (Spark SQL), строить пайплайны машинного обучения (Spark MLlib), обрабатывать потоковые данные в реальном времени (Spark Structured Streaming) и работать с графовыми структурами (Spark GraphX).

4. Поддержка нескольких языков: можно писать код на Python (через библиотеку PySpark, причём она поддерживает и синтаксис SQL), Scala, Java и R.

💡

Как писать код для Spark?
Синтаксис для Python реализован через библиотеку PySpark, он очень напоминает по логике работу с Pandas и Polars.
Данные также представлены в виде таблиц (DataFrame), а операции можно писать цепочкой методов (select, filter, groupBy и т.д.). Можно даже писать чистые SQL-запросы к таблицам.
Главное отличие: в PySpark все операции "ленивые", они накапливаются в план выполнения и запускаются только при явном запросе результата (collect, show, write).

💡

И, конечно, полезные материалы!
1. Методичка ИТМО по Spark.
2. Хорошее обучающее видео на русском.
3. Книга "Learning Spark" от O’Reilly во вложении - очень крутое введение в тему (возможно, вам удастся найти более новую версию:)).
4. Документация Databricks по PySpark (тут много базовых примеров).
5. И официальная документация PySpark.

Удачи с большими данными, друзья! 🌟

#mlops@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17🔥11❤‍🔥7👍1🐳1

774 views16:58

EasyData

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Привет, друзья!
Открыла на днях ChatGPT и обнаружила слева вверху новую кнопку "Sora". Щёлкнула и попала в целую галерею с потрясающим завораживающим контентом, который сгенерировала нейросеть OpenAI 😍

Sora - это модель генерации видео по текстовому описанию, представленная OpenAI в феврале 2024.
Она превращает промпты в видеоролики или картинки.
Её особенности: реалистичная графика и свет, длинные и непрерывные сцены, а также физически точные эффекты (по типу следов на снегу, правильные тени...)

Но как оказалось, доступ к Sora пока есть не у всех:( OpenAI раскатывает её постепенно в тестовом режиме для части пользователей (без подписок), и, видимо, мне посчастливилось попасть в их число. Многие выкладывают свои сгенерированные видео в открытый доступ - для этого в Sora есть отдельная "лента" с массой креативных работ. Держите небольшую подборку❤️

Кто тоже попал в число бета-тестеров?🔎

#полезный_ии@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11❤8👍4

861 views15:16

EasyData

Привет, друзья!
На канале новое видео - в этот раз разбираем, как данные могут сделать поведение модели нестабильным, и какие математические причины за этим стоят.

Приятного просмотра! Буду рада вашим комментариям 🤗

#математика@data_easy

YouTube

Как плохие данные рушат ML-модель | Проверьте признаки, а не гиперпараметры

Модель отлично обучается, но при малейшем изменении данных начинает делать глупости? Это может быть численная нестабильность! В этом видео покажу, что такое плохо обусловленные данные, почему от этого страдают модели машинного обучения, и что с этим делать.…

❤‍🔥10❤4👍2🎉2

869 views12:02

EasyData

Отличных выходных, дорогие друзья!
#мем@data_easy

😁17❤10

804 views16:26

EasyData

Методичка_кафка.pdf

8.7 MB

Привет, друзья!
Не так давно в LinkedIn завирусилась очень полезная методичка по Apache Kafka - не смогла пройти мимо😁

Пару слов что такое Kafka и зачем она нужна...

Это распределённая платформа потоковой передачи сообщений, которая позволяет:
1️⃣ Собирать данные из разных источников (логов, БД, API...) в реальном времени.
2️⃣ Сохранять события в виде сообщений, которые можно читать многократно, разными потребителями и спустя время (в отличие от RabbitMQ).
3️⃣ Подключать обработчики (консьюмеры), которые анализируют или трансформируют поток данных - например, для аналитики, мониторинга или ETL.
4️⃣Организовывать обмен сообщениями между микросервисами так, чтобы они не зависели напрямую друг от друга - каждый подписывается на нужный поток и обрабатывает события независимо.

Ещё ссылки...
✴️ Официальная документация Kafka
✴️ Интерактивный учебник от Confluent
✴️ Документация confluent-kafka (обёртка для работы на Python)
✴️ И во вложении та самая методичка:)

Солнечной недели!🔆

#mlops@data_easy

❤16🔥8

873 viewsedited 17:43

EasyData

Линейная алгебра.pdf

45.7 MB

Статистика.pdf

10.5 MB

Регрессионный анализ. Манга.pdf

65.6 MB

Факторный анализ.pdf

29.4 MB

Всем привет!
Сегодняшний пост для ~~любителей японской культуры~~ и тех, кто хочет нескучным способом освежить в памяти важные для ML основы математики 🤩

Держите подборку "математических" манг от Сина Такахаси, который решил, что объяснять сложные вещи через сюжеты и картинки - это не шутка, а мощный образовательный приём. Во вложениях следующие его работы:
🤩 Линейная алгебра
🤩 Факторный анализ
🤩 Регрессионный анализ
🤩 Статистика

Это далеко не весь список, есть труды по другим разделам высшей математики, физике, базам данных (к сожалению, не всё ещё переведено на русский).

Приятного просмотра! Есть кто уже читал - как вам?🌚

#математика@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥33❤10🤣5🙏3😁1

1.11K viewsedited 17:42

About

Blog

Apps

Platform