Методичка_кафка.pdf
8.7 MB
Привет, друзья!
Не так давно в LinkedIn завирусилась очень полезная методичка по Apache Kafka - не смогла пройти мимо😁
Пару слов что такое Kafka и зачем она нужна...
Это распределённая платформа потоковой передачи сообщений, которая позволяет:
1️⃣ Собирать данные из разных источников (логов, БД, API...) в реальном времени.
2️⃣ Сохранять события в виде сообщений, которые можно читать многократно, разными потребителями и спустя время (в отличие от RabbitMQ).
3️⃣ Подключать обработчики (консьюмеры), которые анализируют или трансформируют поток данных - например, для аналитики, мониторинга или ETL.
4️⃣Организовывать обмен сообщениями между микросервисами так, чтобы они не зависели напрямую друг от друга - каждый подписывается на нужный поток и обрабатывает события независимо.
Ещё ссылки...
✴️ Официальная документация Kafka
✴️ Интерактивный учебник от Confluent
✴️ Документация confluent-kafka (обёртка для работы на Python)
✴️ И во вложении та самая методичка:)
Солнечной недели!🔆
#mlops@data_easy
Не так давно в LinkedIn завирусилась очень полезная методичка по Apache Kafka - не смогла пройти мимо😁
Пару слов что такое Kafka и зачем она нужна...
Это распределённая платформа потоковой передачи сообщений, которая позволяет:
1️⃣ Собирать данные из разных источников (логов, БД, API...) в реальном времени.
2️⃣ Сохранять события в виде сообщений, которые можно читать многократно, разными потребителями и спустя время (в отличие от RabbitMQ).
3️⃣ Подключать обработчики (консьюмеры), которые анализируют или трансформируют поток данных - например, для аналитики, мониторинга или ETL.
4️⃣Организовывать обмен сообщениями между микросервисами так, чтобы они не зависели напрямую друг от друга - каждый подписывается на нужный поток и обрабатывает события независимо.
Ещё ссылки...
✴️ Официальная документация Kafka
✴️ Интерактивный учебник от Confluent
✴️ Документация confluent-kafka (обёртка для работы на Python)
✴️ И во вложении та самая методичка:)
Солнечной недели!🔆
#mlops@data_easy
❤16🔥8
Факторный анализ.pdf
29.4 MB
Всем привет!
Сегодняшний пост длялюбителей японской культуры и тех, кто хочет нескучным способом освежить в памяти важные для ML основы математики 🤩
Держите подборку "математических" манг от Сина Такахаси, который решил, что объяснять сложные вещи через сюжеты и картинки - это не шутка, а мощный образовательный приём. Во вложениях следующие его работы:
🤩 Линейная алгебра
🤩 Факторный анализ
🤩 Регрессионный анализ
🤩 Статистика
Это далеко не весь список, есть труды по другим разделам высшей математики, физике, базам данных (к сожалению, не всё ещё переведено на русский).
Приятного просмотра! Есть кто уже читал - как вам?🌚
#математика@data_easy
Сегодняшний пост для
Держите подборку "математических" манг от Сина Такахаси, который решил, что объяснять сложные вещи через сюжеты и картинки - это не шутка, а мощный образовательный приём. Во вложениях следующие его работы:
Это далеко не весь список, есть труды по другим разделам высшей математики, физике, базам данных (к сожалению, не всё ещё переведено на русский).
Приятного просмотра! Есть кто уже читал - как вам?🌚
#математика@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33❤10🤣5🙏3😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Привет, друзья!
Если вам нравится автоматическая аналитика по типу YData Profiling, то, возможно, придётся по душе и Evidently!
Эта библиотека активно развивается и содержит множество удобных обёрток для мониторинга качества данных в проде.
💡 Вот что она умеет:
- Анализировать качество данных: пропуски, типы данных, распределения... похоже на возможности YData.
- Отслеживать дрифт признаков и таргета: сравнивает две выборки по ключевым статистическим характеристикам (например, train и prod датасеты).
- Мониторить метрики моделей во времени: можно встроить в пайплайны (Airflow, Prefect, CI/CD), чтобы отслеживать изменения в качестве.
- Оценивать входы и выходы LLM: есть специальные отчёты для анализа prompt-response (длина, токсичность, повторяемость и т.п.)
- Работать локально или в облаке: можно использовать просто в ноутбуке или развернуть Evidently UI для команды.
- И самое главное:) Она создаёт интерактивные HTML-отчёты за пару строк кода.
💡 Полезные материалы:
- официальная документация (сразу ссылка на quickstart)
- youtube-канал с видео-туториалами
- репозиторий библиотеки на github
Пусть дрифт остаётся на треке, а не в проде🚙
#аналитика@data_easy
#mlops@data_easy
Если вам нравится автоматическая аналитика по типу YData Profiling, то, возможно, придётся по душе и Evidently!
Эта библиотека активно развивается и содержит множество удобных обёрток для мониторинга качества данных в проде.
- Анализировать качество данных: пропуски, типы данных, распределения... похоже на возможности YData.
- Отслеживать дрифт признаков и таргета: сравнивает две выборки по ключевым статистическим характеристикам (например, train и prod датасеты).
- Мониторить метрики моделей во времени: можно встроить в пайплайны (Airflow, Prefect, CI/CD), чтобы отслеживать изменения в качестве.
- Оценивать входы и выходы LLM: есть специальные отчёты для анализа prompt-response (длина, токсичность, повторяемость и т.п.)
- Работать локально или в облаке: можно использовать просто в ноутбуке или развернуть Evidently UI для команды.
- И самое главное:) Она создаёт интерактивные HTML-отчёты за пару строк кода.
- официальная документация (сразу ссылка на quickstart)
- youtube-канал с видео-туториалами
- репозиторий библиотеки на github
Пусть дрифт остаётся на треке, а не в проде
#аналитика@data_easy
#mlops@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍5❤🔥3
Привет, друзья!
В DS-задачах часто встречаются категориальные признаки с очень высокой кардинальностью(в которых много уникальных значений) : ID, URL, слова в тексте, теги и прочее. Прямое one-hot кодирование таких признаков, скорее всего, приведёт к огромным разреженным матрицам и быстро "взорвёт" размерность🤯
Но прежде чем объединять редкие категории в "другое" или просто отбрасывать их, стоит рассмотреть hashing trick - простой и масштабируемый способ кодирования категориальных признаков.
В чём идея алгоритма?
➡️ берём строковое значение (например, user_id),
➡️ пропускаем его через хэш-функцию,
➡️ берём остаток по модулю D - заранее заданного размера выходного вектора,
➡️ получаем индекс, в который кладём 1 (или другое значение, если это count/frequency).
🧐 Кажется, что похоже на one-hot - но вот в чём ключевое отличие: мы не храним словарь всех уникальных значений и сами выбираем размерность пространства D.
🤷♂️ Из минусов: при таком подходе возможны коллизии - два разных значения могут попасть в одну и ту же ячейку. Это происходит случайно, и по смыслу такие значения нельзя считать похожими. Но коллизии - это осознанная плата за компактность🤷♀️
👍 Из плюсов: метод работает стабильно и хорошо масштабируется. Даже если вдруг появляется новая категория, она автоматически попадает в какую-либо ячейку без пересоздания маппинга. Это делает hashing trick особенно удобным в стриминге, real-time inference и онлайн-обучении. Кроме того, можно кодировать "перекрестные" (парные, тройные и т.п.) категориальные фичи.
💻 В sklearn уже есть готовая реализация этого приёма:
Hashing trick - не волшебная кнопка, но отличный инструмент в арсенале. Особенно там, где важны скорость, масштабируемость и минимальное потребление памяти.
Успехов в оптимизации размерности!🌹
#classic_ml@data_easy
В DS-задачах часто встречаются категориальные признаки с очень высокой кардинальностью
Но прежде чем объединять редкие категории в "другое" или просто отбрасывать их, стоит рассмотреть hashing trick - простой и масштабируемый способ кодирования категориальных признаков.
В чём идея алгоритма?
from sklearn.feature_extraction import FeatureHasher
# хэшер на 10 выходных фичей
hasher = FeatureHasher(n_features=10, input_type='string')
# пример категориальных данных
data = [
['user_1', 'item_42'],
['user_2', 'item_17'],
]
# собственно преобразование
X = hasher.transform(data)
Hashing trick - не волшебная кнопка, но отличный инструмент в арсенале. Особенно там, где важны скорость, масштабируемость и минимальное потребление памяти.
Успехов в оптимизации размерности!
#classic_ml@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥14👍4❤2
Привет, друзья!
Спешу поделитьсяи похвастаться тем, как выглядит автограф Владимира Савельева - автора знаменитой книги "Статистика и котики"😍 (кстати, кто ещё не читал - в этом посте можно найти её pdf-версию!)
Такой чудесный и неожиданный подарок прислали коллеги из Отраслевой ИТ-Школы Росатома, с которыми мы вместе вели курс - за что им огромное спасибо☺️
Спешу поделиться
Такой чудесный и неожиданный подарок прислали коллеги из Отраслевой ИТ-Школы Росатома, с которыми мы вместе вели курс - за что им огромное спасибо☺️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16🔥5
Veroyatnosti_i_nepriatnosti_Matematika_povsednevnoy_zhizni_Samoylenko.pdf
14.1 MB
Ну и раз уж речь зашла про математическую литературу, держите в дополнение к статистике ещё одно любопытное издание, посвящённое теории вероятности - книгу Сергея Самойленко "Вероятности и неприятности"🫴
Концентрация математики и формул повыше, чем у В. Савельева, но жизненные примеры и ассоциации не менее интересны!😊
#математика@data_easy
Концентрация математики и формул повыше, чем у В. Савельева, но жизненные примеры и ассоциации не менее интересны!😊
#математика@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16