В мире больших данных

Durability — Устойчивость

Кажется я задолжала вам рассказ о последнем свойстве ACID — устойчивости (durability).

Устойчивость — это гарантия того, что после завершения транзакции данные останутся в базе. Даже если система внезапно выключится или случится какой-то сбой, изменения не пропадут.

Как это работает на практике? Когда транзакция завершается успешно, СУБД физически записывает все изменения. Только после этого транзакция считается завершенной.

Для обеспечения устойчивости базы данных используют разные техники. Одна из них — логирование. Система записывает все изменения в специальный журнал до того, как внести их в основную базу. Если произойдет сбой, СУБД сможет восстановить данные из этого журнала.
Также часто применяют репликацию, т.е. данные копируются на несколько серверов. Если один выйдет из строя, другие продолжат работу.

Устойчивость особенно важна для финансовых систем. Представьте, вы перевели деньги, а потом случился сбой и ваши деньги просто исчезли. Ужасно, правда?

А еще устойчивость=надёжность важна для бизнес-аналитики. Компании полагаются на исторические данные для принятия решений. Если бы данные могли пропасть из-за сбоя, это сильно усложнило бы анализ.

Однако обеспечение устойчивости может замедлять работу системы. Запись на диск и синхронизация реплик требуют времени. Поэтому разработчики всегда ищут баланс между скоростью и надежностью.

Устойчивость — это ключевое свойство для надежных баз данных. Оно гарантирует, что ваши данные в безопасности, что бы ни случилось с системой.

#dwh #acid

ACID: atomicity, consistency, isolation and durability

Звучит как заклинание, но на самом деле это важнейший набор требований к работе с данными, гарантирующий надёжность транзакций.
Рассмотрим ACID обзорно, а в последствии раскроем каждое из понятий, так…

❤1👍1

128 views15:55

В мире больших данных

Наведите порядок в данных: кратко про нормальные формы

Сегодня поговорим о нормальных формах и нормализации. Это важные понятия в мире баз данных, они помогают нам правильно организовывать информацию.

Представьте базу данных в виде большого шкафа для хранения информации. Без правильной организации найти нужные данные будет сложно, как и отыскать конкретную вещь в разбросанном хаосе. Нормализация — это процесс систематизации данных, схожий с наведением порядка в шкафу, но применительно к информации.

Нормальные формы — это набор правил, помогающих структурировать данные оптимальным образом. Существует несколько уровней нормальных форм, каждый из которых улучшает организацию базы данных.

Первая нормальная форма (1NF) устанавливает базовое правило: "Одна ячейка — один факт". Это означает, что нельзя хранить множественные значения в одном поле. Например, контактные номера клиента должны храниться в отдельных записях или столбцах, а не списком в одной ячейке.

Вторая нормальная форма (2NF) развивает эту идею дальше. Она требует, чтобы все неключевые атрибуты зависели от полного первичного ключа, а не от его части. Это похоже на разделение шкафа на секции по типам одежды.

Третья нормальная форма (3NF) вводит дополнительное требование: атрибуты, не зависящие напрямую от первичного ключа, должны быть вынесены в отдельные таблицы. Это помогает избежать избыточности данных и экономит пространство.

Существуют и более высокие нормальные формы о которых стоит поговорить отдельно.

Основная цель нормализации заключается в следующем:
— Минимизация дублирования данных, что снижает риск ошибок и несоответствий.
— Упрощение процесса обновления информации. Централизованное хранение данных облегчает их модификацию.
— Повышение понятности структуры базы данных, что упрощает ее поддержку и развитие.

Исследования показывают, что корректно нормализованные базы данных могут обеспечить экономию до 30% дискового пространства. Это особенно актуально для крупномасштабных систем.

Важно отметить, что нормализация — это не одноразовое мероприятие, а непрерывный процесс. По мере роста и эволюции бизнеса структуру данных необходимо периодически пересматривать и оптимизировать.

Таким образом, при работе с базами данных всегда следует учитывать принципы нормальных форм. Это позволит создать более эффективную и удобную в использовании систему хранения и обработки информации. Чуть позже рассмотрим различные нормальные формы на примерах.

#dwh #databasedesign

❤1

141 views15:12

В мире больших данных

Системный анализ: от хаоса к пониманию через качественные требования

На Хабре вышла неплохая, но немного хаотичная статья про важность качественных требований в системном анализе и их влияние на итоговый продукт. Ведь работа системного аналитика — это не только понимание данных, архитектуры хранилища и умение писать SQL-запросы. Немалую часть времени занимает общение со всеми участниками процессов и создание грамотной документации.

Техническое задание — один из ключевых документов в работе системного аналитика. Бизнес-заказчики редко приходят с кристально ясным видением своей идеи. Задача аналитика — превратить эти размытые образы в четкий план действий.

Процесс сбора и уточнения требований — это настоящее искусство. Оно требует терпения, внимательности и умения задавать правильные вопросы. Каждый упущенный нюанс может обернуться часами лишней работы или, что еще хуже, разочарованием заказчика.

Четкие требования — основа успешного проекта.

В статье же раскрыты такие важные моменты при работе с требованиями, как:

1. Цель аналитика: обеспечить удовлетворенность конечного пользователя через точные и понятные требования.

2. Качество требований: что такое качество и как его можно повысить для улучшения требований.

3. Типы мышления: какие из них своейственны для системного аналитика.

4. Важность ясности мышления и его развития.

5. Роль саморевью: постоянное саморевью и ревью коллег для улучшения требований.

6. Обратная связь: активное взаимодействие с коллегами и заказчиками для уточнения и улучшения требований.

В статье подчёркивается: для повышения качества своей работы, системному аналитику стоит развивать различные типы мышления, следить за своим состоянием и практиковать управление знаниями.

Сочетание ясного мышления и умения формулировать четкие требования — это не просто профессиональные навыки, а настоящее искусство. С их помощью можно гораздо легче создавать продукты и формировать процессы, которые радуют пользователей и приносят пользу бизнесу.

#системный_анализ #документация

❤1

147 viewsedited 15:54

В мире больших данных

Как схема "звезда" упрощает работу с данными

Помните, мы обсуждали методологию Кимбалла? Так вот, ключевой элемент этого подхода — схема типа "звезда" (Star Schema). Давайте разберемся, что это такое и почему она так важна.

Схема "звезда" — это способ организации данных в хранилище. Она состоит из двух основных элементов: центральной таблицы фактов и окружающих ее таблиц измерений (но на самом деле есть ещё и справочники).

Таблица фактов (Fact Table) — это сердце схемы. В ней хранятся количественные показатели бизнеса. Например, показатели продаж или отдельные транзакции. Часто это очень большие таблицы, с миллионами строк и множеством различных столбцов.

Таблицы измерений (Dimension Tables) — "спутники" центральной таблицы. Они содержат атрибуты, которые описывают бизнес-объекты. Например, подробные данные о клиентах и товарах.

Таблица фактов связана с каждой таблицей измерений с помощью отношения первичный-внешний ключ.

Конечно же, фактов может быть множество, как и измерений.

Такая структура имеет несколько преимуществ:
+ Простота понимания. Даже неспециалист легко поймет, как устроены данные. Это упрощает работу аналитиков и менеджеров.
+ Скорость запросов. Благодаря простой структуре, запросы выполняются быстрее. Не нужно делать множество сложных соединений между таблицами.
+ Гибкость. Добавить новое измерение или факт довольно просто. Это позволяет быстро адаптироваться к изменениям в бизнесе.

Однако у этой схемы есть и недостатки:
- Избыточность данных. Денормализация приводит к дублированию информации.
- Проблемы с обновлением информации в таблицах измерений. При изменениях данных требуется обновлять множество записей.

Давайте рассмотрим простой пример.
Финансовая организация использует схему "звезда" для анализа транзакций: таблица фактов содержит данные о транзакциях, а таблицы измерений — информацию о клиентах и типах транзакций.

Таблица фактов:
Транзакции: ID транзакции, Дата, ID клиента, сумма, ID типа транзакции.

Таблицы измерений:
Клиенты: ID клиента, Имя, Дата рождения, Пол, Адрес.
Тип транзакции: ID типа транзакции, Наименование, Дата добавления.

Хочу заметить, что в современных системах хранения данных схемой "звезда" редко пользуются в чистом виде. Чаще всего она адаптируется и комбинируется с другими подходами, подстраиваясь под специфические потребности бизнеса. Например, Data Vault используется для построения оперативного хранилища данных, где данные интегрируются и историзируются. А схема "звезда" внедряется на этапе витрин данных (Data Marts) для оптимизации аналитических запросов.

#dwh

❤1

163 views15:44

В мире больших данных

Data Vault: революция в организации корпоративных хранилищ данных

Теперь, когда мы разобрались с основными терминами Data Vault, давайте рассмотрим, как эта методология работает. Она сочетает в себе уже знакомую вам "звезду" и 3-ю нормальную форму (о которой я подробно ещё здесь не написала 😁).

Методологию разработал Дэн Линстедт в 2000 году, и это стало настоящим прорывом в организации корпоративных хранилищ. Его целью было создать метод, сочетающий гибкость Кимбалла и надежность Инмона. И у него получилось!

Сегодня существует две версии Data Vault: 1.0 и 2.0. Различия между ними мы обсудим в следующих статьях, а сейчас осветим общие моменты.

Data Vault помогает справиться с проблемами, которые часто возникают при работе с большими объемами информации из разных источников.

Когда новые данные попадают в хранилище (про ETL-ELT проговорим ещё раз позже), они распределяются по Hub, Link и Satellite таблицам. Хабах хранят только уникальные бизнес-ключи. В Линках — связи между хабами, а в Сателлитах содержатся атрибуты, описывающие хабы и линки.

Главная фишка Data Vault — его гибкость. Вы можете добавлять новые данные, не ломая то, что уже построено.

Также Data Vault отлично справляется с хранением истории изменений. Вы всегда можете "отмотать" данные назад и увидеть, как они выглядели в любой момент времени. Это особенно полезно для анализа трендов или аудита.

Для аналитиков Data Vault — настоящий подарок. Он позволяет быстро получать нужную информацию, комбинируя данные из разных источников. Например, можно легко связать данные с рекламы, посещения сайта, продажи и информацию о себестоимости для глубокого анализа.

Но у Data Vault есть и свои сложности. Его внедрение требует тщательного планирования и может занять много времени. Дело в том, что Data Vault использует концепцию "бизнес-ключей" вместо суррогатных ключей, что позволяет легко интегрировать данные из разных систем. Но при этом очень усложняет первоначальное проектирование. Поэтому очень важны специалисты, которые хорошо понимают эту методологию (иначе беды не избежать 😈).

Методология особенно эффективна для больших компаний с множеством разнородных источников данных. Она помогает создать единую "версию правды" для всей организации.

Data Vault — сложный, но крутой инструмент для работы с информацией, который помогает бизнесу стать более гибким и основанным на данных.

#dwh

Please open Telegram to view this post

VIEW IN TELEGRAM

В мире больших данных

Ключевые понятия Data Vault

Что ж, мы уже познакомились с Кимбаллом и Инмоном, теперь пора рассказать про Data Vault. Для начала разберем основные термины, которые нужно понимать.

Data Vault — это методология для работы с данными, объединяющая лучшие практики.…

❤1

190 viewsedited 17:16

В мире больших данных

Дайджест статей за июль 🚀

DWH
Наведите порядок в данных: кратко про нормальные формы
Как схема "звезда" упрощает работу с данными
Data Vault: революция в организации корпоративных хранилищ данных

БД
Durability — Устойчивость

Системный анализ
Системный анализ: от хаоса к пониманию через качественные требования

#дайджест

Please open Telegram to view this post

VIEW IN TELEGRAM

В мире больших данных

Наведите порядок в данных: кратко про нормальные формы

Сегодня поговорим о нормальных формах и нормализации. Это важные понятия в мире баз данных, они помогают нам правильно организовывать информацию.

Представьте базу данных в виде большого шкафа для хранения…

👍3❤1✍1

165 views15:17

В мире больших данных

1 и 2 НФ: первые шаги к упорядоченным данным

Совсем недавно я рассказывала про нормализацию, а сегодня хочу с примерами поговорить о первой (1НФ) и второй (2НФ) нормальных формах. Это базовые правила организации данных в таблицах, которые помогают избежать путаницы и дублирования информации.

Начнем с 1НФ.

Отношение находится в 1НФ, если все его атрибуты являются простыми, все используемые домены должны содержать только скалярные значения. Не должно быть повторений строк в таблице.

Представьте, что у вас есть таблица с данными о студентах и их курсах. И в одной ячейке вы храните несколько курсов через запятую. Это нарушает 1НФ.

Пример таблицы, нарушающей 1НФ (таблицы могут некорректно отображаться на небольших телефонах 🥲 смотрите в горизонтальной ориентации):


| student_id | student_name | courses             |
|------------|--------------|---------------------|
| 1          | Иван         | Математика, Физика  |
| 2          | Марья        | Химия, Биология     |

Чтобы привести таблицу к 1НФ, нужно:
— Убрать повторяющиеся группы значений из отдельных ячеек
— Создать отдельную запись для каждого значения в исходной или новой связанной таблице
— Определить уникальный первичный ключ для каждой таблицы

Пример таблиц, приведенных к 1НФ:


| student_id | student_name |
|------------|--------------|
| 1          | Иван         |
| 2          | Марья        |


| student_id | course       |
|------------|--------------|
| 1          | Математика   |
| 1          | Физика       |
| 2          | Химия        |
| 2          | Биология     |

Теперь таблицы приведены к 1НФ, и данные структурированы таким образом, чтобы избежать дублей и обеспечить целостность данных.

2НФ строится на основе 1НФ.

Отношение находится во 2НФ, если оно находится в 1НФ и каждый не ключевой атрибут неприводимо зависит от Первичного Ключа.

Здесь главное избавиться от частичных зависимостей. Например, если у вас есть таблица "student_courses" с составным ключом из student_id и course_id, а поле "student_name" зависит только от student_id — это нарушение 2НФ.

Пример таблицы, нарушающей 2НФ:


| student_id | course_id | student_name | grade |
|------------|-----------|--------------|-------|
| 1          | 101       | Иван         | 5     |
| 1          | 102       | Иван         | 4     |
| 2          | 101       | Мария        | 3     |

Чтобы привести к 2НФ:
— Выделите зависимые атрибуты в отдельную таблицу
— Свяжите новую таблицу с исходной через первичный ключ

Пример таблиц, приведенных к 2НФ:


| student_id | student_name |
|------------|--------------|
| 1          | Иван         |
| 2          | Мария        |


| student_id | course_id | grade |
|------------|-----------|-------|
| 1          | 101       | 5     |
| 1          | 102       | 4     |
| 2          | 101       | 3     |

Теперь данные о студентах будут в отдельной таблице. Это уменьшит избыточность и упростит анализ информации.

Применение 1НФ и 2НФ помогает:
+ Улучшить целостность данных
+ Уменьшить избыточность
+ Упростить обновление информации

Помните, нормализация — это непрерывный процесс.

Также стоит отметить, что современные системы управления базами данных (СУБД) часто автоматизируют процесс нормализации. Например, PostgreSQL с версии 10 предлагает функции для автоматической нормализации таблиц. Но не все и не всегда ими пользуются, и не везде это работает корректно 😁 так что понимать основы нужно обязательно.

В следующий раз уделим немного внимания 3НФ.

А вы применяете нормализацию в своих проектах? Какие сложности встречали?

#dwh

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🤝1

188 views15:37

В мире больших данных

Ранжирующие функции в SQL: как создавать рейтинги и топы

Привет! Сегодня поговорим о ранжирующих оконных функциях в SQL. С ними вы легко сможете находить лучшие продукты, оценивать эффективность сотрудников или составлять списки топовых клиентов.

Ранжирующие функции — это особый вид оконок. Они присваивают каждой строке таблицы номер (ранг) в рамках группы данных, определенной оператором OVER(). Этот номер может быть уникальным или учитывать равенство значений в строках.

В SQL есть три основные ранжирующие функции:
- ROW_NUMBER() или простая нумерация — присваивает уникальный номер каждой строке. Даже если значения в строках одинаковы, номера будут различаться.
- RANK() или ранжирование с пропусками — присваивает одинаковый ранг строкам с одинаковыми значениями. Следующая строка получает номер с пропуском на количество одинаковых значений (т.е., например, 1 1 1 4). Можно использовать, когда важно показать, сколько объектов находится выше по рейтингу.
- DENSE_RANK() или ранжирование без пропусков — похожа на RANK(), но не пропускает номера. Если несколько строк имеют одинаковый ранг, следующая строка получит номер, идущий непосредственно за ними (1 1 1 2). Пригодится для создания категорий или групп на основе значений.

Пример ранжирования с пропусками:


SELECT 
    product_name,
    sales_amount,
    DENSE_RANK() OVER (ORDER BY sales_amount DESC) AS sales_rank
FROM product_sales;

Результат:


| product_name | sales_amount | sales_rank |
|--------------|--------------|------------|
| iPhone       | 100000       | 1          |
| MacBook      | 100000       | 1          |
| AirPods      | 80000        | 2          |
| iPad         | 60000        | 3          |

Если нужна нумерация внутри групп, необходимо скомбинировать ранжирующие функции с PARTITION BY. Например, разобъём данные на группы по категориям:


SELECT 
    category,
    product_name,
    sales_amount,
    RANK() OVER (PARTITION BY category ORDER BY sales_amount DESC) AS category_rank
FROM product_sales;

Функция присваивает ранг каждой строке в пределах группы (категории). Если две строки имеют одинаковое значение sales_amount, они получат одинаковый ранг, а следующая строка пропустит номер и возьмёт следующий. Не понятно?) Посмотрим на примере вывода:


| category | product_name   | sales_amount | category_rank |
|----------|----------------|--------------|---------------|
| Phones   | iPhone 13      | 150000       | 1             |
| Phones   | Galaxy S21     | 130000       | 2             |
| Phones   | Pixel 6        | 130000       | 2             |
| Phones   | OnePlus 9      | 90000        | 4             |
| Laptops  | MacBook Pro    | 200000       | 1             |
| Laptops  | Dell XPS       | 180000       | 2             |
| Laptops  | ThinkPad X1    | 150000       | 3             |
| Laptops  | MateBook 14    | 150000       | 3             |

Ранжирующие функции полезны, если нужно создавать рейтинги или анализировать данные с учетом их позиции в наборе. Например, если нужно найти первую строчку в группе, определить топ-продавцов, сравнить позиции или ранжировать сотрудников по их результатам. Эти функции помогают решать задачи быстрее и проще, чем с использованием сложных подзапросов.

В следующих статьях мы разберем каждую функцию подробнее и посмотрим на более сложные примеры их применения. А пока попробуйте применить их к своим данным 😉

#sql #оконные_функции

Please open Telegram to view this post

VIEW IN TELEGRAM

👨‍💻2❤1✍11

192 views15:19

В мире больших данных

Путешествие по миру современных баз данных

Хочу рассказать о современных базах данных. Мир баз данных постоянно развивается, и сейчас у нас есть целый арсенал инструментов для различных целей. Разберемся с некоторыми из них.

Реляционные базы данных (RDBMS) — это классический вид, основанный на табличной модели. Идеальны для структурированной информации с четкими связями. Н-р, для банковских систем или управления заказами в интернет-магазине.

Фишка: поддерживают сложные запросы и гарантируют целостность данных.

Согласно отчету DB-Engines Ranking на сегодня, Oracle, MySQL и MS SQL остаются самыми популярными СУБД в мире.
══════════
NoSQL — предлагает подходы, отличные от стандартного реляционного шаблона. Они появились, когда стало ясно, что не все данные удобно хранить в таблицах. Эти СУБД бывают документоориентированные (MongoDB), ключ-значение (Redis), графовые (Neo4j). Они часто используются в веб-приложениях, системах реального времени или для работы с большими данными.

Фишка: легко масштабируются и быстро обрабатывают большие объемы данных.

MongoDB — самая популярная NoSQL база среди разработчиков по данным Stack Overflow Developer Survey 2023.
══════════
Колоночные базы данных — в них данные также организованы в таблицы, но хранятся по столбцам, а не по строкам. Отлично подходят для аналитики с большими объемами данных.

Фишка: молниеносно обрабатывают аналитические запросы на терабайтах данных.

Примеры таких СУБД: ClickHouse, Google BigQuery, Apache Cassandra.
══════════
NewSQL базы данных наследуют реляционную структуру и семантику, но построены с использованием более современных, масштабируемых конструкций, обеспечивая высокую масштабируемость и согласованность данных.

Фишка: могут обрабатывать тысячи транзакций в секунду, сохраняя при этом ACID-свойства.

Популярные системы: CockroachDB, Google Spanner, VoltDB. Они хорошо подходят для приложений, которым нужна высокая доступность и горизонтальная масштабируемость.
══════════
Многомодельные базы данных поддерживают несколько моделей данных в рамках одной системы. Они упрощают разработку сложных приложений, где нужны разные типы данных и связей между ними.

Фишка: позволяют использовать одну базу данных вместо нескольких, упрощая архитектуру приложения.

Пример: ArangoDB (работает с документами, графами и данные в формате ключ-значение).
══════════
Базы данных на основе блокчейна используют технологию распределенного реестра. Они обеспечивают высокую безопасность и неизменяемость данных.

Фишка: гарантируют прозрачность и защиту от несанкционированных изменений.

Примеры таких баз: BigchainDB, Bluzelle. Они популярны в финтехе, управлении цепочками поставок и других областях, где важна прозрачность и безопасность.
══════════
Хранилища данных и базы данных для аналитики оптимизированы для обработки огромных объемов данных и сложных аналитических запросов.

Фишка: быстро анализируют петабайты данных и предоставляют результаты в удобном виде для бизнес-аналитики и машинного обучения.

Примеры: Snowflake, Amazon Redshift, Google BigQuery.
══════════
In-Memory базы данных хранят данные в оперативной памяти, что обеспечивает молниеносную сверхвысокую скорость работы. Часто используются как кэш или для обработки данных в реальном времени, особенно в приложениях, требующих минимальной задержки.

Фишка: обеспечивают время отклика в микро- или даже наносекундах, что критично для таких приложений, как финансовые системы, системы интернет-рекламы и игровые платформы.

Самые известные представители: Redis, Memcached, SAP HANA (для более сложных аналитических задач), Apache Ignite (для распределенных вычислений и кэширования).
══════════

Как вы можете заметить, некоторые из известных вам СУБД хочется отнести к нескольким видам. И это важно понимать: границы между типами баз данных часто размыты. Многие современные СУБД сочетают черты разных типов, адаптируясь под сложные требования своих клиентов.

Признаюсь честно, пока писала эту статью, узнала о нескольких новых для себя видах. А вы? С чем приходилось работать? 😎

#databasedesign #dwh

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

209 views14:53

В мире больших данных

Batch vs Streaming: два пути к эффективной обработке данных

В мире больших данных batch и streaming — два ключевых метода загрузки и обработки, которые определяют, как информация движется и трансформируется внутри системы.

Сама суть понятий кроется в их названии: batch - пачка, streaming — поток. На этом можно было и остановиться, но всё же давайте разберемся, чем они отличаются и в каких случаях что лучше применять.

При batch загрузке мы собираем данные в большие пачки и обрабатываем их все вместе. Отлично подходит, если нам не нужны мгновенные результаты. Например, для составления ежемесячных отчетов по продажам или анализа поведения пользователей за прошедший квартал.

Плюсы batch загрузки:
+ Эффективно работает с большими объемами данных
+ Экономит ресурсы, так как обработка идет в определенное время (особенно актуально для облаков, где оплата за время использование ресурсов)
+ Подходит для сложных вычислений, которые требуют много времени

Минусы:
- Задержка между сбором данных и получением результатов
- Не подходит для задач, требующих мгновенной реакции

Streaming подход обрабатывает каждую единицу данных сразу, как только она появляется. Идеально подходит для задач, где важно получать данные мгновенно. Например, для мониторинга состояния оборудования в реальном времени.

Плюсы streaming обработки:
+ Мгновенное (ну почти) появление данных
+ Возможность быстро реагировать на события

Минусы:
- Требует больше ресурсов
- Сложнее реализовать для некоторых типов анализа

Возникает логичный вопрос что и когда использовать? Но универсального ответа нет. Выбор между пакетной и потоковой обработкой целиком зависит от ваших задач и ресурсов и в этом состоит работа системного аналитика — выбрать лучший подход для каждого конкретного случая.

Банки используют streaming загрузку в DWH для быстрого обновления данных. Информация о переводах и покупках клиентов попадает в хранилище почти мгновенно. Это дает аналитикам самую свежую картину активности клиентов. В тоже время менее критичные данные могут собираться из ERP и CRM систем раз в день.

Для batch обработки часто используют Apache Hadoop, Apache Spark или самописные репликаторы. Для streaming популярны Apache Kafka, Apache Flink и Google Cloud Dataflow. О некоторых из этих инструментов я расскажу позднее.

#dwh

👍2❤1

210 views15:23

В мире больших данных

Данные: структурированные и не очень

Структурированные данные имеют строгую, заранее определённую структуру и типы данных (например, числовые или текстовые), что позволяет их легко фильтровать и анализировать.

Основные характеристики:
– Фиксированная схема
– Табличный формат
– Четко определенные типы данных
– Легко анализируются

Пример структурированных данных (таблица "Клиенты"):


| customer_id | first_name | last_name  | registration_date |
|-------------|------------|------------|-------------------|
| 001         | Иван       | Иванов     | 2023-01-15        |
| 002         | Мария      | Смирнова   | 2023-09-20        |
| 003         | Алексей    | Петров     | 2023-03-10        |

Структурированные данные особенно полезны, когда требуется быстрый доступ к информации и её анализ.

А вот с полуструктурированными данными не всё так просто. У них есть структура, но она более гибкая и не такая строгая. То есть параметры объектов могут меняться или отсутствовать.

Ключевые особенности:
– Гибкая схема
– Иерархическая структура
– Возможность хранения разнородных данных
– Поддержка вложенности

Пример полуструктурированных данных (JSON):


{
  "order": {
    "id": 1001,
    "customer": {
      "inn": "7707083893",
      "name": "ООО Ромашка",
      "contactPerson": "Иванов Иван Иванович"
    },
    "items": [
      {"name": "Смартфон Yota Phone", "quantity": 1, "price": 49999.99},
      {"name": "Защитное стекло", "quantity": 2, "price": 999.99}
    ],
    "delivery": {
      "address": "г. Москва, ул. Тверская, д. 1",
      "method": "СДЭК",
      "cost": 500.00
    },
    "total": 52499.97,
    "status": "Отправлен"
  }
}

Кроме JSON, существуют и другие форматы полуструктурированных данных, такие как XML, YAML и другие. Полуструктурированные данные часто используются в современных веб-приложениях, системах управления контентом, а также в REST API для обмена информацией между различными системами.

Ну и не стоит забывать о неструктурированных данных. Это то, что не укладывается в таблицы в привычном виде — например, текстовые документы, изображения или видео. Они сложнее в обработке и анализе, но тоже могут быть полезными. Для работы с ними часто используются технологии машинного обучения, обработки естественного языка (NLP) и распознавания изображений.

В современных системах часто используется комбинация всех трех типов данных. Например, интернет-магазин может хранить информацию о клиентах в таблицах, данные о заказах — в JSON, а отзывы — как тексты или изображения. Такой подход позволяет системе быть гибкой и эффективной. Ну а нам с вами, при построении хранилищ данных, нужно уметь всё это грамотно реплицировать и приводить в порядок для последующего анализа.

#dwh

❤1🤯1

223 views15:21

В мире больших данных

3НФ: спасаемся от хаоса в данных

В прошлый раз мы поговорили про 1 и 2НФ, пора двигаться дальше.

Третья нормальная форма (3НФ) — один из ключевых этапов нормализации данных, который помогает избежать избыточности и аномалий при обновлении информации.

Отношение находится в 3НФ, когда находится во 2НФ и каждый не ключевой атрибут нетранзитивно зависит от первичного ключа.

Как следует из определения, чтобы отношение находилось в 3НФ, оно должно удовлетворять двум условиям:
1. Находиться в 2НФ (то есть быть приведенным к состоянию, где все неключевые атрибуты зависят от всего первичного ключа).
2. Каждый неключевой атрибут должен зависеть только от первичного ключа и ни от чего другого.

Непонятно? Рассмотрим на примере.
Представьте, что у нас есть таблица с информацией о заказах:


| order_id | product_id | product_name | category | qty |
|----------|------------|--------------|----------|-----|
| 1        | 101        | Ноутбук      | Техника  | 2   |
| 2        | 102        | Смартфон     | Техника  | 1   |
| 3        | 103        | Футболка     | Одежда   | 3   |

Эта таблица нарушает 3НФ, потому что есть зависимость product_id -> product_name -> category. То есть название товара и его категория зависят от id продукта, а не напрямую от id заказа.

Чтобы привести таблицу к 3НФ, нужно разбить ее на несколько связанных таблиц:

В итоге структура будет выглядеть так:

Таблица orders:


| order_id | product_id | qty |
|----------|------------|-----|
| 1        | 101        | 2   |
| 2        | 102        | 1   |
| 3        | 103        | 3   |

Таблица products:


| product_id | product_name | category |
|------------|--------------|----------|
| 101        | Ноутбук      | Техника  |
| 102        | Смартфон     | Техника  |
| 103        | Футболка     | Одежда   |

Внимательный читатель заметит, что таблица products всё еще не находится в 3НФ 😁. Как думаете, почему и как можно улучшить эту таблицу?

А мы пойдём дальше.

Определить нарушение 3НФ очень просто. Задайте себе несколько вопросов:
– Есть ли в таблице поля, значения которых повторяются (или могут повторяться) для разных строк?
– Можно ли определить значение одного поля через другое неключевое поле?
– При изменении одной записи, нужно ли обновлять другие записи с такими же данными?

Если хотя бы на один вопрос вы ответили "да", скорее всего, ваша таблица не соответствует 3НФ.

Применение 3НФ даёт несколько преимуществ:
– уменьшение избыточности данных: информация хранится только в одном месте, что упрощает обновление и поддержку.
– улучшение целостности данных: меньше шансов, что при обновлении информации возникнут несоответствия.
– гибкость при изменении структуры данных: если нужно добавить новые атрибуты, это не повлияет на таблицу заказов.

Однако стоит помнить, что чрезмерная нормализация может усложнить запросы и снизить производительность, особенно на больших наборах данных. Поэтому в реальных проектах часто используют денормализацию, например, при создании отдельных, часто используемых бизнесом витрин.

#dwh

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

182 views13:41

В мире больших данных

Открыт набор в новый сезон крутой бесплатной менторской программу от Women in Tech и Women in Big Data. Эти женские комьюнити реально помогают девушкам расти и развиваться в IT 🚀
Как для ментора, так и для менти участие в программе открывает отличные возможности для нетворкинга и интересных знакомств, а также это в целом классный опыт.
Присоединяйтесь!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

169 views10:45

В мире больших данных

Forwarded from Women in Big Data Russia

Приём заявок в бесплатную программу MENTOR IN TECH 6.0 стартует! Сообщества Women in Tech и Women in Big Data продолжают свою миссию – помогать женщинам строить карьеры в динамичной и конкурентной сфере информационных технологий.

Для участия в MiT мы ждем:
✔️менторов – как мужчин, так и женщин,
✔️менти – женщин.

Станьте менти, если:
•‎ вы мотивированы на карьерный рост, но не знаете, как его добиться;
•‎ вам интересен нетворкинг с единомышленниками и профессионалами в вашей сфере;
•‎ рядом нет профессионала, готового поделиться знаниями и опытом;
•‎ вам пригодится сертификат о прохождении программы менторинга от международных комьюнити WiT и WiBD.

Станьте ментором, если:
•‎ вы хотите получить теоретические и практические знания по обучению сотрудников;
•‎ вы хотите поделиться своим опытом с пользой для женского IT-сообщества;
•‎ вы заинтересованы в продвижении себя как профессионала (в соцсетях WiT и WiBD);
•‎ вам интересен нетворкинг с единомышленниками и профессионалами в вашей сфере;
•‎ вам пригодится сертификат о менторстве от международных комьюнити WiT и WiBD.

Вы можете принимать участие в программе одновременно и как ментор, и как менти по одному из направлений.

Сроки и основные этапы программы:
– с 1 по 15 сентября 2024 – приём заявок (для менти и ментора).
– 30 сентября 2024 – результаты отбора (следите за сообщениями в тг-боте программы).
– с 1 октября 2024 по 1 февраля 2025 – менторинг-сессии, вебинары и воркшопы.

Успейте подать заявку до 15 сентября 2024 с помощью ТГ-бота @MiT_Russia_Bot. Набор происходит на конкурсной основе.

Подробнее о программе мы расскажем 2-го сентября в 19:00 по мск. Присоединяйтесь и задавайте все интересующие вас вопросы. Регистрация по ссылке. Запись будет❗️

Детали программы также доступны на сайте.

❤2

183 views10:45

В мире больших данных

Дайджест статей за август 🚀

DWH
Batch vs Streaming: два пути к эффективной обработке данных
Данные: структурированные и не очень

БД
1 и 2 НФ: первые шаги к упорядоченным данным
3НФ: спасаемся от хаоса в данных
Путешествие по миру современных баз данных

SQL
Ранжирующие функции в SQL: как создавать рейтинги и топы

#дайджест

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

190 views15:08

В мире больших данных

Связи между данными: один-к-одному, один-ко-многим, многие-ко-многим

Захватим ещё немного основ (хотя, кажется, пора заканчивать с очевидным 😁).

Когда мы работаем с базами данных, то постоянно сталкиваемся с разными типами связей между таблицами. Это база для эффективной организации данных и их анализа, обеспечивающая целостность информации.

Есть три основных типа связей: один к одному, один ко многим и многие ко многим. Давайте разберемся с каждым из них.

Cамый простой тип связи — один к одному (1:1), то есть каждая запись в одной таблице соответствует только одной записи в другой таблице.
Например, есть таблица Сотрудники и таблица Паспортные данные. Каждый сотрудник имеет только один паспорт и каждый паспорт принадлежит только одному сотруднику.

Связь один-ко-многим (1:N) используется, когда одна запись в первой таблице может быть связана с несколькими записями во второй таблице. Например, в одном отделе может работать много сотрудников, но каждый сотрудник может работать только в одном отделе.

Связь многие-ко-многим (M:N) — самый сложный тип связи. Он используется, когда несколько записей из одной таблицы могут быть связаны с несколькими записями из другой таблицы. Обычно для реализации связи M:N используется промежуточная таблица.То есть такая связь разбивается на две связи "один ко многим" через промежуточную таблицу.

Классический пример — студенты и курсы. Один студент может посещать несколько курсов, и на одном курсе учится много студентов.

Таблица students:


student_id | name 
------------------
1          | Анна 
2          | Борис

Таблица courses:


course_id | name      
----------------------
101       | Математика
102       | Физика

Таблица students_courses:


student_id | course_id
-----------------------
1          | 101      
1          | 102      
2          | 101

Промежуточная таблица students_courses как раз и содержит комбинации ключей из обеих связанных таблиц.

Cтоит отметить, что в хранилищах данных мы иногда отходим от строгой реляционной модели и иногда можем хранить данные в более свободном формате😎. Но понимание этих базовых типов связей помогает нам правильно организовать данные для эффективного анализа.

#dwh

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1🎄1

190 views15:19

В мире больших данных

Snowflake pricing: стоимость хранения и обработки данных

Давно ничего не писала о Snowflake, а ведь сейчас это основная платформа с которой я работаю. Ранее я рассказывала об архитектуре Snowflake, а теперь хочу затронуть не менее важную тему — расчет оплаты за его использование.

Snowflake не требует покупки или аренды физического оборудования. Это облачное решение, где вы платите за потребляемые ресурсы — модель pay-as-you-go. Это одно из его основных преимуществ, которое легко может превратиться в недостаток, если использовать хранилище как попало. Наша задача не просто загружать и обновлять данные, строить витрины, но и делать это максимально экономно. Про особенности оплаты хорошо описано в доках, но всё-таки подчеркну здесь основные моменты.

Snowflake берет плату за хранение данных в зависимости от региона и облачного провайдера (AWS, Azure или GCP). Оплата идет за терабайт в месяц и бывает двух типов:
• On-demand storage — платим только за фактический объем данных.
• Capacity storage — предоплата за объем на год вперёд с возможной экономией до 30%. Однако неиспользованный объем никак не компенсируется.
При этом стоит упомянуть, что в любом из вариантов загружаемые данные автоматически сжимаются, что снижает оплачиваемый объем.

Теперь про обработку данных и тут начинается самое интересное. Вычислительные мощности Snowflake — это виртуальные склады (warehouses). Они обрабатывают запросы и выполняют преобразования данных. Оплата идет в кредитах, и вот как это работает:
• Snowflake предлагает разные размеры warehouses. Чем он больше, тем выше его вычислительная мощность и тем больше кредитов он потребляет в час.
• При этом мы платим только за время, когда warehouse активен. Если он простаивает несколько минут, то автоматически приостанавливается.
• Стоимость кредита зависит от выбранного плана и облачного провайдера.

С передачей данных все просто: внутри одного региона она бесплатна. Но есть нюансы:
• межрегиональная передача между дата-центрами облачных провайдеров оплачивается отдельно и стоит несколько центов за гигабайт;
• выгрузка данных во внешние системы — доп.плата;
• межоблачная передача (например, между AWS и GCP) также оплачивается.

Как оптимизировать расходы?
1. Настроить быстрое «засыпание» warehouses после выполнения пачки задач.
2. Группировать выполнение системных задач.
3. Разделить warehouses для тех. процессов и задач аналитики, правильно подобрав размер под каждый тип задач. Большой warehouse работает быстрее, но и стоит дороже.
4. Использовать автоматическое масштабирование там, где это необходимо — Snowflake может автоматически увеличивать и уменьшать размер warehouse в зависимости от нагрузки.
5. Оптимизировать запросы, ведь неэффективные запросы — прямой путь к лишним расходам.
6. Использовать кэширование результатов — Snowflake кэширует результаты запросов, т.е. если запрос повторяется, результат берется из кэша, что экономит ресурсы.
7. Ну и, конечно, мониторить использование. Snowflake предоставляет подробные отчеты, и хорошо бы регулярно проверять их, чтобы понимать, где можно оптимизировать затраты.

Ценообразование в Snowflake — это целая наука и отдельный проект для анализа и планирования. Выше я описала основы, знание которых поможет немного понять принципы и эффективнее управлять расходами, получая максимум от Snowflake.

#snowflake

❤3✍1

185 views14:37

В мире больших данных

Сегодня каналу В мире больших данных 1 год 🥳

Знаете, иногда ловлю себя на мысли: "а в чём смысл, брат?". В черновиках с десяток неотправленых заметок, и каждый раз, когда одна из них всё-таки выходит в свет (после многочисленных переработок), задумываюсь "а надо ли оно?". Ведь интернет и так изобилует информацией на любую тему, и кажется, что всё это было уже до нас.

Когда ты пишешь для начинающих специалистов (и сам при этом ещё далеко не специалист экстра-класса), то сложно выдавать эксклюзивный экспертный контент. Но знаете что? Моя любовь к знаниям и желание ими делиться всё равно берут верх) так что "улыбаемся, машем, и продолжаем пилить контент" 💻

Верю, что однажды появится время и силы заняться раскрутой канала по полной. А пока прошу вас, мои подписчики, если считаете заметки полезными — не стесняйтесь ставить лайки и делиться ими. Может, кому-то из ваших знакомых тоже пригодится.

Спасибо каждому подписчку за то, что вы со мной. Вместе мы делаем мир данных чуточку понятнее ❤️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤5💯3🎉2

187 views14:27

В мире больших данных

ANY_VALUE: функция для упрощения GROUP BY запросов

Привет! Сегодня расскажу про функцию ANY_VALUE в SQL. Она помогает упростить GROUP BY запросы, особенно когда вы работаете с большими наборами данных.

Если вы работали с агрегатными функциями и группировками GROUP BY, то, вероятно, сталкивались с ограничениями при выборе столбцов.

Представьте, у вас есть не очень нормализированная витрина с заказами (всё также рекомендую смотреть таблички в десктоп версии или развернуть телефон горизонтально🥲):

| ord_id | cust_id | cust_nm | product    | qty | price |
|--------|---------|---------|------------|-----|-------|
| 101    | 1       | Иван    | Ноутбук    | 2   | 1500  |
| 102    | 2       | Ольга   | Смартфон   | 1   | 800   |
| 103    | 1       | Иван    | Планшет    | 1   | 600   |
| 104    | 3       | Анна    | Наушники   | 3   | 150   |
| 105    | 2       | Ольга   | Умные часы | 2   | 400   |

И перед вами стоит задача получить общую сумму заказов для каждого клиента:

SELECT cust_id, SUM(qty * price) as total_amount
FROM orders
GROUP BY cust_id

Но что если мы захотим добавить в результат customer name (cust_nm)? Получим ошибку, потому что cust_nm не входит в GROUP BY и не используется в агрегатной функции. Вот здесь и приходит на помощь ANY_VALUE:

SELECT 
  cust_id, 
  ANY_VALUE(cust_nm) as customer_name,
  SUM(qty * price) as total_amount
FROM orders
GROUP BY cust_id

Этот запрос выполнится без ошибок. ANY_VALUE говорит базе данных: "Возьми любое значение cust_nm для каждой группы cust_id".
Важно понимать, что ANY_VALUE не гарантирует, какое именно значение будет выбрано. Оно может меняться от запуска к запуску. Поэтому используйте эту функцию, только когда вам не важно, какое именно значение будет возвращено, или если вы уверены, что внутри группы значения одинаковы.

ANY_VALUE помогает оптимизировать запросы. В некоторых СУБД она дает понять оптимизатору, что порядок выбора значений не важен, что может привести к более эффективному плану выполнения, чем при использовании min-max на группе.

Однако, не все СУБД поддерживают ANY_VALUE. В PostgreSQL, например, как раз таки придётся использовать min или max:

SELECT 
  cust_id, 
  MIN(cust_nm) AS customer_name,
  SUM(qty * price) AS total_amount
FROM orders
GROUP BY cust_id;

ANY_VALUE — полезная функция для упрощения агрегатных запросов, когда точное значение не имеет значения. Главное — использовать его осознанно и понимать, когда его применение оправдано.

#sql

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤4

203 viewsedited 13:17

В мире больших данных

165 views14:11

В мире больших данных

База — кринж или мастхэв?

Много статей в моём блоге посвящено самым основам, которые кажутся очевидными и «ну уж это то все знают». А мне кажется — знать хорошо, а не забывать и использовать знания ещё лучше.

В системный анализ и аналитику данных часто приходят люди из совершенно разных сфер и многие статьи-курсы делают упор на знания SQL, что, конечно, важно. Но также важно понимать где и как ваши данные лежат изначально, как они связаны друг с другом, как оптимизировать их использование. Ведь порой источник — это настоящий ящик Пандоры.

Связи, первичные ключи, нормализация — это не просто теория, а практический инструмент для системного аналитика DWH. Когда вы глубоко понимаете, как связаны данные о продажах, клиентах и товарах, вы можете точнее перевести требования бизнеса на язык хранилища. Например, для отчета по продажам в разрезе клиентских сегментов вы сразу знаете, какие объекты понадобятся и как их связать.

Нормализация критична при интеграции новых источников. Допустим, нужно загрузить из источника данные о программе лояльности. Вы анализируете структуру исходной таблицы и решаете, нормализовать ли данные при загрузке или оставить как есть. Всё это безусловно зависит от задачи, особенностей хранилища и требований к производительности.

Знание нормализации и денормализации помогает оптимизировать работу хранилища и создавать эффективные витрины. При разработке вы выбираете лучшие источники: нормализованные таблицы ods-слоя или, в каких-то случаях, денормализованные таблицы emart-слоя.

И, опять же, основы помогают эффективно общаться с инженерами и бизнесом. Вы становитесь "переводчиком" между бизнесом и IT, быстро оценивая сложность задач и необходимые изменения в структуре данных.

Поэтому не пренебрегайте базовыми знаниями — они ключ к успешной работе.

#системный_анализ

👍5✍3

197 views14:11

About

Blog

Apps

Platform