В мире больших данных

Данные: структурированные и не очень

Структурированные данные имеют строгую, заранее определённую структуру и типы данных (например, числовые или текстовые), что позволяет их легко фильтровать и анализировать.

Основные характеристики:
– Фиксированная схема
– Табличный формат
– Четко определенные типы данных
– Легко анализируются

Пример структурированных данных (таблица "Клиенты"):


| customer_id | first_name | last_name  | registration_date |
|-------------|------------|------------|-------------------|
| 001         | Иван       | Иванов     | 2023-01-15        |
| 002         | Мария      | Смирнова   | 2023-09-20        |
| 003         | Алексей    | Петров     | 2023-03-10        |

Структурированные данные особенно полезны, когда требуется быстрый доступ к информации и её анализ.

А вот с полуструктурированными данными не всё так просто. У них есть структура, но она более гибкая и не такая строгая. То есть параметры объектов могут меняться или отсутствовать.

Ключевые особенности:
– Гибкая схема
– Иерархическая структура
– Возможность хранения разнородных данных
– Поддержка вложенности

Пример полуструктурированных данных (JSON):


{
  "order": {
    "id": 1001,
    "customer": {
      "inn": "7707083893",
      "name": "ООО Ромашка",
      "contactPerson": "Иванов Иван Иванович"
    },
    "items": [
      {"name": "Смартфон Yota Phone", "quantity": 1, "price": 49999.99},
      {"name": "Защитное стекло", "quantity": 2, "price": 999.99}
    ],
    "delivery": {
      "address": "г. Москва, ул. Тверская, д. 1",
      "method": "СДЭК",
      "cost": 500.00
    },
    "total": 52499.97,
    "status": "Отправлен"
  }
}

Кроме JSON, существуют и другие форматы полуструктурированных данных, такие как XML, YAML и другие. Полуструктурированные данные часто используются в современных веб-приложениях, системах управления контентом, а также в REST API для обмена информацией между различными системами.

Ну и не стоит забывать о неструктурированных данных. Это то, что не укладывается в таблицы в привычном виде — например, текстовые документы, изображения или видео. Они сложнее в обработке и анализе, но тоже могут быть полезными. Для работы с ними часто используются технологии машинного обучения, обработки естественного языка (NLP) и распознавания изображений.

В современных системах часто используется комбинация всех трех типов данных. Например, интернет-магазин может хранить информацию о клиентах в таблицах, данные о заказах — в JSON, а отзывы — как тексты или изображения. Такой подход позволяет системе быть гибкой и эффективной. Ну а нам с вами, при построении хранилищ данных, нужно уметь всё это грамотно реплицировать и приводить в порядок для последующего анализа.

#dwh

❤1🤯1

223 views15:21