Google Big Query
На последнем проекте удалось поработать с Big Query — собрали на нём DWH с данными из 10 разных БД, чтобы строить сквозные отчёты по всем отделам.
Big Query — это облачная база данных с нетипичными свойствами. Размер хранимых данных никак не ограничен — не надо думать сколько это всё занимает места на диске и сколько нужно серверов чтобы всё нормально работало.
Плату берут не за хранение данных, а за доступ к ним: 6 долларов за каждый просканированный терабайт данных. Главную опасность в таком случае представляют не ручные запросы аналитиков, а код дата инженеров: один невнимательный цикл может запросто пройтись несколько сотен раз по таблице в 10 гигабайт.
Вместо ограничения на количество данных, есть другие: количество запросов по АПИ (1500 в сутки на таблицу или не более 5 запросов каждые 10 секунд; и ещё разные другие).
Поэтому данные приходится туда заливать особым образом: сначала данные форматируются в Parquet файлы, заливаются на облачный Google Storage, а потом уже импортируются в таблицу в Big Query. Таким образом удаётся не превысить суточные лимиты.
#data_tools
На последнем проекте удалось поработать с Big Query — собрали на нём DWH с данными из 10 разных БД, чтобы строить сквозные отчёты по всем отделам.
Big Query — это облачная база данных с нетипичными свойствами. Размер хранимых данных никак не ограничен — не надо думать сколько это всё занимает места на диске и сколько нужно серверов чтобы всё нормально работало.
Плату берут не за хранение данных, а за доступ к ним: 6 долларов за каждый просканированный терабайт данных. Главную опасность в таком случае представляют не ручные запросы аналитиков, а код дата инженеров: один невнимательный цикл может запросто пройтись несколько сотен раз по таблице в 10 гигабайт.
Вместо ограничения на количество данных, есть другие: количество запросов по АПИ (1500 в сутки на таблицу или не более 5 запросов каждые 10 секунд; и ещё разные другие).
Поэтому данные приходится туда заливать особым образом: сначала данные форматируются в Parquet файлы, заливаются на облачный Google Storage, а потом уже импортируются в таблицу в Big Query. Таким образом удаётся не превысить суточные лимиты.
#data_tools