Ivan Begtin

Я тут несколько раз писал о том что нет удобных инструментов для обработки для обработки NoSQL данных. Нет аналога OpenRefine или возможности удобной манипуляции данными внутри NoSQL баз данных. Писал на русском [1] и на английском языках [2].

Но рассуждать вслух хорошо, а экспериментировать лучше. Поэтому на выходных я сделал вот такой простой инструмент mongorefine [3] воспроизводящий часть функций OpenRefine используя MongoDB как бэкенд. Штука эта экспериментальная, измерения по скорости с другими подходами могут быть не в её пользу, особенно в части плоских данных. Но для не-плоских данных, она полезна даже в таком виде.

Основная фича в том чтобы сделать оболочку поверх коллекций MongoDB позволяющую работать с записями как с колоночной базой данных. Свободно удалять отдельные колонки, создавать колонки на основе

Лично я пока не обладаю уверенностью что путь создания системы автоматизации обработки данных поверх MongoDB - это оптимальный путь.

Но если Вы готовы поэкспериментировать и дать обратную связь, то такой инструмент теперь доступен.

P.S. Никогда не делайте экспериментов на рабочих базах данных. Сделайте тестовую копию и тренируйтесь на ней;)

Ссылки:
[1] https://yangx.top/begtin/4255
[2] https://medium.com/@ibegtin/nosql-data-wrangling-50b5a2898a83
[3] https://github.com/ivbeg/mongorefine

#data #opensource #mongodb #dataengineering #datawrangling

1.8K viewsIvan Begtin, 09:23

Ivan Begtin

Полезное чтение про данные, технологии и не только:
- SQL Vs. NoSQL: Choose The Most Convenient Technology [1] полезное чтение для начинающих о разнице между SQL и NoSQL базами данных. Почему для начинающих? Потому что в реальности выбор зависит от того насколько выбранный продукт соответствует компетенциям команды и выбранному технологическому стеку.
- Evolution of data companies [2] о том как развиваются компании на рынке инструментов работы с данными.
- Penpot - The Open-Source design & prototyping platform [3] открытая и свободная альтернатива Figma. Для тех кто хочет проектировать приложения и не хочет платить сервисам за эту возможность
- Devops excercises [4] каталог ресурсов, документов, вопросов и ответов и упражнения для DevOps'ов. Полезно, как начинающим, так и углубляющим знания.
- ZincSearch [5] альтернативная поисковая система декларируемая как более быстрая чем Elastic
- The Production-Grade Data Pipeline [6] о том почему трубы данных надо делать сразу как продукты и о рисках накопления технического долга

Ссылки:
[1] https://pub.towardsai.net/sql-vs-nosql-choose-the-most-convenient-technology-4506d831b6e4
[2] https://medium.com/coriers/the-evolution-of-data-companies-167ff4b65e1d
[3] https://github.com/penpot/penpot
[4] https://github.com/bregman-arie/devops-exercises
[5] https://github.com/zinclabs/zinc
[6] https://dataproducts.substack.com/p/the-production-grade-data-pipeline

#opensource #datatools #data #readings #dataengineering

1.9K viewsIvan Begtin, edited 16:34

Ivan Begtin

Когда читаю государственные или корпоративные новости про внедрение и разработку ИИ не могу не напомнить что без аналитики - нет тех кто измерит результаты машинного обучения. Без дата инженерии не появится нормальных аналитических инструментов. А без дата стратегии всё вообще не сдвинется с места и, с самого начала, пойдет не туда. Поэтому я не перестаю поражаться обилию новых создаваемых государственных информационных систем без стратегии работы с данными которые в них должны собираться.

С бизнес продуктами то же самое. Кто-то уже умеет быть и реально строит бизнес на данных, а кто-то умеет казаться и не имеет даже стратегии.

Поэтому, в качестве завершения этого короткого ранта, всё начинается со стратегий, далее сбора, обработки и очистки данных, далее профессионально отлаженной аналитики и только в конце уже можно что-то говорить про машинное обучение. А если стратегии нет, остаётся только пустая болтовня.

#thoughts #rants #opinion #dataengineering

2.0K viewsIvan Begtin, edited 08:18

Ivan Begtin

В Великобритании Министерство юстиции (российский аналог - Министерство внутренних дел) анонсировало [1] подготовку стратегии по работе с данными, data strategy, которую пока описали одним слайдом из 3 пунктов на этом же слайде.

Обещают вскоре в блоге опубликовать саму стратегию, очень будет интересно её почитать. Я коллекционирую документы дата-стратегий и цифровых стратегий, хочется надеяться что этот будет полезным.

Ссылки:
[1] https://mojdigital.blog.gov.uk/2022/08/30/becoming-a-truly-data-led-justice-system/

#opendata #data #uk #datastrategies

2.1K viewsIvan Begtin, 19:28

Ivan Begtin

В рубрике интересного чтения про данные, технологии и не только:
- The Vector Database Index [1] сравнение нескольких векторных баз данных. Полезно для понимания как устроен этот рынок и того между чем можно и стоит выбирать. Не все продукты рассмотрены, но достаточно многие. Для тех кто не знает или подзабыл - векторные базы данных используются для построения нейросетей и, например, для поиска по подобиям, поиска аномалий и пользовательских рекомендаций и скоринга. Этот рынок растёт и в нём довольно много инвестиций уже есть и приходит.
- What I've learned from users [2] свежий текст Пола Грэхема о том чему научился от основателей стартапов профинансированных Y Combinator. Как и все тексты автора - почитать его стоит. Пишет он редко и всегда по делу.
- Modern COBOL Tooling [3] для тех кто хочет погрузится в вечность или даже не знаю как это описать, но набор инструментов в современных средах разработки и курсов по COBOL.
- Instant MD5 Collisions [4] всё ещё используете хэш функции MD5? А их уже подменяют моментально, на примере пары картинок и большой текст.
- Faster CPython ideas [5] репозиторий идей по ускорению языка Python реализованного на С. Python никогда не отличался высокой скоростью, но был и есть гибок. Интересно то как думают о его ускорении.
- SQLite: Past, Present, and Future [6] об устройстве и судьбе СУБД Sqlite. Важно потому что не стоит недооценивать масштабов её использования особенно в мобильных устройствах и IoT.
- Document Foundation starts charging €8.99 for 'free' LibreOffice [7] этот момент настал и LibreOffice в магазине для Mac'ов продается за 8.99 евро. Обещается что сумма пойдет на разработку ПО. Напомню что LibreOffice - это ответвление (форк) OpenOffice.

Ссылки:
[1] https://gradientflow.com/the-vector-database-index/
[2] http://paulgraham.com/users.html
[3] https://www.openmainframeproject.org/all-projects/cobolprogrammingcourse
[4] https://github.com/corkami/collisions
[5] https://github.com/faster-cpython/ideas
[6] http://muratbuffalo.blogspot.com/2022/09/sqlite-past-present-and-future.html
[7] https://www.theregister.com/2022/09/20/libre_office_macos_fees/

#opensource #readings #rdbms #data

Gradient Flow

The Vector Database Index - Gradient Flow

Measuring the popularity of different Vector Databases. By Ben Lorica and Leo Meyerovich. Introduction Vector databases and vector search are on the radar of a growing number of technical teams. A key driver is that advances in neural networks have made dense…

2.1K viewsIvan Begtin, 05:52

Ivan Begtin

В рубрике интересных наборов данных открытое API проекта Metaculus [1] по краудсорсингу предсказаний.

Проект позволяет регистрировать предсказания, собирать оценки от пользователей и измерять точность предсказаний.

Все эти сведения доступны в формате JSON через API проекта [2].

Всего в проекте более 1 миллиона предсказаний [3] что очень даже немало.

Для полного счастья нехватает только дампов данных, но может быть авторы добавят их в будущем.

Ссылки:
[1] https://www.metaculus.com
[2] https://www.metaculus.com/api2/
[3] https://twitter.com/fianxu/status/1569537658103431168

#opendata #predictions #datasets #API

2.1K viewsIvan Begtin, 13:21

Ivan Begtin

The right to privacy in the digital age

Свежий доклад представителя по правам человека ООН [1]. Документ короткий, на 17 страниц. Там про всё, взломы телефонов правительствами (спецслужбами), массовую слежку, ограничения в использовании шифрования, нарушениях прав человека и так далее.

То о чём писали многие, но изложено сжато и в докладе ООН.

Ссылки:
[1] https://documents-dds-ny.un.org/doc/UNDOC/GEN/G22/442/29/PDF/G2244229.pdf?OpenElement

#privacy #reports

documents-dds-ny.un.org

ODS HOME PAGE

Multilingual interface of the UN Official Documents System

2.1K viewsIvan Begtin, 14:44

Ivan Begtin

Полезное чтение про управление командами данных. Onboarding for Data teams [1] о том как собирать команды дата специалистов и погружать их в работу. Онбоардинг - это быстрое погружение в работу. Много полезных советов и рекомендаций.

Мне понравилась идея в том что новичок в первый день должен сделать коммит в промышленный код (production). Что-то в этой идее есть.

Ссылки:
[1] https://seattledataguy.substack.com/p/onboarding-for-data-teams

#data #datateams

SeattleDataGuy’s Newsletter

Onboarding For Data Teams

How to set-up a streamlined onboarding experience that empower your data engineers and analysts day one.

2.2K viewsIvan Begtin, 06:54

Ivan Begtin

Интересная и пока малопопулярная, но перспективная штука Daft [1] это интерфейс работы с датафреймами вместе с мультимедиа и другими файлами, например, это актуально в задачах генеративного искусства, автоматического создания текстов, изображений, аудио и видео.

Поддерживает стандартный интерфейс датафреймов а-ля Pandas и позволяет выполнять комплексные запросы.

Я чувствую что как-то надо сделать обзор движков для датафреймов, их возможностей и ограничений. В первую очередь с точки зрения работы с данными в диких / реальных, а не лабораторно выверенных условиях.

Ссылки:
[1] https://www.getdaft.io/

#data #datatools

2.1K viewsIvan Begtin, 07:33

Ivan Begtin

В рубрике как это работает у них, портал открытых транспортных данных Франции transport.data.gouv.fr [1] я писал о нём несколько лет назад и за эти годы портал активно развивался.

На портале уже размещено 417 наборов данных [2] причем 112 наборов данных - это данные реального времени!

Данные публикуются в соответствии с 6 национальными стандартами описания транспортных данных.

Многие данные можно, также, увидеть на интерактивной карте [7] в реальном времени по местам публикации этих данных их владельцами.

Ссылки:
[1] https://transport.data.gouv.fr
[2] https://transport.data.gouv.fr/datasets?
[3] https://normes.transport.data.gouv.fr/
[4] https://transport.data.gouv.fr/explore

#opendata #france #transport #datasets

2.5K viewsIvan Begtin, 17:15

Ivan Begtin

Вчера я выступал на Kazan Digital Week про открытость транспортных данных и, похоже, я был единственным на этом мероприятии кто вообще говорил про открытость государства хотя бы частично. Осталось ощущение гласа вопиющего в пустыни.

2.1K viewsIvan Begtin, 07:15

Ivan Begtin

Forwarded from Цифровой транспорт

4:45

Media is too big

VIEW IN TELEGRAM

Председатель Ассоциации участников рынка данных Иван Бегтин о доступности транспортных данных, собираемых госсистемами, для использования бизнесом.

Выступление на круглом столе «Большие данные в транспортной отрасли на примере работы ГИС «Электронные перевозочные документы»”, KAZAN DIGITAL WEEK

2.0K viewsIvan Begtin, 07:15

Ivan Begtin

В рубрике интересных стартапов на данных Whaly [1] французский стартап в области автоматизации BI и аналитики, привлекший $1.9M венчурных инвестиций в июле 2022 г. [2]. Стартап любопытный в том что конкурирует с Looker, но своим рыночным преимуществом указывает что умеет интегрироваться с десятками онлайн сервисов и эта интеграция не требует внешнего ETԼ сервиса. Что, в целом, соответствует тому о чём писал Benn Stancil [3] о том что ETL бизнесу вроде Fivetran недолго осталось царствовать. Whaly продукт весьма любопытный, но бесплатно его не попробовать и ценообразование там какое-то непонятное, всё через созвон с сейлами и в прайс листе указано что
планы начинаются с $460 в месяц. Наверное сервис хороший, но вот этот вот подход с невозможностью бесплатного тестирования мне лично категорически не нравится.

И, признаюсь, я лично, обжёгшись на Gitbook'е и Scaleway очень настороженно отношусь к французским стартапам. Даже когда продукт выглядит интересно, customer service оказывается ужасающим.

Ссылки:
[1] https://whaly.io/
[2] https://www.crunchbase.com/organization/whaly
[3] https://benn.substack.com/p/how-fivetran-fails

#data #datatools #startups #analytics #BI

2.2K viewsIvan Begtin, 08:06

Ivan Begtin

Всемирная организация здравоохранения приняла новую политику с требованием по обязательному раскрытию данных всех финансируемых ими научных исследований [1] в их анонсе ссылка на документ руководства опубликованного в апреле 2022 г.
Распространение и повторное использование медико-санитарных данных в исследовательских целях: руководство ВОЗ по политике и осуществлению [2]

Если изложить кратко тезисами, то примерно так:
1. Все данные исследований должны раскрываться
2. Данные должны публиковаться в одном из открытых репозиториев соответствующих ряду критериев. Примеры приведены
3. Исследования должны быть основаны на принципах FAIR [3]
4. Данные должны проходить деперсонализацию.

Как я уже много раз писал, структуры ООН сейчас одни из лидирующих в мире по масштабам раскрытия данных.

Ссылки:
[1] https://www.who.int/news/item/16-09-2022-new-who-policy-requires-sharing-of-all-research-data
[2] https://www.who.int/ru/publications/i/item/9789240044968
[3] https://www.go-fair.org/fair-principles/

#opendata #un #who #openaccess

2.2K viewsIvan Begtin, edited 19:52

Ivan Begtin

Полезное чтение про данные, технологии, программирование и не только в виде дайджеста:
- The impossible case of pitching rust in a web dev shop [1] полезный образный кейс и подборка примеров того почему крупнейшие компании переходят на Rust и очень конкретные примеры того к какой эффективности это приводит. В основном речь о сокращении энергопотребления, меньшем объёме потребления памяти, значительно лучшей производительности.
- Hurl [2] инструмент тестирования запросов к веб-сайтам через скриптовое описание текста в простом тексте. Умеет то же что и Curl, но через скрипты и включает удобную проверку результатов. Несомненно полезно и необходимо для автоматизации тестирования API.
- MFA Fatigue: Hackers’ new favorite tactic in high-profile breaches [3] новая тактика хакеров по взлому аккаунтов через "задалбывание пользователей" запросами через многофакторную аутентификацию. Так чтобы пользователь, или случайно, или от усталости подтвердил вход. Уже несколько компаний были успешно взломаны через такую социальную инженерию. В частности это был Uber.
- Rocketry [4] система планирования задач написанная на Python и позволяющая регулярно выполнять определенные задачи в отдельной нити или в отдельном процессе. Казалось бы зачем это нужно если есть Crontab для локального или Airflow для глобального? Потому что позволяет строить трубы задач (pipelines) и помогает решать более комплексно чем crontab, и потому что сильно проще чем Airflow. И, конечно, потому что концепция Everything as a code - не такая уж плохая концепция.
- The beginning of ‘Everything as Code’ [5] в качестве напоминания текст Ethan Batraski от 2020 года про то что "всё код" и концепцию Everything-as-a-Code (EaC). Он там приводит немало примеров того что можно, также, представить в форме кода: управление настройками, документацию, политики соответствия и тд. и тп.
- The World Bank Data Catalog [6] весьма развившийся каталог данных Мирового Банка. 5449 наборов данных на 24 сентября, из них 175 наборов данных связаны с Россией.

Ссылки:
[1] https://flakm.github.io/posts/rust_why_dev_shop/
[2] https://hurl.dev/
[3] https://www.bleepingcomputer.com/news/security/mfa-fatigue-hackers-new-favorite-tactic-in-high-profile-breaches/
[4] https://rocketry.readthedocs.io
[5] https://medium.com/ethanjb/the-beginning-of-everything-as-code-a25c4e9a75e9
[6] https://datacatalog.worldbank.org/home
[7] https://datacatalog.worldbank.org/search?fq=(geographical_extent%2Fcoverage%2Fany(geo:geo%2Fname%20eq%20%27Russian%20Federation%27))&q=&sort=last_updated_date%20desc

#opendata #data #opensource #datatools #readings

flakm.github.io

The impossible case of pitching rust in a web dev shop

Short research about making decision to use rust in medium web development shop.

2.5K viewsIvan Begtin, 08:54

Ivan Begtin

В рубрике интересных открытых проектов на данных Data Commons [1] проект по агрегированию открытых данных о географии, индикаторах и многих понятиях с формированием единой онтологии и визуального представления данных.

Данные внутри Data Commons предоставляются для запросов через Google BigQuery, точку подключения SPARQL и REST API. На апрель 2022 г. всего интегрировано в базу данных 2.9 миллионов мест, 3 миллиарда записей временных рядов, 100 000 переменных и 1.4 триллиона триплов (единичных значений).

Проект создан давно и активно развивается, например, недавно к нему добавили инструмент выгрузки данных [2].

Лично по мне так проект интересный, чем-то сравнимый с WikiData и, кстати, с WikiData интегрированный, а чем-то похожий на проекты по визуализации статистики вроде DataUSA и USAFacts.

Из особенностей, у авторов явно временно достигнут предел масштабирования поскольку они охватили довольно хорошо данные по США, но по другим странам, особенно малым, требуется значительно больше усилий, знания языков и тд. Кроме того многие понятия там закодированы так словно их нет за пределами США. Например, ссылка на почтовый индекс [3] не имеет странового префикса и такого много.

Проект поддерживается компанией Google, его код и код отдельных компонентов доступен как открытый код [4].

Ссылки:
[1] https://datacommons.org
[2] https://docs.datacommons.org/2022/09/14/download-tool.html
[3] https://datacommons.org/place/zip/60651
[4] https://github.com/datacommonsorg

#opendata #google #datasets

2.7K viewsIvan Begtin, 04:45

Ivan Begtin

К вопросу о проектах по замене SQL на другие языки запросов, а есть и другой путь, создания спецификации описывающей все известные операции по работе с данными и работе SQL поверх неё и использования конверсии из её описания в SQL запросы.

Такой проект есть, он называется Substrait [1]. Его автор сооснователь проектов Apache Calcite, Apache Arrow, Apache Drill и ряда стартапов таких как Sundesk и Dreamio.

Основная идея в том чтобы стандарт для дата-операций был универсальным и через него можно было бы выполнять запросы к хранилищам данных.

Уже есть много референсных реализаций спецификации для Ibis, Dpyr, Apache Calcite, Trino и Spark.

Для тех кто не сталкивался с этими продуктами - все они представляют уровни абстракции для работы с данными. Например, Ibis в Python [3] даёт возможность делать SQL запросы без SQL. Удобно для тех кто любит Python way для работы с данными.

Substrait выглядит весьма перспективно, если вендоры в этом направлении потянутся, то может стать глобальной спецификацией и даже стандартом.

Ссылки:
[1] https://substrait.io/
[2] https://docs.google.com/presentation/d/1HQReIM6uB1Dli_yXfELOJWAE6KsvXAoUmHLlTYZ8laA/edit#slide=id.g1476627d6f9_0_213
[3] https://ibis-project.org

#standards #data #bigdata #dataengineering

3.0K viewsIvan Begtin, 08:50

Ivan Begtin

Я вот уже несколько дней отказываюсь комментировать журналистам всё что связано с мобилизацией, войной, информатизацией военкоматов. Сейчас предостаточно политологов которые комментируют происходящее чуть ли не ежеминутно.

Я лично нахожусь в России, и надеюсь находится так долго как только смогу, как бы власти не усложняли жизнь мне и многим другим.

Но есть то я могу точно сказать и о чём говорить важно. Вся эта история с "отечественными сертификатами" у Сбербанка и корневыми сертификатами НУЦ Минцифры очень плохая.

Смысл сертификата в том чтобы обеспечивать защищённый канал связи между пользователем и сервером. Корневой сертификат необходим для того чтобы браузеры и другое ПО не выдавало ошибки при попытках связи с серверами использующими сертификаты выпущенные удостоверяющими центрами (УЦ).

УЦ, в свою очередь проходят определенную сертификацию для того чтобы обеспечить это доверие. Число таких корневых сертификатов в ОС Windows, MacOS, IOS, Android ограничено и то что там за все эти годы не появилось российского корневого УЦ должно только настораживать.

Добавив корневой сертификат в доверенные, сделает доверенными не только сертификат Сбербанка, но и может быть выпущен сертификат с помощью которого можно перехватывать трафик к HTTPS сайтам, например, органами правоохраны. Власти Казахстана пытались навязать госсертификат в декабре 2020 года (легко гуглится), но всё это провалилось в итоге. А здесь даже принуждения нет, вернее оно через принуждение сервисом: хочешь Сбербанк - ставь сертификат.

Поэтому, если всё таки, жизнь так распорядилась что доступ к сайту Сбербанка необходим или на другие сайты его распространят я рекомендую:
- либо устанавливать сертификат на отдельное, редко используемое устройство;
- либо устанавливать его на виртуальную операционную систему; используемую редко и не устанавливать его на основное устройство(-а)
- либо перестать использовать Сбербанк и любой иной сервис который такие сертификаты будет навязывать

#security #privacy

45.2K viewsIvan Begtin, 14:29

About

Blog

Apps

Platform