Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Когда читаю государственные или корпоративные новости про внедрение и разработку ИИ не могу не напомнить что без аналитики - нет тех кто измерит результаты машинного обучения. Без дата инженерии не появится нормальных аналитических инструментов. А без дата стратегии всё вообще не сдвинется с места и, с самого начала, пойдет не туда. Поэтому я не перестаю поражаться обилию новых создаваемых государственных информационных систем без стратегии работы с данными которые в них должны собираться.

С бизнес продуктами то же самое. Кто-то уже умеет быть и реально строит бизнес на данных, а кто-то умеет казаться и не имеет даже стратегии.

Поэтому, в качестве завершения этого короткого ранта, всё начинается со стратегий, далее сбора, обработки и очистки данных, далее профессионально отлаженной аналитики и только в конце уже можно что-то говорить про машинное обучение. А если стратегии нет, остаётся только пустая болтовня.


#thoughts #rants #opinion #dataengineering
В Великобритании Министерство юстиции (российский аналог - Министерство внутренних дел) анонсировало [1] подготовку стратегии по работе с данными, data strategy, которую пока описали одним слайдом из 3 пунктов на этом же слайде.

Обещают вскоре в блоге опубликовать саму стратегию, очень будет интересно её почитать. Я коллекционирую документы дата-стратегий и цифровых стратегий, хочется надеяться что этот будет полезным.

Ссылки:
[1] https://mojdigital.blog.gov.uk/2022/08/30/becoming-a-truly-data-led-justice-system/

#opendata #data #uk #datastrategies
В рубрике интересного чтения про данные, технологии и не только:
- The Vector Database Index [1] сравнение нескольких векторных баз данных. Полезно для понимания как устроен этот рынок и того между чем можно и стоит выбирать. Не все продукты рассмотрены, но достаточно многие. Для тех кто не знает или подзабыл - векторные базы данных используются для построения нейросетей и, например, для поиска по подобиям, поиска аномалий и пользовательских рекомендаций и скоринга. Этот рынок растёт и в нём довольно много инвестиций уже есть и приходит.
- What I've learned from users [2] свежий текст Пола Грэхема о том чему научился от основателей стартапов профинансированных Y Combinator. Как и все тексты автора - почитать его стоит. Пишет он редко и всегда по делу.
- Modern COBOL Tooling [3] для тех кто хочет погрузится в вечность или даже не знаю как это описать, но набор инструментов в современных средах разработки и курсов по COBOL.
- Instant MD5 Collisions [4] всё ещё используете хэш функции MD5? А их уже подменяют моментально, на примере пары картинок и большой текст.
- Faster CPython ideas [5] репозиторий идей по ускорению языка Python реализованного на С. Python никогда не отличался высокой скоростью, но был и есть гибок. Интересно то как думают о его ускорении.
- SQLite: Past, Present, and Future [6] об устройстве и судьбе СУБД Sqlite. Важно потому что не стоит недооценивать масштабов её использования особенно в мобильных устройствах и IoT.
- Document Foundation starts charging €8.99 for 'free' LibreOffice [7] этот момент настал и LibreOffice в магазине для Mac'ов продается за 8.99 евро. Обещается что сумма пойдет на разработку ПО. Напомню что LibreOffice - это ответвление (форк) OpenOffice.

Ссылки:
[1] https://gradientflow.com/the-vector-database-index/
[2] http://paulgraham.com/users.html
[3] https://www.openmainframeproject.org/all-projects/cobolprogrammingcourse
[4] https://github.com/corkami/collisions
[5] https://github.com/faster-cpython/ideas
[6] http://muratbuffalo.blogspot.com/2022/09/sqlite-past-present-and-future.html
[7] https://www.theregister.com/2022/09/20/libre_office_macos_fees/

#opensource #readings #rdbms #data
В рубрике интересных наборов данных открытое API проекта Metaculus [1] по краудсорсингу предсказаний.

Проект позволяет регистрировать предсказания, собирать оценки от пользователей и измерять точность предсказаний.

Все эти сведения доступны в формате JSON через API проекта [2].

Всего в проекте более 1 миллиона предсказаний [3] что очень даже немало.

Для полного счастья нехватает только дампов данных, но может быть авторы добавят их в будущем.

Ссылки:
[1] https://www.metaculus.com
[2] https://www.metaculus.com/api2/
[3] https://twitter.com/fianxu/status/1569537658103431168

#opendata #predictions #datasets #API
The right to privacy in the digital age

Свежий доклад представителя по правам человека ООН [1]. Документ короткий, на 17 страниц. Там про всё, взломы телефонов правительствами (спецслужбами), массовую слежку, ограничения в использовании шифрования, нарушениях прав человека и так далее.

То о чём писали многие, но изложено сжато и в докладе ООН.

Ссылки:
[1] https://documents-dds-ny.un.org/doc/UNDOC/GEN/G22/442/29/PDF/G2244229.pdf?OpenElement

#privacy #reports
Полезное чтение про управление командами данных. Onboarding for Data teams [1] о том как собирать команды дата специалистов и погружать их в работу. Онбоардинг - это быстрое погружение в работу. Много полезных советов и рекомендаций.

Мне понравилась идея в том что новичок в первый день должен сделать коммит в промышленный код (production). Что-то в этой идее есть.

Ссылки:
[1] https://seattledataguy.substack.com/p/onboarding-for-data-teams

#data #datateams
Интересная и пока малопопулярная, но перспективная штука Daft [1] это интерфейс работы с датафреймами вместе с мультимедиа и другими файлами, например, это актуально в задачах генеративного искусства, автоматического создания текстов, изображений, аудио и видео.

Поддерживает стандартный интерфейс датафреймов а-ля Pandas и позволяет выполнять комплексные запросы.

Я чувствую что как-то надо сделать обзор движков для датафреймов, их возможностей и ограничений. В первую очередь с точки зрения работы с данными в диких / реальных, а не лабораторно выверенных условиях.

Ссылки:
[1] https://www.getdaft.io/

#data #datatools
В рубрике как это работает у них, портал открытых транспортных данных Франции transport.data.gouv.fr [1] я писал о нём несколько лет назад и за эти годы портал активно развивался.

На портале уже размещено 417 наборов данных [2] причем 112 наборов данных - это данные реального времени!

Данные публикуются в соответствии с 6 национальными стандартами описания транспортных данных.

Многие данные можно, также, увидеть на интерактивной карте [7] в реальном времени по местам публикации этих данных их владельцами.

Ссылки:
[1] https://transport.data.gouv.fr
[2] https://transport.data.gouv.fr/datasets?
[3] https://normes.transport.data.gouv.fr/
[4] https://transport.data.gouv.fr/explore

#opendata #france #transport #datasets
Вчера я выступал на Kazan Digital Week про открытость транспортных данных и, похоже, я был единственным на этом мероприятии кто вообще говорил про открытость государства хотя бы частично. Осталось ощущение гласа вопиющего в пустыни.
Media is too big
VIEW IN TELEGRAM
Председатель Ассоциации участников рынка данных Иван Бегтин о доступности транспортных данных, собираемых госсистемами, для использования бизнесом.

Выступление на круглом столе «Большие данные в транспортной отрасли на примере работы ГИС «Электронные перевозочные документы»”, KAZAN DIGITAL WEEK
В рубрике интересных стартапов на данных Whaly [1] французский стартап в области автоматизации BI и аналитики, привлекший $1.9M венчурных инвестиций в июле 2022 г. [2]. Стартап любопытный в том что конкурирует с Looker, но своим рыночным преимуществом указывает что умеет интегрироваться с десятками онлайн сервисов и эта интеграция не требует внешнего ETԼ сервиса. Что, в целом, соответствует тому о чём писал Benn Stancil [3] о том что ETL бизнесу вроде Fivetran недолго осталось царствовать. Whaly продукт весьма любопытный, но бесплатно его не попробовать и ценообразование там какое-то непонятное, всё через созвон с сейлами и в прайс листе указано что
планы начинаются с $460 в месяц. Наверное сервис хороший, но вот этот вот подход с невозможностью бесплатного тестирования мне лично категорически не нравится.

И, признаюсь, я лично, обжёгшись на Gitbook'е и Scaleway очень настороженно отношусь к французским стартапам. Даже когда продукт выглядит интересно, customer service оказывается ужасающим.

Ссылки:
[1] https://whaly.io/
[2] https://www.crunchbase.com/organization/whaly
[3] https://benn.substack.com/p/how-fivetran-fails

#data #datatools #startups #analytics #BI
Всемирная организация здравоохранения приняла новую политику с требованием по обязательному раскрытию данных всех финансируемых ими научных исследований [1] в их анонсе ссылка на документ руководства опубликованного в апреле 2022 г.
Распространение и повторное использование медико-санитарных данных в исследовательских целях: руководство ВОЗ по политике и осуществлению [2]

Если изложить кратко тезисами, то примерно так:
1. Все данные исследований должны раскрываться
2. Данные должны публиковаться в одном из открытых репозиториев соответствующих ряду критериев. Примеры приведены
3. Исследования должны быть основаны на принципах FAIR [3]
4. Данные должны проходить деперсонализацию.

Как я уже много раз писал, структуры ООН сейчас одни из лидирующих в мире по масштабам раскрытия данных.

Ссылки:
[1] https://www.who.int/news/item/16-09-2022-new-who-policy-requires-sharing-of-all-research-data
[2] https://www.who.int/ru/publications/i/item/9789240044968
[3] https://www.go-fair.org/fair-principles/

#opendata #un #who #openaccess
Полезное чтение про данные, технологии, программирование и не только в виде дайджеста:
- The impossible case of pitching rust in a web dev shop [1] полезный образный кейс и подборка примеров того почему крупнейшие компании переходят на Rust и очень конкретные примеры того к какой эффективности это приводит. В основном речь о сокращении энергопотребления, меньшем объёме потребления памяти, значительно лучшей производительности.
- Hurl [2] инструмент тестирования запросов к веб-сайтам через скриптовое описание текста в простом тексте. Умеет то же что и Curl, но через скрипты и включает удобную проверку результатов. Несомненно полезно и необходимо для автоматизации тестирования API.
- MFA Fatigue: Hackers’ new favorite tactic in high-profile breaches [3] новая тактика хакеров по взлому аккаунтов через "задалбывание пользователей" запросами через многофакторную аутентификацию. Так чтобы пользователь, или случайно, или от усталости подтвердил вход. Уже несколько компаний были успешно взломаны через такую социальную инженерию. В частности это был Uber.
- Rocketry [4] система планирования задач написанная на Python и позволяющая регулярно выполнять определенные задачи в отдельной нити или в отдельном процессе. Казалось бы зачем это нужно если есть Crontab для локального или Airflow для глобального? Потому что позволяет строить трубы задач (pipelines) и помогает решать более комплексно чем crontab, и потому что сильно проще чем Airflow. И, конечно, потому что концепция Everything as a code - не такая уж плохая концепция.
- The beginning of ‘Everything as Code’ [5] в качестве напоминания текст Ethan Batraski от 2020 года про то что "всё код" и концепцию Everything-as-a-Code (EaC). Он там приводит немало примеров того что можно, также, представить в форме кода: управление настройками, документацию, политики соответствия и тд. и тп.
- The World Bank Data Catalog [6] весьма развившийся каталог данных Мирового Банка. 5449 наборов данных на 24 сентября, из них 175 наборов данных связаны с Россией.

Ссылки:
[1] https://flakm.github.io/posts/rust_why_dev_shop/
[2] https://hurl.dev/
[3] https://www.bleepingcomputer.com/news/security/mfa-fatigue-hackers-new-favorite-tactic-in-high-profile-breaches/
[4] https://rocketry.readthedocs.io
[5] https://medium.com/ethanjb/the-beginning-of-everything-as-code-a25c4e9a75e9
[6] https://datacatalog.worldbank.org/home
[7] https://datacatalog.worldbank.org/search?fq=(geographical_extent%2Fcoverage%2Fany(geo:geo%2Fname%20eq%20%27Russian%20Federation%27))&q=&sort=last_updated_date%20desc

#opendata #data #opensource #datatools #readings
В рубрике интересных открытых проектов на данных Data Commons [1] проект по агрегированию открытых данных о географии, индикаторах и многих понятиях с формированием единой онтологии и визуального представления данных.

Данные внутри Data Commons предоставляются для запросов через Google BigQuery, точку подключения SPARQL и REST API. На апрель 2022 г. всего интегрировано в базу данных 2.9 миллионов мест, 3 миллиарда записей временных рядов, 100 000 переменных и 1.4 триллиона триплов (единичных значений).

Проект создан давно и активно развивается, например, недавно к нему добавили инструмент выгрузки данных [2].

Лично по мне так проект интересный, чем-то сравнимый с WikiData и, кстати, с WikiData интегрированный, а чем-то похожий на проекты по визуализации статистики вроде DataUSA и USAFacts.

Из особенностей, у авторов явно временно достигнут предел масштабирования поскольку они охватили довольно хорошо данные по США, но по другим странам, особенно малым, требуется значительно больше усилий, знания языков и тд. Кроме того многие понятия там закодированы так словно их нет за пределами США. Например, ссылка на почтовый индекс [3] не имеет странового префикса и такого много.

Проект поддерживается компанией Google, его код и код отдельных компонентов доступен как открытый код [4].

Ссылки:
[1] https://datacommons.org
[2] https://docs.datacommons.org/2022/09/14/download-tool.html
[3] https://datacommons.org/place/zip/60651
[4] https://github.com/datacommonsorg

#opendata #google #datasets
К вопросу о проектах по замене SQL на другие языки запросов, а есть и другой путь, создания спецификации описывающей все известные операции по работе с данными и работе SQL поверх неё и использования конверсии из её описания в SQL запросы.

Такой проект есть, он называется Substrait [1]. Его автор сооснователь проектов Apache Calcite, Apache Arrow, Apache Drill и ряда стартапов таких как Sundesk и Dreamio.

Основная идея в том чтобы стандарт для дата-операций был универсальным и через него можно было бы выполнять запросы к хранилищам данных.

Уже есть много референсных реализаций спецификации для Ibis, Dpyr, Apache Calcite, Trino и Spark.

Для тех кто не сталкивался с этими продуктами - все они представляют уровни абстракции для работы с данными. Например, Ibis в Python [3] даёт возможность делать SQL запросы без SQL. Удобно для тех кто любит Python way для работы с данными.

Substrait выглядит весьма перспективно, если вендоры в этом направлении потянутся, то может стать глобальной спецификацией и даже стандартом.

Ссылки:
[1] https://substrait.io/
[2] https://docs.google.com/presentation/d/1HQReIM6uB1Dli_yXfELOJWAE6KsvXAoUmHLlTYZ8laA/edit#slide=id.g1476627d6f9_0_213
[3] https://ibis-project.org

#standards #data #bigdata #dataengineering
Я вот уже несколько дней отказываюсь комментировать журналистам всё что связано с мобилизацией, войной, информатизацией военкоматов. Сейчас предостаточно политологов которые комментируют происходящее чуть ли не ежеминутно.

Я лично нахожусь в России, и надеюсь находится так долго как только смогу, как бы власти не усложняли жизнь мне и многим другим.

Но есть то я могу точно сказать и о чём говорить важно. Вся эта история с "отечественными сертификатами" у Сбербанка и корневыми сертификатами НУЦ Минцифры очень плохая.

Смысл сертификата в том чтобы обеспечивать защищённый канал связи между пользователем и сервером. Корневой сертификат необходим для того чтобы браузеры и другое ПО не выдавало ошибки при попытках связи с серверами использующими сертификаты выпущенные удостоверяющими центрами (УЦ).

УЦ, в свою очередь проходят определенную сертификацию для того чтобы обеспечить это доверие. Число таких корневых сертификатов в ОС Windows, MacOS, IOS, Android ограничено и то что там за все эти годы не появилось российского корневого УЦ должно только настораживать.

Добавив корневой сертификат в доверенные, сделает доверенными не только сертификат Сбербанка, но и может быть выпущен сертификат с помощью которого можно перехватывать трафик к HTTPS сайтам, например, органами правоохраны. Власти Казахстана пытались навязать госсертификат в декабре 2020 года (легко гуглится), но всё это провалилось в итоге. А здесь даже принуждения нет, вернее оно через принуждение сервисом: хочешь Сбербанк - ставь сертификат.

Поэтому, если всё таки, жизнь так распорядилась что доступ к сайту Сбербанка необходим или на другие сайты его распространят я рекомендую:
- либо устанавливать сертификат на отдельное, редко используемое устройство;
- либо устанавливать его на виртуальную операционную систему; используемую редко и не устанавливать его на основное устройство(-а)
- либо перестать использовать Сбербанк и любой иной сервис который такие сертификаты будет навязывать

#security #privacy
О том что Apple удалили из магазина приложений все приложения связанные с холдингом VK, это все, наверняка, уже прочитали. Вроде как ещё не удалили приложение Одноклассников, но если удаление было из-за санкций, то это вопрос только времени. Пока видно что в Google Play приложения MailRu Group остались, но, опять же, если удаление из-за санкций, то вероятность их исчезновения велика.

Правда для Android'а есть RuStore по приватности приложений в котором мы делали исследование совсем недавно и, если кратко, всё там даже хуже чем в Google Play.

Но я о другом. Много лет я пишу и два исследования мы провели о том что во многих приложениях содержатся внешние трекеры позволяющие третьим сторонам получать данные действий пользователей. В лидерах распространения таких трекеров глобальные рекламные корпорации вроде Facebook и Google, но, в России тоже есть свои игроки. Один из крупнейших из которых теперь холдинг VK.

Например, во многих приложениях стоят трекеры myTracker и myTarget от MailRu Group. В проекте Exodus Privacy посчитано 1281приложение с myTracker и 2826 с myTarget , но в реальности их гораздо больше. Кроме этих рекламных трекеров многие разработчики интегрируют SDK для авторизации во Вконтакте, есть как минимум 845 таких приложений. Всё это про приложения для Android, но SDK myTarget, myTracker и VKontakte есть и для iOS.

А теперь, внимание, вопрос․ Будут ли следующим шагом платформы Apple и Google предупреждать авторов приложений использующих трекеры VK о том что их приложения могут могут быть удалены из магазинов приложений если они этот код из приложений не уберут?

Следующим постом я запилил опрос на ту же тему.

#privacy #security #vk #mobileapps #trackers #android #apple
В рубрике полезных инструментов для обработки данных VisiData [1]. Это весьма популярный в ограниченных кругах открытый продукт по просмотру и обработке данных через визуальный текстовый интерфейс. Такие инструменты ещё называют TUI (Text User Interface). Для кого-то это будет напоминать утилиты вроде Dos Navigator / Norton Commander / Vim и ещё огромное число утилит для Unix / DOS. А сейчас это вновь набирающее оборот явление, можно сказать что переоткрываемое.

VisiData позволяет просматривать файлы и базы данных делая запросы, листая результаты и предоставляя возможность обрабатывать строки и колонки с данными. Плюс он там ещё может считать статистику по файлам, строить гистограммы и ещё много чего.

Хорошая утилита, как по мне. Идет, почти, вровень с open refine когда дело касается обработки данных (data wrangling / refining).

Как и все подобные GUI / TUI инструменты он, в первую очередь, полезен тем кто решает задачи обработки данных без программирования. Например, дата-журналистам и аналитикам.

Ссылки:
[1] https://github.com/saulpw/visidata

#data #datatools #dataengineering #datajournalism #datawrangling #opensource