Ivan Begtin
8.09K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
7. При этом что российские госуслуги, что лучшие мировые примеры вроде Эстонии или Сингапура или госуслуги Казахстана через КаспиБанк, увы, не являются отчуждаемыми продуктами. Даже частично, даже в какой-то разумной доле снижающей стоимость внедрения. Во многих других областях решения есть: порталы данных, официальная статистика, гражданские бюджеты, порталы открытой демократии и открытого диалога и ещё много чего, но не для госуслуг. Да чего уж там, даже для национальных цифровых идентификационных платформ нет универсальных решений. Слишком большая вариативность уже созданного и необходимого для интеграции и местных законов, местной цифровой готовности и тд.

8. Поэтому пиар российских Госуслуг - это странно, очень странно. Может ещё одно предположение что всё это было к кадровым перестановкам в Пр-ве? Но, что-то вот верится с трудом. Пока всё идет к тому что ничего не поменяется (с)

9. Хорошо бы он выглядел если бы на сцену вышел бы какой-нибудь российский вице-премьер и так бы и сказал: "Друзья, мы тут с Гостехом облажались и решили его закрыть. А вот Госуслуги это супер, Госуслуги это зашибись. Теперь будем на их основе госпроекты развивать". Шучу, наверное;) Это на меня так сюрреализм происходящего влияет.

Часть 2 из 2

#thoughts #government #russia
Как центральные банки в мире публикуют данные? В большинстве стран резервные/центральные/национальные банки это весьма консервативные организации, чаще всего публикующие данные в виде Excel, а то и PDF файлов на своих сайтах и если и предоставляющие API, то только для курсов валют. Тем не менее есть примеры системной публикации открытых данных некоторыми из них.

Портал открытых данных центрального Банка Бразилии [1] сделан на CKAN, включает как оперативные, так и редко обновляемые данные. Все они публикуются под открытой лицензией Open Data Commons Open Database License (ODbL)

Открытые данные Банка Греции [2] это де-факто каталог индикаторов с возможностью их выгрузки в Excel формате и дополнительной фильтрацией по частоте обновления. Все под лицензией Creative Commons 4.0

ECB Data Portal [3] портал данных Европейского Центрального Банка, включает продвинутое API для публикации данных с поддержкой SDMX.

ECOS Economic Statistics System [4] система индикаторов Банка Кореи. Визуально наглядно, но несколько устаревший. Нет открытого API, но есть недокументированное.

Примеров публикации официальной статистики банками гораздо больше, полноценные открытые данные всё ещё редкость.

Ссылки:
[1] https://opendata.bcb.gov.br/
[2] https://opendata.bankofgreece.gr
[3] https://data.ecb.europa.eu
[4] https://ecos.bok.or.kr

#opendata #finances #banking #datasets #datacatalogs
Forwarded from Privacy GDPR Russia
#events #RadioGroot

📍В гостях: Иван Бегтин, Data, Data engineering, Tech, Open Government, автор канала про данные

🕓Дата: 13 февраля в 19:00 по мск

🖼Формат: онлайн, трансляция в канале

🔗Добавить в календарь: здесь

Первый эфир

🗣Обсудим:

⬇️срез с предыдущего выпуска
⬇️управление данными
⬇️предпринимательство
⬇️транспарентность в законодательстве и документах
Please open Telegram to view this post
VIEW IN TELEGRAM
В рубрике как это работает у них в Великобритании в Национальном архиве сохраняются копии всех сайтов ( и данных ) государственных органов страны и большая часть из них, когда меняют свои сайты, ссылаются на архивную копию в национальном архиве когда хотят сохранить доступ к материалам. Например, статистическая служба Великобритании несколько лет назад мводернизировала свой сайт и изменило базу хранения и предоставления статистических наборов данных. Данные все были сохранены, но к изменились ссылки и для тех кто хочет скачать архивные данные они предоставляют такую ссылку в разделе временных рядов [1].

В свою очередь копия сайта в национальном архиве [2] включает все документы которые были на оригинальном сайте.

А ещё точнее, множество копий за разные промежутки времени.


Ссылки:
[1] https://www.ons.gov.uk/timeseriestool
[2] https://webarchive.nationalarchives.gov.uk/ukgwa/20160105160709/http://www.ons.gov.uk/ons/index.html

#opendata #data #statistics #uk #webarchive #digitalpreservation #archives
Я давно не напоминал что, помимо всего прочего, я веду реестр каталогов данных по всему миру, Common Data Index [1] и там уже почти 10 тысяч записей, большая часть которых - это геопорталы/каталоги геоданных. Но также много порталов открытых данных, микроданных, научных данных, каталогов индикаторов и каталогов данных для машинного обучения. Список пополняется постоянно, но работы ещё много.

В последнее время всё больше новых каталогов данных из систем национальной статистики и национальных банков стран, о них много что можно рассказать. А пока поделюсь некоторыми накопленными наблюдениями тезисами


1. Очень малое пересечение современной дата инженерии, дата анализа и data science с порталами открытых данных и вообще почти всеми системами раскрытия информации госорганами. Публикация данных в Parquet большая редкость, в лучшем случае доступны данные в форматах SPSS или Stata, а чаще просто CSV/XLS. Официальная статистика, в принципе, феноменально консервативна. Не так много статслужб публикующих данные на постоянной основе как открытые данные, но почти все так или иначе данные публикуют.

2. Наибольший прогресс и потенциал развития в открытости научных данных. Там есть хорошие обоснования, институциональная поддержка, системная работа, обоснованная аргументация, государственные программы и многое другое ориентированное на открытость. Но нет рынка. Нет областей применения себя любому амбициозному человеку поскольку всё построено на коллаборации и согласованности совместной глобальной работы. Поэтому (но не только поэтому) в этой области почти нет стартапов и активного бизнес присутствия.

3. Государства практически не создают каталогов данных для развития ИИ. Два концентратора данных и моделей - Kaggle и HuggingFace используются всеми, частными, корпоративными и государственными исследователями. Только в некоторых странах такие наборы данных публикуются на официальных порталах открытых данных.

Ссылки:
[1] https://github.com/commondataio/dataportals-registry

#opendata #datacatalogs #data #thoughts
В рубрике как зарабатывают на открытых данных проект The Observatory of Economic Complexity (OEC) [1] визуализирует и даёт инструменты интерактивного анализа международной торговли. При том что оперируют далеко не оперативными данными, по многим странам они только за 2021 год (но есть и те по которым они есть за ноябрь 2023). Монетизируют доступ к визуализации, возможности массовой выгрузки и так далее. Pro аккаунт стоит $299, Premium за $1999. Главная добавленная стоимость именно в визуализации.

Международные датасеты отдают бесплатно, национальные за деньги.

Ссылки:
[1] https://oec.world

#opendata #business #data #trade
Я об этом мало рассказывал, но в течение многих лет работа с данными, особенно их систематизация были моими хобби, а не работой. Я много лет занимался вначале разработкой ПО, потом архитектурой и управлением проектами, а параллельно сводил какие-нибудь таблицы для себя потому что "очень хотелось сводить таблицы" (с). Одно из таких моих увлечений ещё давно была систематизация международных организаций, институтов развития, банков развития и другие систематизации объединяющие группы стран и международные взаимоотношения.

У меня и сейчас есть их реестр, я его давно ещё вёл в Excel, потом перенес в Airtable и до сих пор регулярно им пользуюсь, например, когда ищу данные по тематикам, часто они есть на сайтах межгосударственных организаций. Там база межгосударственных объединений, блоков стран, таможенных и экономических союзов и банков развития. Такое полезное оказалось хобби, сильно помогшее мне в будущих задачах по data discovery.

А недавно я обнаружил что в Пекинском университете ведут похожую базу данных Public Development Banks and Development Financing Institutions Database [1], но только по банкам развития.

Любопытный проект, пересекающийся с моей базой где-то на 50-60%, но с визуализацией наглядно.

И да, их данные общедоступны, но для выгрузки требуют регистрацию [2].

Ссылки:
[1] http://www.dfidatabase.pku.edu.cn/index.htm
[2] http://www.dfidatabase.pku.edu.cn/DataDownloading/index.htm

#opendata #data #finances #china #banking
В блоге Observable основатель, Mike Bostock пишет про Observable 2.0 который вот-вот вышел 15 февраля и в его основе теперь Observable Framework [2] являющийся генератором статических сайтов с визуализацией и с открытым кодом [3].

Выглядит всё это более чем интересно, фактически - это возможность делать общедоступные и корпоративные аналитические работы в виде гибких дашбордов и дата-историй. При этом всё проектируется в JS + Markdown, а итоговая визуализация может быть довольно продвинутая.

Интересен и сам факт того что автономный продукт с открытым кодом отделяется от облачного сервиса. Чаще всё происходит наоборот, вначале авторы создают крутой open source проект, а потом монетизируют сервис на его основе. А тут сервис есть с самого начала и он остаётся востребованным потому что даёт удобный инструмент для совместной работы.

У Observable, в итоге, получаются очень качественные продукты, как облачные, так и с открытым кодом и для нового фреймворка несомненно будет много интересных задач.


Ссылки:
[1] https://observablehq.com/blog/observable-2-0
[2] https://observablehq.com/framework/
[3] https://github.com/observablehq/framework

#dataviz #opensource
Свежая картинка по продуктам с открытым кодом в области дата инженерии.

Подробнее о ней в блоге её автора на Substack [1].

А я скажу что такие картинки хороши когда надо синхронизировать картинку в голове с изменениями за год, правда, мне лично, вот такой иконостас иконок всегда казался не наглядным и куда практичнее были обзоры по наиболее интересным развивающимся и новым продуктам.

Вот в этой картинке, например, нет SODA для data quality, в платформе метаданных зачем-то CKAN, хотя он про другое.

Я, кстати, несколько по другому систематизирую инструменты с открытым кодом. Когда-то просто стал делать закладки в Github по категориям [2] и там много их, больше 30 списков.

А заодно для тех кто интересуется разного рода экзотическим открытым кодом. Markdowndb [3] наглядная реализация принципов "всё таблица" и "всё SQL". Это фреймворк превращающий документы с разметкой Markdown в SQL базу данных к которой можно делать запросы к содержимому этих файлов с фильтрацией по тэгам, файлам и тд. Внутри используют Sqlite, в гайдах рассказывают как заменить статические файлы на эту базу в статических сайтах.

Ссылки:
[1] https://practicaldataengineering.substack.com/p/open-source-data-engineering-landscape
[2] https://github.com/ivbeg?tab=stars
[3] https://markdowndb.com

#opensource #data #dataengineering #datatools