Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Свежий инструмент по моделированию политики открытых данных от Global Integrity и Open Data Charter посвящён теме использования открытых данных при противодействии коррупции [1].

Противодействие коррупции - это наиболее очевидный ответ на вопрос "зачем нужны открытые государственные данные". Именно для борьбы с коррупцией, в первую очередь, открываются данные о госзакупках, бюджетах, деклараций чиновников и многое другое. Почти вся современная госполитика основана на том что общественный и государственный контроль, также, использует данные в своей работе.

В России публикация открытых данных в этой области всё ещё существенна и у нас в стране раскрываются закупки и их результаты, декларации чиновников, данные бюджетов. Но с каждым годом всё больше сигналов об ухудшении этого раскрытия.

Например:
- закрыты все ключевые сведения в реестре субсидий на портале Электронного бюджета, а российские антикоррупционные ведомства и структуры не высказали своей позиции по этому факту.
- скрыты сведения о победителях контрактов по закону 223-ФЗ о закупках госкомпаний и госучреждений
- в реестре юридических лиц более не раскрываются сведения о учредителях НКО

И таких фактов можно собрать много за последние несколько лет.

В то время как страны с гораздо меньшей открытостью изначально сейчас делают существенные шаги вперед.

Важно помнить что противодействие коррупции начинается с доступности данных, именно данные дают необходимые возможности и позволяют создавать инструменты для того что называют общественным контролем.

Ссылки:
[1] https://fightcorruption.opendatacharter.net/

#opendata #opengov #anticorruption
В рубрике больших наборов данных проект OpenCitations [1], один из проектов открытой научной инфраструктуры поддерживаемый SCOSS (The Global Sustainability Coalition for Open Science Services).

Open Citations - это открытая база данных научных цитат в виде API и дампов данных. В общей сложности в ней более 1.2 миллиардов научных цитат общим объёмом около 5.5ТБ. А сами данные публикуются по стандартам Sematic Web.

Проект доступен со всем исходным кодом [2].

Ссылки:
[1] http://opencitations.net/
[2] https://github.com/opencitations

#opendata #openscience #opensource
К вопросу об открытости кода созданного за счёт бюджетных средств, мне вспомнилась тема про Government Abandonware. Об этом ещё в 2015 году писал Borzhdar Bozhanov [1]. Government abandoware - это когда государство производит за бюджетные деньгие никому ненужный софт и потом, в лучшем случае его открывает, а в худшем это просто хранится где-то внутри органов власти. Такого abandonware очень много в Евросоюзе, много в других странах, даже в наиболее развитых экономически и это только если посмотреть на раскрытый исходный код. А если посмотреть на не открытый?

Реальная системная работа которую могло бы проделать Минцифры России, Росимущество и Минфин России - это провести тотальную инвентаризацию всего ПО разработанного на бюджетные деньги и понять какая его часть имеет хоть какое-либо реальное применение. Результаты будут такие что их сразу захочется засекретить. Да чего уж там, даже если провести такую инвентаризацию в любом отдельно взятом органе власти выяснится немало о том что есть используемые программы без кода и разработчиков и что ещё больше просто неработающего кода сданного на дисках/дискетах в незапамятные времена.

В любом случае я хочу ещё раз подчеркнуть что стратегия открытого кода в органах власти в мире совмещалась и совмещается со стратегиями открытой разработки. Возможности независимым разработчикам контрибьютить в код создаваемых госорганами. Как корпорации получающие выгоду от совместной разработки, так и органы власти.

Тем кому не нравятся примеры США и Великобритании приведу пример любимого в российском госуправлении Сингапура. В Сингапуре в основе открытости государства даже не данные, а именно открытый код [2] (хотя я лично, конечно, предпочёл бы данные).

Поэтому в основе стратегии открытости кода Минцифры и других органов власти лежит главная задача - волевое решение на раскрытие кода и открытую разработку, в первую очередь, внутренними командами министерства и других органов власти. Тут бессмысленно спрашивать ИТ отрасль надо это или нет или ждать чего-то одобрения. Бессмысленно не потому что в ИТ компаниях не знают что это такое и не умеют такое, а потому что это, в данном случае, внутреннее дело органов власти. А отрасли надо "помогать и не мешать" как выразился Максут Шадаев на последнем мероприятии Russia Open Source.

Ссылки:
[1] https://techblog.bozho.net/government-abandonware/
[2] https://github.com/opengovsg

#opensource #russia #policy #government
Подборка полезного чтения:
- обзор работы с ФИАС на Хабре - одна из крупных баз данных раскрываемых ФНС. Работать с ней непросто, статья полезная
- расследование о том как некоторые УЦ выдают подложные сертификаты и там же в канале у автора рекомендации как действовать если Вы с таким столкнулись
- группа по надзору за таксономиями (Taxonomy Oversight Group) появилась при агентстве по стандартизации данных в UK. В тексте подробности о том чем она занимается
- ведомственная стратегия работы с данными от HM Courts & Tribunal Service (Службы судов и трибунала) Великобритании. Хороший пример высокоуровневого документа

#opendata #privacy #texts #reading
Для тех кто интересуется контекстом возросшего внимания к открытому коду в России, могу порекомендовать полезное чтение в виде обзора группы MERICS (Mercator Institute for China Studies) от мая 2021 года. Там неплохой анализ того что сейчас происходит в Китае и про разницу в подходе с другими странами.

Ключевое - в Китае провели несколько исследований и, вообще, "разгонялись медленно" и очень чёткий акцент на замену конкретных продуктов на национальные аналоги (тоже с открытым кодом).

А также рекомендую почитать CAICT Open Source White Paper.

У Китая своя большая стратегия в итоге и её надо изучать и оценивать применимость к России.

#opensource #opengovernment #opengov #china
Полезная июльская статья о внутреннем устройстве архитектуры работы с данными LinkedIn [1] и свежая статья о том как как они перестраивают аналитические дашборды внутри [2]. И то, и то, читать весьма интересно. Почти весь стек данных у них основан на относительно ограниченном наборе данных, около 1400+ датасетов и команде в более чем 900+ человек. А всё построено поверх экосистемы Hadoop с множеством собственных надстроек, большая часть которых с открытым кодом. Меня зацепило что они отказываются от Avro и CSV в сторону формата Apache Orc [3], а не Parquet или других форматов. И конечно, в очередной раз убеждаюсь, что стэки данных больших дата проектов бывают очень сложными. В схемах LinkedIn также видно как они отказываются от проприетарного ПО в сторону своего и внешнего открытого кода.

Ссылки:
[1] https://engineering.linkedin.com/blog/2021/from-daily-dashboards-to-enterprise-grade-data-pipelines
[2] https://engineering.linkedin.com/blog/2021/evolving-linkedin-s-analytics-tech-stack
[3] https://orc.apache.org/

#dataarchitecture #data #datastack #linkedin
Для тех кто считает что открытые государственные данные - это атрибут исключительно развитых демократических стран и развивающихся стран которым развитые оказывают поддержку, могу сказать что это совершенно не так.

В качестве примера портал открытых данных Саудовской Аравии [1], а также методический раздел на государственном сайте страны [2].

В Саудовской Аравии опубликовано в открытом доступе 6000+ наборов данных, а также предоставляются API, в том числе, предоставляющие данные в реальном времени.

Кроме Саудовской Аравии порталы открытых данных есть в таких не-демократических странах как Оман, ОАЭ, Бахрейн, Китай и множестве других. Потому что открытость данных - это характеристика _действующего_ государства, они необходимы как часть коммуникации с бизнесом и с критически мыслящими гражданами, в том числе, для демонстрации того что чиновникам нечего от них скрывать.

Ссылки:
[1] https://data.gov.sa/en/home
[2] https://www.my.gov.sa/wps/portal/snp/eParticipation/openData#header2_6

#opendata #democracy
Крупное публичное акционерное общество чьи акции торгуются на ММВБ и с немалой капитализацией, которое я называть не буду, публикует паспортные данные членов совета директоров в отчетных материалах общих собраний акционеров на своём сайте для инвесторов.

Почему они это делают? Потому что не вычищают их из итоговых документов согласий кандидатов в советы директоров. А там для россиян указаны паспорта, для иностранцев ничего такого нет.

Почему об этом мало кто знает? Потому что файлы выкладывают в виде сканов в PDF внутри ZIP архивов.

А Вы думаете как находят личные данные уважаемых людей? Вот так и находят.

Причиной этого всего является абсолютно идиотская российская юридическая практика вписывать паспортные данные в любой юридически значимый подписываемый документ.

#privacy #personaldata
Тим Дэвис, консультант Open Data Institute, и довольно хорошо известный эксперт в открытых данных опубликовал серию заметок о порталах (открытых) данных [1]. Тем кто хочет разбираться в этой теме - всячески рекомендую, он описывает если не все, то многие аспекты их работы.

Он упоминает многие продукты в каталогов такие как CKAN, DKAN, OpenDataSoft, Jupyter, Socrata, Knoema и ещё немало. А также многие исследования порталов открытых данных, например, за время COVID-19, то как на них публиковались данные о коронавирусе. Это, кстати, лучшая метрика понимания насколько живой/мертвый портал данных у страны/территории. Если данные о коронавирусе публикуются - то точно живой, а если нет, то есть сомнения.

Чего в заметках нет или мало - это обзора открытости данных в контексте открытости науки и цифровых научных репозиториев данных и того какие инновации происходят сейчас в экосистеме продуктов относящихся к Modern Data Stack (data engineering, data science) и тд.

А я напомню что каталогов данных в мире много. Есть несколько каталогов каталогов данных, их перечней. Самый большой и не очень точный - opendatainception.io [2] от Open Data Soft. Там более 2600 источников, но некоторые из них не каталоги, а просто разделы на сайтах с минимум данных. Значительно меньше datacatalogs.org [3] от Open Knowledge Foundation, там 592 каталога данных.

А также напомню про каталог данных Инфокультуры datacatalogs.ru [4] где собрано около 250 каталогов и репозиториев данных в России и о России.

Ссылки:
[1] https://dataportals.pubpub.org
[2] https://opendatainception.io
[3] http://datacatalogs.org
[4] https://www.datacatalogs.ru

#opendata #datacatalogs
Forwarded from Инфокультура
В каталог каталогов открытых данных добавлен репозиторий открытых данных по русской литературе и фольклору Института русской литературы (Пушкинский дом) РАН.

В общей сложности каталог включает 255 каталогов данных, преимущественно открытых и общедоступных данных.

Если Вы знаете источник данных который отсутствует в каталоге присылайте его нам на [email protected] или через форму добавления на сайте.
Cogram [1] ассистент программирования для задач машинного обучения. Интегрируется с Python и помогает в работе с SQL. Переводит тексты на ясном английском языке в программные директивы.

Выглядит недорого, $29 в месяц за профессиональную версию и бесплатно для личного пользования. А перспективы хорошие. Так и хочется сказать что первое что делают разработчики и инженеры инструментов на базе ИИ - это лишать работы других разработчиков и инженеров ИИ;)

Ссылки:
[1] https://www.cogram.com

#machinelerning #datascience
Я регулярно слышу аргументы и утверждения в стиле "за нами и так всё следят, так чего боятся?" или
"из Интернета всё равно уже ничего не удалить" и тому подобное.

Вся это логика в стиле "всё равно ты когда-нибудь подскользнёшься и упадёшь, так ничего страшного если ты упадёшь и сейчас" или в стиле "тебя же уже били 20 человек, тебе что жалко ещё кто-то ещё побьёт?".

Добровольная беспомощность и обыденность зла. Вот что это такое.
Я несколько раз писал ранее о executable papers [1] [2], когда научные статьи готовятся сразу в виде кода в Jupyter Notebook и аналогах, предоставляя возможность простой и быстрой воспроизводимости и прозрачности исследования и его результатов.

Этот подход, executable papers, в принципе шире. Например, ещё один сервис Stencila [3] позиционируется создателями как Executable document pipelines. Он всё ещё скорее про executable papers, с акцентом на научное применение, но, тем не менее научная среда далеко не единственная область где подобное применимо. Напримео, идея executable documents вполне транслируема на техническую документацию или на аналитические отчеты или на корпоративную отчетность и ещё много на что. При наличии фантазии можно транслировать на нормативные документы для моделирования структуры и последствий изменений или на аудиторские отчеты или на государственные доклады или на отчеты перед инвесторами - пространство для полета мыслей есть.

Я не единственный кто думаю об этом, вот тут есть рассуждения нескольких авторов на близкие темы о executable software documentation [4] [5].

В каком-то смысле, например, Observable [6] это тоже про executable, только executable visualization. Но важно то что во всех случаях, в каждом из примеров, документ- это больше чем текст. Это ретроспектива, логика, воспроизводимость и код отражением которого является уже сформированный текст.

Пока же всё идет к тому что будущее научных публикаций именно за подобными executable papers и в каких-то науках, таких как как науки о жизни, инженерные науки или в компьютерной лингвистике они станут (а может уже становятся?) стандартом де-факто.


Ссылки:
[1] https://yangx.top/begtin/2147
[2] https://yangx.top/begtin/2607
[3] https://stenci.la/
[4] https://apiumacademy.com/blog/executable-documentation-benefits/
[5] https://craignicol.wordpress.com/2020/09/04/cloud-thinking-executable-documentation/
[6] https://observablehq.com/

#papers #science #executablepapers #data #opensource
Forwarded from Tech Talk
Мессенджер Signal выпустил обновление, в котором максимальное количество участников групповых аудио- и видеозвонков увеличено с пяти до 40.

В анонсе разработчики подробно описывают, как им удалось запилить поддержку групповых звонков с большим количеством участников и сквозным шифрованием одновременно. Говорят, что решали интересную проблему:

• Если все участники шлют свое аудио и видео каждому другому участнику по отдельности и так же получают (full mesh), то сквозное шифрование есть, но многим участникам будет не хватать пропускной способности - в звонке на 40 человек надо поддерживать 39 соединений.
• Если каждый участник шлет свое аудио и видео на сервер, а сервер "микширует" из этого единственный аудио и видео поток для каждого другого участника, то пропускной способности участникам будет хватать, но нельзя сделать сквозное шифрование - серверу нужны расшифрованные аудио- и видеопотоки каждого участника для микширования.
• Поэтому пришлось выбирать третий вариант: selective forwarding, когда каждый участник шлет свои аудио и видео на сервер, а сервер пересылает их остальным, не расшифровывая (потому что ключей шифрования у него нет). В результате команда Signal выбрала самостоятельно написать такой сервер и выложила код на GitHub.

Signal все-таки молодцы, они очень подробно объясняют, как у них что устроено. В подобных решениях как раз момент со сквозным шифрованием групповых звонков часто остается неясным.

https://signal.org/blog/how-to-build-encrypted-group-calls/
В рубрике больших наборов данных архив Github в некоммерческом проекте Github Archive[1]. Ежедневно, ежечасно там собирается слепок данных о 20+ событиях по репозиториям в Github. Я писал о нём ранее и всегда актуально напомнить о нём потому что данные из этого архива присутствуют уже на нескольких крупных платформах.

Их слепок на декабрь 2020 года есть на Clickhouse [2] (проект Яндекса) и с ними можно работать онлайн через веб интерфейс [3] или API. Там же у них есть есть полный слепок этих данных в виде архива на 83GB, хороший тестовый набор живых данных для тех кто хочет работать с Clickhouse с большим статическим объёмом данных.

Доступ к данным из этого архива есть и через Google BigQuery [4], он появился ещ в 2016 году если не раньше, но, судя по описанию в каталоге BigQuery не обновлялся с 2019 года. Интересно обновляется ли набор Яндекса? Кстати, надо бы проверить.

Всё это возможно потому что Github предоставляет открытое API для доступа к данным. Его я использовал когда-то для анализа открытого кода органов власти [5]. Я этот анализ в первый раз проводил 5 лет назад и повторял потом несколько раз, но со временем делать несколько сотен тысяч запросов к API для получения статистики стало утомительно и планировал перейти на работу через API поверх GH архива, но для этого нужно чтобы данные там были актуальны.

А также не могу не напомнить презентацию исследователей [6] ещё с 2012 года о том как можно анализировать данные Github'а для расчёта разных метрик в привязке к языкам разработки, лицензиям, организациям и тд.

А также напомню что в России немного государственного кода на Github есть в репозитории [7] который я давно поддерживаю.

Ссылки:
[1] https://gharchive.org
[2] https://ghe.clickhouse.tech/
[3] https://gh-api.clickhouse.tech/play?user=play
[4] https://console.cloud.google.com/bigquery?p=bigquery-public-data&d=github_repos&page=dataset&project=test1-162811
[5] https://data.world/ibegtin/open-source-government-project
[6] https://www.igvita.com/slides/2012/bigquery-github-strata.pdf
[7] https://github.com/infoculture/awesome-gov-opensource-russia

#opensource #opendata #openapi #datasets
МИД России обновил свой сайт [1] перенеся его с платформы Liferay на Bitrix и сломав вообще все ссылки на своём сайте. Если поискать в Гугле документы на сайте МИД через "site:www.mid.ru" и перейти по любой ссылке то будет выводится ошибка 404.

Неприятный нюанс - это не исправить потому что такое проектируют на ранней стадии переноса веб сайта с одной платформы на другую.

Обычно, даже органы власти, в таких случаях оставляют старую версию и в МИД могли бы сохранить old.mid.ru к примеру. Что не исправило бы проблемы с поисковиками, но хотя бы не привело к потери всех ссылок на весь контент.

Я смотрю сейчас архивы сайтов и обнаружил что именно сайт МИД мы не архивировали года 4 исходя из завидной его стабильности, он не попадал в списки deathwatch (кандидатов на исчезновение), но вот такая вот неприятность произошла. Что не может не печалить, если честно. Надеюсь они догадаются создать old.mid.ru пока не поздно.

Ссылки:
[1] https://www.mid.ru

#webarchives #archives #government
В Амстердаме власти города ввели требование по обязательной регистрации всех сенсоров [1]. Сенсоры выводятся в специальном реестре на карте города [2]. Кроме камер реестр включает сенсоры качества воздуха, мониторинга звука и транспортных потоков.

Сейчас в реестре сенсоров только сенсоры органов власти города, остальные владельцы под угрозой штрафа должны внести сведения до 1 июня 2022 года.

Ссылки:
[1] https://cities-today.com/amsterdam-introduces-mandatory-register-for-sensors/
[2] https://sensorenregister.amsterdam.nl/

#opendata #registers #privacy #sensors #regulation
В Эквадоре правительство открыло платформу Contrataciones Abiertas Ecuador - OCDS [1] (Открытые контракты Эквадора - OCDS). Где OCDS - это Open Contracting Data Standard, международный стандарт раскрытия открытых данных о госзакупках/госконтрактах.

Сейчас опубликованы сведения о 127 тысячах контрактов на сумму $3.5 млрд.

Ссылки:
[1] https://datosabiertos.compraspublicas.gob.ec/PLATAFORMA

#opendata #spending #opencontracting #equador
МВД опубликовало офицальную информацию о том что услуги регистрации автомобилей восстановятся не раньше завтрашнего дня [1] и даже принесло извинения. Как писали СМИ ранее [2] сервера залиты водой в связи с тем что произошёл прорыв трубы и с её механическим повреждением в серверной в Москве [3].

Несмотря на то что адрес серверной и ответственный эксплуатант не указываются в сообщениях, но мы то его знаем. Это ФКУ НПО "СТИС" МВД РОССИИ [4]. Именно на них оформлен патент на систему ФИС ГИБДД-М используемой для оказания государственных услуг и именно они выступали в роли госзаказчика этой системы, последний контракт на доработку ПО был c РОСБИ ИНФОРМ КО в 2020 году [5].

При этом нигде не упоминается местонахождение местонахождение именно ФИС ГИБДД-М, МВД вообще не распространяется о собственной инфраструктуре. Но если посмотреть два их последних крупных контракта на поставку оборудования [6] [7] на 771 и 931 млн. руб в 2019 году, то там упоминается два адреса поставки, без указания эксплуатируемых на них информационных систем:
- г. Москва, Боярский переулок, д. 4, стр. 1 - это бывший адрес ФМС, а теперь Главное управление по вопросам миграции при МВД России
- 115230, г. Москва, ул. Электролитный проезд, д. 3, стр. 4 - это ЦОД Нагорная от АО "Электронная Москва" [8]

Есть ли у МВД дополнительные арендованные ЦОДы - это, тоже, вопрос, я склоняюсь к тому что нет иначе контракты на их обслуживание были бы известны.

Возникает в итоге довольно много разных вопросов:
1. Как получилось что довольно критичная ФГИС для оказания услуг гражданам оказалась без георезервирования?
2. Где, всё таки, эта информационная система находится?
3. Какие другие системы МВД России пострадали? Напомню что у НПО "СТИС" таких систем несколько десятков (см. их сайт)
4. Какая организация, в итоге, отвечала за эксплуатацию зданий ЦОДа - МВД или АО "Электронная Москва" или ещё какая-то организация?
5. Понимают ли в МВД что "прорыв трубы" - это не технические неполадки, а авария и говорить иное - это дезинформация?
6. Застрахованы ли были сервера/информационная система? Какая ответственность оператора была предусмотрена?

Вообще же будет удивительно если по итогам не будет, как минимум, расследования внутри МВД, а как максимум со стороны прокуратуры и др. органов власти, потому что какой-то вопиющий случай.

Ссылки:
[1] https://мвд.рф/news/item/27539293
[2] https://www.fontanka.ru/2021/12/19/70326554/
[3] https://www.fontanka.ru/2021/12/18/70325834/
[4] https://стис.мвд.рф
[5] https://clearspending.ru/contract/1770802535820000019/
[6] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=1770802535819000044&contractInfoId=53143678
[7] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=1770802535819000037&contractInfoId=54111750
[8] https://www.e-moskva.ru/projects-new/data-centers/

#government #govtech #govit
Центробанк Саудовской Аравии открыл собственную платформу открытых данных [1] которая теперь доступна у них на сайте [2].

Насчёт платформы - это, конечно, громко сказано. Сейчас функции реализованы в виде конструктора отчетов с выгрузкой данных в CSV и Excel форматах, а также обещают XML в будущем.

Данных не так много, например, у Российского ЦБ РФ на сайте гораздо больше данных, но нет централизованной точки раскрытия.

Ссылки:
[1] https://twitter.com/SAMA_GOV/status/1472610195859812357
[2] https://www.sama.gov.sa/en-US/EconomicReports/Pages/database.aspx

#opendata #saudiarabia #centralbank #data
Кстати, а понимаем ли мы что текущие блокировки Роскомнадзора - это регулирование лайт?

Регулирование хард будет после установления максимальных штрафов для владельцев доменов имеющих российское гражданство при неисполнение требований РКН и появление реестра физических и юридических владельцев сайтов заблокированных РКН и требования по маркировке любых их сайтов/материалов как у инагентов.