Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.71K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
August 29, 2022
August 29, 2022
Полезное чтение про данные и не только:
- WSJ пишет что метеорологическая служба США начала закупать данные у двух частных компаний чтобы заполнить пробелы в покрытии их спутников [1]. Статья о том что государство действует очень медленно в таких случаях, закупать данные у частного сектора госорганам непросто.
- научная статья о том как регулируется (ограничивается) ИИ в разных странах [2] статья под пэйволом, но весьма полезна и по сути построена на сравнении предпочтении граждан.
- критическая статья в Politico о том что предполагалось что ИИ изменит систему здравоохранения и о том почему этого не происходит [3]. Если коротко то - завышенные обещания, несовместимые системы и тд. Самое плотное применение ИИ в США сейчас в радиологии.

Ссылки:
[1] https://www.wsj.com/articles/u-s-government-effort-to-tap-private-weather-data-moves-along-slowly-11661335203
[2] https://www.tandfonline.com/doi/full/10.1080/13501763.2022.2094988?src=
[3] https://www.politico.com/news/2022/08/15/artificial-intelligence-health-care-00051828

#data #readings
August 29, 2022
Счетная палата РФ выпустила бюллетень N30 посвящённый государственным информационным системам [1], о нем уже написали TAdviser, РБК и много других изданий. РБК, например, делают акцент на критике Гостеха [2] в бюллетене, другие издания другие акценты, а я могу посоветовать почитать сразу весь бюллетень.

С точки зрения системного подхода к госинформатизации, не углубляясь в политические аспекты, это, безусловно, важный доклад с грамотными выводами что считать расходы на создание ГИСов сложно, что они плохо систематизированы, что ФГИС КИ в текущем состоянии весьма запущенная система и ещё много чего. В целом камни в огород здесь в адрес Минцифры в нынешней и прошлых инкарнациях этого органа власти.

1. Число государственных информационных систем в России несопоставимо с [не]доступностью данных из этих же информационных систем. Иначе говоря огромное число информационных систем существуют в полностью закрытом режиме и, в лучшем случае, по ним доступны только сведения перечисленные в их ТЗ размещённом на сайте госзакупок.

2. Архитектура многих информационных систем - это продолжение госполитики по сверхконцентрации полномочий в Москве и подмосковье. Георезервирования данных нет не только потому что на этом экономят или не умеют, но и по причине трансформации федеративного государства в техноунитарное. А то есть там где нельзя забрать полномочия у субъектов федерации вместо этого на стыке полномочий создается федеральная информационная система от которой региональной власти оказываются в критической зависимости (не могут без неё работать). Это не только про электронные учебники, это ещё и про системы Росреестра, ГИС Торги, портал госзакупок и ещё многие другие системы.

3. Лично мне не хватило в бюллетене отражение "успехов" Гостех в правительстве Москвы и в Казахстане. Но даже упоминание критичности зависимости платформы от воли Сбербанка - это достаточно существенная критика.

4. Мировой опыт, будем честными, отражён очень слабо. В бюллетене много упоминается опыт по планам цифровизации, а тут скорее про решения общестрановые по информатизации и создании инфраструктуры. В мире ключевое для государственных информационных систем сейчас - это процедуры соответствия облаков обязательным стандартам, их сертификация, сертификация ПО в этих облаках и, самое главное, широкое повторное использование открытого кода в госуправлении.

Я могу рассказывать про это всё довольно долго, о многом пишу в телеграм канале, а почитать бюллетень СП будет полезно, несомненно.

Ссылки:
[1] https://ach.gov.ru/statements/bulletin-sp-8-2022
[2] https://www.rbc.ru/technology_and_media/30/08/2022/630cc2709a7947836b2ef7c4

#government #it #digital #opengov
August 30, 2022
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
August 30, 2022
Я довольно много писал про недокументированные API госорганов [1] и упоминал похожий гражданский проект в Германии [2].

Так вот скажу что этих самых недокументированных API к государственным и окологосударственным системам, сайтам, порталам значительно больше чем может показаться со стороны.

Причём есть всего несколько причин их появления:
- наличие API как продукта редкие случаи, когда API изначально было предусмотрено, но в силу многих причин его создатель не может, не умеет или не хочет его нормально документировать.
- наличие API как следствие архитектуры приложения, как правило это следствие применение подходов вроде JAMSTACK когда вызовы к API осуществляются из Javascript на фронтэнде
- наличие API по умолчанию это когда API есть у продукта который используется для конкретной цели, но его пользователь об этом не знает

Всех этих API великое, нет огромное количество.

Какое-то время назад я размещал на сервисе Postman коллекцию с документацией таких API [3]․ Там их немного, 6 государственных систем, около пары-тройки десятков точек подключения. Все они идут по 1-й или по 2-й категории API, а есть немало API которые просто являются частью продукта и вот их примеры.

Есть такой продукт DSpace используемый ВУЗами для создания репозиториев научных результатов. Он много где установлен в мире, в основном университетами, но даже открытые библиотека НАТО и Мирового банка тоже работают на DSpace. В России он используется, например, в СПбГУ.

У DSpace по умолчанию есть интерфейс раскрытия данных по стандарту OAI-PMH, это такой стандарт архивации научных и библиотечных знаний. Поэтому, к примеру, у инсталляции DSpace есть API интерфейс для доступа [4], подробнее о нём и как работать с протоколом OAI-PMH легко гуглится. Специалисты, как правило, о таких интерфейсах знают заранее. Неспециалисты очень удивляются когда неожиданно обнаруживают.

Другой пример, у Wordpress есть API, идущее практически по умолчанию в новых инсталляциях. Оно сводится к точке подключения /wp-json/ через который можно выкачать. Это полезно, например, для цифровой архивации. Я специально для такого сделал утилиту wparc [5] позволяющую архивировать данные из инсталляций Wordpress. В России, например, Wordpress, используется на сайте Госкомиссии по Арктике и, конечно, wp-json там активирован [6].

Таких примеров много, они не описываются на порталах открытых данных и инициативах вроде bund.dev или нашей коллекции госAPI.

Ссылки:
[1] https://yangx.top/begtin/3550
[2] https://yangx.top/begtin/4194
[3] https://www.postman.com/infoculture/workspace/infoculture-public/documentation/1428203-a769e0a6-0cc9-4de4-bdcc-5f8a0fa06e36
[4] https://dspace.spbu.ru/oai/
[5] https://github.com/ruarxive/wparc
[6] https://arctic.gov.ru/wp-json/

#api #openapi #government #undocumented
August 30, 2022
August 31, 2022
Полезное чтение про данные, стартапы и технологии:
- Developer Experience Infrastructure (DXI) [1] о том как создавать продукты для разработчиков и что разработчики от них ждут. Похоже на подходы User Experience, только пользователи тут особые
- The Good Research Code Handbook [2] о том как реорганизовать код в при исследовательском проекте. Я бы сказал что это надо студентам прям преподавать, но полезно не только им
- StarTree подняли $47M инвестиций [3] и развивают свой продукт по облачной аналитике. Это та команда что создала Apache Pinot и делают теперь его корпоративный вариант.
- Data Governance Checklist [4] сильно связанный с регулированием, персональными данными и иными законами в США. Что не мешает ему быть актуальным не только в США

Ссылки:
[1] https://kenneth.io/post/developer-experience-infrastructure-dxi
[2] https://goodresearch.dev/index.html
[3] https://www.startree.ai/blog/a-new-phase-of-growth-for-startree-and-the-real-time-user-facing-analytics-movement
[4] https://medium.com/@corymaklin/data-governance-checklist-152a3a691002

#readings #data #startups
August 31, 2022
September 2, 2022
September 2, 2022
Купище державное

Я чувствую уже что слишком часто пишу про инициативы Минцифры РФ, гораздо реже стал писать в последнее время про госзакупки или другие органы власти, а чаще про них и про технологии. Вот недавно на Regulation выложили свежий проект постановления Пр-ва РФ [1] с обновлённым положением ГосТех'а и положением о ФГИС "ГосМаркет".

Во первых, не могу не посетовать на неизобретательность авторов. Сплошные англицизмы, а могли бы назвать imperium foro (на латыни) или купище державное / державное купище (почти старославянский). Но это ирония, будем честными, ничего другого мы и не ждали.

Сама идея того что называют Госмаркетом в том чтобы у производителей ПО была бы возможность продажи своих продуктов госорганам в режиме магазина. Зашёл, кликнул, получил, начал работать.

Очень простая схема для продуктов поставляемых в конкурентных рынках, по оферте с типовыми условиями.

В чём проблема с "ГосМаркетом" в России?

С тем что заказчики покупают не продукты, а по сути лицензии. Чаще всего на основе этих лицензий идёт последующая доработка софта или его кастомизация даже для таких, казалось бы, типовых решений как сайты госорганов.

Поэтому в мире, как минимум в развитых странах, произошла эволюция понятия government marketplace в каталог аттестованных/сертифицированных продуктов поддерживаемый владельцем облачной платформы.

Например, Azure Government Marketplace [2] и AWS GovCloud с руководствами по публикации там приложений [3].

В чем особенность ГосМаркета?
1. Зависимость от ГосТех'а что довольно странно поскольку сам ГосТех выглядит "големимсто". В том смысле что НПА вокруг него уже принято больше чем видно реального результата.
2. Оторванность от ГосОблака - кто-то ещё помнит, а такой проект был и никуда не делся. Но с суетой вокруг ГосТех'а его куда-то задвинули на второй или третий план.
3. Отсутствие сертификации соответствия облачных решений. Вообще обычно вначале их разрабатывают и актуализируют и только потом уже создают платформы вроде Державного купища

Я на эту тему могу рассуждать и писать ещё долго, но пока ограничусь напоминанием что портал ГосУслуг в России запускали трижды. Сколько раз будут запускать ГосТех и ГосМаркет?

Денег в стране ещё много, я делаю
ставку что больше двух раз;)

Ссылки:
[1] https://regulation.gov.ru/projects#npa=131116
[2] https://docs.microsoft.com/ru-ru/azure/azure-government/documentation-government-manage-marketplace
[3] https://aws.amazon.com/ru/blogs/awsmarketplace/category/public-sector/government/

#government #digital
September 2, 2022
cruise_final_myheritage.gif
15.5 MB
September 3, 2022
September 3, 2022
В рубрике что почитать и посмотреть, о том как устроены индексы в базах NoSQL от команды ByteByteGo [1] и, от них же, о том почему Redis работает быстро [2] и о том почему Kafka работает быстро [3].

У них отличный канал и про другие общеупотребимые технологии [4], рассылка [5] и онлайн курс [6]․

По многим вопросам стандартной современной архитектуры софтверных продуктов и проектов - это замечательный источник.

Рабочая реальность, зачастую, немного или даже сильно отличается наличием унаследованных архитектуры и кода, потребности в миграции, сопровождении нескольких версий сразу нескольких продуктов и тд, что не означает отсутствия необходимости знать о проектировании систем.

Ссылки:
[1] https://www.youtube.com/watch?v=I6jB0nM9SKU
[2] https://www.youtube.com/watch?v=5TRFpFBccQM
[3] https://www.youtube.com/watch?v=UNUz1-msbOM
[4] https://www.youtube.com/c/ByteByteGo/videos
[5] https://bit.ly/3tfAlYD
[6] https://bit.ly/3mlDSk9

#systemarchitecture #data #designpatterns
September 3, 2022
В рубрике интересных наборов данных о России вне России, открытые данные и каталоги данных о нефтегазовом рынке:

Resource Projects [1]
Проект NRGI с данными нефтяных проектов, нефтяных компаний и их профилей. Профиль ряда постсоветскихстран: Россия [2], Азербайджан [3], Казахстан [4], Украина [5], Грузия [6], Армения [7]. Из любопытного - почему-то ничего нет по Саудовской Аравии.
Там же профили компаний и их проектов.

National Oil Company Data [8]
База показателей по нефтегазовым компаниям. Ещё один проект NRGI, данных там много, последние данные за 2021 год.

JodiData [9]

Совместный проект нескольких международных агентств по отчетности по добыче и другим показателям по нефти и газу. Данные довольно актуальные, последние данные по России за июнь 2022 г.

Resource Data [10]

Проект с базой первичных документов по нефтегазовому сектору и добыче полезных ископаемых. Всё разделено по темам и по странам, по России документов немного, приоритет на развивающиеся страны.

IEA Data [11]

Данные международного энергетического агентства, не только по нефти и газу, и сразу в машиночитаемых форматах. Что-то бесплатно, что-то только за деньги.

Ссылки:
[1] https://resourceprojects.org
[2] https://resourceprojects.org/country/RU
[3] https://resourceprojects.org/country/AZ
[4] https://resourceprojects.org/country/KZ
[5] https://resourceprojects.org/country/UA
[6] https://resourceprojects.org/country/GE
[7] https://resourceprojects.org/country/AM
[8] https://www.nationaloilcompanydata.org/
[9] https://www.jodidata.org
[10] https://www.resourcedata.org/
[11] https://www.iea.org/data-and-statistics

#opendata #datasets #oil #gas #energy
September 4, 2022
September 5, 2022
По поводу свежего распоряжение Правительства РФ об использовании соцсетей Вконтакте и Одноклассники где органы власти должны заводить свои аккаунты [1] мне есть что сказать.

Важно разделять открытость и "открытость". Первое имеет природу и право получать ответы на вопросы, второе про то как "не быть, но казаться". Наличие аккаунта в соцсетях не даёт гарантии или даже высокой вероятности публикации там чего-либо кроме того что сейчас публикуется в новостях на сайтах этих организаций. А то есть потоков довольно бессмысленных публикаций.

Поэтому пишу кратко и тезисно:
1. В России государственных и муниципальных организаций около 200 тысяч, это означает что в соцсети пойдет много контента который ранее там не оказывался потому что никому не был нужен.
2. Правительство РФ - это орган федеральной исполнительной власти, но выпускает распоряжение затрагивающее региональные, муниципальные власти, а также суды.
3. Главные кто будут в выигрыше от этого решения - это соцсети и пиар агентства. Первые получат поток контента (хоть и так себе), вторые начнут, уже начали, продавать свои услуги.
4. Обязательно найдутся псевдообщественники которые начнут накатывать жалобы на то что какой-нибудь детский сад или поликлиника г. Резиножопска не завела аккаунт в соц сетях.

Никакого отношения к реальной открытости органов власти и государства в целом это всё, конечно же, отношения не имеет.

P.S. Просто не могу не отметить деградацию нормотворчества. В распоряжении Правительства поленились даже правильно написать реквизиты закона которые должны быть Федерального закона "Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления" от 09.02.2009 N 8-ФЗ вместо этого написано просто Федерального закона "Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления".

Поленились указать дату и номер закона. Всё это очень печалит

Ссылки:
[1] http://government.ru/news/46448/

#openness #government #social #transparency
September 5, 2022
7 Best Practices for Data Ingestion

Полезная заметка для тех кто занимается сбором и обработкой данных [1]. Автор собрал несколько практик используемых при загрузке данных.

Если кратко их пересказать:
1. Отслеживайте ошибки в первоисточнике (настраивайте предупреждения).
2. Сохраняйте копию первичных данных до преобразования.
3. Заранее устанавливайте сроки и ожидания пользователей. Загрузка данных не так уж проста.
4. Автоматизируйте трубы данных, устанавливайте SLA используйте системы оркестрации.
5. Трубы загрузки данных должны быть идемпотентны (результат их работы должен повторяться)
6. Создавайте шаблоны, используйте их повторно
7. Документируйте Ваши трубы данных.

Всё кажется очень очевидным и ни с чем не поспоришь. Я бы только добавил что 7-й пункт документируйте Ваши трубы данных должен быть 1-м пунктом. Сколько я не сталкиваюсь с продуктами на данных, вокруг данных, связанных с работой с данными и др. все формы data product недостаток документации есть у всех.

Кто-то скажет, что писать документацию работа не творческая, это так, потому что она производственная. Один из важнейших профессиональных навыков который повсеместно недооценивается.

Ссылки:
[1] https://medium.com/codex/7-best-practices-for-data-ingestion-f336c6b5128c

#data #datapipelines
September 6, 2022