Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.74K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Вышел обновлённый индекс/рейтинг OURData за 2019 год [1]. Индекс формируется ежегодно Организацией экономического сотрудничества и развития (ОЭСР) и покрывает все страны входящие в организацию и потенциальные кандидаты на вступление.

Индекс имеет особенность в разделении на 3 направления:
- доступность данных как находимость (data availability)
- доступность данных как безбарьерность (data accessibility)
- государственная поддержка повторного использования данных

В безусловных лидерах Корея и Франция, в отстающих Литва и Швеция.

К индексу идёт пояснительная записка [2] с пояснениями, примерами, из "под-колоннами" каждого направления и описанием методологии.

Росси нигде не упоминается, но если слухи про то что российское правительство планирует активизацию вступления в ОЭСР, то возвращаться к тематике открытых данных придётся.

Ссылки:
[1] https://www.oecd.org/gov/digital-government/policy-paper-ourdata-index-2019.htm
[2] https://www.oecd.org/gov/digital-government/ourdata-index-policy-paper-2020.pdf

#opendata #data
В проекте Our World in Data интересная публикация с анализом и сравнением эпидемии "испанки" в 1918-1920 году, текущего коронавируса и других эпидемий [1]. Помимо всего прочего там же сравнения стран по средней продолжительности в том числе, в годы эпидемий.

Там же, ещё одна публикация с обзором зарождения и распространения коронавируса [2] и того как собираются сведения о нём. В Our World in Data практически все материалы - это лонгриды с большой работой над текстами, помимо наглядных графиков. Всячески могу порекомендовать смотреть их публикации как пример качественной подачи информации.

Ссылки:
[1] https://ourworldindata.org/spanish-flu-largest-influenza-pandemic-in-history
[2] https://ourworldindata.org/coronavirus

#coronavirus #opendata
Для тех кто мог пропустить ранее, например я пропустил, в июне 2019 года вышел отчёт офиса аудита Великобритании об использовании данных в органах власти "Challenges in using data across government" [1]. В этом, относительно кратком отчёте на 59 страниц, помимо обзора стратегий работы с данными, ещё и присутствует большой раздел об используемых идентификаторах для граждан и бизнеса. Несмотря на то что это неполный список, он довольно впечатляющий, и включает:
- номер национального страхования
- номер получателя соцподдержки
- уникальный идентификатор налогоплательщика
- уникальный идентификатор учащегося
- уникальный идентификатор студента присваиваемый образовательным учреждением
- номер паспорта
- номер водительского удостоверения
и так далее.

Наверняка если поисследовать по России то число идентификаторов будет не меньшее, а скорее большее. Кросс-использование их органами власти будет, скажем так, разным.

В целом этот документ можно описать как результат аудита стратегии правительства в области данных. Полезный по многим причинам, не затрагивающий вопросы финансов и затрагивающий вопросы результатов.

Ссылки:
[1] https://www.nao.org.uk/wp-content/uploads/2019/06/Challenges-in-using-data-across-government.pdf

#data #audit
В России тема Сингапура особенно популярно среди государственных служащих как пример того как должно быть устроено государство и как пример его эффективности. Но используется ли сингапурский опыт в России?

В Сингапуре вот уже несколько лет действует "государственная цифровая команда" создающая открытые государстсвенные продукты [1] среди которых есть такие как:
- портал открытых данных data.gov.sg [2]
- мобильное приложение для парковок [3]
- сервис для заполнения государственных форм Forms.sg [4]
- конструктор для госсайтов Isomer [5]
- сокращатель ссылок для госслужащих [6]
- конструктор общедоступных документов [7]
- сервис авторизации с приватностью [8]

Большая кода команды общедоступна на Github [9], [10], [11].

Что главное в этом всём? Все эти продукты, кроме приложения для парковки - это G2G продукты.
Многие из них, например, конструктор для госсайтов и конструктор документов сделаны столь хорошо что вполне пригодны для использования и за пределами властей Сингапура. В них Github используется для создания сайтов с разметкой markdown а госслужащих учат использованию этой разметки для подготовки и публикации документов.

Ссылки:
[1] https://open.gov.sg/
[2] https://open.gov.sg/products/datagovsg/
[3] https://open.gov.sg/products/parkingsg/
[4] https://open.gov.sg/products/formsg/
[5] https://open.gov.sg/products/isomer/
[6] https://open.gov.sg/products/gosg/
[7] https://open.gov.sg/products/opendoc/
[8] https://open.gov.sg/products/sgid/
[9] https://github.com/datagovsg
[10] https://github.com/opengovsg
[11] https://github.com/opendocsg/

#singapore #opendata #opensource #opengov
Каждый год я собираю и публикую статистику того как государства по всему миру публикуют код, работают с открытым кодом, ведут открытую разработку и взаимодействуют с тысячами разработчиков. Это довольно актуально во всём мире и актуально, но практически не реализуется в России. В России, в принципе, открытых репозиториев кода кроме открытых репозиториев Счетной палаты [1] нет.

Я приведу цифры из анализа проектов зарегистрированных на Github [2] и относящихся к госорганам и к НКО помогающим госорганам стать лучше, так называемым civil hackers (гражданские хакеры), такие как Open Knowledge International, Sunlight, OMB Watch и многие другие.

Всего в мире открытый код публикуют 1281 организация, из которых 320 относятся к гражданским хакерам и остальные к органам власти, госучреждениям и исследовательским центрам на госфинансировании. Ими создано 48 944 репозитория кода из которых 12 602 создано гражданскими хакерами и 36 342 создано государственными структурами.
В общей сложности "тусовка" открытого государственного кода составляет 4584 разработчика. Более всего их среди "гражданских хакеров", их 2148, а также много разработчиков в США - 1566 и в Великобритании - 255. Все вместе они создали кода и данных опубликованных на Github в объёме 852 гигабайт.

За последний год максимальная активность в разработке, количестве коммитов в Github, у разработчиков из Великобритании. За ними идут разработчики США, Франции, Канады и Норвегии.

Есть несколько способов измерить востребованность опубликованного кода. На мой взгляд наиболее точный способ - это подсчёт числа людей наблюдающих за кодом организации, для GitHub'а - это счётчик watchers и на его основе можно найти наиболее востребованные.

Топ 10 организаций по числу наблюдателей:
- National Security Agency - https://github.com/NationalSecurityAgency [США]
- NASA - https://github.com/nasa [США]
- KnightLab - https://github.com/nuknightlab [Гражданские хакеры]
- 18F - https://github.com/18f [США]
- GCHQ https://github.com/GCHQ [США]
- USWDS https://github.com/uswds [США]
- AlphaGov https://github.com/alphagov [Великобритания]
- WhiteHouse https://github.com/whitehouse [США]
- Open Knowledge Foundation https://github.com/okfn [Гражданские хакеры]

Накопленные материалы тянут на лонгрид на много страниц и много текста. Пока лишь базовые цифры и через какое-то время я опубликую датасеты, результаты подсчётов, топы стран и все списки включая первичные собранные данные.

Ссылки:
[1] https://code.ach.gov.ru/public
[2] https://government.github.com/community/

#opensource #opencode #opendata
Панель отслеживания коронавируса в Великобритании https://www.arcgis.com/apps/opsdashboard/index.html#/f94c3c90da5b4e9f9a0b19484dd4bb14 от государственного Public Health England
Public Health England открыли официальную панель для информирования о распространении коронавируса. Подробности можно узнать у них на сайте [1], а саму панель просмотреть здесь [2].

Также, все данные сразу отдаются в форматах CSV, с публикацией ежедневно обновляемых индикаторов [3].

Ссылки:
[1] https://www.gov.uk/government/publications/covid-19-track-coronavirus-cases
[2] https://www.arcgis.com/apps/opsdashboard/index.html#/f94c3c90da5b4e9f9a0b19484dd4bb14
[3] https://www.arcgis.com/home/item.html?id=bc8ee90225644ef7a6f4dd1b13ea1d67

#uk #government #coronavirus
Для тех кто с темой открытых данных столкнулся недавно, но хочет узнать и понять что это такое, рекомендую начать с книги Джошуа Тауберера Open Government Data [1]. Она вся в открытом доступе и объясняет что такое открытые данные и их роль в движениях за открытость государства в целом.

Ссылки:
[1] https://opengovdata.io/

#opendata #opengov
На работу требуются "сторож данных" и "управляющий складом данных" без вредных привычек (c)

Среди множества профессий вокруг работы с данными, таких как data scientists, data engineers или data analytics незаслуженно забывают или просто не вспоминают о как минимум двух ролях data steward (управляющий данными) и data custodian (сторож данных).

Это термины наиболее распространённые в зарубежной академической и архивной среде, например, в NC State University [1] или в университете Рочестера [2] и в некоторых странах, например, в Новой Зеландии [3] есть большая область деятельности "Управление данными", но в правильном переводе с русского на английском - это не "data management", а именно "data stewardship".

Кто такой data steward? Это роль в организации, ответственная за организацию сбора, создания и использования данных для максимальной точности данных, как содержания так и метаданных. Их задача в том чтобы работа с данными, правилами работы с ними соответствовали регуляторным и внутренним требованиям.
Часто эта роль совмещена с ролью data custodian (сторож данных) который, в свою очередь, отвечает за безопасность доступа к данным, их передачи, хранения и так далее. Часто эти роли совмещены или пересекаются.

Иногда, как по ссылке выше [1], выделяют роль data trustee (попечителя данных) и выстраивают иерархию из этих трёх ролей, где data trustee отвечает за стратегию, data steward за правила и принципы, а data custodian за конкретные данные и за их защиту, в том числе.

Термин data steward часто заменяют на data curator (куратор данных), очень близкий по смыслу и роли человека ответственного за сопровождения тех или иных баз данных и процессов их сбора.

Потребности в "управляющих данными" хорошо сформулированы в публикации "Wanted: data stewards" [4] вышедшей в начале марта. Где авторы пере-определяют этот термин и описывают его как "лидеры организаций и команд имеющие возможность создавать общую ценность используя повторно данные (и экспертизу в данных) организации".

Ссылки:
[1] https://oit.ncsu.edu/it-security/data-framework/data-categories-trustees-stewards-and-custodians/
[2] https://tech.rochester.edu/data-custodian-duties/
[3] https://www.data.govt.nz/manage-data/data-stewardship/a-draft-data-stewardship-framework-for-nz/
[4] https://www.thegovlab.org/static/files/publications/wanted-data-stewards.pdf

#opendata #data #datasteward #datacustodian
В США Electronic Frontier Foundation бьёт тревогу [1] из-за законопроекта EARN IT [2] в котором интернет провайдерам и платформам предполагается навязать и ежегодно обновлять "лучшие практики" по защите детей от сексуальной эксплуатации. Фактически - это такой антипедофильский законопроект, по усилению ограничений оборота видео и изображений.

Однако у него все те же проблемы что были с Законом Яровой в России и другими законами в США, и в мире, ограничивающими права и свободы неограниченного числа лиц. Вот и в этом случае предполагается что эти "лучшие практики" регулярно разрабатывает не сам конгресс, а утверждаются генеральным прокурором США и компании сертифицируются по этим "лучшим практикам". Это примерно как когда в России права на "немедленную блокировку" утверждаются не по судебной процедуре или законом, а на уровне прокуратуры/роскомнадзора и тд. Иначе говоря, это практика вывода оперативного регулирования интернет-сервисов из под судебной и законодательной власти, во власть правоохранительной системы. В данном случае, эта власть передаётся комиссии из 19 человек утверждающей эти "лучшие практики" и передающей Конгрессу США для утверждения или ветирования их.

В EFF однозначны, регулирование будет направлено на борьбу [3] со сквозным шифрованием, против которого высказывались уже неоднократно различные официальные лица включая, как раз, генерального прокурора США предполагаемого к вхождению в эту комиссию и именно прокуратура США с другими органами власти и разрабатывала бы эти лучшие практики и сертифицировала бы интернет платформы на их соблюдение.

Тут нельзя не напомнить что большинство крупнейших интернет платформ находятся в юрисдикции США и вводимые "лучшие практики" в защите детей, затронут не только жителей США, но почти всех интернет пользователей в мире.

Ссылки:
[1] https://act.eff.org/action/protect-our-speech-and-security-online-reject-the-graham-blumenthal-bill
[2] https://www.eff.org/document/earn-it-act-introduced
[3] https://www.eff.org/deeplinks/2020/03/graham-blumenthal-bill-attack-online-speech-and-security

#eff #laws #bills
Панель мониторинга, мобильная версия и все доступные сведения о коронавирусе на сайте здравоохранения Минздрава Италии
В специальном разделе Минздрава Италии [1] максимально оперативные и исчерпывающие сведения о коронавирусе. На раздел ведёт огромный баннер с главной страницы.
Подобные разделы есть на сайтах Правительств и Минздравов почти всех охваченных стран.

А что в России? Проверьте сами сайт Минздрава [2]

Ссылки:
[1] http://www.salute.gov.it/nuovocoronavirus
[2] https://www.rosminzdrav.ru/ru

#opengov #openness #minzdrav #coronavirus
Open Knowledge Foundation в этом году продолжает раздавать гранты до $5000 (370 тысяч рублей, по курсу $1=74Р) на создание инструментов для работы со стандартом Data Packages [1], это называется Frictionless Data tooling и в прошлом году они писали про успех предыдущего раунда такой микрогрантовой схемы [2]

Для профессиональных разработчиков работающих данными и умеющими писать хороший открытый код - это лёгкие деньги и работа на пользу общества. Лично я бы и сам поучаствовал, если бы не многочисленные обязательства и проекты которые сейчас веду.

Ссылки:
[1] https://blog.okfn.org/2020/03/02/announcing-the-2020-frictionless-data-tool-fund/
[2] https://blog.okfn.org/2019/07/04/meet-our-2019-frictionless-data-tool-fund-grantees/

#opendata #opengov #opensource
Уже больше года как Роспотребнадзор не публикует статистику инфекционных заболеваний в Российской Федерации [1].
Последняя публикация была в феврале 2019 года за 2018 год.

Ссылки:
[1] https://rospotrebnadzor.ru/activities/statistical-materials/

#opendata #russia
... Прозрачность и доверие к государству может и должно начинаться с правительства. Создание некоммерческих организаций и прямое их субсидирование — это вывод огромных бюджетных средств из-под общего регулирования. Если правительство не готово до сих пор к реформе системы государственного управления в целом и пользуется лайфхаками в виде создания НКО, то хотелось бы, чтобы этот инструмент работал по понятным правилам [1]

Вышла моя колонка в РБК о государственных НКО (в первую очередь АНО). Проблема гораздо глубже и шире чем удалось охватить в колонке, но надо же с чего-то начинать.

Я эту тему с 2012 года поднимаю, но, сдвинуть не получается. Наоборот в 2019 году всплеск регистрации государственных НКО. Они получают субсидии, контракты, гранты, не подпадают под законы о госслужбе, госзакупкам и, в принципе, непрозрачны за редким исключением.

Ссылки:
[1] https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3

#opendata #opengov #ngo
Первый трансатлантический корабль ведомый искусственным интеллектом совершит своё путешествие в сентябре 2020 года [1]. Вместо капитана будет AI Captain на базе IBM Power AC922 с использованием IBM Power9 CPUs и NVIDIA V100 Tensor Core GPUs.

Корабль, тримаран, поплывёт без команды и будет способен действовать даже в сложных ситуациях. Подробнее в ролике о корабле на канале IBM News [2].

Честно говоря уже интересно узнать результат и прогноз того сколько моряков останутся без работы через 10-20 лет.

Ссылки:
[1] https://www.maritime-executive.com/article/sea-trials-begin-for-artificial-intelligence-captain
[2] https://www.youtube.com/watch?v=q7wBl3IPg08

#ai #ships
Сайт открытого правительства open.gov.ru, де-факто, перестал существовать. Теперь при его открытии выдаётся ошибка. Всем кому понадобятся материалы с их сайта и других ресурсов - все они у нас сохранены в Национальном цифровом архиве, скоро мы сделаем нормальный навигатор по ресурсам в архиве, пока же пишите если что-то понадобится
Много лет я пишу о том что в современном мире государства конкурируют не только и не столько между собой, сколько с другими институтами общества. Пример с коронавирусом и общественной паникой не первый и не последний. Не государства, а самые разные активисты, НКО, исследовательские центры создают сейчас мобильные приложения, онлайн сервисы и тд. для информирования граждан. Пример, приложение для iPhone вышедшее недавно [1], сделано небольшой ИТ компанией. А репозиторий с данными собираемыми в JHU CSSE уже давно доступен [2].

Если посмотреть на официальный канал оперативного штаба Москвы по коронавирусу [3], то он появился 2 марта, в то время как анонимные телеграм каналы начали "хайпожорить" на коронавирусе начиная со второй половины января.

В Российским Минздраве создали страничку про коронавирус 13 марта (вчера) [4] и поставили на главной странице его рядом с баннером нацпроектов. Однако данные по выявленным случаям не обновляли уже больше 27 часов (последнее обновление в 13 марта в 16:12), а также ни в коей мере не сделали информирование более наглядным.

Похожая страница есть на сайте российского Роспотребназдора [5], не синхронизованная со страницей на сайте Минздрава и не содержащая статсведений, они в других разделах сайта Роспотребнадзора.

В мире только проектов на открытом коде посвящённых коронавирусу несколько сотен [6]

Как должно быть организовано информирование граждан? Как государства(-о) должно заполнять информационный вакуум?

Ссылки:
[1] https://coronatracker.samabox.com/
[2] https://github.com/CSSEGISandData/COVID-19
[3] https://yangx.top/COVID2019_official
[4] https://www.rosminzdrav.ru/ministry/covid19
[5] https://rospotrebnadzor.ru/about/info/news_time/news_details.php?ELEMENT_ID=13566
[6] https://weileizeng.github.io/Open-Source-COVID-19/

#opengov #government #coronavirus
Тем временем у многие международных НКО занимающихся открытыми данными меняются и корректируются приоритеты. Например. Open Knowledge Foundation в этом году плавно подходит к теме ответственности искусственного интеллекта и алгоритмов. В посте в блоге OKF [1] приводятся основные направления: подотчётность, мониторинг и улучшение. Всё это с большим акцентом на просвещение.

В этом нет ничего удивительного, действительно эти темы, наряду с приватностью, становятся одними из ключевых в развитии "цифровой правозащиты".

Ссылки:
[1] https://blog.okfn.org/2020/03/13/open-knowledge-ai-and-algorithms/

#opendata #okf #ai #literacy