Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
...Реальность такова, что если бы Рособрнадзор и Минпросвещения двигались в сторону открытости, то и региональные власти такие сведения не скрывали бы. В ситуации, когда у нас образование закрыто чуть ли не больше, чем силовые органы, граждане по умолчанию относятся к политике в этой области без всякого доверия...

Вышла моя колонка "Государство скрывает данные по ЕГЭ " в Ведомостях [1]

P.S. На самом деле моя колонка была примерно в 3 раза больше и не влезла в формат издания. Я далее раскрою и другие темы доступности данных о качестве жизни.

P.P.S. В Ведомости я колонку писал, в Коммерсант писал, в Forbes писал, в РБК писал. Куда бы мне ещё колонку написать?

Ссылки:
[1] https://www.vedomosti.ru/opinion/articles/2021/03/25/863248-gosudarstvo-ege

#articles #opendata
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
109 трлн руб. составляет сумма планов закупок в 2021 году по 223-ФЗ. Из них планы на 91 трлн руб. были размещены в Санкт-Петербурге.

Для сравнения:
- за предыдущие годы объем планов закупок по России не превышал 20-25 трлн руб. в год,
- в 2020 году объем планов закупок СПб составил 1,4 трлн руб.,
- ВВП России в 2020 году составил 107 трлн руб.

В связи с этим вопрос:
1. Казначейство России, у вас все в порядке с подсчетами?
2. Если данные корректные, давайте найдем рекордный план закупок Петербурга
Свежая статья на хабре о том что исходные коды приложения ФНС более года были в открытом доступе [1], при этом хотелось бы чтобы это было решение ФНС и код бы официально публиковался на Github.com или Gitlab.com или появление их российского аналога, но реальность такова что это ошибка разработчиков этого приложения и, как выясняется, делали его не в ГНИВЦ при ФНС России, а в некой организации с доменом studiotg.ru, похоже, являющейся частью или аффилированой с Группой комплексных решений ГКР [2], в первую очередь потому что домен studiotg.ru ведет на тот же сайт что и support.pmp.gkr.su и сам засвеченный репозиторий кода относится к подсети ГКР 95.79.121.*

Иначе говоря, ситуация не доброй воли ФНС, а в отсутствии контроля за безопасностью среды разработки в компании подрядчике.

Казалось бы вопрос только в этом, но, ситуация сложнее и возникает немало вопросов:
1. У ГКР нет контрактов с ФНС и дочерними структурами ФНС [3], вопрос, как оказалось что разработчики использующие их инфраструктуру, выполняют работу для ФНС ?
2. Мобильное приложение сервиса ФНС разьве не является частью государственной информационной системы? Если там действительно были пароли для доступа к базам данных, то не является ли это предметом расследования регуляторов?
3. Отдельный вопрос о том почему репозитории госприложений были и остаются за пределами инфраструктуры органа власти/его подведов. Это, скажем так, не вполне нормально.

Я, при этом, понимаю все риски и издержки возникающие с задачами быстрого запуска каких то госсервисов, но, если это делать без оглядки на безопасность, то случается то что случается.

А было бы прекрасно если бы само ФНС начало публиковать исходные коды, но каким-нибудь менее скандальным способом.

Ссылки:
[1] https://habr.com/ru/post/547272/
[2] https://gkr.su
[3] https://clearspending.ru/supplier/inn=5262103820&kpp=526201001

#opensource #fns #taxes #mobileapps
В рубрике полезных наборов данных, набор данных для анализа простоты официального государственного языка созданный по результатам сбора новостей с официального сайта Правительства РФ [1]. В наборе 9823 текста новости, 558582 предложений за 9 лет (начиная с 2012 года), а по каждому тексту и по каждому предложению набор метрик измерения сложности текста. Для текстов есть расчёт показателей простоты текста, перечни сложных слов и лемм, частотности слов по числу слогов и так далее. Набор можно использовать для формирования словарей официальной лексики, анализа изменения официального языка с течением времени, измерения средней сложности официального языка и многого другого.

Например, 90.8% всех новостей на сайте правительства попадают в диапазон сложности текста от 10 до 24. Где цифра означает число необходимых лет обучения для понимания текста. 10 - это десять классов школы, а 24 - это аспирантура, второе высшее, иное узкоспециализированное знание.

А в целом сложность менее 18 (полное высшее образование) есть у 65% всех опубликованных текстов новостей.

И есть небольшое число текстов состоящих исключительно из длинных перечислений и сложность их текстов резко выше чем всех остальных.

В распакованном виде это 345 мегабайт, относительно небольшой объём. Для тех кто хочет поработать вначале с метриками, есть укороченные версии наборов данных, без текстов, но с метриками по каждому тексту и ссылке саму публикацию на официальном сайте Пр-ва.

Все метрики подсчитаны доработанной версией алгоритма с проекта Простой русский язык [2] и с помощью лемматизатора spacy добавлены уточнено определение предложений и также собираются не только комплексные слова, но и их леммы.

Ссылки:
[1] https://ngodata.ru/dataset/plainlang-gov-news
[2] http://plainrussian.ru

#opendata #plainlanguage #datasets
У ОЭСР вышел документ "Good Practice Principles for Data Ethics in the Public Sector" [1] о лучших практиках этического управления данными в госсекторе.

Там много разного полезного правильного разумного что стоит почитать нашим работникам госслужбы, я же сделаю акцент на рекомендации "Publish open data and open source", а там 4 рекомендации.
Привожу их на русском:
- Развивайте честные экосистемы данных через политики открытости государственных данных;
- Публикуйте дезагрегированные и гранулярные данные в соответствии с применимыми требованиями приватности, безопасности и владения
- Связываетй инициативы открытых данных в госсекторе с другими инициативами работы с данными;
- Открывайте исходный код для общественного анализа и аудита, особенно когда идёт работа с персональными и чувствительными данными

Впрочем, и по остальным блокам там достаточно чётко изложено и документ полезный.

Ссылки:
[1] https://www.oecd.org/gov/digital-government/good-practice-principles-for-data-ethics-in-the-public-sector.pdf


#opendata #privacy #oecd
Сегодня в 11:30 выступаю на конференции Adminka организуемой Теплицой социальных технологий[1], буду говорить об открытости исходного кода в мире и в России, в контексте того чем я занимаюсь, проектами про открытые данные и данные вообще.

Ссылки:
[1] https://te-st.ru/events/adminka/

#opendata #opensource #events
Моя презентация про открытый код в других странах [1] с сегодняшней конференции Админка.
В том числе про измерение открытости кода государств которое я делаю много лет, последний раз замерял в марте 2020 года [2]

Ссылки:
[1] https://www.beautiful.ai/player/-MWrutiZyI_MI-DNzzVF
[2] https://data.world/ibegtin/open-source-government-project/

#opensource #opendata #opengov
Вот уже давно я на разных площадках говорю о том что в России до сих пор нет Национальной стратегии данных. Это действительно так, НСУД такой стратегией не стал и теперь является лишь одной и государственных информационных систем, а других регуляторных инициатив даже не возникало.

Тем временем в мире всё больше инициатив на уровне отдельных органов власти по формированию их стратегий работы с данными. Обратите внимание, _не цифровых стратегий_ и _не стратегий цифровой трансформации_, а стратегий работы с данными (data strategy).

Вот несколько примеров:
- Департамент обороны США. DoD data strategy [1] короткий документ в 16 страниц опубликован в октябре 2020 года. Включает основные принципы работы с данными
- Департамент образования США. U.S. Department of Education Data Strategy [2]. 23 страницы основных принципов и целей.
- Департамент труда и малого бизнеса Австралии. Department of Jobs and Small Business Data Strategy [3] опубликовали стратегию ещё в апреле 2019 года
- Департамент здравоохранения Канады. Health Canada Data Strategy [4], относительно подробный документ учитывающий ещё и общий контекст работы с данными в Канаде.

Таких документов ещё несколько десятков в мире, я привожу в пример лишь англоязычные для простоты чтения. Можно назвать это одним из трендов последних нескольких лет в формировании национальных и ведомственных стратегий.

При этом:
1. Все эти стратегии - это очень короткие документы, максимум до 50 страниц.
2. Фокус в стратегиях на целях, принципах и инструментах.
3. Всегда с акцентом на отраслевую/ведомственную специфику.
4. Включают блок посвящённый открытости и прозрачности и реализации плана по открытию данных, который теперь строится от стратегии работы с данными.

В России, напомню, есть реестр документов стратегического планирования, но среди этих документов нет ничего про данные [4] (и осторожно, сертификат у ГАС Управление, gasu.gov.ru, протух)

Ссылки:
[1] https://media.defense.gov/2020/Oct/08/2002514180/-1/-1/0/DOD-DATA-STRATEGY.PDF
[2] https://www.ed.gov/sites/default/files/cdo/ed-data-strategy.pdf
[3] https://www.dese.gov.au/download/6959/2019-2021-data-strategy/18003/document/pdf
[4] https://gasu.gov.ru/stratdocuments

#strategies #government #data
Алексей Лукацкий проверил регуляторные документы по инфобезу через наш сервис Простой язык [1] и отметил наиболее сложную нормативку. А я со своей стороны расскажу что когда-то простой русский язык я сделал после того как потратил несколько месяцев на то чтобы адаптировать формулы английского языка под русский. Это было непросто и делал я это, Вы не поверите, брут-форсным перебором нескольких миллионов комбинаций коэффициентов.

Потому что самое главное в этих формулах - это привязка значений к годам обучения. Если формула выдаёт 10 - это означает что 10 лет надо учиться чтобы понять этот текст (примерно 9-11 классы школы), а сложность в 18 означает что учиться надо 18 лет (а то есть 11 классов школы + 5 лет ВУЗа + ещё чему-то, например, в аспирантуре) ну и так далее.

Дело в том что формулы читабельности основаны на нескольких параметрах сложности текста таких как:
- среднее число слов на предложение
- среднее число слогов в словах
- среднее число слогов на предложение
- число сложных слов на предложение
и так далее.

Есть корреляция между сложностью текста и этими и другими параметрами, но как эту корреляцию переложить в формулу? И вот для этого я собирал кучу текстов для внеклассного чтения где были рекомендации для возраста и адаптировал формулы под поиск наименьшего среднего отклонения и наименьшего максимального отклонения. Иначе говоря, если если коэффициенты у формулы должны давать результат при котором максимально допустимое отклонение в оценки сложности текста не более 2, то есть если текст для внеклассного чтения для 9-го класса то алгоритм не может ошибаться в его отношении в пределах 9-11, но не более. А среднее отклонение по всей обучающей выборке должно быть как можно ниже.

Дальше чтобы не вдаваться в сложную математику я просто перебрал все коэффициенты с шагом в 0.01 для всех формул и это заняло около месяца на нескольких домашних компьютерах.
Самой точной оказывалась формула SMOG (Simple Measure of Gobbledygook) с адаптированными коэффициентами поэтому она и является базовой в оценке plainrussian.ru.

Всё это было более 7 лет назад, сам код можно увидеть по ссылке на Github [2]. Сейчас его надо переработать чтобы лучше учитывать определение предложений, лучше понимать бюрократические тексты (нужна отдельная шкала) и ещё многое другое до чего постепенно "доходят руки".

Ссылки:
[1] https://plainrussian.ru
[2] https://github.com/infoculture/plainrussian

#plainlanguage #plainrussian
Математическая оценка качества и читабельности нормативно-правовых актов регуляторов - https://t.co/KI0QJtAQAJ
— Alexey Lukatsky (@alukatsky) March 29, 2021
Я, кстати, регулярно рассказываю что веду пока что наиболее полный реестр госдоменов, включая поддомены в России, он в специальном открытом репозитории доступен в виде дампов [1], а сам домен в базе в Airtable и там собираются и связываются:
- домены - всего 7602
- корневые домены - всего 191
- организации - всего 110
- информационные системы - всего 47
- субъекты федерации - все что имеются
- подсети (ASN) - 161 (включая все подсети хостингов, господрядчиков и тд)

При этом пока совершенно не охвачены власти субъектов федерации, бюджетные учреждения всех уровней да и на федеральном уровне далеко не всё, просто не с чем сравнивать, нет эталонной государственной базы.

Все размеченные и обогащённые доп. данными, например, по подсетям дополнительные сведения по стране и типу владельца, а по каждому домену тип домена, статус, уровень власти, поддержка http, https и ещё многое другое.

Так что на выходе это большая такая база которую я начинал вести только в целях мониторинга доменов для архивации, а сейчас она много для чего ещё годится.

Её можно оставить как есть, можно добавить к ней API, а можно сделать над этой базой веб интерфейс и дать возможность просматривать внесённые туда объекты. Сделать это можно двумя условными способами.
Способ 1: Сделать веб надстройку с поиском и просмотром над базой. Продолжать редактировать в Airtable
Способ 2: Сделать вики и в ней роботом создать веб страницы для каждого домена, каждой подсети и других объектов. А дальше переходить в Вики для редактирования и вести базу как базу знаний, в том числе другие могут пополнять эту базу знаний.

Ссылки:
[1] https://github.com/infoculture/govdomains/

#opendata #opengov #it #domains
Нужен ли веб интерфейс над базой государственных доменов?
anonymous poll

Да, нужен в виде поиска и просмотра сведений по объекту – 49
👍👍👍👍👍👍👍 60%

Нет, не нужен, лучше бы было API – 11
👍👍 13%

Да, нужен в виде вики которую можно было бы редактировать/пополнять – 10
👍 12%

Я просто хочу посмотреть результаты опроса – 7
👍 9%

Нет, не нужен, самое главное чтобы база была максимально полная – 5
👍 6%

👥 82 people voted so far.
Пока все обсуждают случайное открытие кода у подрядчика ФНС, я не могу не напомнить что в России есть ещё один ФОИВ который, уже видимо добровольно, публикует исходный код в Gitlab.

По адресу gitlab.rpn.gov.ru/explore [1] общедоступные репозитории Росприроднадзора, почему про про эскорт службу в Мумбаи. Вернее понятно почему, потому что админы оставили возможность регистрации пользователей ну вот спамеры и проснулись.

Даже не знаю что сказать. Молодцы ребята!

Ссылки:
[1] https://gitlab.rpn.gov.ru/explore

#oss #gitlab #rpn
То о чём говорили свершилось (с) итак, встречайте, неудаляемое отечественное преустановленное ПО на телефонах Самсунг
Почему необходимо архивировать государственные сайты? Потому что они исчезают. Например, архив ВАК существует за 2014-2019 годы [1]. А вот архив ВАК за 2004-2013 годы ранее располагался по адресу vak1.ed.gov.ru и уже недоступен [2] и неизвестно можно ли получить доступ к этим данным если сделать запрос в Минобрнауки РФ. И, конечно, нет какого-то централизованного официального архива выведенных из эксплуатации госсайтов и сайтов связанной с деятельностью госорганов и их подведов.

К счастью, конкретно этот сайт и ещё ряд сайтов из старой системы ВАКа были полностью нами заархивированы в 2017 году [3], но лежат они в виде WARC файлов в десятки гигабайт. Для поиска по этим материалам надо делать интерфейс на который в нашем цифровом архиве ruarxive.org [3] никогда не было достаточных ресурсов. И, по хорошему, вопрос долгосрочной доступности госданных должен быть государственной темой, а не общественной деятельностью.

А пока если Вам нужны архивные материалы ВАК с vak1.ed.gov.ru, то Вы знаете где их найти.

Ссылки:
[1] http://arhvak.minobrnauki.gov.ru/
[2] http://vak1.ed.gov.ru/
[3] https://hubofdata.ru/dataset?q=vak
[4] http://ruarxive.org

#archives #web #webarchive
CitizenLab, бельгийский стартап и разработчики платформы по вовлечению граждан, решили перевести её полностью в открытый код [1]. Код ядра платформы они выложили в открытый доступ [2]. Они публикуют код по модели open core [3], это когда код изначально ориентирован на монетизацию и, например, код платформы CitizenLab существует под двумя лицензиями - GNU Affero и CitizenLab Commercial License v1. Это не то чтобы признаётся сообществом и вообще такие лицензии часто отталкивают потенциальных контрибьюторов, но для аудита безопасности кода это само по себе неплохо.

Почему CitizenLab это делают? За кадром их доброй воли существование других полностью open source продуктов для электронного соучастия граждан. Например, Consul [4], доступно под лицензией GNU Affero [5], внедрено в 35 странах и 135 организациях с охватом в 90 миллионов человек. В первую очередь используется для Participatory budgeting (Партисипаторного бюджетирования), но не только. Много применений и для других задач оцифровизации демократии (голосования, сонаписания законов и так далее).

А я напомню что таких платформ в мире немало:
- Cap collectif [6] (Франция, закрытый код)
- Delib Citizen Space [7] (Великобритания, закрытый код)
- Decidim [8] (открытый код, GNU Affero License, наиболее активная альтернатива Consul)

и ещё около 20 других, с открытым кодом и коммерческих. Уже много лет большой бум их внедрения идёт в Испании и Франции, а далее в Латинскую Америку.

Ссылки:
[1] https://www.citizenlab.co/blog/civic-engagement/heres-why-we-are-going-open-source/
[2] https://github.com/CitizenLabDotCo/citizenlab
[3] https://en.wikipedia.org/wiki/Open-core_model
[4] https://consulproject.org/
[5] https://github.com/consul/consul/
[6] https://cap-collectif.com/
[7] https://www.delib.net/
[8] https://decidim.org/

#opensource #opendialog
Да, я давно хочу написать по поводу переноса госдоменов ФОИВов в зону .gov.ru. Цель, конечно, благая, локализовать домены органов власти и госучреждений в этой зоне правильно, но... Всегда есть но, и мне есть что сказать:
1. Перенесли не все ФОИВы. Пример, МВД, на сайте правительства указан mvd.gov.ru, а по факту мвд.рф [1]
2. Инфраструктура почты у большинства госорганов осталась на старых доменах
3. Большая часть информационных систем осталась на старых доменах (не у всех, но у многих). Пример, Росархив [2]
4. Огромное число госпроектов, госучреждений и тд. находятся в других доменах. Пример, системы Росприроднадзора [3]

И так ещё много всего, у меня в реестре госдоменов 192 корневых доменов и больше всего их в зонах msudrf.ru и sudrf.ru в ведении судебного департамента, там есть по сайту на каждый суд.

А пользуясь случаем не могу не напомнить что корневой сервер www.gov.ru [4] - это какой-то бесконечный позор: неполный, неактуальный, бессмысленный и с дизайном из середины 90-х годов

Ссылки:
[1] https://мвд.рф/
[2] http://statistika.archives.ru
[3] https://www.google.com/search?hl=ru&q=site%3A*.fsrpn.ru
[4] http://www.gov.ru/

#government #domains
Пример открытых данных, открытости науки и гражданской науки - это проект SatNOGS [1], сеть гражданских наземных станций мониторинга за движением спутников. Придумано изначально группой энтузиастов в Греции их Афинского hackerspace [2], командой которая позже создала Libre Space Foundation [3], фонда энтузиастов свободного космоса, участники которого успели создать множество устройств включая полностью открытый спутник Upsat [4] созданный по модели open hardware.

Так вот в SatNOGS сейчас 1500 станций (410 из них действуют прямо сейчас) [5] и собрано уже более 1 миллиона датафреймов записей наблюдений [6].

А этот проект и сотни других возникли в рамках NASA Space Apps Challenge [7], глобального всемирного ежегодного конкурса NASA. Из России там ежегодно участвует только Ивановский государственный химико-технологический университет [8].

На мой взгляд такие проекты как SatNOGS - это и есть пример проекта из хорошо состоявшегося конкурса. То чего очень нехватает практически во всех российских конкурсах и хакатонах.

Ссылки:
[1] https://satnogs.org
[2] https://www.hackerspace.gr/
[3] https://libre.space/
[4] https://upsat.gr/
[5] https://network.satnogs.org/stations/
[6] https://db.satnogs.org/stats
[7] https://www.spaceappschallenge.org/
[8] https://2019.spaceappschallenge.org/locations/ivanovo-ivanovskaya-obl

#opendata #openscience #citizenscience #space
Я тут много рассказываю про мониторинг госсайтов в России и репозиторий с их списком который я веду. Тем временем о том как это сделано в других странах на примере США.

В США есть репозиторий команды 18F под названием site-scanning [1] где собран код с помощью которого государственные сайты еженедельно проверяются по множеству критериев и о них собирается очень много всякой информации, от метаданных о ссылках на другие ресурсы, до проверки того какие версии TLS/SSL поддерживаются. Собранные данные доступны через API и для выгрузки [2]. Реестр всех госдоменов доступен на портале search.gov [3] и он же используется для поиска по всем госсайтам. Там даже логика похожая той же что я придерживаюсь - отдельно система редактрования реестра и отдельно списки сайтов в CSV формате.

Среди множества задач для которых такие реестры доменов нужны я выделю только несколько:
- определение что автор письма является госслужащий по домену и тем самым давать или не давать возможность регистрации в той или иной системе
- поиск по сайтам, например, с помощью Google Custom Search Engine или его аналогами
- архивация сайтов национальными архивами
- проверки безопасности и мониторинг обязательности применения HTTPS
- выявление зависимостей от третьих сторон (внешних компонентов)
и ещё много другого.

Ссылки:
[1] https://github.com/18F/site-scanning
[2] https://open.gsa.gov/api/site-scanning-api/#overview
[3] https://search.gov/developer/govt-urls.html

#opendata #api #domains #usa