Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Алексей Лукацкий проверил регуляторные документы по инфобезу через наш сервис Простой язык [1] и отметил наиболее сложную нормативку. А я со своей стороны расскажу что когда-то простой русский язык я сделал после того как потратил несколько месяцев на то чтобы адаптировать формулы английского языка под русский. Это было непросто и делал я это, Вы не поверите, брут-форсным перебором нескольких миллионов комбинаций коэффициентов.

Потому что самое главное в этих формулах - это привязка значений к годам обучения. Если формула выдаёт 10 - это означает что 10 лет надо учиться чтобы понять этот текст (примерно 9-11 классы школы), а сложность в 18 означает что учиться надо 18 лет (а то есть 11 классов школы + 5 лет ВУЗа + ещё чему-то, например, в аспирантуре) ну и так далее.

Дело в том что формулы читабельности основаны на нескольких параметрах сложности текста таких как:
- среднее число слов на предложение
- среднее число слогов в словах
- среднее число слогов на предложение
- число сложных слов на предложение
и так далее.

Есть корреляция между сложностью текста и этими и другими параметрами, но как эту корреляцию переложить в формулу? И вот для этого я собирал кучу текстов для внеклассного чтения где были рекомендации для возраста и адаптировал формулы под поиск наименьшего среднего отклонения и наименьшего максимального отклонения. Иначе говоря, если если коэффициенты у формулы должны давать результат при котором максимально допустимое отклонение в оценки сложности текста не более 2, то есть если текст для внеклассного чтения для 9-го класса то алгоритм не может ошибаться в его отношении в пределах 9-11, но не более. А среднее отклонение по всей обучающей выборке должно быть как можно ниже.

Дальше чтобы не вдаваться в сложную математику я просто перебрал все коэффициенты с шагом в 0.01 для всех формул и это заняло около месяца на нескольких домашних компьютерах.
Самой точной оказывалась формула SMOG (Simple Measure of Gobbledygook) с адаптированными коэффициентами поэтому она и является базовой в оценке plainrussian.ru.

Всё это было более 7 лет назад, сам код можно увидеть по ссылке на Github [2]. Сейчас его надо переработать чтобы лучше учитывать определение предложений, лучше понимать бюрократические тексты (нужна отдельная шкала) и ещё многое другое до чего постепенно "доходят руки".

Ссылки:
[1] https://plainrussian.ru
[2] https://github.com/infoculture/plainrussian

#plainlanguage #plainrussian
Математическая оценка качества и читабельности нормативно-правовых актов регуляторов - https://t.co/KI0QJtAQAJ
— Alexey Lukatsky (@alukatsky) March 29, 2021
Я, кстати, регулярно рассказываю что веду пока что наиболее полный реестр госдоменов, включая поддомены в России, он в специальном открытом репозитории доступен в виде дампов [1], а сам домен в базе в Airtable и там собираются и связываются:
- домены - всего 7602
- корневые домены - всего 191
- организации - всего 110
- информационные системы - всего 47
- субъекты федерации - все что имеются
- подсети (ASN) - 161 (включая все подсети хостингов, господрядчиков и тд)

При этом пока совершенно не охвачены власти субъектов федерации, бюджетные учреждения всех уровней да и на федеральном уровне далеко не всё, просто не с чем сравнивать, нет эталонной государственной базы.

Все размеченные и обогащённые доп. данными, например, по подсетям дополнительные сведения по стране и типу владельца, а по каждому домену тип домена, статус, уровень власти, поддержка http, https и ещё многое другое.

Так что на выходе это большая такая база которую я начинал вести только в целях мониторинга доменов для архивации, а сейчас она много для чего ещё годится.

Её можно оставить как есть, можно добавить к ней API, а можно сделать над этой базой веб интерфейс и дать возможность просматривать внесённые туда объекты. Сделать это можно двумя условными способами.
Способ 1: Сделать веб надстройку с поиском и просмотром над базой. Продолжать редактировать в Airtable
Способ 2: Сделать вики и в ней роботом создать веб страницы для каждого домена, каждой подсети и других объектов. А дальше переходить в Вики для редактирования и вести базу как базу знаний, в том числе другие могут пополнять эту базу знаний.

Ссылки:
[1] https://github.com/infoculture/govdomains/

#opendata #opengov #it #domains
Нужен ли веб интерфейс над базой государственных доменов?
anonymous poll

Да, нужен в виде поиска и просмотра сведений по объекту – 49
👍👍👍👍👍👍👍 60%

Нет, не нужен, лучше бы было API – 11
👍👍 13%

Да, нужен в виде вики которую можно было бы редактировать/пополнять – 10
👍 12%

Я просто хочу посмотреть результаты опроса – 7
👍 9%

Нет, не нужен, самое главное чтобы база была максимально полная – 5
👍 6%

👥 82 people voted so far.
Пока все обсуждают случайное открытие кода у подрядчика ФНС, я не могу не напомнить что в России есть ещё один ФОИВ который, уже видимо добровольно, публикует исходный код в Gitlab.

По адресу gitlab.rpn.gov.ru/explore [1] общедоступные репозитории Росприроднадзора, почему про про эскорт службу в Мумбаи. Вернее понятно почему, потому что админы оставили возможность регистрации пользователей ну вот спамеры и проснулись.

Даже не знаю что сказать. Молодцы ребята!

Ссылки:
[1] https://gitlab.rpn.gov.ru/explore

#oss #gitlab #rpn
То о чём говорили свершилось (с) итак, встречайте, неудаляемое отечественное преустановленное ПО на телефонах Самсунг
Почему необходимо архивировать государственные сайты? Потому что они исчезают. Например, архив ВАК существует за 2014-2019 годы [1]. А вот архив ВАК за 2004-2013 годы ранее располагался по адресу vak1.ed.gov.ru и уже недоступен [2] и неизвестно можно ли получить доступ к этим данным если сделать запрос в Минобрнауки РФ. И, конечно, нет какого-то централизованного официального архива выведенных из эксплуатации госсайтов и сайтов связанной с деятельностью госорганов и их подведов.

К счастью, конкретно этот сайт и ещё ряд сайтов из старой системы ВАКа были полностью нами заархивированы в 2017 году [3], но лежат они в виде WARC файлов в десятки гигабайт. Для поиска по этим материалам надо делать интерфейс на который в нашем цифровом архиве ruarxive.org [3] никогда не было достаточных ресурсов. И, по хорошему, вопрос долгосрочной доступности госданных должен быть государственной темой, а не общественной деятельностью.

А пока если Вам нужны архивные материалы ВАК с vak1.ed.gov.ru, то Вы знаете где их найти.

Ссылки:
[1] http://arhvak.minobrnauki.gov.ru/
[2] http://vak1.ed.gov.ru/
[3] https://hubofdata.ru/dataset?q=vak
[4] http://ruarxive.org

#archives #web #webarchive
CitizenLab, бельгийский стартап и разработчики платформы по вовлечению граждан, решили перевести её полностью в открытый код [1]. Код ядра платформы они выложили в открытый доступ [2]. Они публикуют код по модели open core [3], это когда код изначально ориентирован на монетизацию и, например, код платформы CitizenLab существует под двумя лицензиями - GNU Affero и CitizenLab Commercial License v1. Это не то чтобы признаётся сообществом и вообще такие лицензии часто отталкивают потенциальных контрибьюторов, но для аудита безопасности кода это само по себе неплохо.

Почему CitizenLab это делают? За кадром их доброй воли существование других полностью open source продуктов для электронного соучастия граждан. Например, Consul [4], доступно под лицензией GNU Affero [5], внедрено в 35 странах и 135 организациях с охватом в 90 миллионов человек. В первую очередь используется для Participatory budgeting (Партисипаторного бюджетирования), но не только. Много применений и для других задач оцифровизации демократии (голосования, сонаписания законов и так далее).

А я напомню что таких платформ в мире немало:
- Cap collectif [6] (Франция, закрытый код)
- Delib Citizen Space [7] (Великобритания, закрытый код)
- Decidim [8] (открытый код, GNU Affero License, наиболее активная альтернатива Consul)

и ещё около 20 других, с открытым кодом и коммерческих. Уже много лет большой бум их внедрения идёт в Испании и Франции, а далее в Латинскую Америку.

Ссылки:
[1] https://www.citizenlab.co/blog/civic-engagement/heres-why-we-are-going-open-source/
[2] https://github.com/CitizenLabDotCo/citizenlab
[3] https://en.wikipedia.org/wiki/Open-core_model
[4] https://consulproject.org/
[5] https://github.com/consul/consul/
[6] https://cap-collectif.com/
[7] https://www.delib.net/
[8] https://decidim.org/

#opensource #opendialog
Да, я давно хочу написать по поводу переноса госдоменов ФОИВов в зону .gov.ru. Цель, конечно, благая, локализовать домены органов власти и госучреждений в этой зоне правильно, но... Всегда есть но, и мне есть что сказать:
1. Перенесли не все ФОИВы. Пример, МВД, на сайте правительства указан mvd.gov.ru, а по факту мвд.рф [1]
2. Инфраструктура почты у большинства госорганов осталась на старых доменах
3. Большая часть информационных систем осталась на старых доменах (не у всех, но у многих). Пример, Росархив [2]
4. Огромное число госпроектов, госучреждений и тд. находятся в других доменах. Пример, системы Росприроднадзора [3]

И так ещё много всего, у меня в реестре госдоменов 192 корневых доменов и больше всего их в зонах msudrf.ru и sudrf.ru в ведении судебного департамента, там есть по сайту на каждый суд.

А пользуясь случаем не могу не напомнить что корневой сервер www.gov.ru [4] - это какой-то бесконечный позор: неполный, неактуальный, бессмысленный и с дизайном из середины 90-х годов

Ссылки:
[1] https://мвд.рф/
[2] http://statistika.archives.ru
[3] https://www.google.com/search?hl=ru&q=site%3A*.fsrpn.ru
[4] http://www.gov.ru/

#government #domains
Пример открытых данных, открытости науки и гражданской науки - это проект SatNOGS [1], сеть гражданских наземных станций мониторинга за движением спутников. Придумано изначально группой энтузиастов в Греции их Афинского hackerspace [2], командой которая позже создала Libre Space Foundation [3], фонда энтузиастов свободного космоса, участники которого успели создать множество устройств включая полностью открытый спутник Upsat [4] созданный по модели open hardware.

Так вот в SatNOGS сейчас 1500 станций (410 из них действуют прямо сейчас) [5] и собрано уже более 1 миллиона датафреймов записей наблюдений [6].

А этот проект и сотни других возникли в рамках NASA Space Apps Challenge [7], глобального всемирного ежегодного конкурса NASA. Из России там ежегодно участвует только Ивановский государственный химико-технологический университет [8].

На мой взгляд такие проекты как SatNOGS - это и есть пример проекта из хорошо состоявшегося конкурса. То чего очень нехватает практически во всех российских конкурсах и хакатонах.

Ссылки:
[1] https://satnogs.org
[2] https://www.hackerspace.gr/
[3] https://libre.space/
[4] https://upsat.gr/
[5] https://network.satnogs.org/stations/
[6] https://db.satnogs.org/stats
[7] https://www.spaceappschallenge.org/
[8] https://2019.spaceappschallenge.org/locations/ivanovo-ivanovskaya-obl

#opendata #openscience #citizenscience #space
Я тут много рассказываю про мониторинг госсайтов в России и репозиторий с их списком который я веду. Тем временем о том как это сделано в других странах на примере США.

В США есть репозиторий команды 18F под названием site-scanning [1] где собран код с помощью которого государственные сайты еженедельно проверяются по множеству критериев и о них собирается очень много всякой информации, от метаданных о ссылках на другие ресурсы, до проверки того какие версии TLS/SSL поддерживаются. Собранные данные доступны через API и для выгрузки [2]. Реестр всех госдоменов доступен на портале search.gov [3] и он же используется для поиска по всем госсайтам. Там даже логика похожая той же что я придерживаюсь - отдельно система редактрования реестра и отдельно списки сайтов в CSV формате.

Среди множества задач для которых такие реестры доменов нужны я выделю только несколько:
- определение что автор письма является госслужащий по домену и тем самым давать или не давать возможность регистрации в той или иной системе
- поиск по сайтам, например, с помощью Google Custom Search Engine или его аналогами
- архивация сайтов национальными архивами
- проверки безопасности и мониторинг обязательности применения HTTPS
- выявление зависимостей от третьих сторон (внешних компонентов)
и ещё много другого.

Ссылки:
[1] https://github.com/18F/site-scanning
[2] https://open.gsa.gov/api/site-scanning-api/#overview
[3] https://search.gov/developer/govt-urls.html

#opendata #api #domains #usa
Этот выпуск рассылки [5] я решил целиком и полностью посвятить совсем нешуточному регулированию о предустановке отечественного ПО, оно вступило в силу с 1-го апреля и уже начались публикации о том что производители предустанавливают приложения как неудаляемые (пример - Samsung) [1].

Если говорить про устройства на базе iPhone и Android, то список включает 16 приложений [2] и вот по ним всем мы и пройдёмся и разберемся что с ними так или не так. А нашим помощником будет база данных Exodus Privacy [3] с результатами выявления внешних трекеров в этих приложениях.

Краткие выводы
- Все коммерческие приложения обязательные к предустановке содержат трекеры используемые в рынке AdTech и передают сведения о действиях пользователей компаниям в других юрисдикциях.
- Приложения передают сведения компания в юрисдикциях таких стран как: США, Германия, Индия, Израиль, Норвегия, Китай
- Компании которым передаются сведения из приложения обязательных к предустановке включают: Google, Yahoo, Microsoft, Huawei, BitStadium, Facebook, InMobi, AppsFlyer, Schibsted, Upland, AOL, Unity, MixPanel, Adjust.
- Регулятором в лице Минцифры и законодателями в лице Правительства РФ (инициатор закона) и ГД РФ (федеральный законодательный орган) не установлены требования по передаче персональных данных и отслеживания третьим сторонам и в другие юрисдикции.
- В связи с тем что регулятор и законодатель обязали предустановку этих приложений на российские устройства и их установка не является добровольной, де-факто, они взяли на себя ответственность за передачу персональных данных граждан третьим лицам в юрисдикции других стран.

Я напомню наше предыдущее исследование [4] по приватности государственных мобильных приложений, там есть пояснения о том что такое внешние трекеры и как всё это устроено.

Подробности по каждому приложению в сегодняшней утренней рассылке [5].

P.S. Я долго думал не использовать ли какой-нибудь "жареный заголовок" типа "Минцифры обязало сливать данные россиян в Китай, США и Индию" или "Помощь отечественным производителям или зарубежным разведкам?" или "Отечественные приложения - это иностранные шпионы?" и ещё много такого.

А вместо этого, обратите внимание, пишу вот такой сдержанный, конструктивный, не циничный, а где-то даже полезный текст с обозначением недостаточного и незавершённого регулирования рынка AdTech со стороны российских законодателей и регуляторов которое и приводит к текущей, весьма плачевной ситуации.

Ссылки:
[1] https://www.rbc.ru/technology_and_media/31/03/2021/6064ae8c9a7947252d3e69d3
[2] https://habr.com/ru/news/t/536308/
[3] https://reports.exodus-privacy.eu.org/en/
[4] https://privacygosmobapps.infoculture.ru/
[5] https://begtin.substack.com/p/15

#privacy #government #apps #mobile
Для тех кто интересуется как идёт работа с открытыми данными в мире, в Евросоюзе проходит их ежегодный EU Datathon [1], марафон проектов на открытых данных, повторяющийся каждый год с 2017 года. Общий призовой фонд 99 тысяч евро (8.8 миллиона рублей) по трём номинациям, максимальный приз за первое место 18 тысяч евро (1.6 миллиона рублей).

Что характерно - это правильные акценты, в EU Datathon четко артикулируется что это ежегодное соревнование по открытым данным (annual open data competition), а не просто какой-то другой конкурс или хакатон. И то что главный смысл в использовании открытых данных Евросоюза, для новых приложений или для доработки существующих.

Но, самое интересное, это возможность участвовать в их Datathon'е из других стран, в правилах прописано что The competition is open worldwide to anyone, так что ничто не ограничивает ни физ. лиц ни юр. лиц из стран за пределами Евросоюза. До 21 мая можно подать заявки и войти в короткий список который будет анонсирован 11июня.

Тут, конечно, надо оговориться что не всё так замечательно, важно учитывать два фактора:
1. К российским проектам за пределами России сейчас очень предубеждённое отношение и нельзя быть уверенными что эта предубежденность тут не сработает.
2. Европейская бюрократия - ничуть не лучше всех остальных. Ну разьве что, в отличие от российской, куда меньше пиара, зато куда точнее и эффективнее целеполагание.
3. Конечно, надо учитывать всё это российское регулирование про инагентов, поэтому от российских НКО участвовать, конечно, странно.

С другой стороны - конкурсы на весь мир - это всегда возможность показать себя за пределами национальных границ и тусовок.

А заканчивается это соревнование EU Open Data Days [2], двумя данными конференции EU Data Viz, куда также можно направить заявку на выступление и EU представлением проектов финалистов.

P.S. Кстати, должен сказать что за время проведение конкурсов и хакатонов в России у нас было немало проектов которые значительно превосходили по проработке те же проекты-победители EU Datathon за прошлые годы, разница в том что в Евросоюзе куда больше соучастников/соорганизаторов таких мероприятий и у проектов/команд куда больше возможностей для последующего развития проектов, а почти все конкурсы и хакатоны в России что я знаю заканчивались, увы, тем что проекты "повисали в воздухе". И это системная проблема, о которой отдельный разговор необходим.

Ссылки:
[1] https://op.europa.eu/en/web/eudatathon
[2] https://op.europa.eu/en/web/euopendatadays

#opendata #eu #datathon #competition
В Евросоюзе официально открылся проект Open Research Europe [1], портал для официальной открытой публикации научных исследований в рамках программы Horizon 2020. Он специально сделан по модели открытого доступа и всё что учёные размещают там будет доступно без ограничений. 24 марта был официальный пресс-релиз Еврокомиссии [2], а также есть подробная инфографика по процессу публикации [3]

На что можно обратить внимание так это то что Евросоюз пошёл не по модели "уговаривания" коммерческих печатных домов на переход к режиму открытого доступа (open access), а создали собственную платформу с DOI, peer review, бесплатным размещением и отсутствием административной нагрузки. Конечно, пока только в рамках программ исследований самого Евросоюза таких как Horizon и в волонтерском режим, но сам путь показателен.

Ссылки:
[1] https://open-research-europe.ec.europa.eu
[2] https://ec.europa.eu/commission/presscorner/detail/en/IP_21_1262
[3] https://op.europa.eu/o/opportal-service/download-handler?identifier=b5a8eee0-1811-11eb-b57e-01aa75ed71a1&format=pdf&language=en&productionSystem=cellar&part=

#openaccess #openscience #eu
В продолжение про трекеры в приложениях обязательных к предустановке:
1. Если для кого-то было сюрпризом, то я, если что, предупреждал об этом ещё 2 месяца назад что к 1 апреля я (или не я, а кто-то), но такой анализ будет проведён. Вот он и был проведён и все были предупреждены;)
2. Из разработчиков приложений отреагировали только из Яндекс.Браузера что там нет пары трекеров InMobi и Flurry и это ошибка в Exodus Privacy. Такое возможно, и сервис мог ошибится в идентификации, а на самом деле это Facebook Analytics. Кардинально это ситуацию не меняет.
3. Да, наличие кода SDK не даёт гарантии что данные передаются, а только указывают на принципиальную возможность и наличие кода для этого. Но, надо понимать, что реально передаётся больше данных. Потому что статический анализ кода не учитывает код написанный разработчиками без SDK и не учитывает то какие данные и в каком объме собираются самим владельцем приложения. Иначе говоря, наличие кода SDK из рынка AdTech - это достаточный повод чтобы "подозревать разработчика приложения во всех грехах связанных с возможным применением этого кода".

А в остальном я ещё раз хочу повторить мысль. Пока предустановка приложений не была обязательной, то что пользователь ставит себе на телефон - это его ответственность. А с того момента как список приложений был определён - это ответственность Минцифры и Правительства РФ которые всё это регулирование ввели. А ведь можно было бы сделать всё совсем по другому, но решили так поддержать мировый рынок AdTech. Почему бы и нет, в самом деле, ведь у нас "люди - это новая нефть" (иронично).

#privacy #mobileapps
Руфус Поллок, основатель Open Knowledge Foundation и многолетний создатель портала CKAN используемого для открытых данных пишет в блоге проекта о том не пришло ли время для headless DMS [1] как безголовой системы управления данными по аналогии с headless CMS, безголовыми системами управления контентом.

Для тех кто мог пропустить такое явление как headless CMS - это такой вид системы управления контентом у которой нет интерфейса для пользователя. Да, звучит странно, но тем не менее. Идея headless CMS в том чтобы отделить создание контента от его отображения. Идея не новая, но получившая сильное развитие с появлением мобильных приложений. В headless CMS редаторы контента вносят тексты/медиа/иные материалы, система раздаёт этот контент через API, а для его отображения делаются мобильные приложения работающие с API напрямую и веб-приложения также работающие через API. Примеры таких продуктов - Contentful, GraphCMS, Strapi и ещё многие другие. Многие из них существуют только как веб-сервис, другие имеют форму открытого кода, но главное в том что они постепенно становятся мэйнстримом. Airtable который я использую для ведения многих таблиц и баз данных - это тоже подвид headless CMS, во всяком случае это одно из частых если не основных областей применения такого продукта.

Возвращаясь к данным, системы управления данными, Data Management Systems, тоже бывают headless. Например, корпоративные каталоги данных код которых открывали LinkedIn, Uber, Facebook и другие, как раз построены по модульному принципу с веб интерфейсов отделенным от системы управления метаданными, а регистрация данных почти вся происходит через API. Это не совсем headless DMS, поскольку headless предполагает, всё же, наличие интерфейса администратора, но близко к тому. А вот CKAN - это всегда был цельный продукт включающий API, сервисы, веб интерфейс отображения и администрирования. Иначе говоря очень похоже на классическую CMS, но со специализацией на данных.

Об этом и пишет Руфус Поллок, плюс за кадром остаётся то что довольно много стартапов в последнее время появляется вокруг похожих задач и целей. Например, Qri [2], совершенно замечательнейший набор инструментов в виде командной строки, десктопного приложения и облака реестра данных qri.cloud с открытым кодом всего кроме реестра данных и облака. Если бы они пошли по пути открытия кода облачной/серверной части то довольно было поубивали бы множество проектов каталогов открытых данных, потому что продукт сделан хорошо. Но скорее всего они так поступить не могут, потому что инвестиции, стартап и что-то им надо монетизировать и они пытаются монетизировать центральный репозиторий, а это ровно то от чего никто не хочет зависеть, ключевой компонент под контролем одной коммерческой компании.

Есть и другие похожие инициативы, я регулярно о них пишу и их всё больше. Поэтому headless DMS это вполне актуальная тема и уже есть много надстроек над CKAN где веб интерфейс CKAN'а не использовался, а только и исключительно API. К примеру, поисковик по данныи в Австралии Magda.io построен через агрегацию данных в DCAT формате (API CKAN и др.)

Ну а если создавать новые каталоги данных, то, по хорошему, конечно их надо создавать headless или, хотя бы, многокомпонентными по аналогии с Qri.

Ссылки:
[1] https://ckan.org/2021/03/17/is-it-time-for-headless-dms/
[2] http://qri.io

#opendata #data #datacatalogs
Я всё искал живые примеры того как хорошо/плохо построена работа с данными и сколько иллюзий у граждан/бизнеса/пользователей. Многие, например, думают что госорганизации публикуют плохие данные специально, а где-то внутри и тайно хранят и используют хорошие. Такое бывает очень редко, а чаще миром правит худоумие, а не хитроумие. О многих историях об этом написать нельзя по разным причинам, но о каких-то публичных и общедоступных более чем необходимо.

Рассмотрим пример, Центр по лицензированию, сертификации и защите государственной тайны ФСБ России [1] в открытом доступе публикует 4 реестра [2], все в формате .docx файлов:
- Реестр лицензий на деятельность, связанную с шифровальными (криптографическими) средствами
- Реестр лицензий на деятельность по разработке и производству средств защиты конфиденциальной информации
- Реестр лицензий на деятельность по выявлению электронных устройств
- Реестр лицензий на деятельность, связанную с оборотом СТС

Среди них, первый реестр, лицензий на деятельность, связанную с шифровальными (криптографическими) средствами - это файл MS Word (.docx) состоящий из одной таблицы в 1985 страниц и 4880 записи. Алексей Лукацкий ранее писал что этот файл с коллосальным трудом открывается, действительно, это аномально вести реестр таким образом. Для тех у кого не получится его открыть, я когда-то делал специальную утилиту docx2csv [4], она умеет вытаскивать таблицы из .docx файлов и сохранять их как серию файлов CSV или один XLSX.

Поэтому то что этот и остальные реестры публикуются в docx формате - это проблема, но проблема скорее культурная. Если бы в центре реально хотели делать это максимально вредным способом то публиковали бы реестр в виде отсканированного PDF файла с утверждающей подписью руководителя и аргументами что "только так можно дать ему юридическую значимость". Но, слава Богу, это не наш случай. Наш случай - это культура ведения реестра.

Сравнительно недавно я делал другую утилиту для командной строки, undatum [5] специально для разного рода операций преобразования и проверки данных и с её помощью регулярно проверяю разного рода официальные реестры на достоверность самых базовых реквизитов ИНН и ОГРН. Причём на уровне самой-самой простой проверки на валидность, даже без поиска по ЕГРЮЛ, проверки соответствия наименованию, кросс-валидации и так далее.

Так вот из 4880 записей у 191 (3,9%) недостоверные сведения в поле ОГРН и у 120 (2.4%) недостоверные сведения в поле ИНН. Чаще это отсутствие кода, реже это неверно введённые коды. Всего есть 16 организаций в сведениях о которых нет указаний на их коды ИНН и ОГРН одновременно. Причём все они не секретны, у многих, например, АО КБ "Хлынов", есть другие лицензии в этом же реестре и при этом заполненные реквизитами.

Являются ли эти данные достоверными? Где совершена ошибка: при их внесении, при подаче заявки на лицензию заявителем или, быть может, логичнее предположить ещё на этапе организации ведения реестра. Если он ведётся даже не в Excel и уж точно для него нет даже самой простой системы ведения реестров, если у него нет синхронизации и проверки с ЕГРЮЛ, если у него нет регламента ведения и так далее, то в нём как и в сотнях других реестров государства и опубликованных данных - будут ошибки. Эти ошибки накапливаются и итоговые системы принятия решений основанные на этих данных дают значительные искажения.

Напомню что я писал о подобных случаях с реестрами Минюста, Минцифры, Минэкономразвития, Федерального Казначейства и других органов власти. Качество данных государства - это общая проблема, пока мало кем решённая.

Ссылки:
[1] http://clsz.fsb.ru
[2] http://clsz.fsb.ru/clsz/license.htm
[3] https://yangx.top/alukatsky/3880
[4] https://github.com/ivbeg/docx2csv
[5] https://github.com/datacoon/undatum

#opendata #dataquality #registries
Ну что друзья, я таки удостоился отдельного пресс релиза от Минцифры РФ [1], правда без упоминания меня лично или Инфокультуры, но я и на такое не рассчитывал. А из пресс-релиза мы можем узнать две мысли:
- ПО можно удалить (а как же Самсунг;))
- "Вам никто ничего не навязывает, Вы со всем можете ознакомиться при установке" (с)

На это я повторяю ещё раз ещё один ключевой тезис. С момента обязательности предустановки ПО на телефоны граждан России ответственность за передачу данных из приложений в рамках этой предустановки лежит полностью на регуляторе и законодателях - Минцифре и Правительстве РФ. Лезть в регулирование рынка AdTech не разобравшись в нём было глупо, а если разобравшись то совсем цинично.

Ссылки:
[1] https://digital.gov.ru/ru/events/40734/

#privacy #digital