Ivan Begtin
8.08K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Access Info пишут [1] о том что Еврокомиссия планирует отозвать обещание по требованию со стран-членов Евросоюза по раскрытию реестров компаний.

Тема эта давняя, о балансе интересов продавцов этих данных и выгоды для рынка от их доступности. Все стороны правы по своему, но политика последних лет была в сторону открытия этих реестров и логики того что сколько бы не зарабатывали страны на продаже доступа к ним, тем не менее экономический эффект от открытия данных куда выше. А сейчас вышел документ оценки влияния этого регулирования и Access Info его раздобыли [2] и уже подготовили свои комментарии [3].

На Impact Assessment стоит обратить внимание ещё и потому что там не только про данные компаний, но и про High Value Datasets и влияние раскрытия данных на экономику.

Ссылки:
[1] https://www.access-info.org/2021-06-03/open-company-registers-eu-at-risk/
[2] https://www.access-info.org/wp-content/uploads/Deloitte-Study-2020.pdf
[3] https://www.access-info.org/wp-content/uploads/2021-06-03-Commission-Impact-Assessment-AIE-Briefing-Note.pdf

#opendata #eu
ВЭБ.РФ представил свой индекс городов [1]. 118 городов и 214 показателей.

Минусы:
- открытых данных нет (вообще никаких данных нет для выгрузки)
- методология написана так словно её нет
- условий использования данных нет

Плюсы:
- показателей много (214 показателей)
- городов много (118 в России, всего вместе с другими городами мира 764)
- если очень захотеть данные можно спарсить

Конечно, прям очень заметно что сделано так чтобы ни один город нельзя было назвать однозначно плохим. Рейтинга нет, просто сотни сравнений по сотням показателей. Я долго думал зачем этот индекс может быть полезен в таком виде и так и не понял. Оценка качества жизни не механистическая работа, там какие-то выводы тоже должны были бы быть.

К пример, в индексе качества жизни ОЭСР они есть [2]. А именно на этот индекс ссылаются авторы, и ещё у ОЭСР есть такая группа показателей как Civic Engagement (Вовлечение граждан), переведённое в русскоязычной версии как Гражданские права [3] и там есть такие показатели как:
- активность избирателей
- социальное неравенство

Вообще же два принципиально разных подхода. У Citysense что я ранее упоминал [4] через методику Евростата, а у ВЭБ.РФ через методику ОЭСР со множеством довольно неожиданных расширений, в моём представлении, не имеющих отношения к городам и к качеству жизни, например, Количество просмотров постов на Тикток на 10 тысяч человек, это прям очень сильно влияет на качество жизни на территории.

Ссылки:
[1] https://citylifeindex.ru/
[2] https://www.oecdbetterlifeindex.org/countries/russian-federation/
[3] https://www.oecdbetterlifeindex.org/ru/countries/russian-federation-ru/
[4] https://yangx.top/begtin/2867

#opendata #lifequality #веб
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Не могу не написать о выступлении по открытости Алексея Херсонцева (статс-секретаря и зам. министра экономического развития РФ). В вопросе нужно было отметить 10 ключевых действий (решений) по открытости, без которых мы сейчас жить не можем, но которые 10 лет назад казались нереальными:

- АИС Мониторинг госсайтов и рейтинги (за >10 лет работы в открытых данных не помню, чтобы кто-то когда-то ссылался на данные рейтинги. Методики не публикуются, рейтинги оценивают только то, что можно оценить автоматически, а оценки измеряются в миллионах баллов с десятками тысячных после запятой);

- Портал открытых данных, на котором опубликовано более 30 тыс. наборов данных (портал корректно не работал ни при запуске, ни после. Последние полтора года портал находится в нерабочем режиме, а количество датасетов на нем вот уже несколько месяцев держится на 20 тыс.);

- "Публикация деклараций, которые опубликованы в формате Excel, а значит фактически являются открытыми данными" (но открытые данные - это не просто машиночитаемые данные, у них много других свойств, например, - наличие лицензии. А Минэкономразвития, кстати, разрабатывало и публиковало Методические рекомендации по открытым данным);

- Портал Российской общественной инициативы (кто-то действительно считает его работающим?);

- Портал Ваш контроль, на котором граждане оценивают госуслуги (опять же, ни один человек не назвал его в контексте открытости ни на одной конференции).

К сожалению, не было сказано ни одного слова про:
- Портал Электронного бюджета, который является кладезью действительно открытых и машиночитаемых данных,
- Не было сказано про публикацию бюджетов на всех уровнях бюджета,
- Не включили и портал ГМУ (на котором публикуются данные бюджетных, автономных и казенных учреждений, и который является уникальным)
- Машиночитаемость данных Минкультуры тоже заслуживает отдельного пункта.

Отдельный лайк Екатерине Шульман за:
- поднятие проблемы о закрытии бюджетных данных в последние годы (правда, только в контексте объема закрытого бюджета, хотя есть и не менее серьезные проблемы с закрытием реестра субсидий и поставщиков по 223-ФЗ);
- озвучивание проблемы удаления деклараций, в т.ч. и за прошлые годы;
- озвучивание проблемы с порталом РОИ.

Впрочем, про открытые данные и порталы Минэкономразвития у меня запланирован отдельный пост.
В The Guardian статья о том что данные это не новая нефть [1] с попыткой описать что данные - это люди. Нельзя сказать что у это описание хоть сколь бы то ни было про экономику сбора данных о потребителях, но, конечно, оно про изменение направления мыслей, запрос на вмешательство регуляторов и опасения людей в том что это они новая нефть.

Ссылки:
[1] https://www.theguardian.com/commentisfree/2021/may/29/data-oil-metaphor-tech-companies-surveillance-capitalism

#opendata #data #dataeconomy
К вопросу о том как сейчас в России обстоит дело с открытостью в целом и открытыми данными:
1. Всё ещё высокий уровень открытости административных данных (деятельность органов власти, базовая информация о лицензировании, выдаче разрешений и тд).
2. Больше открытых данных из государственных информационных систем, в первую очередь в виду роста числа информационных систем и их модернизации. Постепенный рост доступности данных об экономике (ФНС России и др)
3. Снижение открытости как политической ответственности: снижение объёмов раскрытия данных о декларациях чиновников, сокрытие данных о поставщиках по некоторым типам контрактам, сокрытие сведений о субсидиях
4. Снижение числа потребителей открытости: признание инагентами СМИ и НКО, снижение числа независимых СМИ, уголовные дела против журналистов расследователей. Что толку от доступности данных и даже того что госорганы могут ответить на запрос если никто не спросит и не использует?
5. Сохранение низкого уровня открытости всего что связано с качеством жизни, демографией, здравоохранением, правоохраной и образованием. Особенно на гиперлокальном уровне: город, район, муниципалитет.
6. Неработаюющие механизмы соучастия граждан и экспертов в нормотворчестве (игнорирование отзывов граждан по всем ключевым проектам законов и постановлений). Полный отказ от механизма со-написания законопроектов гражданами, ещё примерно 6 лет назад и без возвращения к этой практике.
7. Нефункциональная роль общественных советов при всех органах власти. Никто не может даже подсчитать расходы на их существование. Никто не решается сказать что, как обязательная конструкция, они не работают. А там где польза есть их можно заменить на консультативные органы, которые, ожидаемо, будут состоять из лоббистов.

Если резюмировать, то ситуация следующая.
С одной стороны данных много и вопреки многим другим трендам их становится больше, но... Ровно до тех пор пока кто-то из журналистов расследователей или иных заинтересованных сторон не вскрывают коррупцию или иные нарушения на основе этих данных. После чего именно эти данные закрывают или иным способом ограничивают.

Поэтому экономическая основа у открытости данных ещё есть, а вот политическая основа размывается. А общественная реакция идёт именно на политическую, а не на экономическую или административную открытость. А есть ли кто-то у нас в стране кто оценивает политическую открытость? Нет, таких нет.

#opendata #opengov
Современный отраслевой портал данных выглядит как Allen Brain Map Data Portal [1] и включает не только возможность скачать данные и просмотреть их наглядно, но открытый код в виде SDK, а также документацию, API, научные статьи с результатами и ещё многое другое имеющее отраслевую специфику, в данном случае, в области изучения мозга.

Ссылки:
[1] https://portal.brain-map.org/

#opendata #datascience
Свежий экспериментальный проект от Google по изучению зависимостей в проектах с открытым кодом - Open Source Insights [1].

Даёт немало информации о том какие лицензии используются, от каких проектов проект зависит и какие зависят от него. В целом хорошее подспорье для разработчиков озабоченных юридическими сторонами кода и зависимостями от другого кода.

Пока поддерживаются только управление пакетами: npm, Maven, Cargo, Go. Обещают PyPi и NuGet.

Пока API и данные не опубликовали, но думаю что скоро они тоже появятся.

Ссылки:
[1] https://deps.dev

#opensource
Для тех кто интересуется состоянием открытых данных в России, вот некоторые цифры:
- за 2020 год на федеральном портале открытых данных было опубликовано 223 набора данных, за 5 месяцев 2021 года - только 2 набора данных
- всего с 2020 года объём этих 225 наборов данных - 405 мегабайт из которых более 390 мегабайт - это данные Минкультуры России и ФНС России (и то есть подозрение что цифры завышены потому что в реестре наборов данных есть дублирующиеся записи. Скорее всего реально данных значительно меньше)
- лишь 9 178 наборов данных из 24 002 опубликованы федеральными органами власти, остальные региональными и муниципальными
- 10 ФОИВов не опубликовали ни одного нового набора данных с 2013 года (за 8 лет)
- 20 ФОИВов не опубликовали ни одного нового набора данных с 2015 года (за 6 лет)
- 42 ФОИВа не опубликовали ни одного нового набора данных с 2017 года (за 4 лет)
- 68 ФОИВов не опубликовали ни одного нового набора данных с 2019 года (за 2 года)
- иначе говоря в 2020 и 2021 года лишь 6 ФОИВов разместили хотя бы один новый набор данных на портале открытых данных
- некоторые ФОИВы, при этом, кое что опубликовали на своих сайтах, но куда меньше чем раньше и чем могли бы
- общий объём опубликованных данных на портале data.gov.ru оценить сложно, сайт не даёт статистики, API сайта очень куцое, требуется очень много запросов сделать чтобы подсчитать хоть самые приблизительные цифры, но они будут невелики.
- параллельно этому на сайтах и FTP серверах органов власти опубликовано открытых данных примерно на 20 терабайт. Количественно - это сотни наборов данных, качественно - это данные большого объёма.
- безусловные лидеры по масштабам раскрытия данных - Минкультуры, ФНС России, Федеральное казначейство, Минфин России. Даже при том что тенденции там не только к раскрытию, текущие объёмы доступных данных очень велики.

#opendata #stats
Свежий стартап Stemma [1] по созданию удобного каталога данных получили $4.8m от фонда Sequoia [2] и пишут подробно о том что они делают и собираются делать [3]. Они делают управляемый каталог данных на базе Amundsen [4] продукта каталога данных с открытым кодом ранее опубликованным Lyft. При этом обещают расширение метаданных, создание документации на лету и многое другое.

Всё это очень похоже на основные тренды в развитие корпоративных каталогов данных в мире сейчас:
- автоматическое документирование
- автоматическая классификация структуры данных (полей) и их связывание
- расширяемые структуры метаданных включая автоматическое заполнение метаданных там где возможно
- отслеживание происхождения данных (data lineage)

И ещё довольно много функций необходимых для корпоративных каталогов данных. Продукт у них интересный, надеюсь скоро его можно будет увидеть не только как демо. Тем временем конкуренция на рынке ПО для корпоративной каталогизации данных растёт, продуктов всё больше, автоматизации всё больше. Уже даже просто интересно кто первым заявит о решении AI for data catalogs, ПО с самоорганизацией данных. Не такая уж фантастика это.

Ссылки:
[1] https://www.stemma.ai/
[2] https://techcrunch.com/2021/06/02/stemma-launches-with-4-8m-seed-to-build-managed-data-catalogue/
[3] https://medium.com/stemma/stemma-helping-you-trust-your-data-7b5db9c8923c
[4] https://www.amundsen.io/


#opendata #datacatalogs
Открыто голосование на CIPR Digital [1], премии к конференции ЦИПР. Неожиданно, в номинации цифровых медиа [2] есть и мой канал в телеграм [3]. Не проходите мимо, поддержите голосом, Вам несложно, а мне приятно;)

Ссылки:
[1] https://award.cipr.ru
[2] https://award.cipr.ru/nominanty-cifrovye-media/
[3] https://yangx.top/begtin

#votes #awards
Про текущее состояние открытых данных в России в блоге Инфокультуры на Хабре [1] и там же простой опрос по тому как Вы оцениваете текущую ситуацию. На хабре текст шире чем то что я публиковал ранее и, конечно, позже в течение года будет больше цифр и данных о данных.

Ссылки:
[1] https://habr.com/ru/company/infoculture/blog/562076/

#opendata
Я тоже хотел об этом написать, но Ольга @ahminfin меня опередила. Особенно интересно что во многих странах создали специальные порталы/разделы на порталах по прозрачности расходов, покупки вакцин и иных действий при COVID-19, а у нас даже сайта с данными не создали;)
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Managing Covid Funds: the Accountability Gap

Международное бюджетное партнерство (выпускающее Open Budget Index) опубликовало отчет о том, как Правительства 120 стран реагировали на COVID19 и какие меры бюджетно-налоговой политики принимали.

Исследование сосредоточено на трех важных направлениях подотчетности: доступ граждан к соответствующей информации, механизмы надзора и возможность вовлечения граждан.

С помощью исследователей из 120 стран было отобрано 400 политик (наборов политических инициатив, направленных на устранение последствий ЧС, связанных с COVID-19, в период с марта по сентябрь 2020 года), а затем самый крупный или самый важный документ был оценен с точки зрения прозрачности, надзора и участия.

Результаты исследования опубликованы в виде интерактивного сайта, отчета и данных по каждой стране: https://internationalbudget.org/covid/
В Высшей школе экономики разместили в открытом доступе сервис "Оценка синтаксической сложности нормативных текстов" для проверки языка нормативных документов [1]. Сервис, безусловно, полезный, надеюсь он будет активно применяться российскими нормотворцами, а у каждого законопроекта будет автоматическая оценка его сложности. Ко всему прочему результаты проекта также весьма интересны по оценке сложности российских законов [2] и открытые данные в виде корпуса российских законов [3].

Из пожеланий, сервису нехватает API и подробностей методологии, но и в таком виде он будет полезен.

А я напомню что ещё много лет назад в @infoculture мы создали сервис "Простой русский язык" который даёт оценку сложности любого текста [4]. Этот сервис не так сложно устроен как сервис от НИУ ВШЭ и он не затачивался под законы, а скорее на общедоступные простые тексты. Главное что его код открыт [5] включая все формулы используемые для расчёта. Подробнее о том как он создавался я писал на Хабре несколько лет назад [6]

Я от себя добавлю что давно думаю над актуализацией сервиса по простоте языка, но не могу найти под это ни коммерческого, ни общественного заказчика. Большинство вполне устраивает текущий сервис и другие инструменты, как ни странно. Вот только для нормативных документов он плохо применим, это правда.

Так что надеюсь проект который делает команда НИУ ВШЭ будет развиваться и применяться на практике.

Ссылка:
[1] http://lawreadability.hse.ru
[2] http://lawreadability.hse.ru/project-results/
[3] http://lawreadability.hse.ru/data-sources/
[4] https://plainrussian.ru/
[5] https://github.com/infoculture/plainrussian
[6] https://habr.com/ru/post/239511/

#opendata #plainrussian #plainlanguage
Для тех кто интересуется состоянием госинформатизации, госсайтами и госдоменами и тд. несколько

Это результаты анализа 7694 доменов используемых сайтами органов власти.

Госдомены используемые для эксплуатации государственных информационных систем, прописанных в эксплуатационных и нормативных документах и зарегистрированных на физических лиц
- govprograms.ru - Портал государственных программ Российской Федерации, его часть с которой работают лица ответственные за внесение данных. Прописан в документации сданной подрядчиком по контрактам на его создание и на других ресурсах
- osrpn.ru - сайт общественного совета Росприроднадзора
- fond-kino.ru - сайта федерального фонда социальной и экономической поддержки отечественной кинематографии
- tvroscosmos.ru - сайт телестудии Роскосмоса
- attestatcia.ru - Информационная система "ИС Аттестация" Миннауки и высшего образования РФ
- gosarm.ru - непонятного назначения система Минцифры России
- scmks.ru - ситуационный центр Минцифры России
- rg-des.ru - официальный сайт рабочей группы при Совете при Президенте Российской Федерации по развитию гражданского общества и правам человека по общественному контролю за проведением санитарно-эпидемиологических мероприятий (ощущения официальности, конечно, там минимальное, зато какое название "насыщенное").

Госорганы и структуры при них использующие почту Google для официальной переписки
- president-sovet.ru - совет по правам человека при Президенте РФ
- yadonor.ru - портал ФМБА России
- apkpro.ru - сайт академии Минпросвещения России

Использующие Cloudflare как CDN:
- zhit-vmeste.ru - портал Минтруда "Доступная среда"
- myrosmol.ru - портал Росмолодёжи
- scmks.ru - ситуационный центр Минцифры России

Факты:
- IPv6 используется лишь на менее 0.1% всех госдоменов
- зависимость от зарубежной инфраструктуры реально снизили, раньше почту Google для домена и иные инфраструктурные сервисы использовали чаще

А я напомню что наболее полный реестр госдоменов публикуется в репозитории на Github [1]. Он синхронизирован с большой базой на Airtable где собраны все домены, ASN, информационные системы и связанные с ними сведения. Этот реестр создавался для целей архивации госсайтов, но можно применять и в исследованиях госинфраструктуры. Например, у меня никак не дойдут руки проверить наличие https у госдоменов и протухание сертификатов. Но это уже в сфере инфобеза что в стороне от моих основных интересов, хотя и должно быть в интересах ответственных госорганов.

И, конечно, спектр доменов относящих к гос-ву куда больше. Со всеми бюджетными учреждениями их должно быть около 50-70 тысяч только на федеральном и региональном уровне.

Ссылки:
[1] https://github.com/infoculture/govdomains/

#government #domains
В последнее время реже пишу в канал поскольку был занят к подготовкой к нескольким мероприятиям.

Сегодня в 10 утра доклад на экспертной площадке "Государство как платформа", всё онлайн (происходит в Москве).

А далее с 13 часов по московскому времени (15 по местному) в течение 4 часов в Ханты-Мансийске на ИТ форуме Югра на Форсайт-сессии "Сохранение документально-исторического наследия в эпоху цифровой трансформации" где буду рассказывать про проекты в рамках Национального цифрового архива [1].

Трансляция должна быть на сайте форума [2].

Презентацию я обязательно опубликую онлайн чуть позже пока же скажу что веб-архивация в частности и цифровая архивация - это моё давнее хобби которое стало частью работы в @infoculture. У неё есть историко-культурное применение, но есть и практическое, когда вопрос стоит об архивации, например, порталов открытых данных и иных баз данных.

Ссылки:
[1] https://ruarxive.org
[2] https://itforum.admhmao.ru/2021/

#events #data #government #archives #webarchives
Для тех кто умеет работать с данными, знает английский язык и очень хочет помогать человечеству, в рубрике Вакансии на канале - вакансия Data Engineer [1] для проекта Humanitarian Data Exchange как части деятельности UNOCHA (Управление по координации гуманитарных вопросов при ООН).

Особенно обратите внимание что Qualified female candidates are strongly encouraged to apply. У квалифицированных дата-инженеров женщин явные преимущества.

Ссылки:
[1] https://jobs.unops.org/pages/viewvacancy/VADetails.aspx?id=21896

#data #dataengineering #vacancies
Моя презентация про современную веб-архивацию со вчерашнего мероприятия по цифровым архивам.

Специально для тех кто интересуется тем как устроены современные веб-архивы, как организуется индексация ресурсов, какие инструменты цифровой архивации существуют.

Ссылки:
[1] https://www.beautiful.ai/player/-McI4bfED3MDU9iGX9Q3

#webarchives #archives
А есть и такие новости
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Санкт-Петербург отказался от портала открытых данных

Портал открытых данных Санкт-Петербурга (data.gov.spb.ru), запущенный в 2014 году, теперь перенаправляет пользователей на сайт ИС «Система классификаторов Санкт-Петербурга» (classif.gov.spb.ru). Наборы данных портала открытых данных, судя по всему, были также перенесены.

Причины такого странного объединения непонятны, ведь классификаторы являются частью открытых данных, а вот открытые данные намного шире, чем классификаторы. В конце апреля портал открытых данных еще был доступен :(.