Ivan Begtin
9.3K subscribers
2.07K photos
3 videos
102 files
4.8K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Удивительное дело насколько все не даёт покоя идея социального рейтинга/антирейтинга и в мире пытаются так или иначе сделать скоринговые системы массовыми. Например, во Франции тестируют рейтинг подозрительности в отношении безработных желающих получить пособия. В статье это называют одним из шагов к дегуманизации общества.

Другой пример с тем что выяснилось что алгоритм проверки заявок на выплату жилищных пособий в Великобритании оказался ошибочным и выдавал 2/3 ложных срабатываний. А это не просто много, это делало его работу, фактически, бесполезной. Сейчас журналисты задаются вопросом зачем же его применяли и то во сколько встало казне его ручная проверка.

До этого в Великобритании уже были сложности с применением алгоритмов по автоматической оценке кредитополучателей , опять же алгоритмом применяемом одним из правительственных департаментов. Тогда алгоритм проверки с помощью ИИ просто отключили.

#privacy #scoring #uk #france #ai
В рубрике как это устроено у них данные кадастра Франции доступны как открытые данные для массовой выгрузки (bulk download) [1] их можно скачать в форматах EDIGEO, DXF или TIFF и использовать в собственных приложениях. Особенность в том что доступны они не через API, а в виде сжатых файлов которые можно скачать одномоментно. Общий объём данных несколько десятков, может быть даже сотен гигабайт в сжатом виде. А также доступны регулярные полные слепки кадастра начиная с февраля 2017 года.

Ссылки:
[1] https://cadastre.data.gouv.fr/
[2] https://cadastre.data.gouv.fr/data/dgfip-pci-vecteur/2024-07-01/edigeo/feuilles/

#opendata #france #datasets #data #cadastre #land
В рубрике как это работает у них открытые данные по доменам в зоне .fr (Франция) на сайте Afnic [1] В том числе руководство [2] (на французском языке).

В общей сложности это данные по 8.7 миллионам доменов, объёмом около 600МБ в формате CSV.

Afnic не является государственной структурой и они не имеют обязательств публиковать данные, но делают это поскольку разделяют ценности открытости.

Ссылки:
[1] https://www.afnic.fr/produits-services/services-associes/donnees-partagees/
[2] https://www.afnic.fr/wp-media/uploads/2021/03/Open-Data-fr-afnic-Guide-Utilisateurs.pdf

#opendata #france #domains
В рубрике как это устроено у них Hakala [1] французский репозиторий данных для гуманитарных и социальных наук. Предоставляет открытое API [2], интерфейс OAI-PMH [3] и содержит чуть менее 800 тысяч цифровых объектов.

Кажется большим, но есть нюансы. Они почти всегда есть с научными репозиториями данных. В данном случае де-факто поиск не данных, а файлов/ресурсов и большая их часть (71%) это изображения, а самих датасетов там не более 1-2 % если к ним относить ещё и карты, большая часть которых, тоже, растровые изображения.

Иначе говоря, если смотреть глазами инженера, аналитика данных или дата сайентиста, то никаких данных там нет, а только фрагментированные первичные данные. Но учёные социологи и гуманитарии к данным, по всей видимости, относят всё что приложено к научной статье, а для гуманитарных статей это обычно изображения, видео, звуки, тексты.

Всё это к философским рассуждениям о том что такое данные и все они сводятся к тому что ответ зависит от того с кем разговариваешь. Кто аудитория? Потому что разные ответы для разных пользователей.

А также, чтобы два раза не возвращаться, ещё один интересный проект за пределами англосферы про систематизацию научных данных - это Cat OPIDoR [2] каталог научных репозиториев данных, баз данных и сервисов для их публикации и обработке во Франции. Отличается тем что сделан на Semantic Mediawiki. В каком-то смысле альтернатива re3data и других каталогов научных дата репозиториев.

Ссылки:
[1] https://nakala.fr
[2] https://api.nakala.fr/doc
[3] https://api.nakala.fr/oai2?verb=Identify
[4] https://cat.opidor.fr

#opendata #data #openaccess #france #datacatalogs
В рубрике как это устроено у них я уже несколько раз писал про проект DBNomics [1] от французского think tank'а Cepremap и поддерживаемый пр-вом Франции.

Это огромный каталог, в основном, макроэкономических показателей из 92 источников, и в виде 35 тысяч датасетов и 1.4 миллиона временных рядов.

Реально огромная база индикаторов из всех ключевых источников. Чем-то похоже на то что у нас в Dateno, с той лишь разницей что в Dateno индикаторы - это лишь часть индексируемых данных и индексируются индикаторы вообще все, а не только экономические, но число источников пока и больше и меньше. Больше потому что сбор из стандартизированных источников, а меньше потому что основные данные не в них а в крупных больших базах индикаторов для которых надо писать отдельные парсеры.

Тем не менее, в нашей трактовке то что в DBNomics называется временным рядом, у нас скорее это датасет. Возможно даже, нам надо добавить отдельную типизацию данных по типам для большей точности.

Глядя на DBNomics всегда возникает вопрос, надо ли его индексировать или рассматривать только как источник информации о каталогах данных? Потому что он не первоисточник и по мере индексации первичных источников будет много дублей. А с другой стороны, данные в нём представлены куда более удобно и с ними легче работать.

До конца года хочется подключить к Dateno ещё хотя бы 5-6 миллионов наборов данных, что не так сложно, как хочется максимальной пользы от этого.

А у DBNomics также, есть открытый код, кстати, хорошее API и вообще это скорее дата продукт полноценный чем просто статистический портал.

Ссылки:
[1] https://db.nomics.world

#opendata #statistics #indicators #france #dateno
Тем временем французы на национальном портале открытых данных Франции data.gouv.fr добавили возможность получать данные в формате Parquet [1]

Какие молодцы!

Ссылки:
[1] https://www.data.gouv.fr/fr/posts/telecharger-des-donnees-massives-au-format-parquet/

#opendata #parquet #france #dataengineering
В рубрике как это устроено у них портал открытых данных Франции data.gouv.fr [1]. Всего на портале опубликовано 61 947 набора данных, на 2 апреля 2025 г, а также 338 точек подключения к API к которым предоставлена документация, есть возможность связаться с разработчиками и тд.

Особенность их портала в большом сообществе из 131.4 тысячи зарегистрированных пользователей и 15.1 тысяче дискуссий вокруг опубликованных датасетов и API.

Параллельно с этим они создают портал открытых научных данных entrepot.recherche.data.gouv.fr [2] на базе продукта Dataverse . Там сейчас чуть менее 7 тысяч наборов данных и список постоянно растёт.

Многие команды и компании публикуют свои проекты сделанные на открытых данных Франции в специальном разделе на сайте [3].

Во Франции порталом занимается их национальная команда Etalab, почти все что они делают является открытым кодом и портал открытых данных создан на непривычном ПО - uData, используемом ещё в паре-тройке стран.

Ссылки:
[1] https://www.data.gouv.fr
[2] https://entrepot.recherche.data.gouv.fr
[3] https://www.data.gouv.fr/fr/reuses/

#opendata #datasets #france #data
В рубрике как это устроено у них о том как управляют публикацией открытых данных во Франции. Частью французского национального портала открытых данных является schema.data.gouv.fr [1] на котором представлено 73 схемы с описанием структурированных данных. Эти схемы охватывают самые разные области и тематики:
- схема данных о государственных закупках
- схема данных о грантах
- схема данных архивных реестров записей
и ещё много других.

Всего по этим схемам на портале data.gouv.fr опубликовано 3246 наборов данных, чуть более 5% от всего что там размещено.

Особенность портала со схемами в том что все они опубликованы как отдельные репозитории на Github созданными из одного шаблона. А сами схемы представлены, либо по стандарту Frictionless Data - тот самый формат про таблицы о котором я писал и он тут называется TableSchema, либо в формате JSONSchema когда данные не табличные. В общем-то звучит как правильное сочетания применения этих подходов.

А для простоты публикации данных по этим схемам у был создан сервис Validata [2] в котором загружаемые данные можно проверить на соответствие этой схеме.

Ссылки:
[1] https://schema.data.gouv.fr
[2] https://validata.fr/

#opendata #datasets #data #datatools #france