Полезные ссылки про данные, технологии и не только:
- Towards Inserting One Billion Rows in SQLite Under A Minute [1] заметка 2021 года о том как высокопроизводительно загружать миллиарды строк а базы SQLite. Актуально для всех кто делает высокопроизводительные системы не имея больших бюджетов.
- GROBID [2] переводится как GeneRation Of BIbliographic Data, инструментарий с открытым кодом по извлечению структурированного содержания из PDF файлов, особенно применяется к научным статьям. Активно используется для извлечения библиографических данных.
- Depsy [3] онлайн база цитирования пакетов с открытым кодом в научных статьях. От той же команды что делает OpenAlex. Этот проект более не развивается уже лет 7, а жаль, но исходный код доступен как и API.
- Cadent Open Data [4] раздел с открытыми данных в Cadent, британской газовой компании. Открытые данные прописаны в стратегии цифровизации и отдельный портал с данными [5] которые раскрываются по регуляторным требованиям и инициативами по data sharing
- Schneider Electric Datasets [6] коллекция наборов данных на портале для разработчиков Schneider Electric. В основном данные по энергопотреблению. Бесплатные, но требуют регистрации
Ссылки:
[1] https://avi.im/blag/2021/fast-sqlite-inserts/
[2] https://grobid.readthedocs.io/en/latest/
[3] http://depsy.org
[4] https://cadentgas.com/reports/open-data
[5] https://cadentgas.opendatasoft.com/pages/welcome/
[6] https://exchange.se.com/develop/developer-resources?source=developerResources&developerResources=Datasets
#opendata #opensource #readings
- Towards Inserting One Billion Rows in SQLite Under A Minute [1] заметка 2021 года о том как высокопроизводительно загружать миллиарды строк а базы SQLite. Актуально для всех кто делает высокопроизводительные системы не имея больших бюджетов.
- GROBID [2] переводится как GeneRation Of BIbliographic Data, инструментарий с открытым кодом по извлечению структурированного содержания из PDF файлов, особенно применяется к научным статьям. Активно используется для извлечения библиографических данных.
- Depsy [3] онлайн база цитирования пакетов с открытым кодом в научных статьях. От той же команды что делает OpenAlex. Этот проект более не развивается уже лет 7, а жаль, но исходный код доступен как и API.
- Cadent Open Data [4] раздел с открытыми данных в Cadent, британской газовой компании. Открытые данные прописаны в стратегии цифровизации и отдельный портал с данными [5] которые раскрываются по регуляторным требованиям и инициативами по data sharing
- Schneider Electric Datasets [6] коллекция наборов данных на портале для разработчиков Schneider Electric. В основном данные по энергопотреблению. Бесплатные, но требуют регистрации
Ссылки:
[1] https://avi.im/blag/2021/fast-sqlite-inserts/
[2] https://grobid.readthedocs.io/en/latest/
[3] http://depsy.org
[4] https://cadentgas.com/reports/open-data
[5] https://cadentgas.opendatasoft.com/pages/welcome/
[6] https://exchange.se.com/develop/developer-resources?source=developerResources&developerResources=Datasets
#opendata #opensource #readings
Для разнообразия, следующим постом опрос Что делать с развитием открытых данных в России? А пока вы ещё не прочитали сам опрос и не начали его проходить, важный вопрос в том что вообще делать. Лично мне, в каком-то смысле, это проще в той части что есть области жизни которым текущая политическая ситуация в РФ не мешает. Не помогает, но и не мешает. И своё любопытство в данных я всегда могу наполнить в Dateno или в Open Data Armenia. Но в России тренды не в развитие открытости. Так что вот такой далее опрос;)
#opendata #russia #polls
#opendata #russia #polls
Можно подвести и прокомментировать итоги опроса, всего 216 проголосовавших это неплохо для такой не самой широкой темы.
- Большинство поддерживают большую открытость данных для исследователей и я тут соглашусь, это важная тема во всех смыслах, развитая во всех странах где есть живая наука и, почему-то, запущенная в России.
- В том чтобы продолжать убеждать далее чиновников главная сложность в том что госинициативы, либо мертвы вспомним data.gov.ru, либо постепенно гибнут, вспомним opendata.mkrf.ru или бессмысленны, вспомним многие региональные порталы. Нужна точка опоры, а этой точки опоры сейчас нет(
- Дататоны и премии - это то о чём я давно думаю и как только будет окончательно понятен формат и темы мы такое сделаем от Инфокультуры и партнёров. Если, кстати, Вы готовы быть спонсорами таких дататонов и премий или видите модели партнёрства по ним - напишите мне
- Убедить бизнес публиковать данные - это давняя моя цель, пока плоходостижимая потому как российский бизнес до открытого кода то дозрел не так давно, а с данными ещё сложнее. Но руки здесь опускать не стоит
В целом опрос на удивление оптимистичный, я думал что гораздо больше читателей отреагируют что "уже ничего не исправить".
#opendata
- Большинство поддерживают большую открытость данных для исследователей и я тут соглашусь, это важная тема во всех смыслах, развитая во всех странах где есть живая наука и, почему-то, запущенная в России.
- В том чтобы продолжать убеждать далее чиновников главная сложность в том что госинициативы, либо мертвы вспомним data.gov.ru, либо постепенно гибнут, вспомним opendata.mkrf.ru или бессмысленны, вспомним многие региональные порталы. Нужна точка опоры, а этой точки опоры сейчас нет(
- Дататоны и премии - это то о чём я давно думаю и как только будет окончательно понятен формат и темы мы такое сделаем от Инфокультуры и партнёров. Если, кстати, Вы готовы быть спонсорами таких дататонов и премий или видите модели партнёрства по ним - напишите мне
- Убедить бизнес публиковать данные - это давняя моя цель, пока плоходостижимая потому как российский бизнес до открытого кода то дозрел не так давно, а с данными ещё сложнее. Но руки здесь опускать не стоит
В целом опрос на удивление оптимистичный, я думал что гораздо больше читателей отреагируют что "уже ничего не исправить".
#opendata
Совсем не первоапрельская новость, закрывается проект openSNP [1] о чём пишет его создатель у себя в блоге [2]. Это была и пока ещё есть открытая база расшифрованных геномов позволявшая искать родственников, делиться результатами расшифровки генома с другими, а исследователям ещё и находить связи между генотипом и фенотипом.
Причин закрытия проекта множество, важнейшая озвучиваемая автором - это всё большее внимание к этим данным со стороны авторитарных властей. Важно то что пользователи могли делиться добровольно своими данными с исследователями.
В рассуждениях автора стоит ещё и почитать об общем кризисе открытых проектов - открытого кода, репозиториев, Википедии и др. Причины разные, но связанные - это хайп вокруг ИИ, неэтичные ИИ боты и др.
Я к этим мыслям добавлю лишь то что о кризисе движений за открытость слышу уже давно и оно звучит именно в контекстах отступления от демократии и том что "ИИ пожирает всё". Это демотивирует многих
А судьба проекта openSNP, безусловно, печалит.
Ссылки:
[1] https://opensnp.org
[2] https://tzovar.as/sunsetting-opensnp/
#opendata #openaccess #genetics #data
Причин закрытия проекта множество, важнейшая озвучиваемая автором - это всё большее внимание к этим данным со стороны авторитарных властей. Важно то что пользователи могли делиться добровольно своими данными с исследователями.
В рассуждениях автора стоит ещё и почитать об общем кризисе открытых проектов - открытого кода, репозиториев, Википедии и др. Причины разные, но связанные - это хайп вокруг ИИ, неэтичные ИИ боты и др.
Я к этим мыслям добавлю лишь то что о кризисе движений за открытость слышу уже давно и оно звучит именно в контекстах отступления от демократии и том что "ИИ пожирает всё". Это демотивирует многих
А судьба проекта openSNP, безусловно, печалит.
Ссылки:
[1] https://opensnp.org
[2] https://tzovar.as/sunsetting-opensnp/
#opendata #openaccess #genetics #data
В рубрике как это устроено у них портал открытых данных Франции data.gouv.fr [1]. Всего на портале опубликовано 61 947 набора данных, на 2 апреля 2025 г, а также 338 точек подключения к API к которым предоставлена документация, есть возможность связаться с разработчиками и тд.
Особенность их портала в большом сообществе из 131.4 тысячи зарегистрированных пользователей и 15.1 тысяче дискуссий вокруг опубликованных датасетов и API.
Параллельно с этим они создают портал открытых научных данных entrepot.recherche.data.gouv.fr [2] на базе продукта Dataverse . Там сейчас чуть менее 7 тысяч наборов данных и список постоянно растёт.
Многие команды и компании публикуют свои проекты сделанные на открытых данных Франции в специальном разделе на сайте [3].
Во Франции порталом занимается их национальная команда Etalab, почти все что они делают является открытым кодом и портал открытых данных создан на непривычном ПО - uData, используемом ещё в паре-тройке стран.
Ссылки:
[1] https://www.data.gouv.fr
[2] https://entrepot.recherche.data.gouv.fr
[3] https://www.data.gouv.fr/fr/reuses/
#opendata #datasets #france #data
Особенность их портала в большом сообществе из 131.4 тысячи зарегистрированных пользователей и 15.1 тысяче дискуссий вокруг опубликованных датасетов и API.
Параллельно с этим они создают портал открытых научных данных entrepot.recherche.data.gouv.fr [2] на базе продукта Dataverse . Там сейчас чуть менее 7 тысяч наборов данных и список постоянно растёт.
Многие команды и компании публикуют свои проекты сделанные на открытых данных Франции в специальном разделе на сайте [3].
Во Франции порталом занимается их национальная команда Etalab, почти все что они делают является открытым кодом и портал открытых данных создан на непривычном ПО - uData, используемом ещё в паре-тройке стран.
Ссылки:
[1] https://www.data.gouv.fr
[2] https://entrepot.recherche.data.gouv.fr
[3] https://www.data.gouv.fr/fr/reuses/
#opendata #datasets #france #data
В продолжение портала открытых данных Франции, из его фишек то что можно зарегистрироваться и публиковать свои датасеты. Вот я там разместил реестр каталогов данных из Dateno [1], просто примера ради. Потом могу добавить отдельно API Dateno (но там уже будет не CC-BY лицензия).
Хороший государственный портал открытых данных должен позволять публиковать данные не только госорганами.
Ссылки:
[1] https://www.data.gouv.fr/fr/datasets/data-portals-registry/
#opendata #dateno #datacatalogs
Хороший государственный портал открытых данных должен позволять публиковать данные не только госорганами.
Ссылки:
[1] https://www.data.gouv.fr/fr/datasets/data-portals-registry/
#opendata #dateno #datacatalogs
Ребята из Если быть точным начали публиковать открытые данные в формате Parquet [1] за что их можно похвалить, это правильный выбор. А если кто-то ещё не пользовался данных в этом формате, то самое время это попробовать. У ребят небольшой каталог тщательно отобранных данных и эта их работа и красивая инфографика в канале - это хороший труд, они молодцы.
Ссылки:
[1] https://yangx.top/tochno_st/476
#opendata #datasets
Ссылки:
[1] https://yangx.top/tochno_st/476
#opendata #datasets
Telegram
Если быть точным
В нашем каталоге пополнение! Там появились данные о заболеваемости пожилых, бюджеты регионов и новый формат данных PARQUET
Больше года назад мы запустили собственный каталог данных. За это время вышло 35 датасетов — их скачали более 25 тысяч раз. Наборов…
Больше года назад мы запустили собственный каталог данных. За это время вышло 35 датасетов — их скачали более 25 тысяч раз. Наборов…
К вопросу о том как устроена публикация данных в России и что с ней не так. Про портал data.gov.ru я и так часто писал, а вот пример в виде системы показателей ЕМИСС [1]. По всем признакам - это неплохая система публикации показателей. Там и экспорт в Excel есть, и формат SDMX есть, и раздел открытые данные есть на сайте и выглядит всё не так плохо. Казалось бы какая хорошая штука! Больше того у неё даже есть API, недокументированное правда.
Но когда-то несколько лет назад я делал углублённый анализ того как и что там происходит и результаты разочаровывающие.
Про проблемы того что данные/индикаторы исчезают оттуда уже многие писали, но проблема и в том как текущие данные там представлены. Вот несколько самых критичных проблем.
1. Самое критичное, по умолчанию все индикаторы показываются неполностью и не по актуальным данным. Открывая любой индикатор у можно увидеть не полный перечень значений, а те что отдаются в "отображении по умолчанию". Пример, в виде индикатора на картинке [2] открывая его последние значения за 2014 год. Это не значит что за другие годы значений нет, это значит что они по умолчанию не отображаются. Чтобы увидеть всё надо прокликать все фильтры и тогда уже смотреть или выгружать данные целиком. Это очень сильно влияет на всё что есть в этой системе - открытые данные, просмотр индикаторов и так далее.
2. Вид по умолчанию влияет на содержание того что на сайте называется открытыми данными. Данные того же индикатора при выгрузке из раздела открытых данных [3] будут включать только значения за из этого самого "отображения по умолчанию". Тем самым получается что если кто-то просто скачает открытые данные из раздела на портале ЕМИСС то там не будет актуальных данных.
3. Более того получение актуальных данных автоматически или как открытых данных или через недокументированное API вообще не предусмотрено. Чтобы их получить надо вручную или автоматически прокликать эти фильтры и не всякий неподготовленный пользователь это знает. Тем самым это дискредитирует сам портал для многих кто "не в теме".
4. И наконец, тоже важное, но не так как предыдущее. В этой системе нет нормализованных справочников. Там буквально сотни если не тысячи справочников, со своими кодами под каждый показатель. Например, нет гармонизированного справочника регионов. Вообще справочные данные никак не вынесены и не структурированы как в самой системе, так и вне её. Сопоставимость справочников низкая и требуется много ручной работы чтобы её проделать.
Обо всём этом я писал более чем 2 года назад в тексте Почему невозможно хвалить Росстат [4]. Мало что поменялось за эти годы.
Ссылки:
[1] https://fedstat.ru
[2] https://fedstat.ru/indicator/36984
[3] https://fedstat.ru/opendata/7708234640-threeasixanineaeightafour
[4] https://begtin.substack.com/p/22
#opendata #russia #statistics #rosstat
Но когда-то несколько лет назад я делал углублённый анализ того как и что там происходит и результаты разочаровывающие.
Про проблемы того что данные/индикаторы исчезают оттуда уже многие писали, но проблема и в том как текущие данные там представлены. Вот несколько самых критичных проблем.
1. Самое критичное, по умолчанию все индикаторы показываются неполностью и не по актуальным данным. Открывая любой индикатор у можно увидеть не полный перечень значений, а те что отдаются в "отображении по умолчанию". Пример, в виде индикатора на картинке [2] открывая его последние значения за 2014 год. Это не значит что за другие годы значений нет, это значит что они по умолчанию не отображаются. Чтобы увидеть всё надо прокликать все фильтры и тогда уже смотреть или выгружать данные целиком. Это очень сильно влияет на всё что есть в этой системе - открытые данные, просмотр индикаторов и так далее.
2. Вид по умолчанию влияет на содержание того что на сайте называется открытыми данными. Данные того же индикатора при выгрузке из раздела открытых данных [3] будут включать только значения за из этого самого "отображения по умолчанию". Тем самым получается что если кто-то просто скачает открытые данные из раздела на портале ЕМИСС то там не будет актуальных данных.
3. Более того получение актуальных данных автоматически или как открытых данных или через недокументированное API вообще не предусмотрено. Чтобы их получить надо вручную или автоматически прокликать эти фильтры и не всякий неподготовленный пользователь это знает. Тем самым это дискредитирует сам портал для многих кто "не в теме".
4. И наконец, тоже важное, но не так как предыдущее. В этой системе нет нормализованных справочников. Там буквально сотни если не тысячи справочников, со своими кодами под каждый показатель. Например, нет гармонизированного справочника регионов. Вообще справочные данные никак не вынесены и не структурированы как в самой системе, так и вне её. Сопоставимость справочников низкая и требуется много ручной работы чтобы её проделать.
Обо всём этом я писал более чем 2 года назад в тексте Почему невозможно хвалить Росстат [4]. Мало что поменялось за эти годы.
Ссылки:
[1] https://fedstat.ru
[2] https://fedstat.ru/indicator/36984
[3] https://fedstat.ru/opendata/7708234640-threeasixanineaeightafour
[4] https://begtin.substack.com/p/22
#opendata #russia #statistics #rosstat
Что я понял за 15 лет работы с открытыми данными
[продолжаю рассуждать на разные темы пунктами, тем у меня ещё много;)]
1. Открытых данных очень много в целом, но мало когда исследуешь конкретную тему.
2. Если есть общая установка сверху то чиновники вполне адекватны в готовности публиковать данные. Если установки сверху нет, то только если это соответствует какой-то другой их повестке.
3. Да, открытые данные публикуются даже авторитарными режимами и диктатурами. Их доступность определяется не только политической повесткой, но и технологической зрелостью. Особенно много данных в странах где есть политическая повестка открытости + культура открытости + технологическая зрелость.
4. Для бизнеса открытые данные - это не более чем снижение до около нуля стоимости покупки данных. Но не ноль потому что стоимость владения и работы с данными складывается из расходов на их выгрузку, хранение, и работу дата программистов по их обработке.
5. За редким исключением дата корпорации, чем крупнее, тем сильнее, избегают публикации данных. Для них любые датасеты - это ценный материальный актив. Исключения есть в только там где они находят значимую выгоду от открытости - тренировка алгоритмов для ИИ, хакатоны, поддержание публичного реноме и тд. Но это всё всегда проходит через линзы оценки стоимости.
6. Движение открытости данных собиралось из 3-х потоков: научного (открытый доступ), политического (право на доступ к информации), технологического (интеграция информационных систем, особенно гос). Иногда они пересекаются, иногда нет. Научное наиболее устойчивое, но часто замкнутое в отдельных областях. Политическое нестабильное от грантополучения и повестки. Технологическое часто суженное до очень узких задач и часто отодвигающееся от открытости в сторону работы с условно любыми данными, не открытыми.
7. Порталы открытых данных сильно отстают от современной дата инженерии, но почти все современные дата продукт используют большие открытые датасеты в качестве примеров того что можно сделать на их основе
8. На открытых данных нет хороших бизнес моделей. Вернее нет хороших бизнес моделей _только_ на открытых данных. Хорошие дата продукты, как правило, интегрируют много разных дата источников.
9. Самые крупные доступные датасеты в мире - это физика частиц и расшифрованные геномы, все связаны с научными дисциплинами. Одни из самых востребованных - базовые слои геоданных.
#opendata #thoughts
[продолжаю рассуждать на разные темы пунктами, тем у меня ещё много;)]
1. Открытых данных очень много в целом, но мало когда исследуешь конкретную тему.
2. Если есть общая установка сверху то чиновники вполне адекватны в готовности публиковать данные. Если установки сверху нет, то только если это соответствует какой-то другой их повестке.
3. Да, открытые данные публикуются даже авторитарными режимами и диктатурами. Их доступность определяется не только политической повесткой, но и технологической зрелостью. Особенно много данных в странах где есть политическая повестка открытости + культура открытости + технологическая зрелость.
4. Для бизнеса открытые данные - это не более чем снижение до около нуля стоимости покупки данных. Но не ноль потому что стоимость владения и работы с данными складывается из расходов на их выгрузку, хранение, и работу дата программистов по их обработке.
5. За редким исключением дата корпорации, чем крупнее, тем сильнее, избегают публикации данных. Для них любые датасеты - это ценный материальный актив. Исключения есть в только там где они находят значимую выгоду от открытости - тренировка алгоритмов для ИИ, хакатоны, поддержание публичного реноме и тд. Но это всё всегда проходит через линзы оценки стоимости.
6. Движение открытости данных собиралось из 3-х потоков: научного (открытый доступ), политического (право на доступ к информации), технологического (интеграция информационных систем, особенно гос). Иногда они пересекаются, иногда нет. Научное наиболее устойчивое, но часто замкнутое в отдельных областях. Политическое нестабильное от грантополучения и повестки. Технологическое часто суженное до очень узких задач и часто отодвигающееся от открытости в сторону работы с условно любыми данными, не открытыми.
7. Порталы открытых данных сильно отстают от современной дата инженерии, но почти все современные дата продукт используют большие открытые датасеты в качестве примеров того что можно сделать на их основе
8. На открытых данных нет хороших бизнес моделей. Вернее нет хороших бизнес моделей _только_ на открытых данных. Хорошие дата продукты, как правило, интегрируют много разных дата источников.
9. Самые крупные доступные датасеты в мире - это физика частиц и расшифрованные геномы, все связаны с научными дисциплинами. Одни из самых востребованных - базовые слои геоданных.
#opendata #thoughts
Фонд Викимедия опубликовал статью о том что боты теперь создают около 65% трафика на сайты Википедии и остальных их проектов [1]. Сейчас они работают над тем как развить свою инфраструктуру чтобы всё это выдержать, открытым потому что AI боты агрессивно собирают изображения и это и создаёт трафик. Потому что знания бесплатны, а вот инфраструктура для их распространения нет.
Я подозреваю что всё это закончится тем что они начнут блокировать AI краулеры для доступа к тяжёлому контенту вроде изображений и предоставлять этот контент им для массовой выгрузки за деньги. Это было бы самым оптимистичным вариантом решения проблемы роста стоимости инфраструктуры.
Ссылки:
[1] https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/
#openknowledge #opendata #ai #aibots
Я подозреваю что всё это закончится тем что они начнут блокировать AI краулеры для доступа к тяжёлому контенту вроде изображений и предоставлять этот контент им для массовой выгрузки за деньги. Это было бы самым оптимистичным вариантом решения проблемы роста стоимости инфраструктуры.
Ссылки:
[1] https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/
#openknowledge #opendata #ai #aibots
Diff
How crawlers impact the operations of the Wikimedia projects
Since the beginning of 2024, the demand for the content created by the Wikimedia volunteer community – especially for the 144 million images, videos, and other files on Wikimedia Commons – has grow…
В рубрике больших интересных наборов данных Global Ensemble Digital Terrain Model 30m (GEDTM30) [1] глобальная цифровая модель рельефа (DTM) в виде двух GeoTIFF файлов оптимизированных для облачной работы (cloud GeoTIFF) общим объёмом чуть менее 39 гигабайт.
Этот набор данных охватывает весь мир и может использоваться для таких приложений, как анализ топографии, гидрологии и геоморфометрии.
Создание набора данных профинансировано Европейским союзом в рамках проекта киберинфраструктуры Open-Earth-Monitor [2].
А также доступен код проекта [3] и пример визуализации в QGIS.
Доступно под лицензией CC-BY 4.0
Ссылки:
[1] https://zenodo.org/records/14900181
[2] https://cordis.europa.eu/project/id/101059548
#opendata #geodata #datasets
Этот набор данных охватывает весь мир и может использоваться для таких приложений, как анализ топографии, гидрологии и геоморфометрии.
Создание набора данных профинансировано Европейским союзом в рамках проекта киберинфраструктуры Open-Earth-Monitor [2].
А также доступен код проекта [3] и пример визуализации в QGIS.
Доступно под лицензией CC-BY 4.0
Ссылки:
[1] https://zenodo.org/records/14900181
[2] https://cordis.europa.eu/project/id/101059548
#opendata #geodata #datasets
Тем временем в рубрике новых свежих открытых данных из России, но не о России, датасеты Сведений о динамике рыночных котировок цифровых валют и Сведения об иностранных организаторах торгов цифровых валют на веб странице на сайте ФНС России посвящённой Майнингу цифровой валюты [1]. Данные представлены в виде таблиц на странице, с возможностью экспорта в Excel и получению в формате JSON из недокументированного API.
Данные любопытные хотя и у коммерческих провайдеров их, несомненно, побольше будет и по разнообразнее.
Условия использования не указаны, исходим из того что это Public Domain.
Мы обязательно добавим их в каталог CryptoData Hub [2] вскоре.
Ссылки:
[1] https://www.nalog.gov.ru/mining/
[2] https://cryptodata.center
#opendata #russia #cryptocurrencies #crypto #datasets
Данные любопытные хотя и у коммерческих провайдеров их, несомненно, побольше будет и по разнообразнее.
Условия использования не указаны, исходим из того что это Public Domain.
Мы обязательно добавим их в каталог CryptoData Hub [2] вскоре.
Ссылки:
[1] https://www.nalog.gov.ru/mining/
[2] https://cryptodata.center
#opendata #russia #cryptocurrencies #crypto #datasets
В задачах качества данных есть такое явление как Data quality reports. Не так часто встречается как хотелось бы и, в основном, для тех проектов где данные существуют как продукт (data-as-a-product) потому что клиенты интересуются.
Публичных таких отчётов немного, но вот любопытный и открытый - Global LEI Data Quality Reports [1] от создателей глобальной базы идентификаторов компаний LEI. Полезно было бы такое для многих крупных открытых датасетов, но редко встречается.
Ссылки:
[1] https://www.gleif.org/en/lei-data/gleif-data-quality-management/quality-reports
#opendata #datasets #dataquality
Публичных таких отчётов немного, но вот любопытный и открытый - Global LEI Data Quality Reports [1] от создателей глобальной базы идентификаторов компаний LEI. Полезно было бы такое для многих крупных открытых датасетов, но редко встречается.
Ссылки:
[1] https://www.gleif.org/en/lei-data/gleif-data-quality-management/quality-reports
#opendata #datasets #dataquality
В рубрике как это устроено у них о том как управляют публикацией открытых данных во Франции. Частью французского национального портала открытых данных является schema.data.gouv.fr [1] на котором представлено 73 схемы с описанием структурированных данных. Эти схемы охватывают самые разные области и тематики:
- схема данных о государственных закупках
- схема данных о грантах
- схема данных архивных реестров записей
и ещё много других.
Всего по этим схемам на портале data.gouv.fr опубликовано 3246 наборов данных, чуть более 5% от всего что там размещено.
Особенность портала со схемами в том что все они опубликованы как отдельные репозитории на Github созданными из одного шаблона. А сами схемы представлены, либо по стандарту Frictionless Data - тот самый формат про таблицы о котором я писал и он тут называется TableSchema, либо в формате JSONSchema когда данные не табличные. В общем-то звучит как правильное сочетания применения этих подходов.
А для простоты публикации данных по этим схемам у был создан сервис Validata [2] в котором загружаемые данные можно проверить на соответствие этой схеме.
Ссылки:
[1] https://schema.data.gouv.fr
[2] https://validata.fr/
#opendata #datasets #data #datatools #france
- схема данных о государственных закупках
- схема данных о грантах
- схема данных архивных реестров записей
и ещё много других.
Всего по этим схемам на портале data.gouv.fr опубликовано 3246 наборов данных, чуть более 5% от всего что там размещено.
Особенность портала со схемами в том что все они опубликованы как отдельные репозитории на Github созданными из одного шаблона. А сами схемы представлены, либо по стандарту Frictionless Data - тот самый формат про таблицы о котором я писал и он тут называется TableSchema, либо в формате JSONSchema когда данные не табличные. В общем-то звучит как правильное сочетания применения этих подходов.
А для простоты публикации данных по этим схемам у был создан сервис Validata [2] в котором загружаемые данные можно проверить на соответствие этой схеме.
Ссылки:
[1] https://schema.data.gouv.fr
[2] https://validata.fr/
#opendata #datasets #data #datatools #france
Полезные ссылки про данные, технологии и не только:
- vanna [1] движок с открытым кодом по генерации SQL запросов к СУБД на основе промптов. Относится к классу продуктов text-to-sql. Поддерживает много видом LLM и много баз данных. Выглядит многообещающие и его есть куда применить. Лицензия MIT.
- Boring Data [2] готовые шаблоны для Terraform для развёртывания своего стека данных. А я даже не думал что это может быть чем-то большим чем консультации, а оказывается тут просто таки автоматизированный сервис с немалым ценником.
- Understanding beneficial ownership data use [3] отчет о том как используются данные о бенефициарных собственниках компании, от Open Ownership. Пример того как делать исследования аудитории по большим общедоступным значимым базам данных / наборам данных.
- Дашборд по качеству данных в opendata.swiss [4] а ещё точнее по качеству метаданных, этим многие озадачены кто создавал большие каталоги данных.
- Open Data in D: Perfekte Idee, halbherzige Umsetzung? Ein Erfahrungsbericht. [5] выступление с рассказом о состоянии доступа к геоданным в Германии с конференции FOSSIG Munster. Всё на немецком, но всё понятно😜 там же презентации. TLDR: все геоданные в Германии доступны, но не во всех территориях одинаково. Можно только позавидовать
- Legal frictions for data openness [6] инсайты из 41 юридического случая проблем с использованием открытых данных для обучения ИИ.
Ссылки:
[1] https://github.com/vanna-ai/vanna
[2] https://www.boringdata.io/
[3] https://www.openownership.org/en/publications/understanding-beneficial-ownership-data-use/
[4] https://dashboard.opendata.swiss/fr/
[5] https://pretalx.com/fossgis2025/talk/XBXSVJ/
[6] https://ok.hypotheses.org/files/2025/03/Legal-frictions-for-data-openness-open-web-and-AI-RC-2025-final.pdf
#opendata #data #dataengineering #readings #ai #dataquality #geodata
- vanna [1] движок с открытым кодом по генерации SQL запросов к СУБД на основе промптов. Относится к классу продуктов text-to-sql. Поддерживает много видом LLM и много баз данных. Выглядит многообещающие и его есть куда применить. Лицензия MIT.
- Boring Data [2] готовые шаблоны для Terraform для развёртывания своего стека данных. А я даже не думал что это может быть чем-то большим чем консультации, а оказывается тут просто таки автоматизированный сервис с немалым ценником.
- Understanding beneficial ownership data use [3] отчет о том как используются данные о бенефициарных собственниках компании, от Open Ownership. Пример того как делать исследования аудитории по большим общедоступным значимым базам данных / наборам данных.
- Дашборд по качеству данных в opendata.swiss [4] а ещё точнее по качеству метаданных, этим многие озадачены кто создавал большие каталоги данных.
- Open Data in D: Perfekte Idee, halbherzige Umsetzung? Ein Erfahrungsbericht. [5] выступление с рассказом о состоянии доступа к геоданным в Германии с конференции FOSSIG Munster. Всё на немецком, но всё понятно😜 там же презентации. TLDR: все геоданные в Германии доступны, но не во всех территориях одинаково. Можно только позавидовать
- Legal frictions for data openness [6] инсайты из 41 юридического случая проблем с использованием открытых данных для обучения ИИ.
Ссылки:
[1] https://github.com/vanna-ai/vanna
[2] https://www.boringdata.io/
[3] https://www.openownership.org/en/publications/understanding-beneficial-ownership-data-use/
[4] https://dashboard.opendata.swiss/fr/
[5] https://pretalx.com/fossgis2025/talk/XBXSVJ/
[6] https://ok.hypotheses.org/files/2025/03/Legal-frictions-for-data-openness-open-web-and-AI-RC-2025-final.pdf
#opendata #data #dataengineering #readings #ai #dataquality #geodata
GitHub
GitHub - vanna-ai/vanna: 🤖 Chat with your SQL database 📊. Accurate Text-to-SQL Generation via LLMs using RAG 🔄.
🤖 Chat with your SQL database 📊. Accurate Text-to-SQL Generation via LLMs using RAG 🔄. - vanna-ai/vanna
Ivan Begtin
Любопытный проект Local deep research [1] локальный privacy-first инструмент для постановки заданий LLM для комплексных исследований. По аналогии с режимами deep research в OpenAI, Perplexity и других облачных прдуктах. Описание очень симпатично и кажется…
Про состояние открытости данных в России, краткая сводка на сегодня 16 апреля 2025 г.
Негативное
- федеральный портал data.gov.ru так и не [пере]запущен и недоступен уже несколько много лет.
- портал статистики ЕМИСС fedstat.ru де-факто заморожен в любом развитии, многие показатели удалены, другие не обновляются. Публикуемые открытые данные неполны. Каких либо изменений в функциональности нет с момента его запуска.
- портал криминальной статистики crimestat.ru не обновляется с начала 2022 года
- портал данных Минкультуры России opendata.mkrf.ru не обновляется кроме ряда наборов данных, при выгрузке крупнейших датасетов выдаёт ошибку
- большинство порталов открытых данных субъектов федерации ФОИВов не обновлялись более 6 лет и содержат устаревшие и бесполезные наборы административных данных малого объёма
- госполитика поощрения раскрытия данных научных исследований отсутствует
- госполитика публикации открытых геопространственных данных отсутствует, почти все наборы геоданных имеют те или иные ограничения (не свободны)
Нейтральное
- идут разговоры на государственном уровне про публикацию датасетов для AI продолжаются, есть вероятность что хотя бы часть из них будут общедоступны
- наборы данных созданные исследователями из РФ продолжают публиковаться на платформах Kaggle, Hugging Face, Github и др. На сегодняшний день государственная политика по запрету этого не введена.
Позитивное
- Банк России начал публиковать многие из своих таблиц/датасетов в форматах доступных через REST API
- ФНС России продолжает публиковать и обновлять данные у себя на сайте www.nalog.gov.ru как старые датасеты, так и публикуют новые данные. Не всегда в разделе открытых данных, иногда в форме страниц с недокументированным API
#opendata #stateofopendata
Негативное
- федеральный портал data.gov.ru так и не [пере]запущен и недоступен уже несколько много лет.
- портал статистики ЕМИСС fedstat.ru де-факто заморожен в любом развитии, многие показатели удалены, другие не обновляются. Публикуемые открытые данные неполны. Каких либо изменений в функциональности нет с момента его запуска.
- портал криминальной статистики crimestat.ru не обновляется с начала 2022 года
- портал данных Минкультуры России opendata.mkrf.ru не обновляется кроме ряда наборов данных, при выгрузке крупнейших датасетов выдаёт ошибку
- большинство порталов открытых данных субъектов федерации ФОИВов не обновлялись более 6 лет и содержат устаревшие и бесполезные наборы административных данных малого объёма
- госполитика поощрения раскрытия данных научных исследований отсутствует
- госполитика публикации открытых геопространственных данных отсутствует, почти все наборы геоданных имеют те или иные ограничения (не свободны)
Нейтральное
- идут разговоры на государственном уровне про публикацию датасетов для AI продолжаются, есть вероятность что хотя бы часть из них будут общедоступны
- наборы данных созданные исследователями из РФ продолжают публиковаться на платформах Kaggle, Hugging Face, Github и др. На сегодняшний день государственная политика по запрету этого не введена.
Позитивное
- Банк России начал публиковать многие из своих таблиц/датасетов в форматах доступных через REST API
- ФНС России продолжает публиковать и обновлять данные у себя на сайте www.nalog.gov.ru как старые датасеты, так и публикуют новые данные. Не всегда в разделе открытых данных, иногда в форме страниц с недокументированным API
#opendata #stateofopendata
Про состояние открытости данных в Армении, ещё более краткая сводка😜 на сегодня 16 апреля 2025 г.
Негативное
- Правительство Армении не публикует никаких открытых данных, не имеет таких обязательств и даже не прописало их публикацию в обещаниях в рамках Open Government Partnership, в отличие от других стран участников.
- внутренний спрос на доступность госданных очень невысок, требуется много усилий на раскачку сообщества
Нейтральная
- многие данные доступны на сайтах, требуется их парсинг и описание. Многое не публикуется не из-за политики закрытости, а по бедности, нет ресурсов и явного нет запроса.
Позитивное
- данные публикует сообщество, конкретно наше Open Data Armenia (opendata.am и ТГ канал @opendataam)
#opendata #stateofopendata #armenia
Негативное
- Правительство Армении не публикует никаких открытых данных, не имеет таких обязательств и даже не прописало их публикацию в обещаниях в рамках Open Government Partnership, в отличие от других стран участников.
- внутренний спрос на доступность госданных очень невысок, требуется много усилий на раскачку сообщества
Нейтральная
- многие данные доступны на сайтах, требуется их парсинг и описание. Многое не публикуется не из-за политики закрытости, а по бедности, нет ресурсов и явного нет запроса.
Позитивное
- данные публикует сообщество, конкретно наше Open Data Armenia (opendata.am и ТГ канал @opendataam)
#opendata #stateofopendata #armenia
В рубрике интересных порталов открытых данных, свежий портал открытых данных Министерства образования Франции [1]. Сделан на базе облачного ПО OpenDataSoft и предоставляет 242 набора данных по темам образования, спорта и молодёжи.
У французской компании OpenDataSoft очень неплохой продукт каталога данных который довольно популярен на субнациональном уровне во Франции и ряде других стран, в основном ЕС. В последние версии они туда добавили новые функции такие как анализ данных и отображение их карте и в других форматах.
Например, календарь министра национального образования [2] или отображение справочника школ на карте [3], но, конечно, самое главное - это продвинутое API и экспорт данных в разных форматах: CSV, JSON, Excel, Parquet и ещё 5 форматов для геоданных.
У OpenDataSoft в итоге очень хороший прогресс с их публичными каталогами данных. Я бы их порекламировал, но в РФ их каталог неприменим, а, к примеру, для Армении слишком дорог для общественных проектов.
При всей хорошей организации их каталога, при этом, отмечу что самое большое число датасетов в них которое я видел было около 40 тысяч наборов данных. Для сравнения в CKAN есть каталоги на 1+ миллионов датасетов. Поэтому качество не значит масштаб, а масштаб не равен качеству.
Тем не менее можно увидеть как теперь публикует данные Минобразования Франции.
Ссылки:
[1] https://data.education.gouv.fr
[2] https://data.education.gouv.fr/explore/dataset/fr-en-agenda-ministre-education-nationale/calendar/?disjunctive.uid&sort=dtstart&calendarview=month
[3] https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/map/?disjunctive.type_etablissement&disjunctive.libelle_academie&disjunctive.libelle_region&disjunctive.ministere_tutelle&disjunctive.appartenance_education_prioritaire&disjunctive.nom_commune&disjunctive.code_postal&disjunctive.code_departement&location=9,45.88427,3.1723&basemap=jawg.streets
#opendata #education #france #datasets #data #datacatalogs
У французской компании OpenDataSoft очень неплохой продукт каталога данных который довольно популярен на субнациональном уровне во Франции и ряде других стран, в основном ЕС. В последние версии они туда добавили новые функции такие как анализ данных и отображение их карте и в других форматах.
Например, календарь министра национального образования [2] или отображение справочника школ на карте [3], но, конечно, самое главное - это продвинутое API и экспорт данных в разных форматах: CSV, JSON, Excel, Parquet и ещё 5 форматов для геоданных.
У OpenDataSoft в итоге очень хороший прогресс с их публичными каталогами данных. Я бы их порекламировал, но в РФ их каталог неприменим, а, к примеру, для Армении слишком дорог для общественных проектов.
При всей хорошей организации их каталога, при этом, отмечу что самое большое число датасетов в них которое я видел было около 40 тысяч наборов данных. Для сравнения в CKAN есть каталоги на 1+ миллионов датасетов. Поэтому качество не значит масштаб, а масштаб не равен качеству.
Тем не менее можно увидеть как теперь публикует данные Минобразования Франции.
Ссылки:
[1] https://data.education.gouv.fr
[2] https://data.education.gouv.fr/explore/dataset/fr-en-agenda-ministre-education-nationale/calendar/?disjunctive.uid&sort=dtstart&calendarview=month
[3] https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/map/?disjunctive.type_etablissement&disjunctive.libelle_academie&disjunctive.libelle_region&disjunctive.ministere_tutelle&disjunctive.appartenance_education_prioritaire&disjunctive.nom_commune&disjunctive.code_postal&disjunctive.code_departement&location=9,45.88427,3.1723&basemap=jawg.streets
#opendata #education #france #datasets #data #datacatalogs
Оказывается Фонд Викимедиа относительно недавно, ещё в 2022 году создал Wikimedia Enterprise [1] отдельную компанию предоставляющую современные API корпоративного уровня (modern enterprise-grade APIs) для Википедии и других их проектов.
Обещают 850+ наборов данных, 100+ миллионов страниц.
А теперь ещё и договорились с Google о выкладывании на Kaggle снэпшотов [2].
Сейчас их датасет представлен в виде 54 JSONL файлов англоязычной и франкоязычной вики и составляет [3] 113 гигабайт
Ссылки:
[1] https://enterprise.wikimedia.com/
[2] https://enterprise.wikimedia.com/blog/kaggle-dataset/
[3] https://www.kaggle.com/datasets/wikimedia-foundation/wikipedia-structured-contents/data
#opendata #datasets #wikipedia #api
Обещают 850+ наборов данных, 100+ миллионов страниц.
А теперь ещё и договорились с Google о выкладывании на Kaggle снэпшотов [2].
Сейчас их датасет представлен в виде 54 JSONL файлов англоязычной и франкоязычной вики и составляет [3] 113 гигабайт
Ссылки:
[1] https://enterprise.wikimedia.com/
[2] https://enterprise.wikimedia.com/blog/kaggle-dataset/
[3] https://www.kaggle.com/datasets/wikimedia-foundation/wikipedia-structured-contents/data
#opendata #datasets #wikipedia #api
У меня много рефлексии по поводу всего что я слышал, читал и видел в записи с прошедшей в России конфы Data Fusion. Ещё несколько лет я зарёкся слишком много думать про госполитику в работе с данными в РФ и вместо этого пишу в жанре "как это работает у них" для понимания того как это не работает в РФ, но сказать могу об этом многое, наверное даже слишком многое.
Ключевая мысль которую не грех повторить в том что в РФ не западная (точно не европейская) и не китайская модели работы с рынком данных и цифровыми рынками в целом. Я опишу это всё своими словами, как можно проще, без юридических тонкостей.
Западная, особенно европейская, основана на:
- открытости данных/знаний как базовой ценности для всех данных относимым к общественному благу
- развитии и расширении прав пользователей в управлении данными - крайняя форма это европейский GDPR
- поощрение отраслевого обмена данными через кооперационные механизмы с участием государства и государствами поддерживаемая
- поощрению открытости в областях связанных с общественными интересами (развитие принципов открытой науки, прямая поддержка проектов с открытым кодом и данными)
Китайская модель основана на:
- безусловной доминанте государственных интересов над правами граждан на работу с их данными и интересами бизнеса
- приоритет экономики и интересов бизнеса над правами граждан на работу с их данными
- сильный фокус на обмен данными в научных исследованиях (как следствие госполитики развития науки) и открытости науки
Российская модель имеет некоторые сходства, но не похожа ни на одну из перечисленных:
- госполитика открытости де-факто приостановлена более 10 лет назад, с отдельными исключениями. До этого в течение 3-4 лет она была ближе к западной модели
- декларируемое расширение защиты данных граждан без расширения прав граждан на защиту. Это звучит странно, но имеет простую расшифровку. Вместо усиления юридической защиты граждан идёт усиление регуляторов в отношении организаций которые работают с персональными данными.
- отсутствие госполитики поддержки принципов открытой науки и поддержки проектов с открытым кодом и данными)
- приоритет принципов патернализма и контроля в цифровой сфере с нарастающим усилением давления на цифровой бизнес
Ключевое в российской госполитике - это патернализм и контроль. Поэтому гос-во столь активно стремится получить доступ к данным бизнеса и поэтому же столь тормозятся или не стартуют все инициативы по предоставлению данных из государственных информационных систем.
Специально всё это описываю безэмоционально и безоценочно, просто как описание контекста.
#opendata #data #regulation #russia
Ключевая мысль которую не грех повторить в том что в РФ не западная (точно не европейская) и не китайская модели работы с рынком данных и цифровыми рынками в целом. Я опишу это всё своими словами, как можно проще, без юридических тонкостей.
Западная, особенно европейская, основана на:
- открытости данных/знаний как базовой ценности для всех данных относимым к общественному благу
- развитии и расширении прав пользователей в управлении данными - крайняя форма это европейский GDPR
- поощрение отраслевого обмена данными через кооперационные механизмы с участием государства и государствами поддерживаемая
- поощрению открытости в областях связанных с общественными интересами (развитие принципов открытой науки, прямая поддержка проектов с открытым кодом и данными)
Китайская модель основана на:
- безусловной доминанте государственных интересов над правами граждан на работу с их данными и интересами бизнеса
- приоритет экономики и интересов бизнеса над правами граждан на работу с их данными
- сильный фокус на обмен данными в научных исследованиях (как следствие госполитики развития науки) и открытости науки
Российская модель имеет некоторые сходства, но не похожа ни на одну из перечисленных:
- госполитика открытости де-факто приостановлена более 10 лет назад, с отдельными исключениями. До этого в течение 3-4 лет она была ближе к западной модели
- декларируемое расширение защиты данных граждан без расширения прав граждан на защиту. Это звучит странно, но имеет простую расшифровку. Вместо усиления юридической защиты граждан идёт усиление регуляторов в отношении организаций которые работают с персональными данными.
- отсутствие госполитики поддержки принципов открытой науки и поддержки проектов с открытым кодом и данными)
- приоритет принципов патернализма и контроля в цифровой сфере с нарастающим усилением давления на цифровой бизнес
Ключевое в российской госполитике - это патернализм и контроль. Поэтому гос-во столь активно стремится получить доступ к данным бизнеса и поэтому же столь тормозятся или не стартуют все инициативы по предоставлению данных из государственных информационных систем.
Специально всё это описываю безэмоционально и безоценочно, просто как описание контекста.
#opendata #data #regulation #russia