Я очень скоро прекращу так часто упоминать российский портал открытых данных, всё таки реально применения у опубликованных там данных очень немного и одно из них более-менее не бесполезное - это обучение алгоритмов выявления семантических / смысловых типов данных. Это когда поле/колонка таблицы аннотируется пометками о том что там реально содержится. Я в своё время создавал инструмент metacrafter это такая довольно продвинутая штука с большой базой этих самых семантических типов и многое из типов там имеет реальное отношение к российским данным, всё таки русскоязычные/российские наборы данных были для меня в большей доступности долгое время.
Сейчас я metacrafter натравил на ранее скачанные из новой версии data.gov.ru наборы данных. И вот первые результаты по популярным классам данных.
1. Всего выявлено 13334 колонки с 76 семантическими типами (dataclass)
2. Более всего в наборах данных упоминаются наименования организаций, адреса, наименования в принципе (чего либо), email'ы, ссылки, даты, телефоны, полные ФИО, названия регионов и так далее.
3. Геоданные встречаются в адресах (1429 случаев), долготе (212 случаев), широте (189 случаев). Почему числа долгот и широт не совпадают я не разбирался, но в целом выходит что адреса есть в от 10 до 20% всех датасетов,
3. Данных по юрлицам и ИП с одной стороны невелики, около 10% по частоте нахождения кодов inn, ogrn, ogrn_ogrnip, а с другой, наименования организаций повсеместны. Скорее всего дело в огромном числе административных данных которые органы публикуют про себя, вроде своих адресов местонахождения или вакансий.
4. Финансовых данных практически нет. Встречаемость кодов КБК, кодов бюджетов и тд минимальна.
5. Есть какое-то число ложных срабатываний по названиям полей и типовым шаблонам, вроде определение кодов ОКПД как адресов IPv4, но это минимально.
Какие выводы:
1. Смысловые - содержание data.gov.ru по прежнему бесполезно. Я напомню что все опубликованные там данные умещаются в один 100 мегабайтный ZIP архив
2. Технические - metacrafter неплохо разбирает российские коды, для чего он и писался.
А для общего просвещения добавлю скриншот с портала открытых данных Сингапура где используя подход похожий с тем что я делал с metacrafter'ом добавили возможность фильтрации датасетов по типам полей с данными. Их там пока всего 6, но тем не менее.
Вот это можно назвать полезным развитием портала открытых данных, а не "хихикающий голосовой помощник" который на data.gov.ru отключили почти сразу после запуска.
P.S. Для тех кто хочет изучить самостоятельно, по ссылке meta.zip содержит данные о всех выявленных семантических типах в датасетах. Внутри файл JSON lines сгенерированный metacrafter'ом и небольшой файл detected_dataclasses.csv полученный из этих результатов, содержащий перечень всех идентифицированных семантических типов данных, то что я привел на скриншоте.
#opendata #opensource #datacatalogs #russia
Сейчас я metacrafter натравил на ранее скачанные из новой версии data.gov.ru наборы данных. И вот первые результаты по популярным классам данных.
1. Всего выявлено 13334 колонки с 76 семантическими типами (dataclass)
2. Более всего в наборах данных упоминаются наименования организаций, адреса, наименования в принципе (чего либо), email'ы, ссылки, даты, телефоны, полные ФИО, названия регионов и так далее.
3. Геоданные встречаются в адресах (1429 случаев), долготе (212 случаев), широте (189 случаев). Почему числа долгот и широт не совпадают я не разбирался, но в целом выходит что адреса есть в от 10 до 20% всех датасетов,
3. Данных по юрлицам и ИП с одной стороны невелики, около 10% по частоте нахождения кодов inn, ogrn, ogrn_ogrnip, а с другой, наименования организаций повсеместны. Скорее всего дело в огромном числе административных данных которые органы публикуют про себя, вроде своих адресов местонахождения или вакансий.
4. Финансовых данных практически нет. Встречаемость кодов КБК, кодов бюджетов и тд минимальна.
5. Есть какое-то число ложных срабатываний по названиям полей и типовым шаблонам, вроде определение кодов ОКПД как адресов IPv4, но это минимально.
Какие выводы:
1. Смысловые - содержание data.gov.ru по прежнему бесполезно. Я напомню что все опубликованные там данные умещаются в один 100 мегабайтный ZIP архив
2. Технические - metacrafter неплохо разбирает российские коды, для чего он и писался.
А для общего просвещения добавлю скриншот с портала открытых данных Сингапура где используя подход похожий с тем что я делал с metacrafter'ом добавили возможность фильтрации датасетов по типам полей с данными. Их там пока всего 6, но тем не менее.
Вот это можно назвать полезным развитием портала открытых данных, а не "хихикающий голосовой помощник" который на data.gov.ru отключили почти сразу после запуска.
P.S. Для тех кто хочет изучить самостоятельно, по ссылке meta.zip содержит данные о всех выявленных семантических типах в датасетах. Внутри файл JSON lines сгенерированный metacrafter'ом и небольшой файл detected_dataclasses.csv полученный из этих результатов, содержащий перечень всех идентифицированных семантических типов данных, то что я привел на скриншоте.
#opendata #opensource #datacatalogs #russia
✍7❤5🤣5😢2💯1
По моему Ольга даже излишне оптимистично отзывается о новом российском портале открытых данных. Мой вердикт ему гораздо более суров. Это что-то между "очень плохо" и просто "плохо". И я об этом написал уже несколько раз. Это просто деньги выброшенные на ветер. Серьёзно. Портал открытых данных Москвы data.mos.ru созданный чёрт знает когда или портал открытых данных Минкультуры РФ opendata.mkrf.ru выглядят значительно лучше. И это то что называется "примеры рядом", а есть сотни примеров в мире.
Или посмотрите на портал данных Санкт-Петербурга data.gov.spb.ru и ещё на десятки порталов открытых данных, геопорталов и баз индикаторов в России. В реестре Dateno 170 российских порталов с данными и они не все проиндексированы только потому что российские сайты ставят геоблокировку.
Дажечёртов Роскосмос предоставляет свои открытые данные через STAC сервер, а не вот это всё.
На самом то деле я стал относится к российскому порталу с существенной долей пофигизма после того как понял что исправить там что-либо невозможно. Потому и занялся Dateno. Там было есть и будет гораздо больше данных, лучшего качества и в удобной форме
#opendata #russia #datacatalogs
Или посмотрите на портал данных Санкт-Петербурга data.gov.spb.ru и ещё на десятки порталов открытых данных, геопорталов и баз индикаторов в России. В реестре Dateno 170 российских порталов с данными и они не все проиндексированы только потому что российские сайты ставят геоблокировку.
Даже
На самом то деле я стал относится к российскому порталу с существенной долей пофигизма после того как понял что исправить там что-либо невозможно. Потому и занялся Dateno. Там было есть и будет гораздо больше данных, лучшего качества и в удобной форме
#opendata #russia #datacatalogs
1👍14❤2
В рубрике закрытых в России данных, я обнаружил что не писал про портал открытых данных Самарской области opendata.samregion.ru который был закрыт где-то между 2022 и 2024 году. В Интернет архиве на февраль 2022 года , а позже только слепки страниц с упоминанием геоблокировки. Сейчас портал перенаправляет на страницу на сайте Пр-ва Самарской области где вместо данных просто свалка разноформатных документов.
Архивная копия в формате WARC была сделана нами в апреле 2024 года. Данных там было немного, всего 24МБ в сжатом виде, но тем не менее.
#opendata #datasets #russia
Архивная копия в формате WARC была сделана нами в апреле 2024 года. Данных там было немного, всего 24МБ в сжатом виде, но тем не менее.
#opendata #datasets #russia
👍5✍2❤1
Одна из крупнейших поисковых систем по данным в мире о которой мало кто знает - это Datacite Commons. Сервис созданный компанией Datacite специализирующейся на выдаче DOI для данных публикуемых исследователями.
Благодаря тому что при присвоении DOI каждому цифровому объекту требуется заполнить карточку с метаданными, то и индекс DOI в Datacite вырос уже до 90 миллионов записей из которых чуть менее половины, 43 миллиона - это карточки наборов данных (dataset). Ещё 15 миллионов записей тексты, около 14 миллионов физических объектов и так далее. В том числе там уже 16 тысяч data papers (статей основанных на данных).
Почти все записи в Datacite имеют привязку к организациям к которым они относятся, напрямую или через авторов, эти организации интегрированы в реестр ROR (The Research Organization Registry) хорошо известный в библиографической среде и хорошо структурированный с существенным объёмом метаданных по каждой научной организации.
Благодаря этому можно идентифицировать сколько наборов данных имеют DOI Datacite в разрезе стран.
Вот ряд цифр по некоторым постсоветским странам:
- Россия - 6806 наборов данных, большая часть от Российской академии наук
- Казахстан - 257 наборов данных, большая часть от Университета Назарбаева
- Армения - 130 наборов данных
- Узбекистан - 85 наборов данных
- Кыргызстан - 40 наборов данных
Это только те данные которые имеют прямую аффиляцию с академическими учреждениями в этих странах. Многие данные относящиеся к странам создаются в других странах. Например, исследования в США посвящённые разным российским сибирским и северным территориям или горам Центральной Азии.
Много это или мало? Это мало, с точки зрения мира, но и не полное отсутствие. Важнее почти полное отсутствие институциональной основы. Почти все эти опубликованные наборы данных загружались исследователями на открытые платформы вроде Zenodo, Dryad, Mendeley Data и зарубежные журналы.
Данные исследователей характерны тем что их востребованность весьма фрагментирована. У одного датасета могут быть сотни цитирований, но больше этого числа это уже огромная редкость. Поэтому применительно к ним не работает принцип HVD (High value datasets), нельзя определить какие-то конкретные крупные наборы данных которые должны быть доступны. Это должны быть данные из специализированной научной инфраструктуры вроде систем CLARIN для компьютерной лингвистики или ELIXIR для геномных данных, или буквально все возможные данные как результат научной деятельности.
#opendata #datasets #datadiscovery #datacite
Благодаря тому что при присвоении DOI каждому цифровому объекту требуется заполнить карточку с метаданными, то и индекс DOI в Datacite вырос уже до 90 миллионов записей из которых чуть менее половины, 43 миллиона - это карточки наборов данных (dataset). Ещё 15 миллионов записей тексты, около 14 миллионов физических объектов и так далее. В том числе там уже 16 тысяч data papers (статей основанных на данных).
Почти все записи в Datacite имеют привязку к организациям к которым они относятся, напрямую или через авторов, эти организации интегрированы в реестр ROR (The Research Organization Registry) хорошо известный в библиографической среде и хорошо структурированный с существенным объёмом метаданных по каждой научной организации.
Благодаря этому можно идентифицировать сколько наборов данных имеют DOI Datacite в разрезе стран.
Вот ряд цифр по некоторым постсоветским странам:
- Россия - 6806 наборов данных, большая часть от Российской академии наук
- Казахстан - 257 наборов данных, большая часть от Университета Назарбаева
- Армения - 130 наборов данных
- Узбекистан - 85 наборов данных
- Кыргызстан - 40 наборов данных
Это только те данные которые имеют прямую аффиляцию с академическими учреждениями в этих странах. Многие данные относящиеся к странам создаются в других странах. Например, исследования в США посвящённые разным российским сибирским и северным территориям или горам Центральной Азии.
Много это или мало? Это мало, с точки зрения мира, но и не полное отсутствие. Важнее почти полное отсутствие институциональной основы. Почти все эти опубликованные наборы данных загружались исследователями на открытые платформы вроде Zenodo, Dryad, Mendeley Data и зарубежные журналы.
Данные исследователей характерны тем что их востребованность весьма фрагментирована. У одного датасета могут быть сотни цитирований, но больше этого числа это уже огромная редкость. Поэтому применительно к ним не работает принцип HVD (High value datasets), нельзя определить какие-то конкретные крупные наборы данных которые должны быть доступны. Это должны быть данные из специализированной научной инфраструктуры вроде систем CLARIN для компьютерной лингвистики или ELIXIR для геномных данных, или буквально все возможные данные как результат научной деятельности.
#opendata #datasets #datadiscovery #datacite
Research Organization Registry (ROR)
The Research Organization Registry (ROR) is a global, community-led registry of open persistent identifiers for research organizations.
👍6✍2
Про российский портал открытых данных data.gov.ru я писать в канале почти перестал, почти потому что одно из российских изданий попросило написать авторскую колонку на эту тему и я напишу, причём с тем о чём писал в лонгриде ранее повторяться не буду.
Скажу лишь что все технические проблемы портала - это ничего по сравнению с системной проблемой непонимания у вполне конкретных чиновников того как и какие данные создаются, кто их создаёт и так далее. Даже при всех ограничениях, политических прежде всего, конечно же, есть данные и их много которые востребованы. Но их не будут выкачивать с data.gov.ru потому что их там просто не будет.
Ну вот ещё одну мысль выдал, придётся в колонку хорошо писать чтобы сохранить ощущение новизны😉
#opendata #russia
Скажу лишь что все технические проблемы портала - это ничего по сравнению с системной проблемой непонимания у вполне конкретных чиновников того как и какие данные создаются, кто их создаёт и так далее. Даже при всех ограничениях, политических прежде всего, конечно же, есть данные и их много которые востребованы. Но их не будут выкачивать с data.gov.ru потому что их там просто не будет.
Ну вот ещё одну мысль выдал, придётся в колонку хорошо писать чтобы сохранить ощущение новизны😉
#opendata #russia
😁15💯3❤1👍1
В рубрике как это устроено у них
Virtual Language Observatory [1] агрегатор и поисковая система по ресурсам компьютерной лингвистики в Европейском союзе.
Включает более 530 тысяч ресурсов из которых как наборы данных отмечены более 100 тысяч. Охватывает более 5 тысяч языков и диалектов.
В свою очередь и поиск в VLO имеют лингвистическую специфику с возможностью фильтрации по доступности, коллекциям, модальности и тд. Для этого репозитории входящие в европейский проект CLARIN предоставляют метаданные по согласованным спецификациям на основе которых и формируются карточки каждого ресурса.
Ссылки:
[1] https://vlo.clarin.eu
#opendata #datacatalogs #datasets #lingustics
Virtual Language Observatory [1] агрегатор и поисковая система по ресурсам компьютерной лингвистики в Европейском союзе.
Включает более 530 тысяч ресурсов из которых как наборы данных отмечены более 100 тысяч. Охватывает более 5 тысяч языков и диалектов.
В свою очередь и поиск в VLO имеют лингвистическую специфику с возможностью фильтрации по доступности, коллекциям, модальности и тд. Для этого репозитории входящие в европейский проект CLARIN предоставляют метаданные по согласованным спецификациям на основе которых и формируются карточки каждого ресурса.
Ссылки:
[1] https://vlo.clarin.eu
#opendata #datacatalogs #datasets #lingustics
👍3✍2
В рубрике как это устроено у них один из крупнейших публичных репозиториев научных данных по биоразнообразию это PlutoF [1] созданный командой в Тартуском университете и интегрированный в цифровую инфраструктуру других европейских проектов.
В PlutoF собрано более 3 миллионов 200 тысяч ресурсов (наборов данных), каждому из которых присвоен идентификатор DOI.
Поиск по репозиторий организован неудобно, он очень минималистичен, но этот репозиторий хорошо индексируется Datacite Commons, OpenAIRE и другими поисковиками по научным результатам.
Ссылки:
[1] https://plutof.ut.ee/en
#opendata #datacatalogs #biodiversity #datasets
В PlutoF собрано более 3 миллионов 200 тысяч ресурсов (наборов данных), каждому из которых присвоен идентификатор DOI.
Поиск по репозиторий организован неудобно, он очень минималистичен, но этот репозиторий хорошо индексируется Datacite Commons, OpenAIRE и другими поисковиками по научным результатам.
Ссылки:
[1] https://plutof.ut.ee/en
#opendata #datacatalogs #biodiversity #datasets
⚡5✍2
В рубрике как это устроено у них в США существует Research Data Alliance (Альянс исследовательских данных) и они, в том числе, занимаются тем что архивируют данные ликвидируемых госагенств США и их дочерних структур.
Например, они 7 августа проводят хакатон Data Rescue Hackathon for USAID Education Data [1], совместно с ICPSR и DataFirst, командами работающими над репозиториями исследовательских данных. Архивировать там собираются образовательные данные и иные материалы USAID поскольку уже окончательно стало понятно что USAID ликвидируется.
Мне лично интересно как они его организуют, как мотивируют участников (если дополнительно мотивируют), какие задачи ставят и так далее.
Потому что организация классических хакатонов это понятный для меня механизм, а организация хакатонов по спасению данных - это новый, но важный жанр. И он ещё много где и много раз будет актуален.
Ссылки:
[1] https://rdapassociation.org/event-6266055
#opendata #digitalpreservation #events
Например, они 7 августа проводят хакатон Data Rescue Hackathon for USAID Education Data [1], совместно с ICPSR и DataFirst, командами работающими над репозиториями исследовательских данных. Архивировать там собираются образовательные данные и иные материалы USAID поскольку уже окончательно стало понятно что USAID ликвидируется.
Мне лично интересно как они его организуют, как мотивируют участников (если дополнительно мотивируют), какие задачи ставят и так далее.
Потому что организация классических хакатонов это понятный для меня механизм, а организация хакатонов по спасению данных - это новый, но важный жанр. И он ещё много где и много раз будет актуален.
Ссылки:
[1] https://rdapassociation.org/event-6266055
#opendata #digitalpreservation #events
👍6✍2🔥2
Forwarded from Национальный цифровой архив
С 25 августа перестанут работать короткие ссылки в сокращателе ссылок от Google, сам сервис перестал работать с 2019 года, но ранее созданные ссылки действовали, теперь же и ссылки действовать перестанут. Чем вызвана такая срочность и закрытие непонятно, у корпорации однозначно были и есть ресурсы сервис поддерживать.
Команда ArchiveTeam занимается архивацией этих ссылок и всего собрано 84ТБ данных. Прогресс архивации можно отследить в трекере и там же присоединиться к архивации развернув собственный экземпляр ArchiveTeam Warrior, специальной виртуальной машины для выполнения задач в рамках проектов с распределенной архивацией цифровых материалов.
#opendata #digitalpreservation #webarchive
Команда ArchiveTeam занимается архивацией этих ссылок и всего собрано 84ТБ данных. Прогресс архивации можно отследить в трекере и там же присоединиться к архивации развернув собственный экземпляр ArchiveTeam Warrior, специальной виртуальной машины для выполнения задач в рамках проектов с распределенной архивацией цифровых материалов.
#opendata #digitalpreservation #webarchive
🔥7🤨6🌚1
А вот вам ещё цифры про портал открытых данных РФ data.gov.ru, вернее цифры про то чего там нет
В процессе архивации госсайтов РФ за 2025 год у меня на архивном сервере сейчас лежит около 1.1ТБ сжатых WARC файлов собранных с 73 госсайтов федеральных органов и их региональных подразделений.
Так вот цифры из этих архивов:
- 28 466 файлов с данными в форматах CSV, XLS и XLSX опубликовано на этих сайтах
- 22ГБ общий объём этих файлов
- большая часть файлов - это разного рода реестры с юр. лицами и ИП, а также статистика
- многие данные также внутри PDF/DOC/DOCX документов, особенно на сайтах Росстата и его терр управлений, они извлекаемы
- не все эти данные мусор, как раз там есть вполне используемые данные
И всё это не считая файлов с данными внутри ZIP и RAR архивов которых тоже немало.
Думаю что дальше всё понятно что я мог бы сказать про data.gov.ru 😉
#opendata #digitalpreservation
В процессе архивации госсайтов РФ за 2025 год у меня на архивном сервере сейчас лежит около 1.1ТБ сжатых WARC файлов собранных с 73 госсайтов федеральных органов и их региональных подразделений.
Так вот цифры из этих архивов:
- 28 466 файлов с данными в форматах CSV, XLS и XLSX опубликовано на этих сайтах
- 22ГБ общий объём этих файлов
- большая часть файлов - это разного рода реестры с юр. лицами и ИП, а также статистика
- многие данные также внутри PDF/DOC/DOCX документов, особенно на сайтах Росстата и его терр управлений, они извлекаемы
- не все эти данные мусор, как раз там есть вполне используемые данные
И всё это не считая файлов с данными внутри ZIP и RAR архивов которых тоже немало.
Думаю что дальше всё понятно что я мог бы сказать про data.gov.ru 😉
#opendata #digitalpreservation
✍9🤔1🌚1
В продолжение про Китай и про данные в Китае
📊 Национальный доклад о данных Китая (2024)
Кратко — в цифрах и фактах:
📦 Производство данных
▪️ Общий объём: 41.06 ZB (+25%)
▪️ На душу населения: 31.31 TB
🗄 Хранение
▪️ Всего: 2.09 ZB (+20.81%)
▪️ Использование хранилищ: 61%
▪️ Структурированные данные: +36% (доля — 18.7%)
⚙️ Вычислительные мощности
▪️ Общая: 280 EFLOPS
▪️ Из них ИИ-мощности: 90 EFLOPS (32%)
▪️ У госкомпаний — рост в 3 раза
🏛 Публичные данные
▪️ Платформы открытых данных: +7.5%
▪️ Объем открытых данных: +7.1%
▪️ Вызовы к госданным: 5400+ млрд
▪️ 60% регионов запустили авторизованное управление
🏢 Бизнес и ИИ
▪️ 66% лидеров рынка покупают данные
▪️ Активные данные: 62% от всего хранения
▪️ ИИ-сервисы: +238
▪️ Компании с ИИ: +36%
▪️ Большие модели: +57%
▪️ Качественные датасеты: +27%
🌍 Где больше всего данных?
▪️ Топ-6 провинций: 57.45% от всех данных
▪️ Лидеры по ИИ: Пекин, Шанхай, Чжэцзян
▪️ Топ-отрасли: промышленность, финансы, логистика
🔮 Прогноз на 2025
▪️ Производство данных превысит 50 ZB
▪️ Растёт доля синтетических и ИИ-данных
▪️ Формируется рынок доверенных пространств данных
▪️ Данные = полноценный актив, как нефть
—
Первоисточник NATIONAL DATA RESOURCE SURVEY REPORT (2024), опубликован в апреле 2025 г.
#opendata #data #china #ai #regulation
📊 Национальный доклад о данных Китая (2024)
Кратко — в цифрах и фактах:
📦 Производство данных
▪️ Общий объём: 41.06 ZB (+25%)
▪️ На душу населения: 31.31 TB
🗄 Хранение
▪️ Всего: 2.09 ZB (+20.81%)
▪️ Использование хранилищ: 61%
▪️ Структурированные данные: +36% (доля — 18.7%)
⚙️ Вычислительные мощности
▪️ Общая: 280 EFLOPS
▪️ Из них ИИ-мощности: 90 EFLOPS (32%)
▪️ У госкомпаний — рост в 3 раза
🏛 Публичные данные
▪️ Платформы открытых данных: +7.5%
▪️ Объем открытых данных: +7.1%
▪️ Вызовы к госданным: 5400+ млрд
▪️ 60% регионов запустили авторизованное управление
🏢 Бизнес и ИИ
▪️ 66% лидеров рынка покупают данные
▪️ Активные данные: 62% от всего хранения
▪️ ИИ-сервисы: +238
▪️ Компании с ИИ: +36%
▪️ Большие модели: +57%
▪️ Качественные датасеты: +27%
🌍 Где больше всего данных?
▪️ Топ-6 провинций: 57.45% от всех данных
▪️ Лидеры по ИИ: Пекин, Шанхай, Чжэцзян
▪️ Топ-отрасли: промышленность, финансы, логистика
🔮 Прогноз на 2025
▪️ Производство данных превысит 50 ZB
▪️ Растёт доля синтетических и ИИ-данных
▪️ Формируется рынок доверенных пространств данных
▪️ Данные = полноценный актив, как нефть
—
Первоисточник NATIONAL DATA RESOURCE SURVEY REPORT (2024), опубликован в апреле 2025 г.
#opendata #data #china #ai #regulation
👍11❤3
В рубрике как это устроено у них портал открытых данных провинции Гуандоу (Китай) gddata.gd.gov.cn содержит более 98 тысяч наборов данных и более 6700 API для доступа к данным провинции, всех государственных департаментов и всех муниципалитетов. Портал позиционируется скорее не как портал открытых данных, а как "открытая платформа индустриальных данных". В отличие от порталов и каталогов данных в других странах здесь нет открытых лицензий и данные доступны только после регистрации и верификации пользователей (нужен аккаунт WeChat или другой способ идентификации и подтверждения жизни в Китае или связи с ним).
На самом деле там, конечно же, есть недокументированное API и эти требования условны, но тем не менее.
Данные опубликованы в форматах CSV, RDF, JSON, XML, XLSX, XLS. Часто в один набор данных входят файлы в разных форматах с одним содержанием.
Население провинции Гуандоу более 120 миллионов человек что позволяет сранивать её в с РФ, её номинальный ВВП и ППС тоже сравнимы с РФ, так что можно увидеть как публикуют данные на территории сравнимой по населению и экономике (не по размеру, конечно).
Всё это помимо других проектов в Гуандоу, таких как Shenzhen Data Exchange и Canton Data Exchange которые не про открытые данные, а про рынок данных и торговлю ими.
Несмотря на отсутствие центрального портала открытых данных в Китае порталы данных есть у почти каждой провинции и у них сильный уклон на API доступа к данным реального времени и данных о городской инфраструктуре.
#opendata #china #datasets
На самом деле там, конечно же, есть недокументированное API и эти требования условны, но тем не менее.
Данные опубликованы в форматах CSV, RDF, JSON, XML, XLSX, XLS. Часто в один набор данных входят файлы в разных форматах с одним содержанием.
Население провинции Гуандоу более 120 миллионов человек что позволяет сранивать её в с РФ, её номинальный ВВП и ППС тоже сравнимы с РФ, так что можно увидеть как публикуют данные на территории сравнимой по населению и экономике (не по размеру, конечно).
Всё это помимо других проектов в Гуандоу, таких как Shenzhen Data Exchange и Canton Data Exchange которые не про открытые данные, а про рынок данных и торговлю ими.
Несмотря на отсутствие центрального портала открытых данных в Китае порталы данных есть у почти каждой провинции и у них сильный уклон на API доступа к данным реального времени и данных о городской инфраструктуре.
#opendata #china #datasets
✍6❤3⚡2❤🔥1
В рубрике как это устроено у них национальный портал открытых данных Литвы data.gov.lt
Включает 2702 набора данных от 508 организаций, общий объём данных в статистике не упоминается, но я бы исходил что там от десятков до сотен гигабайт поскольку довольно много данных большого объёма, датасеты, условно, от 1ГБ.
111 наборов данных - это данные высокой ценности в определении Евросоюза.
Некоторые полезные факты из их презентации:
- Литовская статслужба была реорганизована как государственное Агентство данных
- до создания портала специальная команда из 70 (!) человек в режиме полной занятости проводили инвентаризацию государственных и муниципальных данных
- не просто сделали портал, но под ним находится национальное озеро данных
- в 2025 году сдвинули приоритет на качество данных и данные особой ценности
Жаль нет их открытых методик по инвентаризации данных, подозреваю что там есть много чему поучится можно было бы.
У меня несколько лет назад был гайдлайн по инвентаризации госданных, он годится не только к открытым данным, но открытие данных после инвентаризации - это важная задача.
#opendata #datasets #lithuania
Включает 2702 набора данных от 508 организаций, общий объём данных в статистике не упоминается, но я бы исходил что там от десятков до сотен гигабайт поскольку довольно много данных большого объёма, датасеты, условно, от 1ГБ.
111 наборов данных - это данные высокой ценности в определении Евросоюза.
Некоторые полезные факты из их презентации:
- Литовская статслужба была реорганизована как государственное Агентство данных
- до создания портала специальная команда из 70 (!) человек в режиме полной занятости проводили инвентаризацию государственных и муниципальных данных
- не просто сделали портал, но под ним находится национальное озеро данных
- в 2025 году сдвинули приоритет на качество данных и данные особой ценности
Жаль нет их открытых методик по инвентаризации данных, подозреваю что там есть много чему поучится можно было бы.
У меня несколько лет назад был гайдлайн по инвентаризации госданных, он годится не только к открытым данным, но открытие данных после инвентаризации - это важная задача.
#opendata #datasets #lithuania
✍5
begtin_inventory_v03.pdf
1.1 MB
Для тех кто интересуется инвентаризацией именно открытых данных вот тут моя презентация от 2020 года. Это облегчённая версия для обучения госслужащих этой работе, полную версию, увы, я опубликовать не могу, ибо она делалась для конкретной академической структуры (там это больше не преподаю, если что), а с этой версией я даже выступал на каких-то мероприятиях
По большей части она актуально, хотя какое-то количество изменений уже накопилось.
#data #presentations #datainventory #opendata
По большей части она актуально, хотя какое-то количество изменений уже накопилось.
#data #presentations #datainventory #opendata
❤6✍5👍1
На национальном портале открытых данных Норвегии заменили строку поиска на запросы к ИИ где можно написать что ищете и получить подборку ссылок. Внутри там pgvector + LangChain + Google Vertex AI. Выглядит неплохо, но и не хорошо, люди чаще ищут конкретные данные (значений), а не датасеты и от ИИ поиска ожидают именно этого. В любом случае это какая-никакая инновация, уж точно значимее чем "хихикающий ИИ помощник" на портале data.gov.ru.
#opendata #ai #search
#opendata #ai #search
👍10🗿3❤1
Google анонсировали AlphaEarth ИИ модель для работы с петабайтами данных наблюдения за Землей.
Пишут что его уже используют для разметки неизвестных экосистем, анализа климатических и агрокультурных изменений и тд.
В основе модели набор данных Google Satellite Embedding доступный для разработчиков через Google Earth
#geodata #opendata #ai
Пишут что его уже используют для разметки неизвестных экосистем, анализа климатических и агрокультурных изменений и тд.
В основе модели набор данных Google Satellite Embedding доступный для разработчиков через Google Earth
#geodata #opendata #ai
❤6👍5🔥3
Что-то я совсем забыл написать, а тема важная. 1-го августа в США Трамп отправил в отставку Erika McEntarfer главу BLS (Bureau of Labor Statistics) за публикацию уточнённых цифр о безработице которые ему не понравились. Решение тревожное по причине того что в США официальная статистика активно используется на фондовом рынке, бизнесом и аналитиками и её закрыть как в России практически невозможно, а вот обвинения в манипуляции, как в данном случае Трамп обвинил главу BLS возможны. Впрочем и утверждения Трампа что цифры должны быть иными - это тоже, сомнительный вопрос.
Пока все публикации что я видел о том что Трамп не прав и что доступность экономических данных крайне важна, а пересмотр оценок регулярно происходит и он обоснован. В USA Facts об этом полезный лонгрид о том что это за данные и почему они важны.
#opendata #closeddata #usa #trump
Пока все публикации что я видел о том что Трамп не прав и что доступность экономических данных крайне важна, а пересмотр оценок регулярно происходит и он обоснован. В USA Facts об этом полезный лонгрид о том что это за данные и почему они важны.
#opendata #closeddata #usa #trump
USAFacts
How does the Bureau of Labor Statistics gather the monthly jobs report? | USAFacts
A look at how the Bureau of Labor Statistics reports on the economy.
❤4⚡3✍1🤔1
Разные мысли на разные темы:
1. Всё больше вижу инструментов включающих встроенные MCP сервера. Например, утилиты командной строки к которым добавляют новые команды "mcp" или "mcp-server" и которые предоставляют свои функции как MCP API. В какой-то момент должен появится MCP validated реестр или что-то вроде или альтернатива MCP или одно из двух.
2. По ощущениям уже под 99% происходящего сейчас в работе с данными и в ИТ в целом сводится к применению ИИ. Открытые данные не исключение, всё что на ИИ не завязано выглядит как затухающие маргинализованные инициативы Нельзя сказать что это хорошо но это, на сегодняшний день, данность. Причём "идеологический заряд" в международной тусовке этому сильно мешает, поскольку она очень анти-бигтеховая с почти категоричным неприятием облачных ИИ ассистентов.
3. Какая-то степень открытости в Россию вернётся только в случае "появления жизни" в экономике. В первую очередь потому что экономические индикаторы нужны для инвестиционных аналитиков и их не получится не публиковать в открытую. Но в целом надо понимать что тенденция на закрытость существует не сама по себе, а как часть тенденции усиления контроля. Контроль - это основная религия российского гос-ва и фундамент всего регулирования, текущего и ожидаемого.
4. Возвращаясь к MCP, не хватает простого и понятного механизма предоставления ИИ агентам доступа к данным. Это не модель ресурсов - это стандартизация предоставления данных и всё та же ИИ автоматизация анализа данных. Почти наверняка тут начнётся стандартизация (уже началась так или иначе) и ускорится.
5. На самом деле ни у кого нет точного ответа того что будет происходить с рынком труда в ближайшие годы. Пессимистичные ожидания что ИИ и основанные на ИИ технологии будут заменять существенную часть рутины и создавать новые контуры контроля для задач которые пока могут выполняться только вручную. Оптимистичные в формировании новых профессий.
6. Вопрос в том вступили ли мы в эпоху вторичной креативности когда настоящему нового ничего не создаётся. Если бы на Землю сейчас прилетели бы инопланетяне-археологи то весь культурный слой начиная с какого года был бы вторичным (читай - малоценным)? С 2020 или раньше?
#thoughts #opendata #ai
1. Всё больше вижу инструментов включающих встроенные MCP сервера. Например, утилиты командной строки к которым добавляют новые команды "mcp" или "mcp-server" и которые предоставляют свои функции как MCP API. В какой-то момент должен появится MCP validated реестр или что-то вроде или альтернатива MCP или одно из двух.
2. По ощущениям уже под 99% происходящего сейчас в работе с данными и в ИТ в целом сводится к применению ИИ. Открытые данные не исключение, всё что на ИИ не завязано выглядит как затухающие маргинализованные инициативы Нельзя сказать что это хорошо но это, на сегодняшний день, данность. Причём "идеологический заряд" в международной тусовке этому сильно мешает, поскольку она очень анти-бигтеховая с почти категоричным неприятием облачных ИИ ассистентов.
3. Какая-то степень открытости в Россию вернётся только в случае "появления жизни" в экономике. В первую очередь потому что экономические индикаторы нужны для инвестиционных аналитиков и их не получится не публиковать в открытую. Но в целом надо понимать что тенденция на закрытость существует не сама по себе, а как часть тенденции усиления контроля. Контроль - это основная религия российского гос-ва и фундамент всего регулирования, текущего и ожидаемого.
4. Возвращаясь к MCP, не хватает простого и понятного механизма предоставления ИИ агентам доступа к данным. Это не модель ресурсов - это стандартизация предоставления данных и всё та же ИИ автоматизация анализа данных. Почти наверняка тут начнётся стандартизация (уже началась так или иначе) и ускорится.
5. На самом деле ни у кого нет точного ответа того что будет происходить с рынком труда в ближайшие годы. Пессимистичные ожидания что ИИ и основанные на ИИ технологии будут заменять существенную часть рутины и создавать новые контуры контроля для задач которые пока могут выполняться только вручную. Оптимистичные в формировании новых профессий.
6. Вопрос в том вступили ли мы в эпоху вторичной креативности когда настоящему нового ничего не создаётся. Если бы на Землю сейчас прилетели бы инопланетяне-археологи то весь культурный слой начиная с какого года был бы вторичным (читай - малоценным)? С 2020 или раньше?
#thoughts #opendata #ai
🤔8❤7🔥3✍2⚡2
Полезное чтение про данные, технологии и не только:
- Practices for Collecting, Managing, and Using Light Detection and Ranging Data (2025) хороший обзор практик сбора, обработки и публикации данных измерений LIDAR где можно узнать о том как, зачем и в каком виде эти данные собираются и где их искать.
- Enriching Unstructured Cultural Heritage Data Using NLP обогащение неструктурированных данных об объектах культурного наследия с помощью LLM.
#readings #ai #opendata #data #geodata
- Practices for Collecting, Managing, and Using Light Detection and Ranging Data (2025) хороший обзор практик сбора, обработки и публикации данных измерений LIDAR где можно узнать о том как, зачем и в каком виде эти данные собираются и где их искать.
- Enriching Unstructured Cultural Heritage Data Using NLP обогащение неструктурированных данных об объектах культурного наследия с помощью LLM.
#readings #ai #opendata #data #geodata
1👍4❤1
В рубрике как это устроено у них
Государственный каталог Музейного фонда
Существует как минимум 8 лет, включает 9335 объектов.
Из плюсов:
- имеет API (недокументированное), охватывает множество музеев страны.
Из минусов:
- условия использования материалов не определены
- объекты в виде книг отсканированы только в виде обложек
- 9335 объектов это очень мало для страны в 9 миллионов человек и более 150 музеев. В одном только национальном музее Беларуси 37 тысяч единиц
Во всех таких каталогах я проверяю на наличие объектов относящихся к Армении и в белорусском каталоге их практически нет, вернее всего два.
#culturalheritage #opendata #belarus
Государственный каталог Музейного фонда
Существует как минимум 8 лет, включает 9335 объектов.
Из плюсов:
- имеет API (недокументированное), охватывает множество музеев страны.
Из минусов:
- условия использования материалов не определены
- объекты в виде книг отсканированы только в виде обложек
- 9335 объектов это очень мало для страны в 9 миллионов человек и более 150 музеев. В одном только национальном музее Беларуси 37 тысяч единиц
Во всех таких каталогах я проверяю на наличие объектов относящихся к Армении и в белорусском каталоге их практически нет, вернее всего два.
#culturalheritage #opendata #belarus
1✍3👍2