Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике как это устроено у них проект PLATEAU [1] в Японии создан Министерством Земель, Инфраструктуры, Транспорта и Туризма и в рамках проекта создано 211 3D моделей городов и территорий Японии.

Все модели опубликованы как открытые данные на портале geospatial.jp в формате CityGML v2 и v3, а также сами 3D модели можно просмотреть онлайн в сервисе PLATEAU View [3] (осторожно, сильно нагружает браузер)

Общий объём 3D моделей составляет более 100GB в сжатом виде и более 2ТБ в распакованном.

Ссылки:
[1] https://www.mlit.go.jp/plateau/open-data/
[2] https://www.geospatial.jp
[3] https://plateauview.mlit.go.jp/

#opendata #japan #geodata #datasets #bigdata
В рубрике как это устроено у них раскрытие государственных данных в Таиланде, в основном осуществляется на Национальном портале открытых данных [1] где уже опубликовано более 15 тысяч наборов данных.

Одна из особенностей Таиланда в том что раскрытие данных полу-централизовано, у регионов и органов власти существуют свои порталы, но все они являются поддоменами Национального портала, например ranong.gdcatalog.go.th [2], и buengkan.gdcatalog.go.th [3] и созданы на базе движка CKAN. Из всех этих порталов данные автоматически и стандартизировано агрегируются на центральный портал.

Кроме того геоданные с портала отображаются на геопортале страны [4] работающем на базе TerriaJS

Всего в Таиланде порядка 134 порталов открытых данных и каталогов геоданных [5].

У ODI недавно был отчет на тему Таиланда [6] к слову, хорошо оформленный, но довольно слабый поскольку про сам Таиланд там очень мало, а кейсы все по другим странам: Великобритания, Франция, Словакия и тд. В общем-то, возникает вопрос, причём тут Таиланд?

А в целом в Таиланде, как и в большинстве стран Юго-Восточной Азии в последние годы бум раскрытия данных и модернизации раскрытия официальной статистики.

Ссылки:
[1] https://gdcatalog.go.th
[2] https://buengkan.gdcatalog.go.th
[3] https://ranong.gdcatalog.go.th
[4] https://geo.gdcatalog.go.th
[5] https://dateno.io/registry/country/TH
[6] https://theodi.org/insights/reports/empowering-thailands-digital-government-with-open-data/

#opendata #thailand #data #datacatalogs #geodata
В качестве регулярных напоминаний о том где взять открытые данные:

Списки на Github
- awesome-public-dataset один из крупнейших списков общедоступных данных
- awesome-citygml - список доступных 3D моделей городов, много, по разным странам
- awesome-gis в основном открытый код для ГИС, но и раздел с геоданными
- awesome-opendata-rus довольно давно ещё собранный нами в Инфокультуре и пополняемый контрибьюторами список данных по РФ
- awesome-italian-public-dataset список открытых данных в Италии
- awesome-syntetic-data список инструментов по генерации синтетических данных

Каталоги каталогов данных
- Dateno Registry реестр каталогов данных который мы ведём в Dateno
- datacatalogs.org каталог порталов открытых данных от Open Knowledge Foundation
- datacatalogs.ru каталог порталов открытых данных в РФ и постсоветском пространстве от Инфокультуры

Поисковики по данным
- Dateno.io поисковик по более чем 15 миллионов наборов данных, со множеством фасетов и источников
- Google Dataset Search поисковик по датасетам от Google. На сегодняшний день крупнейший в мире
- BASE (Bielefeld Academic Search Engine) один из крупнейших поисковиков по научным данным
- OpenAIRE Explore европейский поисковик и агрегатор по научным данным ЕС и не только.
- Findata.cn китайский поисковик по научным данным Китая и данным связанным с Китаем от Китайской Академии Наук
- SciDb.cn китайский агрегатор научных данных, аналог OpenAIRE
- GeoSeer единственный известный мне поисковик по геоданным (кроме Dateno, конечно)

Крупные [над]национальные порталы открытых данных
- Data.europa.eu портал открытых данных Евросоюза
- Data.gov портал открытых данных США
- Data.gov.uk портал открытых данных Великобритании

Данные для ИИ и обучения нейросетей
- Kaggle крупнейший каталог данных для ИИ, поддерживается Google
- Hugging Face большое сообщество дата сайентистов и каталог данных

#opendata #datasets #data
Не будь я занят во многом другом, сам бы в таком поучаствовал, но для тех кто в РФ и хочет поделать хорошего в плане открытости это хорошая возможность.
Мы ищем аналитика в Сбериндекс для развития портала открытых данных

Сбериндекс - это исследовательская лаборатория Сбера, которая работает над экономической статистикой на основе транзакционных данных банка. Осенью этого года мы начинаем модернизацию сайта открытых данных www.sberindex.ru, которая ориентирована на рост детальности наборов данных и удобство для пользователей. Мы ищем аналитика, которому было бы интересно внедрять передовые практики поставки статистических данных и развивать функциональность портала открытых данных.

Обязанности и функции:
◽️ Проводить анализ передовых практик порталов и стандартов открытых статистических данных , быть заказчиком и консультантом в проектировании и разработке портала открытых данных
◽️ Быть менеджером продукта - администрирование, мониторинг размещения данных, интеграций, инициация изменений, стратегия развития портала и т.д.
◽️ Координировать и организовывать сотрудничество с разработчиками, пользователями, поставщиками данных, исследователями
◽️ Участвовать в разработке дэшбордов, визуализаций данных, лендингов для исследований совместно с аналитиками данных
◽️ Разрабатывать техническую документацию, руководства для пользователей, стандарты лучших практик, схемы рабочих процессов для публикации данных
◽️ Помогать пользователям и владельцам данных, проводить обучение, информировать о работе портала

Требования:
◽️ высшее образование (техническая специальность)
◽️ прикладные навыки использования основных библиотек Python
◽️ знание основ управления данными, баз данных, визуализации данных, опыт работы с API
◽️ знание различных форматов данных (parquet, JSON-Stat, CSV и т.п.) и метаданных
◽️ интерес к стандартам и практикам публикации открытых данных, готовность погружаться в изучение и внедрение лучших практик
◽️ плюсом будут навыки разработки технических требований, знакомство с процессами разработки порталов данных, умение определять потребности пользователей дата-продуктов

Резюме и мотивационное письмо можно направлять на [email protected]
К вопросу о состоянии открытости данных в РФ, я не очень верю что в ближайшие месяцы (годы?) случится чудо и оживёт государственный портал data.gov.ru. Пока не проглядывается сценарий при котором внутри гос-ва тренд на систематическую открытость вернулся. Больше шансов что мы в Dateno соберём больше данных чем когда-то было в data.gov.ru. Там уже сейчас проиндексировано много разного и можно больше.

Но есть посмотреть профиль РФ в Dateno, то там проиндексировано только около 15 каталогов данных из 154. Почему так? Можно ли лучше?

Конечно можно, и ограничения тут очень понятные:
1. Большая часть российских госресурсов сейчас не индексируются с зарубежных датацентров. Это преодолевается развертыванием прокси в РФ и индексация через прокси. И РФ не единственная страна где есть такие ограничения.
2. Значительная часть открытых данных в России публикуется по метод рекомендациям Минэка. Они очень плохо написаны, индексировать сайты публикующие данные по ним сложно, но возможно. Только этот парсер будет только под российские госпорталы, и то не все. И, по большей части, с устаревшими данными.
3. Очень много в РФ своих геопродуктов, самописных порталов данных и тд. Это также требует написания множества парсеров. Штук 40-50. Более менее стандартизированы только порталы NextGIS, Bitrix и Орбис, но их не так много.
4. Часть порталов с данными используют известное ПО типа Ipt, Pure, Figshare и до них пока ещё не дошли руки, но как только дойдут они добавятся в общий индекс.

В итоге, если специально не заморачиваться российской спецификой получится проиндексировать ещё 20-40 каталогов данных через прокси и за счёт парсеров для универсального софта, а в остальном надо приложить существенные усилия чтобы проиндексировать оставшиеся.

В этом смысле, собрать данные, например, по Финляндии гораздо проще. Там уже большая часть каталогов данных проиндексирована, да и не проиндексированные работают на типовом ПО которое тоже скоро будет индексироваться.

Вся эта национальная специфика очень сильно снижает видимость и находимость данных. И в Dateno ещё можно более-менее, но измерить эту доступность, а, к примеру, в Google Dataset Search невозможно даже посмотреть сколько датасетов и источников есть по странам.

#opendata #dateno #datasets #datacatalogs
Кому принадлежат языки? Я имею в виду не языки программирования, а я разговорные языки. Вопрос этот одновременно философский, не без политики, и очень практичный.

Практичный потому что во многих задачах связанных с аттрибутированием объектов, будь то документы, данные, тексты, изображения и тд. можно идентифицировать язык его содержания, то далеко не всегда содержатся сведения о его географической привязке/происхождении. К примеру, если содержание на испанском языке, то как понять связан ли объект/происходит ли из Испании, а может он из Мексики, или из Чили?

Аналогично, если содержание на арабском языке, то то есть десяток стран откуда оно может происходить. И так довольно много разных языков, в первую очередь межгосударственных языков, официальных языков ООН, языков распространившихся в результате культурной/колониальной экспансии с 14 по 20 века и тд.

Какие-то языки, такие как английский, французский, испанский, португальский, уже давно имеют меньше носителей речи в странах своего происхождения чем в странах культурной и языковой экспансии.

Одновременно с этим есть узко национальные языки, применение которых почти всегда означает что объект связан с конкретной культурной средой находящейся в конкретной стране. К примеру, японский, малайский, индонезийский, фарси, польский, финский и другие языки имеют почти 100% атрибуцию с конкретной географической территорией.

Всё так, языки можно частично разметить и использовать матрицу сопоставления языка и страны. Но так работает не всегда. Один объект может несколько языковых и территориальных характеристик. К примеру, румынский исследователь на румынском языке пишет о геологических разломах в Иране. Относить его статью к Румынии или к Ирану? Или польский турист публикует GPX трек путешествия по Греции, описывая его на польском языке. Относить ли его к Польше или к Греции? Эти случаи не самые сложные, их можно разбирать по приоритетности геопривязки. Имея несколько геоклассификацией определять несколько или одну приоритетными к контексте.

Самое сложное, пока что, из того что я встречал - это статьи в глобальных энциклопедиях вроде Википедии. Как их классифицировать? Как разметить все статьи в выбранной вики с точки зрения геопривязки? Как вообще превратить Википедию в базу именно геоданных? Понятно что часть статей имеющих координаты или указание территорий легко сопоставляются через Wikidata, но большую часть статей простым образом не разметишь.

Всё это практические, прикладные вопросы взгляда на языки. У меня перед глазами есть несколько задач анализа больших баз данных с содержанием на разных языках где такие вопросы очень актуальны.

А есть ещё те самые философские вопросы. Кому принадлежат языки, буквально? Примерно как некоторые развивающиеся страны пытающиеся отказаться от английского или французского языка, как языка колониального наследия. Потому что в их восприятии это не универсальные языки, а языки конкретных стран Великобритании и Франции.

Или почему, к примеру, у многих есть восприятие что у России монополия на русский язык? Санкционные действия многих создателей контента пошли по пути отказа от русского языка. Хотя кроме РФ у него широкая диаспора, это разговорный язык всей Центральной Азии и значительной части Кавказа.

Национальные регуляторы и цензоры также приоритетом видят для себя языки которые они считают "своими". Что добавляет давления на глобальные проекты знаний с их стороны.

Не должны ли все языки быть достоянием человечества и наступит ли тот момент когда ни одно национальное правительство не будет "владеть" языками тех кто живёт на территории их стран?

#languages #thoughts
В рубрике как это работает у них открытые данные по доменам в зоне .fr (Франция) на сайте Afnic [1] В том числе руководство [2] (на французском языке).

В общей сложности это данные по 8.7 миллионам доменов, объёмом около 600МБ в формате CSV.

Afnic не является государственной структурой и они не имеют обязательств публиковать данные, но делают это поскольку разделяют ценности открытости.

Ссылки:
[1] https://www.afnic.fr/produits-services/services-associes/donnees-partagees/
[2] https://www.afnic.fr/wp-media/uploads/2021/03/Open-Data-fr-afnic-Guide-Utilisateurs.pdf

#opendata #france #domains
В рубрике интересных проектов на данных GeoSeer [1], поисковая система по геоданным, а конкретнее по точкам API по стандартам WFS, WMC, WCS по всему миру. Я писал о нём год назад [2] и в течение года ни раз обращал внимание.

Из интересного:
1. 3.5 миллиона проиндексированных георесурсов/геоданных
2. За деньги доступно API для поиска
3. Любопытная статистика по охвату [3]
4. Дают расширенное описание георесурсов с учётом его геохарактеристик (области, атрибутов WFC/WMS и др.) [4]

Из особенностей:
- более 60%, примерно 2 миллиона записей - это геоданные Германии. Для сравнения в Dateno 4.4 миллиона георесурсов из которых к Германии относятся 1.89, это около 43%.
- реестр источников не публикуют, вернее обещают доступность только через API при платном тарифе
- фасетного поиска нет, только достаточно простой язык запросов
- поскольку индексируются WMS, WFC, WCS и WMTS то охватывает гораздо больше точек подключения в этих стандартах, но не охватывает все остальные геоданные, на порталах открытых данных и в каталогах ArcGIS и не только.

Разницу между GeoSeer и Dateno можно описать так:
1. В Dateno есть публичный реестр всех источников, он не скрывается, любой желающий может скачать его как датасет [4].
2. В Dateno есть много открытой статистики [5]. Она пока мало визуализируется, но с ней можно работать.
3. В Dateno есть быстрый фасетный поиск и фильтрация по странам/территориям и другим критериям
4. Dateno агрегирует геоданные из порталов неохваченных GeoSeer поскольку они не по стандартам OGC.
5. Пока в Dateno нет охвата любых источников геоданным по стандартам OGC
6. Пока в Dateno нет расширенного вывода метаданных для георесурсов

В целом пересечение индексов GeoSeer и Dateno в части геоданных около 60-80%. GeoSeer для проекта выглядит как хороший референсный проект для проверки полноты собственной базы.

Ссылки:
[1] https://www.geoseer.net
[2] https://yangx.top/begtin/5071
[3] https://www.geoseer.net/stats/
[4] https://github.com/commondataio/dataportals-registry/
[5] https://github.com/commondataio/dateno-stats

#opendata #datasearch #datasets #geodata #spatial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
В рубрике как это устроено у них открытые и общедоступные данные тихоокеанских островных государств.
Большая часть тихоокеанских государств входят в сообщество Pacific Community которое ведёт несколько проектов по сбору данных. Один из них - это геопорталы на базе ПО PopGIS которые были созданы для 14 стран [1] и которые совмещают раскрытие статистики и геопорталы [2].

Другой пример, это Pacific Environment Data Portal [3] созданный в Secretariat of the Pacific Regional Environment Programme (SPREP) и содержащий 19 тысяч наборов данных об окружающей среде и включающий подпорталы по каждой стране [4].

А также, конечно стоит упомянуть Pacific Data Hub [5] портал открытых данных всё того же Pacific Community и PHD.Explorer [6] одно окно доступа к статистики всех государств Тихого океана входящих в Pacific Community.

Это не весь список, есть и инициативы в отдельных странах и есть другие порталы в Pacific Community, но при поиске данных по этим странам стоит начинать именно с этих порталов.

Ссылки:
[1] https://sdd.spc.int/mapping-popgis
[2] https://fiji.popgis.spc.int
[3] https://pacific-data.sprep.org
[4] https://tonga-data.sprep.org
[5] https://pacificdata.org

#opendata #oceania #polynesia #data #datasets #datacatalogs
В рубрике как это устроено у них, подборка общедоступных каталогов данных Республики Беларусь:

Статистика

- http://dataportal.belstat.gov.by Портал статистических данных Белстата. Экспорт данных в XML, SDMX, XLS. Есть недокументированное API

Геоданные
- https://meta.geo.by/geoserver сервер геоданных на базе GeoServer. По умолчанию требует авторизации, но прямые ссылки на OGC API доступны
- https://gisoopt.by/arcgis/rest/services - ArcGIS сервер национального парка Нарочанский
- https://oopt.gis.by/arcgis/rest/services/ - ArcGIS сервер Национальной академии геоинформационных систем
- https://gis.maps.by/arcgis/rest/services/ - ArcGIS сервер Госкартгеоцентра
- https://vitebsk.gismap.by/arcgis/rest/services - ArcGIS сервер с геоданными Витебска

Государственного портала открытых данных в РБ никогда не существовало.
Общественный портал opendata.by закрылся несколько лет назад.

#opendata #datacatalogs #belarus #data