Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.71K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
Коммерсант пишет что В цифровую модель поверхности России на ближайшие годы вписывают четыре региона [1], Росреестр запускает единую цифровую платформу «Национальная система пространственных данных» [2] и там уже участвуют Краснодарский и Пермский края, Иркутская область и Республика Татарстан.

Новость, казалось бы, хорошая. Её портит то что упоминается в статье В частности, доступ к геопространственным данным цифровой платформы можно будет получить на портале госуслуг — «Роскадастр».

Доступ к данным через госуслуги - это плохая идея. И то что открытые геоданные нигде не упомянуты также не здорово. Геоданные одни из наиболее востребованных в мире, они должны быть общедоступны настолько насколько возможно, именно это даёт максимальный экономический эффект и приводит к созданию новых цифровых продуктов.

Ссылки:
[1] https://www.kommersant.ru/doc/5180820
[2] https://rosreestr.gov.ru/activity/gosudarstvennye-programmy/natsionalnaya-sistema-prostranstvennykh-dannykh/

#opendata #geo #geodata #rosreestr
January 24, 2022
This media is not supported in your browser
VIEW IN TELEGRAM
September 28, 2022
Я уже рассказывал про геоклассификацию данных в Dateno и то что существенная фича в поиске - это возможность поиска по городам/регионам, на субрегиональном уровне. Классификация датасетов по субрегионам основана почти полностью на аннотировании каталогов данных и с этой точки зрения это довольно простая задача с понятным решением.

Как оказывается куда менее простой задачей является привязка датасетов к странам и макрорегионам.

Базово привязка эта привязка делается через привязку каталога данных которые, как правило, конкретными странами ограничены. К примеру, если есть национальный портал данных какой-то страны, то и данные почти всегда касаются этой страны. Но это самые простые случаи и в основном про порталы открытых данных и про геопорталы.

Сложности начинаются с научными данными. Большая их часть чёткой геопривязки может не иметь вообще, кроме ну разве что, академического института(-ов) авторов и их местонахождения. Исключение составляют редкие датасеты из наук о земле, лингвистики и ещё ряда научных дисциплин.

Другая сложность возникает со всей статистикой и производными индикаторами. Помимо стат. показателей по странам существует неимоверное число разных групп стран, от простых, до хитровыдуманных. К примеру, группы арабских стран, страны MENA, G20, G7, Андское сообщество, наименее развитые страны, страны без выхода к морю и ещё много какие. Причём, конечно, группы стран пересекаются, но не всегда входят в друг друга.

Внутри Dateno, при этом, для группировки стран используется список макрорегионов из UN M49. Разметить страны по вхождение в эти макрорегионы несложно и внутренний справочник для этого есть. А вот справочника вхождения стран в эти многочисленные группы и их пересечений - нет и его надо составлять де-факто полувручную и нет кого-то кто бы поддерживал такую живую базу данных или программную библиотеку.

Поэтому георазметка реальных мировых статистических данных - это боль, требующая большой ручной работы по привязке к макрорегионам.

Пока что отсутствие привязки каких-то датасетов к странам и макрорегионам не так критичны поскольку другие поисковики даже такого не поддерживают и есть фасеты где разметка куда хуже. К примеру, наличие информации о лицензии есть не более чем у 10% датасетов.

Тем не менее качество фасетов в Dateno влияет на пользовательский опыт и это важная задача для построения максимально достоверного поискового индекса по данным.

#dateno #statistics #indicators #geodata #geo #thoughts
July 26, 2024
August 8, 2024
January 4