Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Я, кстати, ранее ругался что на портале открытых данных Казахстана [1] ничего не скачать не имея местного ИИ, данные были доступны только после регистрации, теперь скачивать данные можно без регистрации, наверное они меня читают;) Но и тут без подвоха не обошлось, скачивать можно только до 100 записей за раз. Это, конечно, совершенно "потрясающе" как можно было до такого додуматься. Настолько смешно, что даже не знаю что добавить. В общем, портал по прежнему не про открытые данные. А вот где у них открытые данные точно есть так это в Портале открытых пространственных данных Республики Казахстан [2]. Там взяли готовый продукт Geonode и опубликовали более 500 слоёв. Но ленятся бессовестно, не указывают условия использования данных, язык везде указан как английский, хотя названия слоёв на русском. Описания есть далеко не у всех наборов данных.

Это вообще странно что решили делать каталог на GeoNode, а не GeoNetwork, не то чтобы это невозможно, но продукт другого типа.

Ссылки:
[1] https://data.egov.kz
[2] https://map.gov.kz/

#opendata #data #opengov #kazakhstan
Я, кстати, не могу не отметить что в реестре порталов с данными Common Data Index уже больше порталов данных стран постсоветского пространства чем в datacatalogs.ru. Например, в реестре 37 порталов с данными в Республике Казахстан [1] из которых, правда, 33 являются геопорталами, по большей части на базе ArcGIS. Данные оттуда вполне можно получить, главные ограничения юридические поскольку в ArcGIS не вносят информацию о лицензиях/правах на данные. Впрочем я уже неоднократно писал [2] что с открытыми данными в Казахстане проблема другого рода, по факту data.egov.kz порталом открытых данных не является и его создатели всячески препятствуют использованию этих данных. Зачем они так делают я недоумеваю, странно что негосударственный портал открытых данных Казахстана ещё никто не создал.

Ссылки:
[1] https://registry.commondata.io/country/KZ
[2] https://yangx.top/begtin/4626

#opendata #data #kazakhstan
И вновь про доступность данных, вопрос, а никто не знает куда подевалась статистика внешней торговли Казахстана с Россией и Беларусью?

Например, её нет в отчетах за 2022 год [1] и во всех остальных отчетах что я проверял с 2018 года, но может и раньше.

Ещё более странно, что нет статистики торговли с Арменией, хотя перепроверка по Армстату показывает что товарооборот между странами есть [2].

Просто таки даже интересно, это "военная цензура" в Казахстане и там перезалили все файлы таможенной статистики или вот уже много лет так публикуют, но тогда это очень и очень странно.

UPD. Похоже исключили вообще всю статистику торговли со странами ЕАЭС (Армения, Кыргызстан, Россия, Беларусь). Но в Армении эту статистику всё ещё публикуют

UPD2. Оказывается статистика торговли со странами ЕЭАС публикуется в отчетах на сайте Казстата [3], что делает вопрос ещё более интересным. Это на Казстате ещё не удалили эти данные или что-то не так с базой статистики на сайте Комитета госдоходов РК?

Ссылки:
[1] https://kgd.gov.kz/sites/default/files/exp_trade/svt_12n_22.zip
[2] https://www.armstat.am/en/?nid=717&thid%5B%5D=398&years%5B%5D=2023&years%5B%5D=2022&years%5B%5D=2021&years%5B%5D=2020&year%5B%5D=2023&year%5B%5D=2022&year%5B%5D=2021&year%5B%5D=2020&monid%5B%5D=1&monid%5B%5D=2&monid%5B%5D=3&monid%5B%5D=4&monid%5B%5D=5&monid%5B%5D=6&monid%5B%5D=7&monid%5B%5D=8&monid%5B%5D=9&monid%5B%5D=10&monid%5B%5D=11&monid%5B%5D=12&submit=Search
[3] https://stat.gov.kz/ru/industries/economy/foreign-market/spreadsheets/?year=2022&name=40108&period=&type=

#opendata #questions #kazakhstan #trade #statistics
В Казахстане два госоргана проводят опросы по поводу открытых данных. Это Комитет государственных доходов МФ РК [1] и Акимат Северо-Казахстанской области [2]

Как думаете, что не так с этими опросами?

Не так то что в Казахстане нет портала открытых данных потому что на портале данных РК [3] не только нет свободных лицензий, но и любая выгрузка данных построчная (!). Честно говоря я ни в одной стране мира, ни на одном каталоге данных такого не видел чтобы данные отдавали построчно и не больше 100 строк за раз (!). Может после авторизации там получше, но авторизация только для граждан.

Так что нет в Казахстане портала открытых данных;)

А в опросах главная проблема в сужении раскрытия данных. Должен быть не выбор из, а открытость по умолчанию, open by default. Надо не опросы проводить что раскрыть из списка, а раскрыть всё и опросы проводить в стиле "что более востребовано из того что мы раскрыли", но это и так было бы понятно.

P.S. Вообще чувствуется что не любят в их Министерстве цифрового развития людей, ох не любят. Люто не любят. Потому что предоставлять данные построчным экспортом - это неописуемо. Я бы даже сказал уникально. Это как повесить баннер "не заходить! а если зашли, то валите отсюда!" потому что проще данные в первоисточнике взять.

Ссылки:
[1] https://dialog.egov.kz/surveycontroller/index#/view?id=5020
[2] https://dialog.egov.kz/surveycontroller/index#/view?id=5022
[3] https://data.egov.kz

#opendata #kazakhstan #closeddata #datacatalogs
В отношении Казахстана я, также, напомню что в стране много данных за пределами официального портала data.egov.kz. Например, много геопорталов и есть, даже, пара научных репозиториев. Полный список можно увидеть в реестре Common Data Index [1] там 37 каталогов данных. Из них 9 индексируются в Dateno, это каталоги на базе Geonode, GeoServer и ArcGIS Server. Остальные сделаны, или на каких-то собственных движках, или не индексируются с внешних серверов или имеют какие-то другие ограничения.

Также в Казахстане есть система индикаторов TALDAU [2] и есть много данных на сайтах Пр-ва, госорганов, акиматов и тд. А ещё немало недокументированного API у государственных систем через которые можно собирать местные реестры.

Всё это к тому что национальный портал данных страны data.egov.kz на всём этом фоне выглядит реально вызывающе плохо.

Если появится в стране кто-то кто захочет сделать общественный портал открытых данных то собрать каталог значительно большего объёма совершенно несложно.

Я большого секрета не открою если скажу что пару лет назад мы с коллегами обсуждали не создать ли большой каталог данных на всю Центральную Азию, но в итоге делать этого не стали не будучи достаточно погруженными в местный контекст. Вместо этого появился Dateno в котором охватываются вообще все страны миры.

Ссылки:
[1] https://registry.commondata.io/country/KZ
[2] https://taldau.stat.gov.kz/

#opendata #data #datacalogs #kazakhstan
К вопросу об открытости данных в Казахстане свежая статья в Exclusive.kz [1]. Проблема с этим порталом в том что он к открытым данным отношения не имеет никакого. Видно что не проделано работы, ни по доступности данных, ни по свободе использования (открытые лицензии) и данные которые туда попадают из других источников парадоксальным образом становятся более, а не менее закрытыми.

Это на фоне того что в Казахстане много открытых геопорталов, баз статистики (ТАЛДАУ) и тд.

Всего 13649 датасетов по Казахстану у нас в Dateno проиндексировано [2], но почти все эти данные - это геоданные и индикаторы из международных источников потому что именно открытые данные, в строгом определении, не публикуются.

И ещё отдельная история о том почему во многих странах госорганы пытаются создавать порталы данных на нетиповых продуктах. В результате они не индексируются ни у нас в Dateno, ни в Google Dataset Search, ни в других поисковиках. При том что в том же data.egov.kz нет ничего такого что нельзя было бы сделать с помощью CKAN, DKAN и ещё ряда продуктов создания каталогов открытых данных.

И это только пока мы говорим про техническую сторону процесса, не затрагивая то какие, собственные данные должны публиковаться чтобы быть востребованными. Подсказка, простые опросы пользователей не работают. Работают приоритеты по high value datasets (датасеты особо ценные) которые формируют страны ЕС, к примеру.

К теме данных в Центральной Азии я ещё буду неоднократно возвращаться.

Ссылки:
[1] https://exclusive.kz/chto-skryvaet-otkrytoe-pravitelstvo-kazahstana/
[2] https://registry.commondata.io/country/KZ

#opendata #opengov #kazakhstan #dataportals
17-18 сентября я буду в Алма-Ата, в Казахстане, какое-то число встреч встреч уже запланировано, если задумаете со мной там пересечься, напишите.

А пока об открытых данных в Казахстане я неоднократно тут писал, в стране довольно контрастная ситуация когда одновременно есть портал данных data.egov.kz который хоть и называется порталом открытых данных, но по факту ничего открытого там нет. И параллельно существует геопортал НИПД где как раз именно открытые данные, но только пространственные и в отличие от data.egov.kz он сделан на типовом ПО GeoNode как раз предназначенном для раскрытия геоданных.

А главная особенность Казахстана в большом числе региональных геопорталов сделанных местными компаниями и, соответственно, на которых слои карт отдаются в каких-то собственных форматах вместо общепринятых.

И отдельно, важная тема, в Казахстане практически нет практики публикации научных данных. Либо эта культура ещё не сформировалась, либо публикация данных идёт только на зарубежных ресурсах

В целом ощущения что данных много, систематизации мало, а проекты вроде data.egov.kz правильнее было бы закрыть или радикально переделать.

#opendata #datasets #datacatalogs #kazakhstan
В рубрике недокументированных API ещё один пример, реестр НПА Казахстана zan.gov.kz [1]. Хотя на сайте нет документации на это API, но оно существует и все материалы оттуда доступны в машиночитаемой форме.

- http://zan.gov.kz/api/documents/search - пример запроса поиска (требует POST запрос)
- http://zan.gov.kz/api/documents/200655/rus?withHtml=false&page=1&r=1726577683880 - пример запроса получения конкретного документа

Как Вы наверняка уже догадываетесь ни на портале данных Казахстана нет описания этого API и тем более на других ресурсах. Тем временем могу сказать что в одном только Казахстане под сотню недокументированных API, просто потому что разработчикам удобнее делать приложения используя Ajax, динамическую подгрузку контента и тд.

Каталоги API которые делаются в мире - это не такая уж странная штука, это один из способов предоставлять данные разработчикам.

Я завел отдельный тег #undocumentedapi и время от времени буду приводить примеры по разным странам.

Ссылки:
[1] http://zan.gov.kz

#opendata #data #kazakhstan #laws #api #undocumentedapi
Ещё пример того как это работает у них Репозиторий открытых данных Национального банка РК [1], явно совсем недавно открытый.

Из плюсов:
- это не два-три показателя, а несколько десятков. Есть надежда что и дальше их прибавится
- данные машиночитаемы, отдаются в CSV и JSON форматах
- есть API [2] с возможностью получить данные, также в JSON
- много региональных данных, по областям Республики Казахстан

А в качестве дружелюбного фидбека добавлю:
1. Было бы хорошо указать условия распространения данных, например лицензию CC-BY или аналог, главное чтобы условия были.
2. Сейчас сайт интерактивен, у конкретного раздела или показателя нет постоянных ссылок. Это может выглядеть смазливо при показе начальству, но для пользователей скорее неудобно.
3. В продолжение про постоянные ссылки, при их наличии можно добавлять экспорт и описание метаданных в Schema.org Dataset. Тогда их сможет проиндексировать Google Dataset Search, а если сделать экспорт в DCAT, то и Dateno, впрочем Dateno скоро сможет и по Schema.org индексировать тоже.
4. Стоит сразу добавить экспорт данных в формате Parquet, это несложно, и современно и вообще хорошо.
5. Сейчас по каждому показателю данные экспортируются динамично. Это неэффективно и лишняя нагрузка на сервер. Есть смысл не только автоматически генерировать статичные датасеты, но и давать возможность получать их пермалинками, тогда данные можно легко грузить в базу данных по прямой ссылке на CSV или JSON файл

В остальном это большой прогресс для РК.

Ссылки:
[1] https://data.nationalbank.kz
[2] https://data.nationalbank.kz/api-docs

#opendata #kazakhstan #datasets #datacatalogs
Вдогонку к порталу данных Нацбанка Казахстана, сделаю краткий обзор состояния открытых данных в Республике Казахстан.

Во первых, конечно, начать стоит с профиля страны [1] у нас в реестре Dateno там сейчас 38 каталогов данных и вскоре пополнится большим их числом.

Что можно сказать про Казахстан?
1. Много порталов геоданных, причём многие на каких-то собственных разработках, но есть и на открытом коде. В частности проект Национальная инфраструктура пространственных данных Республики Казахстан [2] работает на GeoNode и содержит 183 набора данных. На самом деле материалов там должно быть куда больше, ранее там всё было общедоступно, но теперь требуется авторизация с электронной подписью. Ещё ряд геопорталов доступны в виде серверов ArcGIS и Geoserver
2. Портал открытых данных РК [3], к сожалению, не открытых. Раньше для любой операции требовалась авторизация, а сейчас просто ограничивают выгрузку по 100 записей (!) из набора данных. Пожалуй худшая из практик в РК по публикации данных
3. Water resources data portal [4] портал данных водных ресурсов который делают в стартапе Ozen-M. Данных там немного, но датасеты хорошо организованы и все опубликованы на Github.
4. Статистическая система ТАЛДАУ [5] статслужбы РК, что удобно - наличие API и есть экспорт данных. Правда только в Excel. Выглядит работоспособно, хотя и довольно консервативно.
5. Почти нет открытых научных данных. У университетов есть развёрнутые репозитории публикаций, но датасеты среди них упоминаются только в репозитории научных результатов Университета Назарбаева и только единожды [6]. В целом такая же картина во многих постсоветских странах, не только в РК
6. Оказывается была/есть небольшая активность и группа Open Data Kazakhstan [7] на Github, но не очень масштабная и небольшими всплесками.
7. То что я знаю так то что в рамках Smart Data Ukimet в Казахстане экспериментируют сейчас с развертыванием австралийского проекта Magda [8], но пока это из пушки по воробьям, потому что Magda тяжёлый продукт и оправдывает себя на десятках тысяч наборов данных. Публичного анонса этого я не видел, поэтому прямой ссылки не даю

Какое-то время назад мы с коллегами думали про создание портала/порталов данных по странам Центральной Азии, но в итоге с запуском Dateno сфокусировались на индексации всех данных туда и сейчас в Dateno более 34 тысяч наборов данных классифицированных как относящихся к Казахстану [9]. Все они относятся к открытым индикаторам из международных баз данных и к геоданным. По мере того как мы улучшим инструменты геоклассификации, из других источников добавится ещё 5-6 тысяч наборов данных.

Данных о территории РК, также, много в тех глобальных каталогах научных данных о Земле которые мы ещё пока не проиндексировали.

Ссылки:
[1] https://dateno.io/registry/country/KZ/
[2] https://map.gov.kz
[3] https://data.egov.kz
[4] https://data.qiot.kz/en
[5] https://taldau.stat.gov.kz
[6] https://research.nu.edu.kz/en/publications/?type=%2Fdk%2Fatira%2Fpure%2Fresearchoutput%2Fresearchoutputtypes%2Fnontextual%2Fdatabase&nofollow=true
[7] https://github.com/open-data-kazakhstan/
[8] https://magda.io
[9] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Kazakhstan

#opendata #data #kazakhstan #datasets #dateno
К вопросу про открытые данные их количество и качество, я уже не раз обращался к теме с публикацией открытых данных Центральной Азии и Казахстана в частности, что слишком многие инициативы по открытым данным там не про быть а про казаться. В ту же копилку, портал открытых данных Казахстана data.egov.kz [1]. Помимо того что он не про открытые данные и того что там есть ограничения в виде запрета на скачивание более 100 записей (!!) и отсутствия свободных лицензий, так ещё и то что там называется данными это, как бы помягче, совсем ими не является. Вот пример, "набор данных" под названием "Контактные данные" [2]. Это просто одна строка. Всего лишь одна запись и она называется набором данных!

И это не единственный пример, таких одно-двух-трехстрочных записей много, вот ещё [3] [4] [5] [6] и ещё и ещё и ещё.

Надо ли объяснять что такие "наборы данных" полностью бесполезны, это, либо сведения которые никому не нужны, либо отдельные значения того что должно быть временным рядом.

При том что данных в стране немало, одних только данных Казстата и Нацпортала геоданных не меньше чем на data.egov.kz.

Это одна из причин почему мы до сих пор не индексируем нац портал открытых данных Казахстана в Dateno, хотя всего у нас в индексе более 34 тысяч наборов данных по стране [7] большая часть которых - это международная статистика (24 тысячи) и геопорталы страны (10 тысяч).

Ссылки:
[1] https://data.egov.kz
[2] https://data.egov.kz/datasets/view?index=bailanys_derekteri
[3] https://data.egov.kz/datasets/view?index=zhurgizilip_zhatkan_zertteuler
[4] https://data.egov.kz/datasets/view?index=basshylyk2
[5] https://data.egov.kz/datasets/view?index=number_of_active_borrowers3
[6] https://data.egov.kz/datasets/view?index=svedeniya_call_centr
[7] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Kazakhstan

#opendata #kazakhstan #datacatalogs