Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Цифровая трансформация по польски - это Национальная облачная платформа (Chmura Krajowa) [1] созданная в 2019 году Банком Польши и Польским фондом развития. В сентябре 2019 года они заключили партнёрство с Google, а теперь ещё и партнёрство с Microsoft [2]. При этом Microsoft обещают проинвестировать около 1 миллиарда долларов на создание польской цифровой долины [3].

Здесь интересно многое, например, будет ли это единичным случаем или форма целенаправленной экспансии международных облачных платформ в местные рынки.

И, не могу не напомнить о том где находятся датацентры крупнейших облаков в мире для Google Cloud [4] и Microsoft Azure [5].

Ссылки:
[1] https://chmurakrajowa.pl (польский)
[2] https://news.microsoft.com/europe/2020/05/05/microsoft-announces-a-1-billion-digital-transformation-plan-for-poland-including-access-to-local-cloud-services-with-first-datacenter-region/ (английский)
[3] https://cloudcomputing-news.net/news/2020/may/05/microsoft-unveils-1-billion-poland-cloud-and-digital-investment-plan/ (английский)
[4] https://cloud.google.com/about/locations/
[5] https://azure.microsoft.com/en-us/global-infrastructure/regions/

#datacenters #poland #digital #digitaltransformation
The Algorithmwatch статья [1] о польской системе STIR (System Teleinformatyczny Izby Rozliczeniowej) системе которая автоматически идентифицирует подозрительные транзакции и операции фирм однодневок.

Система работает на основе засекреченного алгоритма и отслеживает все операции с европейским аналогом НДС, VAT. Она идентифицирует случаи операций мошенничества и на основе её мониторинга глава налогового офиса и региональные представители налоговой службы в Польше принимают решения о заморозке счетов компаний от 72 часов до 3 месяцев и без уведомления самих компаний.

В 2018 году так заморозили 41 счет 23 организаций, в 2019 году 537 счет у 113 организаций. Польский Минфин оказался доволен внедренной системой [2], а Евросоюз предполагает внедрение аналогичной системы Central Electronic System of Payment information (CESOP) к 2024 году [3]

Ссылки:
[1] https://algorithmwatch.org/en/story/poland-stir-vat-fraud/
[2] https://podatki.gazetaprawna.pl/artykuly/1451268,stir-zablokowano-rachunek-bankowy.html
[3] https://ec.europa.eu/taxation_customs/taxation/central-electronic-system-payment-information-cesop_en

#data #taxes #eu #poland
Я регулярно хвалю зарубежный опыт, то там делают что-то полезное, то там, в общем может показаться что всё замечательно. Недавно я приводил пример с проблемами в доступности сведений о судебных решений в США, а в этот раз будет пример из Польши.

В Польше есть портал открытых данных Otwarte Dane [1] имеющий довольно высокие оценки в оценках зрелости открытых данных в странах Европейского союза [2], но обратим внимание на такой факт как то что на портале декларируется 18765 наборов данных ( Liczba danych ) от 138 поставщиков.

Но заглянув в раздел фильтры можно увидеть что там фильтр по категориям охватывает только около 1 тысячи наборов данных.

В итоге выяснилось что из 18 тысяч наборов данных чуть более 7500 - это маленькие файлы CSV помесячных данных опубликованных патентным ведомством Польши [3]. Конечно нет никаких оснований публиковать их с такой дробностью, а не одним набором.

Вот так делать не надо.

Ссылки:
[1] https://dane.gov.pl/pl
[2] https://yangx.top/begtin/2371

#data #opendata #poland
В рубрике как это устроено у них, 3 репозитория открытых научных данных созданные Варшавским университетом в 2017-2021 годах в рамках проекта Dziedzinowe Repozytoria Otwartych Danych Badawczych [1] переводится как Открытые репозитории доменных исследовательских данных.

В рамках проекта созданы репозитории:
- RepOD https://repod.icm.edu.pl - репозиторий открытых данных
- RDS https://rds.icm.edu.pl/ репозиторий социологических данных
- MX-RDR http://mxrdr.icm.edu.pl/ - репозиторий первичных данных в области макромолекулярной кристаллографии.

В общей сложности на них опубликовано около 1300 наборов данных. Данные в разных форматах: CSV, Excel, Nb, Ods, Tab и другие. Научные наборы данных также, часто отличаются тем что содержат первичные данные на которых проводилось исследование: тексты или изображения, например.

Общая стоимость проекта 4 998 889 злотых, по текущему курсу - это 95 миллионов рублей, всё это на 4 года.

Ссылки:
[1] https://drodb.icm.edu.pl/opis-projektu/

#opendata #openaccess #openscience #poland #eu #datasets
В рубрике как это работает у них польская платформа для медицинских исследований PPMR [1] включает множество открытых реестров публикаций, тезисов, исследователей, лабораторий, исследовательских подразделений, патентов, инфраструктуры и, конечно же, исследовательских данных коих там 407 наборов данных. Предоставляют API на базе REST API, GraphQL и OAI-PMH. Работает на базе ПО Omega-PSIR [2] разработанного Варшавским университетом и используемое более чем 40 научными институтами в Польше. Например, тем же Варшавским университетом [3].

Ссылки:
[1] https://ppm.edu.pl
[2] https://www.omegapsir.io/
[3] https://repo.pw.edu.pl

#opendata #datasets #openaccess #openresearch #poland
В рубрике как это работает у них, польский портал Most Wiedzy [1] (Мост к знаниям) на котором публикуются результаты научной деятельности. В отдельном разделе портала Dane Badawcze [2] собраны открытые научные данные.

Всего 4093 набора данных на сегодняшний день, большая часть их под лицензиями CC0 и CC-BY.

У проекта есть открытое API [3] и выгрузка данных для семантического веба RDF/OWL [4].

Создан в университете Гданьска, используется десятком исследовательских центров Польши.

Ссылки:
[1] https://mostwiedzy.pl/pl/
[2] https://mostwiedzy.pl/pl/open-research-data/catalog
[3] https://api.mostwiedzy.pl/
[4] https://mostwiedzy.pl/pl/open-data

#opendata #openaccess #poland #datacatalogs
В рубрике как это работает у них Repozytorium Standardów Informacyjnych [1] репозиторий стандартов для информационного обмена созданный и поддерживаемый статистической службой Польши.

В каком-то смысле это уникальный проект. В первую очередь - это реестр типов данных и их описаний которые хранятся в государственных информационных системах. Это и описания физического лица, и то какие метаданные о физ лице собираются и описания организаций и геообъектов и ещё много чего.

Но не менее важно что в систему входит реестр всех информационных систем [2], а это 614 штук и схемы данных в этих информационных системах привязанные к реестру типов данных.

Самый интересный вопрос в том причём же тут статслужба? И вот эта логика как раз очень понятна. Статслуба Польши кроме базовой статистики производит ещё и очень много экспериментальной статистики, созданной на основе одной или нескольких ведомственных информационных систем. Например, это портал транспортной статистики TranStat [3]


Ссылки:
[1] https://rsi.stat.gov.pl
[2] https://rsi.stat.gov.pl/#/rsisystemy
[3] https://transtat.stat.gov.pl

#opendata #data #statistics #poland
В рубрике полезного чтения про данные, технологии и не только:
- The Unique Challenges of Open Data Projects: Lessons From Overture Maps Foundation [1] в блоге Linux Foundation об отличиях работы с открытыми данными и открытым кодом на примере Overture Maps. Написано так словно авторы переоценили свой опыт с открытым кодом применительно к открытым данным, какие-то тезисы кажутся очень очевидными для тех кто в теме давно, что не отменяет их актуальности, конечно.

- La France classée première européenne en matière d'open data pour la 4e année consécutive [2] текущее состояние открытых данных во Франции за 2024 год, на французском, но всё понятно и автопереводчики есть. Если кратко: а) Франция лидер в отчете Open Data Maturity. б) Приоритет на данных особой ценности. в) Приоритет на вовлечении сообщества.

- The State of Open Data 2024: Special Report [3] доклад от Digital Science про состояние открытых исследовательских данных (публикуемых на их платформе, конечно, и ряда других источников). Полезно для общего понимания трендов в этой области, с поправкой на то что они коммерческий провайдер исследовательской инфраструктуры.

- Datos Abiertos de los Registradores de España [4] свежезапущенный каталог открытых данных испанских регистраторов, по сути статистика по банкротствам, покупкам жилья и так далее. Много полезных индикаторов оформленных как открытые данные.

- Wspolna platforma kartografee geologicznej (WPKG) [5] недавно открытая картографическая платформа геологической службы Польши. Помимо большого числа слоёв ещё и публикуют 3D модель геологической структуры территории Польши которая выглядит весьма и весьма неплохо. Открытое API явным образом не обозначено, но внутри всё на базе ArcGIS сервера к которому можно подключиться онлайн без труда.

- qcsv pro [6] коммерческий продукт для обработки данных и публикации на порталах открытых данных на базе CKAN. Смотрю на него критическим взглядом. С одной стороны он не дотягивает до OpenRefine по функциональности обработки и очистки данных, с другой ограничения бесплатной версии в 1000 строк CSV это ну как бы его сильно обесценивает, а с третьей он жёстко ограничен экосистемой CKAN. Есть ощущение что экономика не должна сходится, но вот бизнес модель такую можно зафиксировать. Будет ли она успешной? Посмотрим.

- Open Data Editor [7] некоммерческий редактор открытых данных с открытым данным и возможностью с публикации данных в CKAN и Zenodo. По сути это открытый конкурент qsv pro, и я о нём ранее упоминал. Полезен всем кто готовит небольшие данные для публикации, к сожалению, не годится когда данные не совсем маленькие, например, от 500MB.

- Most violent or sexual offences went unsolved in crime hotspots in England and Wales last year [8] статья в The Guardian о том что раскрывается лишь 11% преступлений сексуального характера в Великобритании раскрывается. И даже важнее то что есть территории где раскрываемость сильно ниже чем по стране, отчасти из-за качества данных, а отчасти это отражает реальную ситуацию. Важно что в Великобритании принципиально возможен такой анализ поскольку полиция раскрывает данные до муниципального уровня на специальном сайте data.police.uk

Ссылки:
[1] https://www.linuxfoundation.org/blog/the-unique-challenges-of-open-data-projects-lessons-from-overture-maps-foundation
[2] https://www.data.gouv.fr/fr/posts/la-france-classee-premiere-europeenne-en-matiere-dopen-data-pour-la-4e-annee-consecutive/
[3] https://www.digital-science.com/state-of-open-data-report-2024/
[4] https://www.registradores.org/-/el-colegio-de-registradores-presenta-la-plataforma-open-data-que-ofrece-información-pública-para-su-consulta-de-forma-libre-y-gratuita
[5] https://geologia.pgi.gov.pl/mapy/
[6] https://qsvpro.dathere.com/
[7] https://opendataeditor.okfn.org/
[8] https://www.theguardian.com/uk-news/2025/jan/13/most-violent-or-sexual-offences-went-unsolved-in-uk-hotspots-last-year

#opendata #uk #poland #geodata #opensource