Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Большое обновление порталов данных в Common Data Index. Теперь их 3692, это в 1.5. раза больше чем было ещё совсем недавно. Выбирая между качеством метаданных и широтой охвата я выбрал широту и в итоге записи в реестре разделены на две ветви: обычные записи и записи с ограниченными метаданными с временными идентификаторами. Для первых почти все метаданные заполнены и курируются, для вторых есть только те метаданные что можно получить автоматически: ссылка, тип ПО, точки подключения к API, язык и страна. По некоторым странам таких временных записей более половины и чаще всего это записи каталогов с геоданными, на базе ArcGIS server или Geoserver. Напомню что реестр доступен на registry.commondata.io

А также в реестре огромное обновление всех доступных документированных и недокументированных точек подключения к API, почти для каждой записи все возможные API. Многие каталоги данных одновременно поддерживают многие режимы доступа DCAT, CSW, OAI-PMH и другое.

Одна из целей реестра каталогов данных достигнута, охвачены каталоги данных практически всех стран мира и практически всех видов данных и типов каталогов.

#opendata #datacatalogs #commondataindex
В рубрике интересных проектов на данных и около финский стартап Spatineo [1] специализирующийся на продаже продукта и услуг для мониторинга использования гео API таких как открытые точки подключения к WFS, WMS и другим. В 2023 году они вошли в топ 100 геокомпаний мира [2], но интересно не только и не столько это.

Spatineo поддерживают каталог из 87700+ точек подключения к API к геоданным по всему миру [3]. По сути это агрегатор геоинтерфейсов и у них же есть полезный гайд о том как заполнять метаданные в своих сервисах [4].

В то же время все что касается данных за пределами Европы и Северной Америки у них не очень. Всего пара точек API в Таиланде, по России почти ничего нет кроме неработающих сервисов wdcb.ru, аналогично по всем постсоветским странам, Китаю и тд.

Поэтому сервис и каталог одновременно интересный из-за огромного числа API для мониторинга и содержит огромные пробелы по странам где геосервисов, не меньше.

В любом случае этот каталог можно рассматривать как ещё один поисковик по данным, в этом случае по геоданным.

Ссылки:
[1] https://www.spatineo.com
[2] https://geoawesomeness.com/global-top-100-geospatial-companies-2023-edition/
[3] https://directory.spatineo.com
[4] https://www.spatineo.com/service-metadata-guide/

#opendata #geodata #spatial #datasearch
Я как могу сдерживаюсь чтобы не комментировать последние законодательные инициативы в РФ, во первых чтобы не портить себе аппетит, во вторых чтобы запасы иронии не исчерпались. Обращу лишь внимание на законопроекты №346588-8, №346769-8 и №346750-8, запрещающие участие граждан РФ в незарегистрированных в специальном реестре иностранных некоммерческих организациях. Об этом совсем недавно писали в OpenNET [1] и о том что большая часть опенсорс разработок как раз делают НКО зарегистрированные в США и в Европе, пример, Linux Foundation и потому что российские правоприменители могут, с лёгкостью предположить, что эти организации деятельность в России ведут.

Я вот лично являюсь до сих пор членом НКО Clarity International посвящённой развитию простого языка [2], если меня ещё не исключили за неуплату членских взносов, конечно. Какова вероятность что она будет зарегистрирована в этом реестре? Нулевая

В общем-то в зоне риска все кто хоть какой-то профессиональной деятельностью в мире занимается. А законопроекты эти, как бы намёк, мол валите отсюда и от гражданства отказывайтесь.

Другой законопроект, про "запрет использования иностранных почтовых сервисов для регистрации в российских" звучит даже не странно, а очень странно. Что такое иностранные почтовые сервисы? Вот у меня есть почта в зоне .com, она иностранная? А если почтовые сервера в зоне .ru, тогда российская? А если эти почтовые сервера в зоне .ru хостятся в Китае, тогда не российские? Или если у меня почта в зоне .ru, а почтовый сервис от Google для домена, тогда что? И это только сугубо технические вопросы, а есть ещё и вопросы смысловые, в том зачем же всё это нужно?

Чувствую что недалёк уже тот момент когда создадут ещё и "реестр разрешений на доступ к иностранным ресурсам", как это уже есть в Китае. Нужно тебе, например, в исследовательских или коммерческих целях поработать с Google или Youtube, изволь запросить разрешение через Госуслуги. Так и будет, так и будет

Ссылки:
[1] https://www.opennet.ru/opennews/art.shtml?num=59517
[2] https://www.clarity-international.org

#regulation #russia #nocomments
В рубрике как это работает у них о публикации открытых научных данных в Финляндии. В Финляндии Министерство образования и культуры создало и поддерживает портал Fairdata.fi [1] для распространения подхода принципов FAIR при публикации научных данных [2].

Помимо руководств и обучения инициатива включает 5 проектов помогающих исследователям:
- IDA Research Data Storage
- Etsin Research Dataset Finder
- Qvain Research Dataset Description Tool
- Digital Preservation Service for Research Data
- AVAA Open Data Publishing Platform

Например, система Etsin позволяет искать по более чем 5 тысячам наборам данных и размещать там свои наборы. А в системе AVAA доступны каталоги геоданных.

Кроме всего прочего данные из Etsin доступны на иследовательском портале страны Research.fi [3]. В свою очередь Research.fi был создан в 2020 году как CRIS (Current Research Information System) страны и включает, как открытые научные данные, так и базу публикаций, исследователей, исследовательских центров.

Ссылки:
[1] https://www.fairdata.fi/en/
[2] https://www.go-fair.org/fair-principles/
[3] https://research.fi/en/results/datasets

#finland #research #openaccess #opendata #openscience
Одна из крупнейших и малоизвестных поисковых систем по научным публикациям это BASE [1], проект немецкого Bielefeld University в котором собрано более 338 миллионов научных публикаций из более чем 11 тысяч источников.

В том числе в поисковом индексе BASE есть более 18.5 миллионов записей с исследовательскими данными, большая их часть, конечно, из систем выдачи DOI таких как Datacite и Crossref.

У проекта есть REST API и интерфейс доступа по протоколу OAI-PMH,

Ссылки:
[1] https://www.base-search.net

#opendata #openaccess #openscience #researchdata #datasearch
В рубрике интересных наборов данных CC-MAIN-2021-31-PDF-UNTRUNCATED [1] коллекция из 8 миллионов PDF документов обнаруженных с помощью Common Crawl и выгруженных в единую коллекцию. Включает как сами файлы, так и метаданные по каждому файлу, включая геолокацию каждого документа по IP сервера и метаданные извлечённые с помощью pdfinfo. Отличается от Common Crawl тем что документы в полном размере, а в Common Crawl они обрезаны все до 1 мегабайта.

На момент создания это крупнейший единый корпус PDF документов с наиболее очевидным применением в задачах по digital forensics (цифровому дознанию).

Кстати, для тех кто интересуется, в принципе, данными по этой теме, Digital Corpora [2] это как раз проект с коллекциями документов и данных для обучения цифровому дознанию. Кроме PDF документов там ещё немало всего, дампов устройств, образов дисков, дампов сетевой активности и коллекций файлов.

Ссылки:
[1] https://digitalcorpora.org/corpora/file-corpora/cc-main-2021-31-pdf-untruncated/
[2] https://digitalcorpora.org

#opendata #security #forensics #datasets
В рубрике интересных наборов данных Astropedia [1] портал геологических и географических данных о планетах Солнечной системы, охватывает все планеты и часть их спутников. Создан и поддерживается USGS совместно с NASA (что показательно, занимается им Геологическая служба США).

Данные включают, как растровые карты пригодные для интеграции в ГИС, так и данные справочников и номенклатур, данных измерительных станций и так далее.

У каждого набора данных много подробностей и метаданных по контролю качества, тому в какой среде он создан и как его использовать и так далее. А интерфейс каталога включает не только перечень наборов данных, но и навигацию через выбор объекта в солнечной системе.

Это хороший пример современного курируемого каталога исследовательских данных по очень специфической теме.

Ссылки:
[1] https://astrogeology.usgs.gov

#opendata #datasets #astonomy #astrogeology
В рубрике как это устроено у них канадский портал публикации микроданных опросов посвящённых COVID-19 CITF DATA PORTAL [1] где CITF расшифровывается как he COVID-19 Immunity Task Force, рабочая группа по иммунитету от COVID. В отличие от порталов открытых данных подобные порталы опросов не бывают открытыми в виду того что содержащиеся в них данные содержат персональные данные опрашиваемых или же поскольку персональные данные могут быть из них восстановлены. Такие ресурсы ещё называют каталогами микроданных, их довольно много в мире.

Хотя эти данные редко доступны широкой аудитории, они доступны исследователям через формальные запросы и процедуры их одобрения.

Хотя здесь и нет открытых данных, но есть открытый код и конкретно CITF Data Portal создан на базе открытого ПО для эпидемиологии Obiba Mica [3].

Ссылки:
[1] https://portal.citf.mcgill.ca/
[2] https://www.covid19immunitytaskforce.ca
[3] https://www.obiba.org

#opendata #datacatalogs #microdata #canada
Любопытный доклад Cross-Border Data Policy Index [1] об уровне закрытости местных данных при кросс-граничной передаче.

Авторы доклада из Global Data Alliance объединяющего многочисленные глобальные компании в сфере цифровых продуктов, ритейла, страхования, здравоохранения и др. В общем всех тех кто зарабатывает на том что их бизнес глобален.

На картинке можно увидеть что самые жёсткие запреты теперь в России и в Китае.

Правда сам текст доклада короткий и скорее он инфографика чем предложение для регулирования, но в целом отражает позицию глобальных компаний - чем больше ограничений, тем хуже их бизнес и международная торговля.

Это важно помнить понимая это не позиция защиты данных пользователей, а позиция экономической выгоды причём именно для этой группы бизнеса.

Ссылки:
[1] https://globaldataalliance.org/resource/cross-border-data-policy-index/

#data #privacy
В рубрике полезных инструментов для работы с данными Jupyter AI [1] продукта который приносит AI в Jupyter Notebook. Фактически инструмент позволяет объяснять код, генерировать новые тетрадки, искать документацию и переписывать код. Выглядит полезно хотя его ещё не пробовал, но точно стоит попробовать создавая какую-то новую тетрадку в Jupyter.

Ссылки:
[1] https://jupyter-ai.readthedocs.io/en/latest/index.html

#opensource #ai #jupyter