Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Я регулярно пишу про такое явление как датацентричное мышление "что угодно как таблица" и в более узком звучании "что-угодно как SQL". Причём последнее попадается всё чаще и всё чаще всё то ранее было доступно каким-то другим образом через API или в иной специфической форме доступно как таблицы.

Из последнего, sqlelf, это программная библиотека и утилита превращающая метаданные из исполняемых Linux файлов в базу Sqlite и позволяют проделывать все дальнейшие операции по чтению этих метаданных из SQL таблиц. Удобно для всех кто занимается форенсикой под Unix-like системы.

Из похожего, несколько лет назад я делал утилиту metawarc, индексирует содержание веб-архивов в формате WARC и создаёт локальную Sqlite базу с результатами. Что позволяет сильно ускорить задачи по подсчёту статистики, экспорту файлов из архива (архивы бывают большие и это важна задача) и многое другое. Единственное что я не сделал - это там нет SQL интерфейса, хотя добавить такую команду и примеры это дело пары часов.

Похожий код у меня есть для HTML страниц, он превращает дерево HTML в плоскую таблицу с дополнительным обсчётом ряда параметров. Я его всё подумывал опубликовать и возможно что база в памяти это решение. Возможно, потому сколько я не пытался не удаётся сильно уменьшить размеры таблицы тэгов. Она выходит больше оригинального файла от 7 до 21 раза, это без использования СУБД внутри, только размер pandas Dataframe.

Возвращаясь к "что угодно как SQL", я в феврале прошлого года приводил много примеров такого подхода, когда SQL синтаксис и интерфейс создаются для работы с текстовыми файлами, репозиториями Git, базой контейнеров для Docker и тд.

Чем дольше я об этом думаю, тем более чувствую что такой подход может иметь существенный потенциал для технологических продуктов. Например, если бы сервисы счётчиков посещаемости и иной пользовательской аналитики предоставляли бы не REST API, а сразу доступ к SQL таблицам с твоими данными то это резко упростило бы их интеграцию и использование. Такие внешние сервисы, кстати, есть, но суть в том что SQL интерфейсы доступа не являются сейчас стандартизированными продуктами.

Аналогично для многих других сервисов и продуктов которые сейчас интегрируются через ETL и ELT костыли.

А сама идея "что-угодно как SQL" может развиваться ещё применительно много к чему. К файловой системе, к реестру Windows, к работе с Excel/ODS файлами, к работе с онлайн таблицами (типа Google Sheets), к вебсайтам и ещё много к чему.

#thoughts #data #datatools #sql #everythingisdata
Поскольку существенная часть моей деятельности некоммерческая, то приличия не позволяют не клянчить на неё просить на неё поддержку с какой-то регулярностью.

Эта поддержка имеет, и символическое, и практическое значение. Символическое в том что некоммерческие проекты что делает наша команда нужны и востребованы, а практическая в том что их можно будет продолжать.

В Армении на Open Data Armenia

На что мы собираем деньги?
1. На сбор и публикацию открытых данных (github.com/opendataam)
2. На организацию мероприятий таких как Open Data Day (odd.opendata.am)
3
. На конкурсы вроде конкурса Open Data Armenia Contest (contest.opendata.am)

Как помочь?

Самый простой способ это стать подписчиком Open Data Armenia на Github https://github.com/sponsors/opendataam/ Мы будем ещё много выкладывать открытого кода и наборов данных и подписка через Github - это самое логичное что только возможно.

Альтернативно можно перевести по банковским реквизитам:
номер счёта 163618011379 для пожертвований в Евро, назначение ""OPEN DATA" development centre public organization" Donation. Если хотите пожертвовать в другой валюте, то напишите мне, перешлю реквизиты.


В России
на Инфокультуру

В России деятельность сейчас очень сильно ограничена, но АНО Инфокультура всё ещё существует и всё ещё делает проекты по открытым данным и не только. В приоритеты работа по архивации данных, значимого контента и работа над Национальным цифровым архивом (ruarxive.org).

Как поддержать?

Самое простое - это пожертвовать через форму на сайте https://www.infoculture.ru/donation/, а если Вы представляете организацию то можно напрямую перевести на счёт, достаточно написать мне, я перешлю реквизиты.

Не такое простое, но тоже важное, если у Вас есть бесхозные или ненужные, не самые актуальные сервера, диски, системы хранения и так далее, то примем их в дар с большим удовольствием. Сейчас для архивации используются, в основном, сервера которые мы когда-то покупали и сервера которые арендуются что выходит по нынешним временам дороже чем хотелось бы.

#support #ngo #donation
Для тех кто ищет данные по РФ, маленький лайфхак, у портала data.gov.ru отключили вебморду, но все ссылки на файлы прямые остались. Это очень легко находится в гугле по запросу. Вот только уже не открывается в браузере потому что сертификат просрочен 25 марта. То есть, не только обновления сайта нет, но и даже анонс его превратился в тыкву.

А то есть чтобы не преследовали те кто решили его закрыть, сделали это тоже через одно место.

Тем временем напомню что остаётся общественный портал hubofdata.ru где можно находить и размещать свои датасеты. Мы только закрыли регистрацию из-за резкого наплыва спамеров, но если захотите опубликовать данные, то пишите, заведем аккаунт и со спамерами разберемся через какое-то время.

А из необычных данных, вот вам свежий датасет в виде базы всех отозванных сертификатов российских УЦ. Это 1.9 миллиона записей из более чем 500 CRL файлов. Может быть полезно тем кто изучает эту тему и причины отзывы сертификатов.

#opendata #datasets #data #russia
В продолжение размышлений о том как устроен доступ к данным во многих дата каталогах, кроме примера с доступом через API [1], есть много примеров когда каталоги данных интегрированы в платформы которые их предоставляют.

Например, Microsoft Planetary Computer [2], сервис визуализации и каталог особо крупных геоданных. Часть данных доступны только через API по спецификации STAC, часть данных лежат файлами в облаке Azure и ссылки на них выглядят как abfs://items/sentinel-3-synergy-vgp-l2-netcdf.parquet, а часть доступны только по запросу и тоже лежат файлами в разных форматах.

Кроме Microsoft подобное практикуют Amazon с их каталогом открытых данных [3] и ссылками на внутренние ресурсы S3 вроде таких arn:aws:s3:us-east-1:184438910517:accesspoint/bdsp-psg-access-point/PSG/

Похожее с датасетами в каталоге Google Earth [4] когда вместо данных отдаётся сниппет для подключения и код Javascript.

Такое неслучайно, такие порталы чаще всего включают внешние данные, например, данные НАСА или научных проектов, прошедшие обработку, очистку и приведенные в формат используемой платформы. Такие владельцы, по сути BigTech, публикуют датасеты чтобы привлечь к себе аудиторию разработчиков и удержать её. Для компаний владеющих инфраструктурой и привлекающей пользователей - это вполне логичная бизнес стратегия, причём даже с некоторой социальной составляющей, поскольку это даёт и бесплатное пространство нужное для некоторых данных и быстрый доступ ко многим данным, опять же, по цене аренды сервера который ты, возможно, и так бы арендовал.

Всё это довольно сильно усложняет индексацию таких каталогов данных в Dateno поскольку для них, по хорошему, нужен другой подход и другая стратегия, как давать ссылки на такие ресурсы. Можно просто дать ссылку на карточку в оригинальном каталоге, но многие поисковые фасеты выпадают, ссылки на ресурсы не работают.

Эти примеры немногочисленны количественно и многочисленны качественно. Датасетов от BigTech компаний в лучшем случае тысячи, правда объёмы там идут на петабайты. А есть есть и другой пример. Очень многие порталы со статистикой отдают данные только по POST запросу. В этом, может быть, когда-то была логика, когда 10-15 лет назад они создавались, а сейчас у этих индикаторов нет ссылок на данные. Иногда и на сам индикатор явной ссылки нет. Что делать? Проиндексировать их возможно, но как помогать пользователю получать данные? Делать копию не только метаданных, но и данных и отдавать их из своей БД? Это уже другой продукт. Делать прокси для POST запросов? Для типовых порталов возможно, для нетиповых это большое усложнение.

Итого многие данные доступны только в режиме когда есть ссылка на веб страницу, в первую очередь потому что их владельцы, или не подумали о доступе прямом, или затягивают в свою инфраструктуру.

Это лишь один из примеров задач относящихся к сложности создания поисковика Dateno и ответов на вопросы "А это точно дата каталог?", "А он типовой?", "А как индексировать оттуда данные?" и многое другое.

Ссылки:
[1] https://yangx.top/begtin/5526
[2] https://planetarycomputer.microsoft.com
[3] https://registry.opendata.aws
[4] https://developers.google.com/earth-engine/datasets
[5] https://dateno.io

#opendata #datasets #data #datacatalogs #dateno
В рубрике как это устроено у них каталог научных данных SPARC [1] посвящённый исследованиям тела и мозга. Является результатом совместного проекта нескольких исследовательских центров в США.

Из особенностей, кроме данных публикуют ещё компьютерные и анатомические модели, а все опубликованные ресурсы ещё и организованы с возможностью фильтрации по виду животного, полу, анатомической структуре и так далее.

Отличается тем что данные, в основном, большого объёма и файлы до 5GB можно скачать бесплатно, а файлы большего размера только через Amazon AWS или через сервис Osparc [2] по запросу.

На портале есть уникальная фича, визуализация датасетов [3] с помощью утилиты SDS Viewer, вот, пример [4]

Ссылки:
[1] https://sparc.science
[2] https://osparc.io/
[3] https://metacell.github.io/sds-viewer/
[4] https://metacell.github.io/sds-viewer/?doi=10.26275%2Fodx3-c5cv

#opendata #datacatalogs #datatools #data #brain #body #datasets
Ещё один, нестандартный, каталог данных - это общедоступные инсталляции Superset [1]. Для тех кто не сталкивался ранее, Superset - это BI платформа с открытым кодом и с функциональностью каталога датасетов который там представлен в упрощённом виде, адаптированном под то что на основе данных строятся разного рода графики включаемые в дашборды.

Так вот, в мире есть как минимум сотня, может быть пара сотен инсталляций Superset в открытом доступе. Причём немало инсталляций от госорганов и научных организаций.

Выглядят они вот так, в общем-то ничем не отличаясь от внутрикорпоративных инсталляций.

Можно ли индексировать такие источники данных в поисковый индекс или это, всё же, ближе к инфобезу и утечкам данных?;)

Ссылки:
[1] https://superset.apache.org

#opendata #datasets #data #datatools #superset #bi #datacatalogs
Регулярная подборка ссылок про данные, технологии и не только:
- Vector DB Comparison [1] большой обзор в виде таблицы со сравнением векторных баз данных. Список подробный, со ссылками на документацию и представленностью практических всех продуктов с открытым кодом.
- Pretzel Notebook [2] тетрадки для работы с данными с DuckDB внутри и языком PRQL
- Common Corpus [3] авторы утверждают что это крупнейший датасет public domain текстов на разных языках
- DuckDB snippets [4] подборка сниппетов для DuckDB по использованию в командной строке. Замена многих инструментов в том числе самописных
- Binjr [5] браузер для временных рядов, с инсталляцией локально под Windows, Linux или Mac. В демках про мониторинг серверов, но может и для чего-то ещё сгодится?

Ссылки:
[1] https://superlinked.com/vector-db-comparison/
[2] https://github.com/pretzelai/pretzelai
[3] https://huggingface.co/collections/PleIAs/common-corpus-65d46e3ea3980fdcd66a5613
[4] https://duckdbsnippets.com/page/1/most-popular
[5] https://binjr.eu/

#opensource #datatools #data
На фоне весьма вероятной блокировки Википедии в РФ в этом году не могу не напомнить что есть такой проект как Kiwix по оффлайновому доступу к Википедии и множеству других вики и онлайн ресурсов [1].

Его особенность в том что это open source продукт со множеством приложений под разные платформы [2], которые однозначно стоит скачать под свою, а также с библиотекой из 1006 книг [3], хотя правильнее сказать слепков веб ресурсов.

Kiwix работает на данных в формате ZIM [4] и кроме Kiwix есть много других читалок этого формата под любые платформы. А я не могу не напомнить что ещё есть такая утилита как warc2zim [5] позволяющая преобразовать WARC файлы создаваемые при архивации сайтов в файлы ZIM для оффлайн просмотра.

Ссылки:
[1] https://kiwix.org/en/
[2] https://kiwix.org/en/applications/
[3] https://library.kiwix.org
[4] https://wiki.openzim.org/wiki/ZIM_file_format
[5] https://github.com/openzim/warc2zim

#opendata #digitalpreservation #webarchives #wikipedia #zim #kiwix
В рубрике как это работает у них канадский официальный национальный геопортал Geo.ca [1]
включает 7659 геопространственных наборов данных в машиночитаемых форматах CSV, SHP, GeoJSON, Esri REST, KML. Все данные под канадской открытой лицензией [2]. Внутри базовых слоёв используется ESRI ArcGIS, компоненты платформы выложены открытым кодом [3].

Канадская особенность в том что все официальные материалы, включая данные, двуязычны и их описания и файлы дублируются.

А также в том что очень много общедоступных геоданных выложено на FTP сервере [4], но с минимальным описанием [5]

Всего же в Канаде огромное число общедоступных и открытых официальных баз и каталогов геоданных. Как я понимаю большая их часть постепенно будет переносится на Geo.ca

Ссылки:
[1] https://geo.ca
[2] http://open.canada.ca/en/open-government-licence-canada
[3] https://github.com/Canadian-Geospatial-Platform
[4] https://ftp.maps.canada.ca/pub/
[5] https://natural-resources.canada.ca/science-and-data/science-and-research/earth-sciences/geography/topographic-information/download-directory-documentation/17215

#opendata #canada #geodata #datacatalogs #data
В продолжении рубрики как это работает у них одним из крупнейших порталов данных в США можно считать каталог национальных архивов в котором, помимо документов, аудио и видео архивируются данные и карты (геоданные) [1] в объёме более чем 107 тысяч единиц. Это довольно много, в национальном каталоге данных США 292 тысячи наборов данных.

Национальные архивы США - это довольно уникальное явление, огромное по масштабу и несомненно интересное с точки зрения содержащихся там материалов, учитывая что существенная их часть оцифрована.

Ожидаемо многие данные являются историческими, например, там можно найти CSV файл с пассажирами [2] прибывшими в США с 1820 по 1902 годы из европейских стран.

Ссылки:
[1] https://catalog.archives.gov/search?availableOnline=true&typeOfMaterials=Data%20Files%2CMaps%20and%20Charts
[2] https://catalog.archives.gov/id/229630481

#opendata #datasets #digitalpreservation #datacatalogs #data #archives
В рубрике закрытых российских данных, более недоступен официальный сайт переписи 2020 года strana2020.ru [1], точная дата отключения неизвестна, известно лишь что в конце января 2023 года он ещё был доступен и копия сохранилась в интернет архиве [2]. Поскольку это был исключительно контентный сайт, его закрытие нельзя аргументировать тем что он был дорогостоящим в обслуживании и его поддержание требовало больших усилий.

Единственно доступные данные и информация о переписи остались на сайте Росстата [3] и в интернет архиве.

Ссылки:
[1] https://www.strana2020.ru
[2] https://web.archive.org/web/20230130185402/https://www.strana2020.ru/
[3] https://rosstat.gov.ru/vpn/2020

#russia #closeddata #data #opendata #census #rosstat
Forwarded from Open Data Armenia
[EN] Sharing the latest news and an important appeal.

First, the ex-website of the State Revenue Committee of Armenia (petekamutner.am) has ceased being publicly available, and the new one, at least for now, has only the most recent data. We timely archived the old site, so if you need data on tax and customs revenues, violations, etc., you know whom to ask.

Second, since September 22, 2023 we have archived all Artsakh-related websites we were aware of. Some of them were already unavailable at that time. Please, reach out to us if you need those sites for your projects.

If you happen to know of any endangered websites related to Armenia and Artsakh, please share them with us and we will archive them and upload them to the catalog.



[AM] Կիսվում ենք վերջին նորություններով և կարևոր կոչով:

Նախ՝ այլևս հասանելի չէ ՊԵԿ-ի նախկին կայքը (petekamutner.am), իսկ նորում, առնվազն առայժմ, հրապարակված են միայն վերջին տվյալները: Մենք հասցրել ենք արխիվացնել հին կայքը, այնպես որ, եթե ձեզ պետք գան հարկային և մաքսային եկամուտների, խախտումների և այլնի վերաբերյալ տվյալները, գիտեք, թե ում դիմել:

Երկրորդ՝ դեռևս 2023թ. սեպտեմբերի 22-ին սկսել էինք Արցախի հետ կապված մեզ հայտնի բոլոր կայքերի արխիվացումը։ Որոշ կայքէջեր անհասանելի էին արդեն այն պահին։ Կապվեք մեզ հետ, եթե դրանք ձեզ պետք են ձեր նախագծերի համար:

Եթե Ձեզ հայտնի են Հայաստանի և Արցախի հետ կապված այս կամ այն պատճառներով անհետացման վտանգի տակ գտնվող սոցիալական նշանակություն ունեցող կայքեր, խնդրում ենք մեզ էլ տեղյակ պահել: Մենք կարխիվացնենք դրանք և կհրապարակենք մեր գրացուցակում:



[RU] Делимся последними новостями и важным призывом.

Во-первых, из публичного доступа пропал прежний сайт Комитета госдоходов Армении (petekamutner.am), а на новом, по крайней мере пока, есть только свежие данные. Мы успели заархивировать старый сайт, так что если вам пригодятся данные по налоговым и таможенным поступлениям, нарушениям и т.п., вы знаете, к кому обращаться.

Во-вторых, ещё с 22-го сентября 2023 г. мы заархивировали все известные нам сайты, связанные с Арцахом. Некоторые из них были недоступны уже на тот момент. Свяжитесь с нами, если они нужны вам для ваших проектов.

Если вам известны связанные с Арменией и Арцахом социально значимые сайты, находящиеся под угрозой исчезновения, пожалуйста, поделитесь ими с нами, и мы заархивируем их и загрузим в каталог.
Те кто регулярно работает с научными данными знают о таком протоколе как OAI-PMH, это стандарт описывающий интерфейсы обмена данными для любых цифровых коллекций и метаданных. Активно применяемый в библиотечной, академической и архивной среде . Например, такие движки как DSpace или EPrints используются университетами для публикации научных работ, а эти материалы доступны по протоколу OAI-PMH. Его используют различные агрегаторы научных работ такие как BASE, OpenAIRE и Google Scholar.

Для индексации данных достаточно, казалось бы, было бы реализовать индексирование OAI-PMH и всего лишь отфильтровать результаты извлекая из них только записи относящиеся к данным, геоданным и тд. Это было бы самым простым и, с первого взгляда, очевидным решением, но, вместо него в Dateno сейчас применяется принциально другой подход в написании парсеров под несколько десятков разных API и интерфейсов под разные типы ПО . Почему это так?

1. OAI-PMH поддерживается, преимущественно, научными каталогами данных и некоторыми каталогами геоданных. Это существенная часть, но далеко не все порталы открытых данных. Если поддержать только его, то это означает создать очередной поисковик по научным данным которых уже много есть.
2. Это довольно старый протокол не позволяющий делать массовую выгрузку метаданных, с со множеством ограничений. Например, в OAI-PMH нет понятия файлов/ресурсов и если в каталоге данных больше одного файла, то через OAI-PMH они не будут видны. Поэтому каталоги типа OpenAIRE содержат ссылки на карточки датасетов, но не файлы внутри.
3. Существующие инструменты харвестинга OAI-PMH также часто архаичные, чаще пишут что-то свое. Написать под него парсер несложно, в любом случае.

Из всего этого самое критичное - отсутствие ссылок на файлы. Во внутренних метриках качества Dateno отсутствие ссылок на файлы у датасета пессимизирует его в выдаче и, в принципе, признак низкого качества самого датасета. Поэтому если сейчас добавить наборы данных из каталогов с OAI-PHM, это это глобально снизит качество поиска в Dateno и харвестинг OAI-PHM отложен пока есть более качественные каталоги данных. К большой радости, многие каталоги поддерживают OAI-PHM исключительно как legacy, для поисковиков по научным работам и, параллельно, имеют в реализации от одного до нескольких других API.

#opendata #datasets #dateno #data #datacatalogs #oai-pmh
В рубрике интересных проектов на данных Data Saudi [1] портал по визуализации и понятному представлению данных по Саудовской Аравии. Похоже что делалось всё той же командой Datawheel которые делали когда-то DataUSA [2] и ряд аналогичных проектов для Бразилии, Мексики, Эстонии и Чили [3].

Наглядно выглядит всё красиво, на практике не то чтобы очень функционально. Впрочем такие проекты делают не для аналитиков, а для тех кто вставляет статистику в презентации.

Для меня все эти проекты всё ещё оставляют вопрос в том считать ли их порталами с данными или нет. Данные там есть в VIZ Builder, вполне себе скачиваются и удобнее чем в первоисточнике, но, всё же, система визуализации - это не каталог данных.

Есть над чем подумать , возможно, стоит добавить такие проекты в реестр каталогов данных который я веду и, в будущем, индексировать в Dateno.

P.S. Я, кстати, думал про не создать ли такой проект про Армению, какие то данные под это даже есть, но работа Datawheel стоит очень дорого и интересно можно ли такое сделать дешевле и своими силами

Ссылки:
[1] https://datasaudi.mep.gov.sa/en
[2] https://datausa.io
[3] https://www.datawheel.us/

#opendata #dataviz #visualization #data #saudiarabia