Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Для тех кто любит визуализировать данные нестандартными способами, сайт Printing Money [1] с визуализацией доходов или расходов, в общем, денег в час в виде напечатанных долларов. Начинает с минимальной оплаты труда, заканчивает военными расходами США и дефицитом бюджета США. Скриншот не отражает движения, лучше смотреть на сайте, а видео не прилагаю потому что файл видео или GIF получаются слишком большими.

Интересная задумка, применима не только к деньгам.

Ссылки:
[1] https://neal.fun/printing-money/

#dataviz
Поделюсь личной болью, я когда-то активно пользовался минималистичным редактором Write! (сайт - wri.tt) не все, но многие заметки вел в нём. У него был экспорт в простые форматы, минималистичный текст и, в принципе, лично мне для заметок был удобный инструмент. С lifetime подпиской что было удобно синхронизовывать между несколькими устройствами и не переплачивать.

Где-то в 2023 году сайт ушёл в оффлайн, приложение превратилось в кирпич потому что проверка авторизации и синхронизацию работала через сайт и теперь в приложение локально просто не войти. Не local-first приложение по идеологии.

Большая часть заметок у меня есть в разных местах в экспортированные, но какие-то надо доставать теперь из внутренней базы. А внутри там собственный XML формат внутри ZIP контейнера и какой-то неочевидный формат локальной базы данных. В общем автор наизобретал там велосипедов и, похоже, теперь единственный способ восстановить часть заметок - это или найти конвертер парсер этих XML файлов или написать его самому.

Если кто-то сталкивался с этим редактором и столкнулся с той же проблемой, расскажите как решали.

А для меня это очередное напоминание о том что:
- cloud first приложения - это безусловное зло.
- базовые стандарты должны соблюдаться, никакой проприетарщины
- lifetime лицензии прекрасны если у бизнеса есть бренд, а так приложение прожило всего 9 лет.

Сейчас есть много local-first альтернатив для заметок, преимущественно работающих с разметкой Markdown и они гораздо удобнее в итоге.

#writing #texts #issues #markdown
К вопросу об открытости и её формах и устойчивости проектов на открытых данных. Недавно я обнаружил что в проекте Zenodo (агрегатор научных данных) ввели ограничения объём данных в рамках одного запроса. Это не только Rate Limiting с ограничением числа запросов в минуту, но и то что в рамках одного поискового запроса, неважно, листая по 10 записей или по 100, можно получить не более 10 тысяч записей.

При том что всего в Zenodo более 4 миллионов записей из которых 365 тысяч - это наборы данных, то ограничение оказывается очень серьёзным. Не непреодолимым, но уже, влияет, например, на краулер Dateno который индексировал Zenodo через REST API.

При этом не важно доступ к API идёт после авторизации или без неё, авторизация влияет только на Rate Limit, а не на объём.

Zenodo - это один из эталонных открытых проектов активно используемых исследователями для публикации открытых данных. Кроме REST API у проекта также есть интерфейс OAI-PMH и экспорт данных во множестве форматов.

Но из недостатков проекта у него нет опции bulk download каталога метаданных. В результате после ограничений на API его открытость снижается.

С одной стороны это печально, хотя и обходится технически, с другой стороны я прекрасно понимаю откуда берутся такие ограничения. В их природе может быть как пресечение недобросовестных пользователей создающих повышенную нагрузку на сервер, так и блокировка ботов которые ни про какие ограничения не знают и просто долбят API перебирая страницы без участия и задания от человека.

Я лично считаю что для открытых проектов такие ограничения оправданы при предоставлении полных дампов данных (bulk download). И открытость соблюдена, и нагрузка на оборудование снижена.

#opendata #zenodo #datasets
В рубрике как это устроено у них портал открытых данных провинции Центральная Ява в Индонезии [1]. Отличается каким-то неимоверным числом опубликованных датасетов, там их чуть менее 200 тысяч что, конечно, очень много. Для сравнения на портале открытых данных США Data.gov всего опубликовано 300 тысяч датасетов. А тут всего одна провинция, да ещё и в Индонезии.

При этом, там почти нет геоданных или научных данных, зато бесконечное число файлов статистики и Excel файлов. Такое ощущение что они просто обыскали все компьютеры и выложили все найденные Excel файлы, сконвертировав некоторые из них в CSV.

Это пример того почему я говорил что сделать национальный портал открытых данных и быстро его наполнить вообще несложно. Сложно сделать его полезным.

Ссылки:
[1] https://data.jatengprov.go.id/dataset/

#opendata #indonesia #centraljava #datacatalogs
Ivan Begtin
В рубрике как это устроено у них портал открытых данных провинции Центральная Ява в Индонезии [1]. Отличается каким-то неимоверным числом опубликованных датасетов, там их чуть менее 200 тысяч что, конечно, очень много. Для сравнения на портале открытых данных…
Крупнейшие порталы открытых данных в мире, по критерию количества (не физического объёма) открытых данных и с более чем 100 тысячами наборов данных.

Открытые данные

- data.europe.eu - портал открытых данных Евросоюза, данные структур ЕС и агрегатор данных входящих в ЕС стран
- data.gov - национальный портал открытых данных США
- data.jatengprov.go.id портал открытых данных провинции Центральная Ява, Индонезия
- datos.gob.es - портал открытых данных Испании
- www.govdata.de - портал открытых данных Германии

Научные данные
- explore.openaire.eu - портал раскрытия результатов исследований в Европейском союзе, разные формы результатов, включая наборы данных
- zenodo.org - портал для раскрытия научных данных от CERN
- data.mendeley.com - портал агрегатор научных данных от Elsevier. Лукавят с числами, реально наборов данных значительно меньше заявленных 31 миллиона, поскольку за датасеты выдают, в том числе, отдельные машиночитаемые записи. Но несколько миллионов наборов данных точно есть.
- figshare.com - платформа и агрегатор научных данных от Digital Science

Геоданные

- data.amerigeoss.org - портал геоданных сообщества AmeriGEO, включающего все страны северной, центральной и южной америк
- hub.arcgis.com - платформа и агрегатор открытых данных от компании ArcGIS
- metadaten.geoportal-bw.de портал геоданных земли Baden-Wurttemberg в Германии
- geo.btaa.org - большой геопортал альянса университетов в США, чуть-чуть недотягивает до 100 тысяч датасетов
- atom.cuzk.cz - портал геоданных Чешского кадастра
- catalogue.geo-ide.developpement-durable.gouv.fr - каталог геоданных Франции


Данные для обучения ИИ
- www.kaggle.com - крупнейший каталог наборов данных для обучения ИИ
- huggingface.co - второй после Kaggle и стремительно набирающий популярность (и данные) каталог данных для обучения ИИ

Статистика
- data.worldbank.org - более 4-х миллионов индикаторов в системе Всемирного Банка, если рассматривать их в привязке к странам и территориям. Неочевидно если смотреть индикаторы на сайте, выясняется при использовании их API
- data.bis.org - многочисленные индикаторы банка международных расчётов
- data.ecb.europa.eu - огромное число индикаторов Европейского центрального банка


#opendata #datacatalogs #bigdata
This media is not supported in your browser
VIEW IN TELEGRAM
Свежий любопытный BI(?) проект MotherDuck Data App Generator [1] который позволяет на основе датасета в DuckDB генерировать дата приложение. Приложение с открытым кодом, но зависит от инфраструктуры MotherDuck.

Хотя они и называют его Data App Generator, тут надо быть честными, это такой недо-BI, по крайней мере в текущей форме и примерах по генерации дашбордов.

Мне, честно говоря, показалось странным что они сделали такое, потому что визуализация данных не самая сильная сторона их команды, Mother Duck известны продуктом для облачной аналитики, но не BI. Но в итоге они, похоже, выбирают путь прокачки собственного продукта, а не интеграции с другими, предлагая свой продукт как бэкэнд.

В любом случае идея по генерации приложений на данных имеет право на существование и даже может быть весьма востребована.

Если бы я не был занят Dateno и поиском данных, я бы автоматизацию аналитики ставил бы где в верхней части своих приоритетов, потому что это большая рыночная востребованная тема.

Ссылки:
[1] https://motherduck.com/blog/data-app-generator/

#opensource #duckdb #data #dataapps #startups
Ещё один любопытный ETL продукт VectorETL [1] с открытым кодом под MIT лицензией. Необычен тем что:
a) Включает AI в паплайны обработки данных
б) Изначально ориентирован на векторные (NoSQL) базы данных

Опубликован стартапом Context Data которые предоставляют облачную платформу для задач которые с помощью этого ETL решаются.

Документации немного, но сам продукт любопытный. И попробовать, и почерпнуть идеи.

Ссылки:
[1] https://github.com/ContextData/VectorETL

#opensource #dataengineering
Неплохая подборка примеров проектов в том что называют Rewrite Bigdata in Rust (RBiR) [1], а то есть по переписыванию функциональности и отдельных продуктов с открытым кодом на Rust, вместо Python или Java.

Подборка хорошая и примеры там все как один вполне применимые к инфраструктуре практически любого дата-продукта.

А самое главное что у Rust и Python хорошая интеграция, можно заменять какие-то компоненты без болезненной адаптации проекта в целом.

Ссылки:
[1] https://xuanwo.io/2024/07-rewrite-bigdata-in-rust/

#opensource #rust #bigdata #datatools #data
В блоге Clickhouse о том как ускорять запросы в Pandas в 87 раз [1], что, с одной стороны неплохо, а с другой стороны лукавство. Потому что есть Polars, Daft и, конечно, DuckDB. То что chDB может ускорить приведенный пример запросов в 87 раз - вполне можно поверить, но другие то продукты и побыстрее могут.

В общем, в плане технологического евангелизма тут какой-то провал, из рассказов про chDB я вижу только один резон применять его, если вся инфраструктура построена на Clickhouse и есть люди в команде поднаторевшие в оптимизации Clickhouse.

А в данном конкретном случае всё выглядит довольно сомнительно в плане выгоды от применения продукт без рассмотрения альтернатив.

Ссылки:
[1] https://clickhouse.com/blog/chdb-pandas-dataframes-87x-faster

#opensource #clickhouse #datatools
Для тех кто хочет больше знать про поисковик по данным Dateno который мы создаём, то его новости теперь будут и в телеграм канале @datenosearch. Публикации там будут на английском языке и не буду обещать что они будут пересекаться с тем что я тут пишу, а может и в чём-то будут. Но официальные новости проекта будут там и они будут довольно скоро.
А вот и свежие новости о Dateno. Мы привлекли раунд инвестиций в рамках которого в ближайшее время планируем запустить API, значительно увеличить поисковый индекс и добавить немало новых возможностей которые сейчас в разработке, а это и функции ИИ, и значительная работа по улучшению качества и полноты поиска. А также, что немаловажно, мы добавим в поиск немало данных связанных с web3 и blockchain.

#opendata #dateno #datasearch #investment #ai #blockchain #web30
Forwarded from Dateno
Exciting News from Dateno!

We are thrilled to announce that Dateno has successfully closed its latest investment round, led by Blockchair! 🎉 This marks a major milestone in our mission to revolutionize data accessibility and search.

Since our launch just a few months ago, Dateno has been rapidly growing, now indexing over 15 million datasets. By the end of 2024, we aim to expand this number to 30 million! Our platform offers a focused and advanced data search experience, supporting 13 facets for filtering results, making it easier than ever for users to find the datasets they need.
With this new investment and partnership, we’re excited to roll out major updates, including the launch of the Dateno API. This will position Dateno as the world's largest search index for data, allowing other projects to integrate our robust data search capabilities directly into their platforms.

We’re also incorporating blockchain and web3 data from Blockchair and other decentralized finance players, and we’re hard at work on AI-powered features to improve search accuracy and relevance. These enhancements will empower data analysts worldwide, making their work more intuitive, efficient, and insightful.

We’re just getting started, and we’re grateful for the support of our investors, partners, and the entire Dateno community. Stay tuned for more updates, and thank you for being part of this journey with us! 🚀

#Dateno #DataSearch #Investment #Innovation #AI
Пишут что Looker, сервис от Google более не работает в России для российских аккаунтов. Я сам проверить никак не могу, мой аккаунт там к РФ не был привязан, но если у вас такой есть, то проверьте на всякий случай. Всё таки Looker был и остаётся весьма качественным продуктом по визуализации данных.

#sanctions #russia #dataviz
Пишут сервис Wix начнёт блокировать аккаунты связанные с Россией начиная с 12 сентября. У многих Wix сайты уже перестали работать ещё в 2022 году после невозможности платежей из России. Но судя по всему у кого-то сайты на Wix остались.

Если Вы знаете сайты на Wix владельцы которых могли получить подобное сообщение и чьи сайты исчезнут 12 сентября, напишите в чате к этому каналу и мы постараемся заархивировать всё что успеем.

#wix #webarchives
В рубрике как это устроено у них открытые данные в Великобритании. Самый очевидный опыт когда дело касается открытых данных. Один из эпицентров движухи про открытые данные в мире был именно в Великобритании и один из первых порталов государственных открытых данных data.gov.uk также появился именно там.

Сейчас там 67 тысяч наборов данных и сам портал выглядит если не запущенным, то точно не развивающимся уже несколько лет. Особенно если сравнить с общеевропейским порталом data.europe.eu или порталом открытых данных Франции data.gouv.fr.

Малоизвестная широкой публике особенность открытости данных в Великобритании - это огромное число академических порталов раскрытия данных. Фактически данные публикуются всеми исследовательскими центрами и университетами, либо в общих порталах открытого доступа и раскрытия research outputs, либо на специальных порталах с research data.

Параллельно с этим в Великобритании существует множество порталов открытых данных городов и отдельных графств, множество геопорталов и тд. В реестре Dateno сейчас 382 каталога данных страны и почти наверняка есть ещё неучтённые. Из каталогов которые можно выделить:

Открытые данные
- Resource Data https://www.resourcedata.org

Геоданные
- NERC Geonetwork https://csw-nerc1.ceda.ac.uk/geonetwork/
- CEDA Geonetwork https://csw.ceda.ac.uk/geonetwork

Научные данные
- British Antarctic Survey Data https://data.bas.ac.uk

#opendata #datasets #uk #datacatalogs
Мысли вслух о индексировании датасетов

Я как то уже писал о том что потратил в своё время немало сил и времени на то чтобы научиться создавать данные из неструктурированных источников. Развивая мысль "всё таблица" в мысль "всё данные". Самое очевидное применение - это сайты к которым пишут многочисленные парсеры, но число сайтов бесконечно, а число парсеров конечно. И писать множество парсеров для каждого сайта не хватит и тысячи жизней.

Можно ли это автоматизировать? Можно ли автоматически понимать разметку страниц и извлекать из них смысл. Самый очевидный путь - это использовать микроформаты и разметку контента через Schema.org и вытаскивать объекты из индекса Common Crawl. Что, кстати, многие и делают для задач обучения ИИ и не только и что имеет свои ограничения из-за невысокого качества этой самой разметки.

Кроме того она используется далеко не всеми. Да чего уж там, огромное число государственных, корпоративных и академических вебсайтов не используют даже базовые инструменты для индексации поисковиками. У них нет файлов robots.txt, отсутствуют sitemaps и ещё много всего.

Когда я ещё возился начальной стадии с каталогами данных, казалось бы довольно типовыми функциями, то столкнулся с этим в полный рост. К примеру, большая часть каталогов данных не поддерживают Schema.org и не индексируются тем же краулером Google не говоря уже об остальных.

Геоданные почти все вообще не попадают в поисковые индексы как датасеты, для них нет разметки, а каталоги геоданных не оперируют метаданными из Schema.org, за редким исключением.

Как собирать метаданные в таких условиях?

По сути стратегия сбора метаданных о датасетах сводится к нескольким моделям:
1. Сбор стандартизированными инструментами через API каталогов данных или дампы каталогов.

Причём этих API может быть несколько. Тот же CKAN, к примеру, поддерживает собственное API и часто имеет дамп экспорта по стандарту DCAT, а у каталогов Dataverse ещё больше вариантов их индексации, с помощью внутреннего API, OAI-PMH, Sword и других вариантов. Это то что делают некоторые поисковики, например, научные или порталы агрегаторы данных, но они используют, как правило, 2-3 стандарта для сбора метаданных.

2. Индивидуализированное извлечение метаданных

В случае крупных каталогов данных написание парсеров исключительно под них и перенос метаданных в поисковый индекс. Это резко отличается от того что делают все остальные поисковики и агрегаторы, кроме тех которые используют большие открытые данные DataCite для каталогизации датасетов получивших DOI.

3. Краулинг + Schema.org

Стандартный механизм используемый Google Dataset Search и не используемый больше почти более нигде. В самом простом сценарии реализуется через поглощение sitemap файлов и последовательное извлечение разметки Schema.org Dataset из веб страниц. С одной стороны, не зависит от используемого в каталоге ПО, с другой стороны всё равно требует ручной верификации.

4. Умный анализ структуры каталога и автоматическое аннотирование датасетов

Это самое сложное и интересное. Как определить структура сайта? Как определить структуру веб страницы на которой размещён набор данных? Это можно делать по типовым шаблонам ссылок с префиксами типовыми для наборов данных, такими как /dataset/ и тд. Ещё один признак - это ссылки на дата файлы .csv, .json, .xml и им подобные, а также ключевые слова в разметке страниц и применение ИИ для понимания этой разметки. Всё вместе это может дать возможность приблизится к умному краулеру с обучением. Где-то с верификацией человеком, а где-то, возможно, даже без неё.

За бортом остаются порталы с собственным нестандартным API через которое рендерятся данные и другие порталы со встроенным AJAX'ом. Такие случаи даже умным краулером не обработать.

Всё это мысли вслух о поиске исходя из показателей количества охваченных каталогов данных и числа проиндексированных наборов данных как приоритетных. А есть и другие показатели качества, востребованности, удобства и не только.

#thoughts
17-18 сентября я буду в Алма-Ата, в Казахстане, какое-то число встреч встреч уже запланировано, если задумаете со мной там пересечься, напишите.

А пока об открытых данных в Казахстане я неоднократно тут писал, в стране довольно контрастная ситуация когда одновременно есть портал данных data.egov.kz который хоть и называется порталом открытых данных, но по факту ничего открытого там нет. И параллельно существует геопортал НИПД где как раз именно открытые данные, но только пространственные и в отличие от data.egov.kz он сделан на типовом ПО GeoNode как раз предназначенном для раскрытия геоданных.

А главная особенность Казахстана в большом числе региональных геопорталов сделанных местными компаниями и, соответственно, на которых слои карт отдаются в каких-то собственных форматах вместо общепринятых.

И отдельно, важная тема, в Казахстане практически нет практики публикации научных данных. Либо эта культура ещё не сформировалась, либо публикация данных идёт только на зарубежных ресурсах

В целом ощущения что данных много, систематизации мало, а проекты вроде data.egov.kz правильнее было бы закрыть или радикально переделать.

#opendata #datasets #datacatalogs #kazakhstan
В рубрике интересных каталогов данных малоизвестных за пределами своих отраслей GBIF (Global Biodiversity Information Facility) [1] портал для публикации данных о встреченных видах в рамках исследований биоразнообразия.

Сейчас на портале более 108 тысяч наборов данных о 7.7 миллионах видах и чуть менее 3 миллиардах упоминаний о случаях встречи с ними (occurrences). Помимо информации о видах и датасетах там есть профили стран и можно найти данные даже по очень экзотическим территориям или по известным странам с большой подробностью.

Вот профиль с датасетами и животными Армении [2] и, например, если Вы интересовались есть ли в Армении медведи. Да, есть;) [3]

Почти все материалы в GBIF опубликованы под лицензиями CC-BY и CC0.

Это бесценный источник ресурсов для обучения распознавания изображений животных и их следов.

Ссылки:
[1] https://www.gbif.org
[2] https://www.gbif.org/country/AM/summary
[3] https://www.gbif.org/occurrence/4436343743

#opendata #biodiversity #openaccess
Ещё один полезный для чтения текст Open Source is not a Business Model
[1] в сторону продвижения Fair Source [2] как открытие кода с ограничениями не мешающими на нём зарабатывать.

Лично я считаю что Fair Source - это модель вполне имеющая право на существование. Станет популярной - хорошо, не станет - тоже хорошо.

Острота в дискуссиях об открытом коде возникает когда проекты меняют лицензию. Вроде того же Elastic с их прыжками по лицензиям, туда и обратно. Что не отменяет качество самого продукта, отметим.

Ссылки:
[1] https://cra.mr/open-source-is-not-a-business-model
[2] https://fair.io

#opensource #readings #softwaredevelopment