Ivan Begtin
9.3K subscribers
2.07K photos
3 videos
102 files
4.8K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике как это устроено у них проект PLATEAU [1] в Японии создан Министерством Земель, Инфраструктуры, Транспорта и Туризма и в рамках проекта создано 211 3D моделей городов и территорий Японии.

Все модели опубликованы как открытые данные на портале geospatial.jp в формате CityGML v2 и v3, а также сами 3D модели можно просмотреть онлайн в сервисе PLATEAU View [3] (осторожно, сильно нагружает браузер)

Общий объём 3D моделей составляет более 100GB в сжатом виде и более 2ТБ в распакованном.

Ссылки:
[1] https://www.mlit.go.jp/plateau/open-data/
[2] https://www.geospatial.jp
[3] https://plateauview.mlit.go.jp/

#opendata #japan #geodata #datasets #bigdata
Один из крупнейших проектов с большими научными данными - это Китайский национальный центр биоинформации через сайт которого доступно более 53 Петабайт геномных данных [1]. Причём в августе 2021 года их было всего 5 Петабайт и сейчас можно наблюдать 10-кратный рост за 3 года. Такими темпами к концу 2025 года будут все 100 Пб.

Внутри центра много разных баз данных и архивов, от нескольких терабайт, до десятка петабайт. Все данные доступны в форматах специфичных в для биоинформатики и геномных исследований.

Часть этих данных полностью открытые и их можно сразу скачать через FTP или HTTP интерфейсы, часть требуют процедуры получения доступа через профильный комитет доступа к данным Data Access Committee(DAC) [2].

Ссылки:
[1] https://www.cncb.ac.cn/services
[2] https://ngdc.cncb.ac.cn/gsa-human/browse/HRA002875

#opendata #china #data #genomics #bigdata
Ivan Begtin
В рубрике как это устроено у них портал открытых данных провинции Центральная Ява в Индонезии [1]. Отличается каким-то неимоверным числом опубликованных датасетов, там их чуть менее 200 тысяч что, конечно, очень много. Для сравнения на портале открытых данных…
Крупнейшие порталы открытых данных в мире, по критерию количества (не физического объёма) открытых данных и с более чем 100 тысячами наборов данных.

Открытые данные

- data.europe.eu - портал открытых данных Евросоюза, данные структур ЕС и агрегатор данных входящих в ЕС стран
- data.gov - национальный портал открытых данных США
- data.jatengprov.go.id портал открытых данных провинции Центральная Ява, Индонезия
- datos.gob.es - портал открытых данных Испании
- www.govdata.de - портал открытых данных Германии

Научные данные
- explore.openaire.eu - портал раскрытия результатов исследований в Европейском союзе, разные формы результатов, включая наборы данных
- zenodo.org - портал для раскрытия научных данных от CERN
- data.mendeley.com - портал агрегатор научных данных от Elsevier. Лукавят с числами, реально наборов данных значительно меньше заявленных 31 миллиона, поскольку за датасеты выдают, в том числе, отдельные машиночитаемые записи. Но несколько миллионов наборов данных точно есть.
- figshare.com - платформа и агрегатор научных данных от Digital Science

Геоданные

- data.amerigeoss.org - портал геоданных сообщества AmeriGEO, включающего все страны северной, центральной и южной америк
- hub.arcgis.com - платформа и агрегатор открытых данных от компании ArcGIS
- metadaten.geoportal-bw.de портал геоданных земли Baden-Wurttemberg в Германии
- geo.btaa.org - большой геопортал альянса университетов в США, чуть-чуть недотягивает до 100 тысяч датасетов
- atom.cuzk.cz - портал геоданных Чешского кадастра
- catalogue.geo-ide.developpement-durable.gouv.fr - каталог геоданных Франции


Данные для обучения ИИ
- www.kaggle.com - крупнейший каталог наборов данных для обучения ИИ
- huggingface.co - второй после Kaggle и стремительно набирающий популярность (и данные) каталог данных для обучения ИИ

Статистика
- data.worldbank.org - более 4-х миллионов индикаторов в системе Всемирного Банка, если рассматривать их в привязке к странам и территориям. Неочевидно если смотреть индикаторы на сайте, выясняется при использовании их API
- data.bis.org - многочисленные индикаторы банка международных расчётов
- data.ecb.europa.eu - огромное число индикаторов Европейского центрального банка


#opendata #datacatalogs #bigdata
Неплохая подборка примеров проектов в том что называют Rewrite Bigdata in Rust (RBiR) [1], а то есть по переписыванию функциональности и отдельных продуктов с открытым кодом на Rust, вместо Python или Java.

Подборка хорошая и примеры там все как один вполне применимые к инфраструктуре практически любого дата-продукта.

А самое главное что у Rust и Python хорошая интеграция, можно заменять какие-то компоненты без болезненной адаптации проекта в целом.

Ссылки:
[1] https://xuanwo.io/2024/07-rewrite-bigdata-in-rust/

#opensource #rust #bigdata #datatools #data
Forwarded from Dateno
🚀 Dateno Enters Industrial Operation – Redefining Global Dataset Search
We’re excited to announce that Dateno has officially transitioned to full-scale industrial operation! 🎉 Now, data professionals worldwide can seamlessly access over 20 million high-quality datasets with advanced filtering, API integration, and continuously updated sources.

🔍 What makes Dateno stand out?
Extensive dataset collection – 20M+ datasets indexed, aiming for 30M.
Advanced filtering – Search by dataset owner, geography, topic, and more.
AI-powered search – Recognizes semantic relationships (DOI, geolocation).
API-first approach – Seamless integration into analytics & ML pipelines.
High-quality, ad-free data – Focused on clean, structured, and trustworthy datasets.

💡 What’s next?
🔹 Expanding the dataset index to cover even more industries & research fields.
🔹 Improving search quality & user experience.
🔹 Enhancing AI-driven search for more relevant results.
🔹 Adding new API capabilities for seamless integration.
🔹 Launching tools to help professionals derive deeper insights.

Dateno is more than a search engine – it’s an ecosystem built to make data discovery effortless. 🌍

Join us and experience the next level of fast, precise, and integrated dataset search!
👉 Learn more: dateno.io
📩 Contact us: [email protected]

#Dateno #DataSearch #MachineLearning #BigData #AI