В рубрике как это устроено у них проект PLATEAU [1] в Японии создан Министерством Земель, Инфраструктуры, Транспорта и Туризма и в рамках проекта создано 211 3D моделей городов и территорий Японии.
Все модели опубликованы как открытые данные на портале geospatial.jp в формате CityGML v2 и v3, а также сами 3D модели можно просмотреть онлайн в сервисе PLATEAU View [3] (осторожно, сильно нагружает браузер)
Общий объём 3D моделей составляет более 100GB в сжатом виде и более 2ТБ в распакованном.
Ссылки:
[1] https://www.mlit.go.jp/plateau/open-data/
[2] https://www.geospatial.jp
[3] https://plateauview.mlit.go.jp/
#opendata #japan #geodata #datasets #bigdata
Все модели опубликованы как открытые данные на портале geospatial.jp в формате CityGML v2 и v3, а также сами 3D модели можно просмотреть онлайн в сервисе PLATEAU View [3] (осторожно, сильно нагружает браузер)
Общий объём 3D моделей составляет более 100GB в сжатом виде и более 2ТБ в распакованном.
Ссылки:
[1] https://www.mlit.go.jp/plateau/open-data/
[2] https://www.geospatial.jp
[3] https://plateauview.mlit.go.jp/
#opendata #japan #geodata #datasets #bigdata
Один из крупнейших проектов с большими научными данными - это Китайский национальный центр биоинформации через сайт которого доступно более 53 Петабайт геномных данных [1]. Причём в августе 2021 года их было всего 5 Петабайт и сейчас можно наблюдать 10-кратный рост за 3 года. Такими темпами к концу 2025 года будут все 100 Пб.
Внутри центра много разных баз данных и архивов, от нескольких терабайт, до десятка петабайт. Все данные доступны в форматах специфичных в для биоинформатики и геномных исследований.
Часть этих данных полностью открытые и их можно сразу скачать через FTP или HTTP интерфейсы, часть требуют процедуры получения доступа через профильный комитет доступа к данным Data Access Committee(DAC) [2].
Ссылки:
[1] https://www.cncb.ac.cn/services
[2] https://ngdc.cncb.ac.cn/gsa-human/browse/HRA002875
#opendata #china #data #genomics #bigdata
Внутри центра много разных баз данных и архивов, от нескольких терабайт, до десятка петабайт. Все данные доступны в форматах специфичных в для биоинформатики и геномных исследований.
Часть этих данных полностью открытые и их можно сразу скачать через FTP или HTTP интерфейсы, часть требуют процедуры получения доступа через профильный комитет доступа к данным Data Access Committee(DAC) [2].
Ссылки:
[1] https://www.cncb.ac.cn/services
[2] https://ngdc.cncb.ac.cn/gsa-human/browse/HRA002875
#opendata #china #data #genomics #bigdata
Ivan Begtin
В рубрике как это устроено у них портал открытых данных провинции Центральная Ява в Индонезии [1]. Отличается каким-то неимоверным числом опубликованных датасетов, там их чуть менее 200 тысяч что, конечно, очень много. Для сравнения на портале открытых данных…
Крупнейшие порталы открытых данных в мире, по критерию количества (не физического объёма) открытых данных и с более чем 100 тысячами наборов данных.
Открытые данные
- data.europe.eu - портал открытых данных Евросоюза, данные структур ЕС и агрегатор данных входящих в ЕС стран
- data.gov - национальный портал открытых данных США
- data.jatengprov.go.id портал открытых данных провинции Центральная Ява, Индонезия
- datos.gob.es - портал открытых данных Испании
- www.govdata.de - портал открытых данных Германии
Научные данные
- explore.openaire.eu - портал раскрытия результатов исследований в Европейском союзе, разные формы результатов, включая наборы данных
- zenodo.org - портал для раскрытия научных данных от CERN
- data.mendeley.com - портал агрегатор научных данных от Elsevier. Лукавят с числами, реально наборов данных значительно меньше заявленных 31 миллиона, поскольку за датасеты выдают, в том числе, отдельные машиночитаемые записи. Но несколько миллионов наборов данных точно есть.
- figshare.com - платформа и агрегатор научных данных от Digital Science
Геоданные
- data.amerigeoss.org - портал геоданных сообщества AmeriGEO, включающего все страны северной, центральной и южной америк
- hub.arcgis.com - платформа и агрегатор открытых данных от компании ArcGIS
- metadaten.geoportal-bw.de портал геоданных земли Baden-Wurttemberg в Германии
- geo.btaa.org - большой геопортал альянса университетов в США, чуть-чуть недотягивает до 100 тысяч датасетов
- atom.cuzk.cz - портал геоданных Чешского кадастра
- catalogue.geo-ide.developpement-durable.gouv.fr - каталог геоданных Франции
Данные для обучения ИИ
- www.kaggle.com - крупнейший каталог наборов данных для обучения ИИ
- huggingface.co - второй после Kaggle и стремительно набирающий популярность (и данные) каталог данных для обучения ИИ
Статистика
- data.worldbank.org - более 4-х миллионов индикаторов в системе Всемирного Банка, если рассматривать их в привязке к странам и территориям. Неочевидно если смотреть индикаторы на сайте, выясняется при использовании их API
- data.bis.org - многочисленные индикаторы банка международных расчётов
- data.ecb.europa.eu - огромное число индикаторов Европейского центрального банка
#opendata #datacatalogs #bigdata
Открытые данные
- data.europe.eu - портал открытых данных Евросоюза, данные структур ЕС и агрегатор данных входящих в ЕС стран
- data.gov - национальный портал открытых данных США
- data.jatengprov.go.id портал открытых данных провинции Центральная Ява, Индонезия
- datos.gob.es - портал открытых данных Испании
- www.govdata.de - портал открытых данных Германии
Научные данные
- explore.openaire.eu - портал раскрытия результатов исследований в Европейском союзе, разные формы результатов, включая наборы данных
- zenodo.org - портал для раскрытия научных данных от CERN
- data.mendeley.com - портал агрегатор научных данных от Elsevier. Лукавят с числами, реально наборов данных значительно меньше заявленных 31 миллиона, поскольку за датасеты выдают, в том числе, отдельные машиночитаемые записи. Но несколько миллионов наборов данных точно есть.
- figshare.com - платформа и агрегатор научных данных от Digital Science
Геоданные
- data.amerigeoss.org - портал геоданных сообщества AmeriGEO, включающего все страны северной, центральной и южной америк
- hub.arcgis.com - платформа и агрегатор открытых данных от компании ArcGIS
- metadaten.geoportal-bw.de портал геоданных земли Baden-Wurttemberg в Германии
- geo.btaa.org - большой геопортал альянса университетов в США, чуть-чуть недотягивает до 100 тысяч датасетов
- atom.cuzk.cz - портал геоданных Чешского кадастра
- catalogue.geo-ide.developpement-durable.gouv.fr - каталог геоданных Франции
Данные для обучения ИИ
- www.kaggle.com - крупнейший каталог наборов данных для обучения ИИ
- huggingface.co - второй после Kaggle и стремительно набирающий популярность (и данные) каталог данных для обучения ИИ
Статистика
- data.worldbank.org - более 4-х миллионов индикаторов в системе Всемирного Банка, если рассматривать их в привязке к странам и территориям. Неочевидно если смотреть индикаторы на сайте, выясняется при использовании их API
- data.bis.org - многочисленные индикаторы банка международных расчётов
- data.ecb.europa.eu - огромное число индикаторов Европейского центрального банка
#opendata #datacatalogs #bigdata
Неплохая подборка примеров проектов в том что называют Rewrite Bigdata in Rust (RBiR) [1], а то есть по переписыванию функциональности и отдельных продуктов с открытым кодом на Rust, вместо Python или Java.
Подборка хорошая и примеры там все как один вполне применимые к инфраструктуре практически любого дата-продукта.
А самое главное что у Rust и Python хорошая интеграция, можно заменять какие-то компоненты без болезненной адаптации проекта в целом.
Ссылки:
[1] https://xuanwo.io/2024/07-rewrite-bigdata-in-rust/
#opensource #rust #bigdata #datatools #data
Подборка хорошая и примеры там все как один вполне применимые к инфраструктуре практически любого дата-продукта.
А самое главное что у Rust и Python хорошая интеграция, можно заменять какие-то компоненты без болезненной адаптации проекта в целом.
Ссылки:
[1] https://xuanwo.io/2024/07-rewrite-bigdata-in-rust/
#opensource #rust #bigdata #datatools #data
xuanwo.io
Rewrite Bigdata in Rust
Achieving Data Freedom Through Open Source and Rust
Forwarded from Dateno
🚀 Dateno Enters Industrial Operation – Redefining Global Dataset Search
We’re excited to announce that Dateno has officially transitioned to full-scale industrial operation! 🎉 Now, data professionals worldwide can seamlessly access over 20 million high-quality datasets with advanced filtering, API integration, and continuously updated sources.
🔍 What makes Dateno stand out?
✅ Extensive dataset collection – 20M+ datasets indexed, aiming for 30M.
✅ Advanced filtering – Search by dataset owner, geography, topic, and more.
✅ AI-powered search – Recognizes semantic relationships (DOI, geolocation).
✅ API-first approach – Seamless integration into analytics & ML pipelines.
✅ High-quality, ad-free data – Focused on clean, structured, and trustworthy datasets.
💡 What’s next?
🔹 Expanding the dataset index to cover even more industries & research fields.
🔹 Improving search quality & user experience.
🔹 Enhancing AI-driven search for more relevant results.
🔹 Adding new API capabilities for seamless integration.
🔹 Launching tools to help professionals derive deeper insights.
Dateno is more than a search engine – it’s an ecosystem built to make data discovery effortless. 🌍
Join us and experience the next level of fast, precise, and integrated dataset search!
👉 Learn more: dateno.io
📩 Contact us: [email protected]
#Dateno #DataSearch #MachineLearning #BigData #AI
We’re excited to announce that Dateno has officially transitioned to full-scale industrial operation! 🎉 Now, data professionals worldwide can seamlessly access over 20 million high-quality datasets with advanced filtering, API integration, and continuously updated sources.
🔍 What makes Dateno stand out?
✅ Extensive dataset collection – 20M+ datasets indexed, aiming for 30M.
✅ Advanced filtering – Search by dataset owner, geography, topic, and more.
✅ AI-powered search – Recognizes semantic relationships (DOI, geolocation).
✅ API-first approach – Seamless integration into analytics & ML pipelines.
✅ High-quality, ad-free data – Focused on clean, structured, and trustworthy datasets.
💡 What’s next?
🔹 Expanding the dataset index to cover even more industries & research fields.
🔹 Improving search quality & user experience.
🔹 Enhancing AI-driven search for more relevant results.
🔹 Adding new API capabilities for seamless integration.
🔹 Launching tools to help professionals derive deeper insights.
Dateno is more than a search engine – it’s an ecosystem built to make data discovery effortless. 🌍
Join us and experience the next level of fast, precise, and integrated dataset search!
👉 Learn more: dateno.io
📩 Contact us: [email protected]
#Dateno #DataSearch #MachineLearning #BigData #AI