Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Свежая бесплатная полезная книга
Visualization for Public Involvement [1] про визуализацию инфраструктурных проектов для упрощения принятия решений, в том числе с вовлечением граждан. Вся книга построена вокруг транспортных проектов и примеров их визуализации департаментами транспорта в штатах США. Она в меньшей степени про работу с данными как с данными и в большей степени про визуализацию для нетехнических специалистов, но сложным образом, с 3D моделированием и тд. и про то как это позволяет вовлекать их в принятие решений.

Ссылки:
[1] https://nap.nationalacademies.org/catalog/27882/visualization-for-public-involvement

#dataviz #transport
В качестве примера интерактивной визуально насыщенной инфографики свежее видео Стива Баллмера, бывшего главы Microsoft, про бюджет США [1]. Для тех кто не может посмотреть видео на Youtube я специально сделал набор скриншотов.

Рассказывает и показывает он весьма наглядно, не вдаваясь в идеи как менять ситуацию с растущим долгом и лишь указывая на факты.

Честно говоря я не знаю его политических целей, они наверняка есть в таком проекте, но сам проект USAFacts весьма любопытный, хотя и малоизвестный широкой публике.

Ссылки:
[1] https://usafacts.org/just-the-facts/budget/

#budget #government #usa #dataviz #infographics
Городские дашборды Гонконга [1] из плюсов выглядят довольно неплохо, из минусов данные не обновляли с февраля 2024 г. Интегрированы с национальным порталом открытых данных [2] где много разных данных и API.

В восточной и юго-восточной азии, в принципе, популярны городские и страновые дашборды, но всё время остаётся ощущение что они какой-то эксперимент.

Ссылки:
[1] https://dashboard.data.gov.hk/city-at-a-glance
[2] https://data.gov.hk/tc/

#opendata #data #hongkong #dashboards #dataviz
Для тех кто любит визуализировать данные нестандартными способами, сайт Printing Money [1] с визуализацией доходов или расходов, в общем, денег в час в виде напечатанных долларов. Начинает с минимальной оплаты труда, заканчивает военными расходами США и дефицитом бюджета США. Скриншот не отражает движения, лучше смотреть на сайте, а видео не прилагаю потому что файл видео или GIF получаются слишком большими.

Интересная задумка, применима не только к деньгам.

Ссылки:
[1] https://neal.fun/printing-money/

#dataviz
Пишут что Looker, сервис от Google более не работает в России для российских аккаунтов. Я сам проверить никак не могу, мой аккаунт там к РФ не был привязан, но если у вас такой есть, то проверьте на всякий случай. Всё таки Looker был и остаётся весьма качественным продуктом по визуализации данных.

#sanctions #russia #dataviz
Любопытное про визуализацию индикаторов. Смотрю публикацию в блоге World Bank с данными по их индексу бедности, замене индекса Gini [1] и она по умолчанию бинарная. Условно: всё плохо и всё не так уж плохо. Там же в той же визуализации есть возможность посмотреть детализированную раскладку по странам, но что-то есть в донесении знаний в виде двух визуализаций: простой и посложнее. Сделано всё это несложно и визуализировано популярными инструментами, вопрос самого подхода. Вначале быстрое послание, потом развернутое.

Второй пример - это рейтинг/индекс WJP Rule of Law Index. Там не все страны, например, Армении нет, но можно посмотреть на примере России [2], весьма любопытный способ визуализации позиций в индексе и многочисленных субиндексах. Создатели явно вложились в визуализацию и интерактивность, можно рассматривать как хороший пример таких визуализаций. Я вот этих индексов перевидал уже под сотню и хорошая подача - это всегда интересно.

А заодно можно увидеть как со стороны оценивают текущую открытость данных и законов в РФ. Оценивают, как ни странно, выше чем некоторые европейские страны. Впрочем тут важно помнить что в в 2021 г. Россия по открытости гос-ва была на 41 месте, в 2022 - тоже на 41, в 2023 на 42, а в 2024 на 47.

Впрочем, возвращаясь к визуализации, жаль что сайт у них не с открытым кодом.

Вообще все эти международные страновые рейтинги почти все можно было бы упаковать в один типовой движок, но почти все они про привлечение внимание и активно развиваются в части интерактивности и визуализации. Так что новые примеры посмотреть всегда любопытно.

Ссылки:
[1] https://blogs.worldbank.org/en/opendata/inside-the-world-bank-s-new-inequality-indicator--the-number-of-
[2] https://worldjusticeproject.org/rule-of-law-index/country/2024/Russian%20Federation
[3] https://worldjusticeproject.org/rule-of-law-index/factors/2024/Russian%20Federation/Open%20Government

#opendata #opengovernment #dataviz
В рубрике интересных каталогов и поисковиков по данным проект WorldEx [1] каталог данных и поисковик геоданных привязанных к хексагонам.

Кодирование через хексагоны стало популярным относительно недавно, авторы используют библиотеку H3 [2] от Uber.

Подход любопытный, благо в Dateno у нас миллионы датасетов с геоданными и было бы любопытно разметить их по хексагонам. Очень любопытно.

Сам проект worldex с открытым кодом [3], хранят данные в PostGIS и Elasticsearch.

Жаль не удалось найти код конвейеров данных по геокодированию в H3, но и без него такое можно повторить.

Ссылки:
[1] https://worldex.org
[2] https://h3geo.org
[3] https://github.com/worldbank/worldex

#opendata #data #search #datasearch #datacatalogs #dataviz #geodata
Подборка ссылок про данные, технологии и не только:
- OpenSeaMap [1] аналог OpenStreetMap для морей, открытая краудсорсинговая карта морей и морской инфраструктуры. Нигде не видел сравнений масштабов проекта с коммерческими, но может быть есть шанс повторить судьбу OSM ?
- Data Formulator [2] инструмент по автоматизации визуализации данных с помощью ИИ. Создан исследователями из Microsoft в рамках научной работы. Впервые опубликовали в январе 2024, а в октябре добавили возможность запускать его локально
- 30DayMapChallenge [3] глобальный конкурс для GIS специалистов с ежедневными задачками по визуализации геоданных. В этот раз задачки на ноябрь 2024. Для тех кто хочет показать что умеет визуализировать данные - это очень хороший конкурс чтобы показать себе и другим уровень своих навыков.
- A Business Analyst’s Introduction to Business Analytics [4] книга по бизнес аналитике в открытом доступе. Все примеры на языке R, для тех кто интересуется первым и знает второе - самое оно.
- First aid for figures [5] добротная подборка ресурсов о том как учёным лучше оформлять их работы, научные иконки для замены текстов, оформление таблиц, оформление изображений и тд.
- Chart.css [6] один из самых простых инструментов рисования графиков с помощью элементов HTML и CSS стилей. Поддерживает много видов графиков, очень просто настраивается и очень легковесен.
- A vision for public sector data in Scotland [7] в Шотландии моделируют стратегию региона по работе с госданными. Для этого там создали группу экспертов из 30 человек и под названием Horizon Scan Group после чего те разработали вот такой документ долгосрочного видения
- Using Rust in Non-Rust Servers to Improve Performance [8] большой гайд о том как оптимизировать выполнение задач с помощью Rust для проектов не на Rust. Ваш код медленно работает? Так его можно переписать на Rust, во много как альтернатива переписывания его на C++.

Ссылки:
[1] http://openseamap.org
[2] https://github.com/microsoft/data-formulator
[3] https://30daymapchallenge.com/
[4] https://www.causact.com/
[5] https://helenajamborwrites.netlify.app/posts/24-10_linkcollection/
[6] https://chartscss.org/
[7] https://community.thedatalab.com/news/2187703
[8] https://github.com/pretzelhammer/rust-blog/blob/master/posts/rust-in-non-rust-servers.md

#opensource #gis #dataviz #opendata
Кстати, я вот не обращал внимание, а сегодня обнаружил что Datalens [1] существует как open source продукт.

И сразу много вопросов к залу.

Есть ли кто-то кто развертывал его в корпоративной сети или в облаке? Есть ли какие-то зависимости от чужих сервисов или можно использовать хоть в полностью закрытой сети?

И ещё вопрос, кем теперь будет развиваться этот продукт, Яндексом или Nebius ?

Есть задачи где нужны похожие BI и хочется понять стоит ли развертывать локально и экспериментировать с Datalens.

Ссылки:
[1] https://datalens.tech

#opensource #dataviz
В рубрике полезных инструментов по автоматизации визуализации данных Visprex [1] визуализация CSV файлов сразу в браузере, без передачи куда либо.

Умеет сразу несколько базовых визуализаций что полезно для небольших дата файлов.

Из минусов - это типы данных они угадывают по полям в CSV, а если бы точно также визуализировали Parquet файлы то типы там были бы уже сразу.

Вообще скажу я в вам автоматизация визуализации данных - это та ещё наука. Её активно решают с помощью LLM в последние годы и скорее всего неплохо получится решить.

Ссылки:
[1] https://github.com/visprex/visprex

#opensource #dataviz #autodataviz
Оказывается вышел пре-релиз версии 6.0 библиотеки Plotly для визуализации данных [1] самое интересное там это то что они перешли на библиотеку Narwhals [2] которая позволяет работать с условно любой библиотекой для датафреймов и сохранять совместимость с pandas. Например, это такие библиотеки как: cuDF, Modin, pandas, Polars, PyArrow

Собственно и автор Plotly пишет про то что для не-pandas датафреймов всё ускоряется в 2-3 раза [3].

По всем параметрам хорошая штука, надо использовать на практике.

Ссылки:
[1] https://github.com/plotly/plotly.py/releases/tag/v6.0.0rc0
[2] https://github.com/narwhals-dev/narwhals
[3] https://www.linkedin.com/posts/marcogorelli_plotly-60-%F0%9D%90%A9%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%A5%F0%9D%90%9E%F0%9D%90%9A%F0%9D%90%AC%F0%9D%90%9E-is-out-activity-7267885615096991744-2ORl?utm_source=share&utm_medium=member_desktop

#opensource #dataviz #dataframes
Graphic Walker [1] ещё один симпатичный инструмент для анализа и визуализации данных позиционируемый как альтернатива Tableau.

На его основе работает GWalkR [2] инструмент для Exploratory Data Analysis (EDA) на языке R что хорошо встраивается в R Notebook и иные встроенные способы визуализации.

Ссылки:
[1] https://github.com/Kanaries/graphic-walker
[2] https://github.com/Kanaries/GWalkR

#opensource #dataviz #dataanalysis
В рубрике полезного чтения про данные, технологии и не только:
- Dismantling ELT: The Case for Graphs, Not Silos [1] размышления автора о том что такое ELT с точки зрения данных которые являются графом. Он там постоянно ссылается на закон Конвея «организации проектируют системы, которые копируют структуру коммуникаций в этой организации» и про необходимость изменения отношения к тому как данные обрабатываются.
- 7 Databases in 7 Weeks for 2025 [2] автор рассказывает о том почему стоит изучить такие базы данных как PostgreSQL, SQlite, DuckDB, Clickhouse, FoundationDB, TigerBeetle и CockroachDB. Подборка хорошая, стоит изучить
- reactable-py [3] код для быстрой визуализации датафреймов. Мне он чем то напомнил проект Datasette [4], но очень отдалённо. Удобно тем что хорошо встраивается в веб страницу и может быть полезно в дата сторителлинге.
- Field Boundaries for Agriculture (fiboa) [5] малоизвестный пока что проект по сбору наборов данных и инструментов для создания данных в сельском хозяйстве, конкретно в определении границ участков. Сами данные публикуют в Source Cooperative, каталоге больших геоданных [6]
- Common Operational Datasets [7] [8] [9] общие операционные наборы достоверных данных необходимые для принятия решений. Термин UN OCHA определяющий ключевые данные необходимые для противодействия стихийным бедствиям. Чем то напоминает концепцию high-value datasets используемую в Евросоюзе.

Ссылки:
[1] https://jack-vanlightly.com/blog/2024/11/26/dismantling-elt-the-case-for-graphs-not-silos
[2] https://matt.blwt.io/post/7-databases-in-7-weeks-for-2025/
[3] https://machow.github.io/reactable-py/get-started/index.html
[4] https://datasette.io
[5] https://github.com/fiboa
[6] https://source.coop/
[7] https://cod.unocha.org
[8] https://data.humdata.org/event/cod/
[9] https://humanitarian.atlassian.net/wiki/spaces/imtoolbox/pages/42045911/Common+Operational+Datasets+CODs

#opendata #opensource #readings #dataviz #dataframes
Дашборд Германии (Dashboard Deutchland) [1] свежий проект германской статслужбы Destatis по визуализации ключевых индикаторов текущего состояния экономики.

Довольно простая и симпатичная штука со множеством панелей по разным областям с данными, в основном, с актуализацией в месяц, иногда с задержкой в 3 месяца.

Еженедельные и ежесуточные индикаторы тоже есть [2].

Плюс дают возможность зарегистрироваться и настроить личные дашборды.

А внутри используется открытое API того же Destatis и данные из других источников.

Ссылки:
[1] https://www.dashboard-deutschland.de/
[2] https://www.dashboard-deutschland.de/pulsmesser_wirtschaft/pulsmesser_wirtschaft_daily

#opendata #dataviz #germany #statistics #dashboards
Hugging Face выпустили коллекцию графиков 🤗 Open-source AI: year in review 2024 [1].

Где много всяких визуализаций того как в области AI работают с данными, моделями и не только, а ещё там есть график The Circle of Sharing: How Open Datasets Power AI Innovation [2] где можно увидеть как повторно компаниями используются датасеты выложенные другими компаниями.

Другие графики не менее любопытные.
Ссылки:
[1] https://huggingface.co/spaces/huggingface/open-source-ai-year-in-review-2024
[2] https://huggingface.co/spaces/huggingface/open-source-ai-year-in-review-2024

#opendata #ai #dataviz #data