Невероятный по идее и реализации геопространственный проект OpenTimes [1] в виде визуализации времени поездки на машине, велосипеде или пешком с выбором стартовой точки в виде района и далее по районам отображающий в цвете. Автор Dan Snow рассказывает подробности [2] о том как он из его создал и собрал из 300 GB файлов в несколько файлов Parquet которые хостятся в итоге на Cloudflare R2 и это обходится менее чем в $15 ежемесячно [3]. У проекта открытый исходный код [4], внутри DuckDB и Parquet файлы, Python и Javascript и много первичных данных из базы TIGER переписи населения США.
Собственно финальный объём данных около 440GB [5].
Единственный недостаток - охватывает только США, потому что только по США такие первичные данные есть.
Ссылки:
[1] https://opentimes.org/
[2] https://sno.ws/opentimes/
[3] https://opentimes.org/about/
[4] https://github.com/dfsnow/opentimes
[5] https://data.opentimes.org/
#opendata #opensource #dataviz #data
Собственно финальный объём данных около 440GB [5].
Единственный недостаток - охватывает только США, потому что только по США такие первичные данные есть.
Ссылки:
[1] https://opentimes.org/
[2] https://sno.ws/opentimes/
[3] https://opentimes.org/about/
[4] https://github.com/dfsnow/opentimes
[5] https://data.opentimes.org/
#opendata #opensource #dataviz #data
🔥9❤2✍2
This media is not supported in your browser
VIEW IN TELEGRAM
Прекрасная визуализация When You Will Die на Flowing Data шанса прожить следующий год [1] в зависимости от возраста и пола.
Тут надо оговорится что это данные для мирного времени и для США, а для других стран и в другом состоянии статистика может быть совершенно иной.
Тем не менее, и по смыслу, и по форме хорошая подача. Там же в заметки источники данных
Ссылки:
[1] https://flowingdata.com/projects/2025/when-die/
#dataviz #lifeanddeath
Тут надо оговорится что это данные для мирного времени и для США, а для других стран и в другом состоянии статистика может быть совершенно иной.
Тем не менее, и по смыслу, и по форме хорошая подача. Там же в заметки источники данных
Ссылки:
[1] https://flowingdata.com/projects/2025/when-die/
#dataviz #lifeanddeath
😁2🤔2😢1
В рубрике интересных проектов на данных Open Syllabus [1] проект по агрегации (скрейпингу) учебных программ по всему миру и составлению рейтингов издателей, авторов, книг популярных в разных учебных дисциплинах.
Проект изначально некоммерческий создан исследователями Колумбийского университета, сейчас поддерживается одноимённой НКО и включает общедоступные функции и интерфейсы и аналитику за платную подписку.
Важная особенность - это охват только англоязычной литературы, зато охват очень широкий. На конец марта 2025 года там были данные по :
- 5 691 университету/школе
- 94 076 издателям
- 1 911 596 авторам
- почти 3 миллионам книг и публикаций из которых 1 миллион книг и около 2 миллионов статей
Самая популярная книга глобально - это Calculus авторством James Stewart, а, к примеру, в компьютерных науках это Introduction to Algorithms за авторством T. H. Corman.
Из минусов - создатели проекта явным образом скрыли датасеты которые раньше отдавали и API для доступа к материалам, хотя оно точно было [2], и закрыли код, есть лишь только его остатки за 2016 год [3].
Тем не менее проект остаётся интересным и полезным. Аналогичные проекты на других языках: немецком, испанском, русском, французском и других были бы востребованы.
Ссылки:
[1] https://www.opensyllabus.org
[2] https://johnskinnerportfolio.com/blog/ospapi.html
[3] https://github.com/davidmcclure/open-syllabus-project
#syllabus #openprojects #analytics #dataviz
Проект изначально некоммерческий создан исследователями Колумбийского университета, сейчас поддерживается одноимённой НКО и включает общедоступные функции и интерфейсы и аналитику за платную подписку.
Важная особенность - это охват только англоязычной литературы, зато охват очень широкий. На конец марта 2025 года там были данные по :
- 5 691 университету/школе
- 94 076 издателям
- 1 911 596 авторам
- почти 3 миллионам книг и публикаций из которых 1 миллион книг и около 2 миллионов статей
Самая популярная книга глобально - это Calculus авторством James Stewart, а, к примеру, в компьютерных науках это Introduction to Algorithms за авторством T. H. Corman.
Из минусов - создатели проекта явным образом скрыли датасеты которые раньше отдавали и API для доступа к материалам, хотя оно точно было [2], и закрыли код, есть лишь только его остатки за 2016 год [3].
Тем не менее проект остаётся интересным и полезным. Аналогичные проекты на других языках: немецком, испанском, русском, французском и других были бы востребованы.
Ссылки:
[1] https://www.opensyllabus.org
[2] https://johnskinnerportfolio.com/blog/ospapi.html
[3] https://github.com/davidmcclure/open-syllabus-project
#syllabus #openprojects #analytics #dataviz
👍11❤🔥5
Хороший разбор в виде дата истории темы зависимости даты рождения и даты смерти в блоге The Pudding [1]. Без какой-то единой визуализации, но со множеством графиков иллюстрирующих изыскания автора и выводы о том что да, вероятность смерти у человека выше в день рождения и близкие к нему дни и это превышение выше статистической погрешности.
Собственно это не первое и, наверняка, не последнее исследование на эту тему. В данном случае автор использовал данные полученные у властей Массачусеца с помощью запроса FOIA о 57 010 лицах.
Там же есть ссылки на исследования с большими выборками, но теми же результатами.
Так что берегите себя и внимательнее относитесь к своим дням рождения, дата эта важная, игнорировать её никак нельзя.
P.S. Интересно что данные в виде таблиц со значениями дата рождения и дата смерти - это точно не персональные данные. Ничто не мешает госорганам не только в США их раскрывать, но почему-то они, всё таки, редкость.
Ссылки:
[1] https://pudding.cool/2025/04/birthday-effect/
#opendata #dataviz #curiosity #statistics
Собственно это не первое и, наверняка, не последнее исследование на эту тему. В данном случае автор использовал данные полученные у властей Массачусеца с помощью запроса FOIA о 57 010 лицах.
Там же есть ссылки на исследования с большими выборками, но теми же результатами.
Так что берегите себя и внимательнее относитесь к своим дням рождения, дата эта важная, игнорировать её никак нельзя.
P.S. Интересно что данные в виде таблиц со значениями дата рождения и дата смерти - это точно не персональные данные. Ничто не мешает госорганам не только в США их раскрывать, но почему-то они, всё таки, редкость.
Ссылки:
[1] https://pudding.cool/2025/04/birthday-effect/
#opendata #dataviz #curiosity #statistics
👍14🔥4😱1
Internet Artifacts забавный таймлайн о том как появлялся Интернет, по годам с 1977 по 2007 годы. Сделан просто и стильно, для кого то ещё и может быть сильной ностальгией. Лично я много лет провел в IRC и современные Slack'и и Discord'ы отчасти напоминают то время.
#dataviz #history #internet
#dataviz #history #internet
👍11
В рубрике как это устроено у них портал данных Международной продовольственной программы (WFP) [1]
Включает данные климатического эксплорера где по большинстве стран можно узнать текущие и исторические данные по осадкам и другим климатическим данным.
Выглядит очень интересно и может быть полезно для тех кто анализирует гиперлокальные (муниципальные) данные поскольку по большинству стран мониторинг охватывает до второго административного уровня - муниципаоитетов, проще говоря.
С одним очень большим но... Это большое НО - это Россия. По России доступны только общестрановые данные, что для огромной страны кажется особенно странным. Нет даже данных по регионам, хотя на карте они все есть и у структур ООН есть данные о российских границах. Лично я, конечно, подозреваю с чем это связано.
Для примера, данные по районам Армении.
Ссылки:
[1] https://dataviz.vam.wfp.org
#opendata #dataviz #climate #data #russia
Включает данные климатического эксплорера где по большинстве стран можно узнать текущие и исторические данные по осадкам и другим климатическим данным.
Выглядит очень интересно и может быть полезно для тех кто анализирует гиперлокальные (муниципальные) данные поскольку по большинству стран мониторинг охватывает до второго административного уровня - муниципаоитетов, проще говоря.
С одним очень большим но... Это большое НО - это Россия. По России доступны только общестрановые данные, что для огромной страны кажется особенно странным. Нет даже данных по регионам, хотя на карте они все есть и у структур ООН есть данные о российских границах. Лично я, конечно, подозреваю с чем это связано.
Для примера, данные по районам Армении.
Ссылки:
[1] https://dataviz.vam.wfp.org
#opendata #dataviz #climate #data #russia
🔥4⚡2👍2✍1
В рубрике как это устроено у них портал визуализации статистики Саудовской Аравии DataSaudi [1]. Все данные представленные там происходят из официальной статистической службы страны и отличаются качественной визуальной подачей и разделением на тематики, регионы и их наглядное графическое отображение.
Делают этот портал, как ещё и аналогичные порталы около десятка стран, команда DataWheel стартапа по визуализации данных.
Причём в некоторых странах, например, в США с проектом DataUSA [2] они дают не только региональные, но и муниципальные профили территорий и профили отдельных университетов.
В Саудовской Аравии внедрение по масштабу и глубине поскромнее, но по наглядности на высоте. Мне их проекты нравятся визуально и не очень нравятся отсутствием API и датасетов, впрочем они основаны на открытых данных, а не предоставляют их, так что другой формат и вполне понятный.
По смыслу их графики далеко не идеальны, например, в режиме сравнения территорий они показывают графики в разной размерности что затрудняет сравнение, но с точки зрения "красивости" есть на что посмотреть.
Ссылки:
[1] https://datasaudi.sa
[2] https://datausa.io/
#dataviz #statistics #saudiarabia #datacatalogs
Делают этот портал, как ещё и аналогичные порталы около десятка стран, команда DataWheel стартапа по визуализации данных.
Причём в некоторых странах, например, в США с проектом DataUSA [2] они дают не только региональные, но и муниципальные профили территорий и профили отдельных университетов.
В Саудовской Аравии внедрение по масштабу и глубине поскромнее, но по наглядности на высоте. Мне их проекты нравятся визуально и не очень нравятся отсутствием API и датасетов, впрочем они основаны на открытых данных, а не предоставляют их, так что другой формат и вполне понятный.
По смыслу их графики далеко не идеальны, например, в режиме сравнения территорий они показывают графики в разной размерности что затрудняет сравнение, но с точки зрения "красивости" есть на что посмотреть.
Ссылки:
[1] https://datasaudi.sa
[2] https://datausa.io/
#dataviz #statistics #saudiarabia #datacatalogs
❤5😍5✍3
Для тех кто любит гиперлокальные данные, наконец-то доступны в открытом доступе наборы данных с хакатона СберИндекс.
Все данные в виде Parquet файлов
- Потребительские расходы на уровне МО: 8_consumption.parquet
- Индекс доступности рынков на уровне МО: 1_market_access.parquet
- Данные Росстата
- Население МО: 2_bdmo_population.parquet
- Миграция по МО: 3_bdmo_migration.parquet
- Заработная плата по МО: 4_bdmo_salary.parquet
- Автодорожные связи между МО: 5_connection.parquet
Там же можно увидеть результаты хакатона и команды победители. Я вот жалею что уже много лет участвую в таких мероприятиях только как организатор или ментор или член жюри. Сами данные куда интереснее.
Поскольку лично я очень люблю муниципальные данные, которые хотя бы чуть-чуть хорошие, то если Вы делаете что-то на муниципальных данных или использовали данные СберИндекса (и других источников) и, желательно, делали работу с открытым кодом, то пишите мне, с удовольствием расскажу об этом здесь в телеграм канале.
#opendata #dataviz #datasets #localdata
Все данные в виде Parquet файлов
- Потребительские расходы на уровне МО: 8_consumption.parquet
- Индекс доступности рынков на уровне МО: 1_market_access.parquet
- Данные Росстата
- Население МО: 2_bdmo_population.parquet
- Миграция по МО: 3_bdmo_migration.parquet
- Заработная плата по МО: 4_bdmo_salary.parquet
- Автодорожные связи между МО: 5_connection.parquet
Там же можно увидеть результаты хакатона и команды победители. Я вот жалею что уже много лет участвую в таких мероприятиях только как организатор или ментор или член жюри. Сами данные куда интереснее.
Поскольку лично я очень люблю муниципальные данные, которые хотя бы чуть-чуть хорошие, то если Вы делаете что-то на муниципальных данных или использовали данные СберИндекса (и других источников) и, желательно, делали работу с открытым кодом, то пишите мне, с удовольствием расскажу об этом здесь в телеграм канале.
#opendata #dataviz #datasets #localdata
sberindex.ru
Data → Sense: Результаты Хакатона СберИндекса по муниципальным данным
7 июня прошел Хакатон Лаборатории СберИндекс Data -> Sense, посвященный муниципальным данным
❤🔥9👍6⚡4❤3👌2
В блоге IMF про стремительно растущее энергопотребление дата центров [1]. О том что все дата центры мира уже потребляют больше электричества чем Франция, а скоро будут потреблять больше электричества чем вся Россия.
Так в 2023 году дата центры потребляли порядка 500 тераватточасов, а к 2030 году ожидается 1500 тераватточасов.
Даже интересно пробудит ли это интерес инвесторов и резкий прогресс к термоядерной энергетике и другим способам получения больших объёмов электроэнергии или же перефокусировке разработчиков чипов с производительности на снижение энергопотребления?
В апреле из IMF была работа Power Hungry: How AI Will Drive Energy Demand [2] и там как-то всё было неопределенно. О том что появление моделей вроде Deepseek позволяет экономить на энергопотреблении, но, одновременно стимулирование применение ИИ теми кто ранее не мог себе этого позволить. И есть риски как недоинвестиций в энергетику и дата центры, так и роста цена на электричество при росте потребления.
У IMF, оказывается, есть прогностическая модель IMF-ENV [3] для оценки применения регулирования и реализация доказательной политики где как раз сильный фокус на поставки и потребление энергии.
И, конечно, про данные. Больше данных о энергопотреблении датацентров можно узнать:
- на сайте МЭА [4] - дают график, не дают скачать
- в США на сайте департамента энергетики отчёт за 2024 г. [5]
- в докладе ЕС в 2024 году [6] за 2023 год
- в официальной статистики Ирландии [7] за 2023 год
Ссылки:
[1] https://www.imf.org/en/Blogs/Articles/2025/05/13/ai-needs-more-abundant-power-supplies-to-keep-driving-economic-growth
[2] https://www.imf.org/en/Publications/WP/Issues/2025/04/21/Power-Hungry-How-AI-Will-Drive-Energy-Demand-566304
[3] https://www.imf.org/en/Publications/WP/Issues/2025/04/11/IMF-ENV-Integrating-Climate-Energy-and-Trade-Policies-in-a-General-Equilibrium-Framework-565817
[4] https://www.iea.org/data-and-statistics/charts/data-centre-electricity-consumption-by-region-base-case-2020-2030
[5] https://www.energy.gov/articles/doe-releases-new-report-evaluating-increase-electricity-demand-data-centers
[6] https://publications.jrc.ec.europa.eu/repository/handle/JRC135926
[7] https://www.cso.ie/en/releasesandpublications/ep/p-dcmec/datacentresmeteredelectricityconsumption2023/keyfindings/
#energy #dataviz #IMF #datasets #opendata
Так в 2023 году дата центры потребляли порядка 500 тераватточасов, а к 2030 году ожидается 1500 тераватточасов.
Даже интересно пробудит ли это интерес инвесторов и резкий прогресс к термоядерной энергетике и другим способам получения больших объёмов электроэнергии или же перефокусировке разработчиков чипов с производительности на снижение энергопотребления?
В апреле из IMF была работа Power Hungry: How AI Will Drive Energy Demand [2] и там как-то всё было неопределенно. О том что появление моделей вроде Deepseek позволяет экономить на энергопотреблении, но, одновременно стимулирование применение ИИ теми кто ранее не мог себе этого позволить. И есть риски как недоинвестиций в энергетику и дата центры, так и роста цена на электричество при росте потребления.
У IMF, оказывается, есть прогностическая модель IMF-ENV [3] для оценки применения регулирования и реализация доказательной политики где как раз сильный фокус на поставки и потребление энергии.
И, конечно, про данные. Больше данных о энергопотреблении датацентров можно узнать:
- на сайте МЭА [4] - дают график, не дают скачать
- в США на сайте департамента энергетики отчёт за 2024 г. [5]
- в докладе ЕС в 2024 году [6] за 2023 год
- в официальной статистики Ирландии [7] за 2023 год
Ссылки:
[1] https://www.imf.org/en/Blogs/Articles/2025/05/13/ai-needs-more-abundant-power-supplies-to-keep-driving-economic-growth
[2] https://www.imf.org/en/Publications/WP/Issues/2025/04/21/Power-Hungry-How-AI-Will-Drive-Energy-Demand-566304
[3] https://www.imf.org/en/Publications/WP/Issues/2025/04/11/IMF-ENV-Integrating-Climate-Energy-and-Trade-Policies-in-a-General-Equilibrium-Framework-565817
[4] https://www.iea.org/data-and-statistics/charts/data-centre-electricity-consumption-by-region-base-case-2020-2030
[5] https://www.energy.gov/articles/doe-releases-new-report-evaluating-increase-electricity-demand-data-centers
[6] https://publications.jrc.ec.europa.eu/repository/handle/JRC135926
[7] https://www.cso.ie/en/releasesandpublications/ep/p-dcmec/datacentresmeteredelectricityconsumption2023/keyfindings/
#energy #dataviz #IMF #datasets #opendata
✍5⚡4