В последние дни уходящей администрации Байдена, 15 января OMB (Офис управления и бюджета США) выпустили [1] руководство по реализации OPEN Government Data Act [2] это документ с конкретными шагами и требованиями принятого 6 лет назад закона об открытости. Его ещё тогда подписал Трамп, а потом, по разным причинам команда Байдена тянула с ним до последнего и выпустили только сейчас.
Документ короткий, 32 страницы, привязан к контексту и законодательству США. На что можно обратить внимание:
- реализация принципа Open by default
- чёткий перечень причин по которым агентствам рекомендуется выбрать почему они публикуют данные. Там есть, например, развитие технологий ИИ и публикация данных для их обучения и улучшение воспроизводимости научных исследований. Ну и более популярных причин вроде пользы для общества тоже много
- нет жёстких рекомендаций по форматам, упоминают CSV, JSON и XML и то что любые другие машиночитаемые открытые форматы
- всё построено вокруг Federal Data Catalog и инвентаризации данных агентствами, результаты инвентаризации рассматриваются как data asset
- и, конечно, у каждого государственного агентства должен быть Open Data Plan, документ описывающий принципы и порядок раскрытия данных.
Документ выдержанный в правильных терминов открытых лицензий, стандартов, приоритетов и тд. Но, конечно, задержался он на 6 лет:)
Ссылки:
[1] https://www.nextgov.com/digital-government/2025/01/omb-issues-open-government-data-act-guidance-6-years-after-its-signing/402225/
[2] https://www.whitehouse.gov/wp-content/uploads/2025/01/M-25-05-Phase-2-Implementation-of-the-Foundations-for-Evidence-Based-Policymaking-Act-of-2018-Open-Government-Data-Access-and-Management-Guidance.pdf
#opendata #usa #government
Документ короткий, 32 страницы, привязан к контексту и законодательству США. На что можно обратить внимание:
- реализация принципа Open by default
- чёткий перечень причин по которым агентствам рекомендуется выбрать почему они публикуют данные. Там есть, например, развитие технологий ИИ и публикация данных для их обучения и улучшение воспроизводимости научных исследований. Ну и более популярных причин вроде пользы для общества тоже много
- нет жёстких рекомендаций по форматам, упоминают CSV, JSON и XML и то что любые другие машиночитаемые открытые форматы
- всё построено вокруг Federal Data Catalog и инвентаризации данных агентствами, результаты инвентаризации рассматриваются как data asset
- и, конечно, у каждого государственного агентства должен быть Open Data Plan, документ описывающий принципы и порядок раскрытия данных.
Документ выдержанный в правильных терминов открытых лицензий, стандартов, приоритетов и тд. Но, конечно, задержался он на 6 лет:)
Ссылки:
[1] https://www.nextgov.com/digital-government/2025/01/omb-issues-open-government-data-act-guidance-6-years-after-its-signing/402225/
[2] https://www.whitehouse.gov/wp-content/uploads/2025/01/M-25-05-Phase-2-Implementation-of-the-Foundations-for-Evidence-Based-Policymaking-Act-of-2018-Open-Government-Data-Access-and-Management-Guidance.pdf
#opendata #usa #government
Nextgov
OMB issues OPEN Government Data Act guidance 6 years after its signing
The law requires agency data to be open by default.
zVRUz9MdbAr8FC4MOPDfsh07UgKAr8A6.pdf
571.5 KB
Свежая стратегия развития системы государственной статистики и Росстата до 2030 года с сайта Пр-ва РФ [1]. Там есть как хорошее, так и не очень. Я позже разберу его подробнее, а пока надеюсь найдутся те кто его проанализирует и изложит своё мнение.
Попыток реформировать статистику и Росстат было много, но я бы в российских реалиях сказал что успешность реформы зависит во многом от того какой политический вес будет иметь будущий глава Росстата. Пока Росстат остаётся "технической службой" зависящей от других ФОИВов и тд., без собственного голоса и влияния, мне трудно поверить в скорые качественные изменения.
Ссылки:
[1] http://government.ru/news/54008/
#opendata #regulation #russia #statistics
Попыток реформировать статистику и Росстат было много, но я бы в российских реалиях сказал что успешность реформы зависит во многом от того какой политический вес будет иметь будущий глава Росстата. Пока Росстат остаётся "технической службой" зависящей от других ФОИВов и тд., без собственного голоса и влияния, мне трудно поверить в скорые качественные изменения.
Ссылки:
[1] http://government.ru/news/54008/
#opendata #regulation #russia #statistics
Я напомню что завтра с 16:30 до 18:00 веду семинар по Лучшим практикам использования DuckDB и Parquet для исследовательских данным в Институте Востоковедения РАН. Зарегистрироваться можно по ссылке https://ivran.ru/registraciya-na-seminar видео будет через какое-то время доступно.
Этот семинар будет с ориентацией на исследователей, но, по большей части, про технологии с живой демонстрацией на реальных данных. Для тех кто умеет SQL и командную строку хотя бы немного.
А буквально на следующий день, послезавтра, в 14:00 по Москве будет семинар в рамках проекта Дата среда https://dhri.timepad.ru/event/3195088/ где я буду рассказывать про пересечение дата инженерии и цифровой гуманитаристики. Здесь я про SQL и командную строку говорить не буду, но буду немало рассказывать про то где в цифровых гуманитарных проектах есть применение дата инженерии (и где нет).
В общем если хотите технологического погружения, то это завтра, а если понимания предметных областей то послезавтра. Неожиданно так получилось что эти два мероприятия оказались близко, но это и неплохо.
А к завтрашнему мероприятию, заодно, устрою небольшой опрос, следующим постом, о том на каких исследовательских данных делать демонстрацию.
#lectures #teaching #opendata
Этот семинар будет с ориентацией на исследователей, но, по большей части, про технологии с живой демонстрацией на реальных данных. Для тех кто умеет SQL и командную строку хотя бы немного.
А буквально на следующий день, послезавтра, в 14:00 по Москве будет семинар в рамках проекта Дата среда https://dhri.timepad.ru/event/3195088/ где я буду рассказывать про пересечение дата инженерии и цифровой гуманитаристики. Здесь я про SQL и командную строку говорить не буду, но буду немало рассказывать про то где в цифровых гуманитарных проектах есть применение дата инженерии (и где нет).
В общем если хотите технологического погружения, то это завтра, а если понимания предметных областей то послезавтра. Неожиданно так получилось что эти два мероприятия оказались близко, но это и неплохо.
А к завтрашнему мероприятию, заодно, устрою небольшой опрос, следующим постом, о том на каких исследовательских данных делать демонстрацию.
#lectures #teaching #opendata
ivran.ru
Регистрация на семинар
На каких данных сделать демонстрацию работы с исследовательскими данными?
Anonymous Poll
25%
Госкаталог музейного фонда РФ (наибольшая по размеру)
29%
База научно-исследовательских работ в РФ
15%
База законов РФ
2%
База законов Казахстана
4%
База лицензий на такси в Москве на 2021 г (наименьшая по размеру)
10%
Архивная база госконтрактов за 2006-2011 годы
0%
Предложу свой вариант в чате
15%
Просто хочу посмотреть ответы
Незаметное, но существенное одно из последствий AI хайпа последних лет в том что некоммерческий проект независимого открытого поискового индекса Common Crawl в 2023 году привлек 1.3 миллиона долларов [1] пожертвований из которых $500 тыс от его основателя Gil Elbaz, а ещё по $250 тыс. от ИИ компаний OpenAI и Anthropic, $100 от Andreessen Horowitz и ещё $50 от DuckDuckGo.
Для сравнения, в 2022 году бюджет CC оставлял $450 тыс, а в 2020 всего $75 тысяч.
В последнее время Common Crawl используется для обучение LLM и их индекс неоднократно обвиняли в том что в нем содержатся материалы под копирайтом, а также в том что 40% проиндексированных текстов на английском языке.
Важнее то что весь их проект основан на экосистеме инструментов WARC и, кстати, DuckDB и файлов Parquet.
В планы на 2025 год они закладывали создание инструментов с открытым кодом для лучшего понимания их датасетов [3], что интересно поскольку инструментов визуализации и навигации по WARC файлам веб архивов явно нехватает.
Ссылки:
[1] https://commoncrawl.org
[2] https://projects.propublica.org/nonprofits/organizations/261635908
[3] https://commoncrawl.org/blog/august-september-2024-newsletter
#digitalpreservation #webarchives #opendata
Для сравнения, в 2022 году бюджет CC оставлял $450 тыс, а в 2020 всего $75 тысяч.
В последнее время Common Crawl используется для обучение LLM и их индекс неоднократно обвиняли в том что в нем содержатся материалы под копирайтом, а также в том что 40% проиндексированных текстов на английском языке.
Важнее то что весь их проект основан на экосистеме инструментов WARC и, кстати, DuckDB и файлов Parquet.
В планы на 2025 год они закладывали создание инструментов с открытым кодом для лучшего понимания их датасетов [3], что интересно поскольку инструментов визуализации и навигации по WARC файлам веб архивов явно нехватает.
Ссылки:
[1] https://commoncrawl.org
[2] https://projects.propublica.org/nonprofits/organizations/261635908
[3] https://commoncrawl.org/blog/august-september-2024-newsletter
#digitalpreservation #webarchives #opendata
По итогам вчерашней лекции зафиксирую ключевые тезисы о которых я пишу тут давно, но фрагментировано:
1. Формат Apache Parquet позволяет публиковать текущие крупные датасеты в виде пригодном для немедленной работы аналитиков, меньшего объёма и с лучшей структурой (типизацией содержимого). Это уже давний стандартизированный формат публикации данных пришедший из стека Apache и набравший популярность по мере роста популярности data science.
2. Apache Parquet не единственный такой формат, но один из наиболее популярных в последнее время. Он поддерживается почти всеми современными аналитическими инструментами работы с дата фреймами и аналитическими базами данных. Кроме него есть ещё и такие форматы публикации как ORC, Avro, значительно менее популярные, пока что.
3. В формате Apache Parquet уже публикуются данные раскрываемые госорганами. Его использует статслужба Малайзии, Правительство Франции, разработчики порталов открытых данных OpenDataSoft и многочисленные исследователи по всему миру. Почему они так делают? Потому что получают запрос от аналитиков, потому что это снижает стоимость хранения и обработки данных.
4. DuckDB - это один из наиболее ярких примеров стремительного удешевления работы с данными большого объёма на настольных компьютерах. Значимость его как инструмента именно в том что появляется возможность работы с данными условно в сотни гигабайт на недорогих устройствах. Например, работа с данными в сотни гигабайт на железе стоимостью до $1000.
5. Производительность DuckDB стремительно растёт. Рост от 3 до 25 раз для разных запросов и поддержка данных до 10 раз большего размера и это за 3 года с 2022 по 2024. Поэтому, хотя у DuckDB есть альтернативы - chDB, движки для дата фреймов такие как Polars, но важен потенциал развития.
6. Почему это важно для исследователей? У рядовых исследовательских команд не всегда есть возможность развертывания "тяжёлой инфраструктуры" или привлекать профессиональных дата аналитиков и дата инженеров. Чаще приходится работать на десктопах и не самых дорогих.
7. Почему это важно при публикации данных? Рассмотрим случай когда госорган, в нашем случае, Минкультуры РФ публикует каталог музейного фонда у себя на портале открытых данных. Сейчас это 11GB ZIP файл, разворачивающийся в 78GB файл в формате JSONS (на самом деле это NDJSON/JSON lines, из построчных записей в JSON). С этими данными всё ещё можно работать на десктопе, но пока скачаешь, пока распакуешь, это будет трудоёмко. Если бы Министерство сразу публиковало бы этот и другие датасеты в Parquet, то итоговый размер датасета был бы 2.7GB и работать с ним можно было бы немедленно, быстрее и удобнее.
8. Технологии дата инженерии и аналитики стремительно развиваются. Отстать можно очень быстро, например, многие только-только узнают про инструменты для дата фреймов вроде Pandas, а в то же время Pandas уже рассматривается как легаси потому что Pandas почти перестал развиваться, а заменяющие его движки Polars или Dask показывают значительно лучшую производительность.
9. Высокая конкуренция среди команд разработчиков СУБД. За ней можно наблюдать, например, через рейтинги производительности ClickBench где если не все то большая часть аналитических СУБД и через каталог СУБД в мире DBDB. Прямо сейчас происходящее называют золотым веком баз данных [и дата инженерии]. Причём развитие идёт в сторону повышения производительности на текущем оборудовании. А это значит что в ближайшем будущем будет ещё больший прогресс в том чтобы работать с данными большого объёма на недорогом оборудовании.
#opendata #opensource #datatools #data
1. Формат Apache Parquet позволяет публиковать текущие крупные датасеты в виде пригодном для немедленной работы аналитиков, меньшего объёма и с лучшей структурой (типизацией содержимого). Это уже давний стандартизированный формат публикации данных пришедший из стека Apache и набравший популярность по мере роста популярности data science.
2. Apache Parquet не единственный такой формат, но один из наиболее популярных в последнее время. Он поддерживается почти всеми современными аналитическими инструментами работы с дата фреймами и аналитическими базами данных. Кроме него есть ещё и такие форматы публикации как ORC, Avro, значительно менее популярные, пока что.
3. В формате Apache Parquet уже публикуются данные раскрываемые госорганами. Его использует статслужба Малайзии, Правительство Франции, разработчики порталов открытых данных OpenDataSoft и многочисленные исследователи по всему миру. Почему они так делают? Потому что получают запрос от аналитиков, потому что это снижает стоимость хранения и обработки данных.
4. DuckDB - это один из наиболее ярких примеров стремительного удешевления работы с данными большого объёма на настольных компьютерах. Значимость его как инструмента именно в том что появляется возможность работы с данными условно в сотни гигабайт на недорогих устройствах. Например, работа с данными в сотни гигабайт на железе стоимостью до $1000.
5. Производительность DuckDB стремительно растёт. Рост от 3 до 25 раз для разных запросов и поддержка данных до 10 раз большего размера и это за 3 года с 2022 по 2024. Поэтому, хотя у DuckDB есть альтернативы - chDB, движки для дата фреймов такие как Polars, но важен потенциал развития.
6. Почему это важно для исследователей? У рядовых исследовательских команд не всегда есть возможность развертывания "тяжёлой инфраструктуры" или привлекать профессиональных дата аналитиков и дата инженеров. Чаще приходится работать на десктопах и не самых дорогих.
7. Почему это важно при публикации данных? Рассмотрим случай когда госорган, в нашем случае, Минкультуры РФ публикует каталог музейного фонда у себя на портале открытых данных. Сейчас это 11GB ZIP файл, разворачивающийся в 78GB файл в формате JSONS (на самом деле это NDJSON/JSON lines, из построчных записей в JSON). С этими данными всё ещё можно работать на десктопе, но пока скачаешь, пока распакуешь, это будет трудоёмко. Если бы Министерство сразу публиковало бы этот и другие датасеты в Parquet, то итоговый размер датасета был бы 2.7GB и работать с ним можно было бы немедленно, быстрее и удобнее.
8. Технологии дата инженерии и аналитики стремительно развиваются. Отстать можно очень быстро, например, многие только-только узнают про инструменты для дата фреймов вроде Pandas, а в то же время Pandas уже рассматривается как легаси потому что Pandas почти перестал развиваться, а заменяющие его движки Polars или Dask показывают значительно лучшую производительность.
9. Высокая конкуренция среди команд разработчиков СУБД. За ней можно наблюдать, например, через рейтинги производительности ClickBench где если не все то большая часть аналитических СУБД и через каталог СУБД в мире DBDB. Прямо сейчас происходящее называют золотым веком баз данных [и дата инженерии]. Причём развитие идёт в сторону повышения производительности на текущем оборудовании. А это значит что в ближайшем будущем будет ещё больший прогресс в том чтобы работать с данными большого объёма на недорогом оборудовании.
#opendata #opensource #datatools #data
DuckDB
Benchmarking Ourselves over Time at DuckDB
In the last 3 years, DuckDB has become 3-25× faster and can analyze ~10× larger datasets all on the same hardware.
Полезное чтение про данные, технологии и не только:
- TPC-H SF300 on a Raspberry Pi [1] бенчмарк TPC-H SF300 для DuckDB на Raspberri Pi с 16 GB RAM и 1TB SSD. TPC-H тест на двух базах в 26GB и 78GB. Самое главное, все стоимость всего всего этого железа $281.
- BuzzHouse: Bridging the database fuzzing gap for testing ClickHouse [2] в блоге ClickHouse об автоматизации тестирования запросов к ClickHouse. Автор создал и оформил 100+ issues выявленных таким автоматическим тестированием.
- Öppna data-portalen [3] портал открытых данных Шведского национального совета по культурному наследию. Все они геоданные в открытых форматах для возможности нанесения на карту.
- Pilot NIH Science of Science Scholars Program [4] национальный институт здравоохранения США запустил программу для исследователей по работе с их внутренними данными. Это те данные которые не могут быть открыты, но доступны с соблюдением требований безопасности, приватности, с оборудования предоставленного государством и тд. Ограничений немало, но и данные из тех что относят к особо чувствительным.
- LINDAS [5] официальный государственный портал связанных данных (Linked Data) Швейцарии. Создан и поддерживается Швейцарскими Федеральными Архивами. Включает 133 набора данных/базы данных
- Visualize Swiss Open Government Data [6] Швейцарская государственная платформа для визуализации данных. Да, по сути это как если бы к Datawrapper прикрутили каталог данных и придали бы всему государственный статус. Наборов данных там около 200 и, самое главное, всё с открытым кодом [6]
Ссылки:
[1] https://duckdb.org/2025/01/17/raspberryi-pi-tpch.html
[2] https://clickhouse.com/blog/buzzhouse-bridging-the-database-fuzzing-gap-for-testing-clickhouse
[3] https://www.raa.se/hitta-information/oppna-data/oppna-data-portal/
[4] https://dpcpsi.nih.gov/oepr/pilot-nih-science-science-scholars-program
[5] https://lindas.admin.ch/
[6] https://github.com/visualize-admin
#opendata #opensource #data #rdmbs #datatools
- TPC-H SF300 on a Raspberry Pi [1] бенчмарк TPC-H SF300 для DuckDB на Raspberri Pi с 16 GB RAM и 1TB SSD. TPC-H тест на двух базах в 26GB и 78GB. Самое главное, все стоимость всего всего этого железа $281.
- BuzzHouse: Bridging the database fuzzing gap for testing ClickHouse [2] в блоге ClickHouse об автоматизации тестирования запросов к ClickHouse. Автор создал и оформил 100+ issues выявленных таким автоматическим тестированием.
- Öppna data-portalen [3] портал открытых данных Шведского национального совета по культурному наследию. Все они геоданные в открытых форматах для возможности нанесения на карту.
- Pilot NIH Science of Science Scholars Program [4] национальный институт здравоохранения США запустил программу для исследователей по работе с их внутренними данными. Это те данные которые не могут быть открыты, но доступны с соблюдением требований безопасности, приватности, с оборудования предоставленного государством и тд. Ограничений немало, но и данные из тех что относят к особо чувствительным.
- LINDAS [5] официальный государственный портал связанных данных (Linked Data) Швейцарии. Создан и поддерживается Швейцарскими Федеральными Архивами. Включает 133 набора данных/базы данных
- Visualize Swiss Open Government Data [6] Швейцарская государственная платформа для визуализации данных. Да, по сути это как если бы к Datawrapper прикрутили каталог данных и придали бы всему государственный статус. Наборов данных там около 200 и, самое главное, всё с открытым кодом [6]
Ссылки:
[1] https://duckdb.org/2025/01/17/raspberryi-pi-tpch.html
[2] https://clickhouse.com/blog/buzzhouse-bridging-the-database-fuzzing-gap-for-testing-clickhouse
[3] https://www.raa.se/hitta-information/oppna-data/oppna-data-portal/
[4] https://dpcpsi.nih.gov/oepr/pilot-nih-science-science-scholars-program
[5] https://lindas.admin.ch/
[6] https://github.com/visualize-admin
#opendata #opensource #data #rdmbs #datatools
DuckDB
Running TPC-H SF300 on a Raspberry Pi
DuckDB can run all TPC-H SF300 queries on a Raspberry Pi board.
Forwarded from Библиотека для открытой науки
🤍 Совсем скоро начнется Неделя любви к данным 2025
Ежегодная международная акция Недели любви к данным (англ. Love Data Week) пройдет 10-14 февраля. Тема 2025 года «Чьи это данные, в конце концов?» дает нам возможность задуматься о том, кто владеет данными и кто их использует. Собирать данные могут разные группы, например, исследователи, компании или университеты. Неделя любви к данным в этом году побуждает нас задуматься о грамотности в области данных и о том, кто может владеть данными, делиться ими, а также публиковать их в интернете.
Предлагаем вам посмотреть все мероприятия и события Недели любви к данным 2025 года, которые пройдут локально и виртуально по всему миру.
Вы также можете организовать свое мероприятие в рамках этой международной акции. Для этого отправьте необходимую информацию для включения вашего события в официальный список мероприятий. Если у вас возникли вопросы, свяжитесь с организаторами по эл. адресу: [email protected]
Что такое Love Data Week?
Love Data Week — это международный праздник данных, который проводится каждый год в течение недели Дня святого Валентина. Университеты, некоммерческие организации, государственные учреждения, корпорации и частные лица проводят различные мероприятия, связанные с данными, и участвуют в них.
Источник: ICPSR
Ежегодная международная акция Недели любви к данным (англ. Love Data Week) пройдет 10-14 февраля. Тема 2025 года «Чьи это данные, в конце концов?» дает нам возможность задуматься о том, кто владеет данными и кто их использует. Собирать данные могут разные группы, например, исследователи, компании или университеты. Неделя любви к данным в этом году побуждает нас задуматься о грамотности в области данных и о том, кто может владеть данными, делиться ими, а также публиковать их в интернете.
Предлагаем вам посмотреть все мероприятия и события Недели любви к данным 2025 года, которые пройдут локально и виртуально по всему миру.
Вы также можете организовать свое мероприятие в рамках этой международной акции. Для этого отправьте необходимую информацию для включения вашего события в официальный список мероприятий. Если у вас возникли вопросы, свяжитесь с организаторами по эл. адресу: [email protected]
Что такое Love Data Week?
Love Data Week — это международный праздник данных, который проводится каждый год в течение недели Дня святого Валентина. Университеты, некоммерческие организации, государственные учреждения, корпорации и частные лица проводят различные мероприятия, связанные с данными, и участвуют в них.
Источник: ICPSR
Про Love Data Week надо дополнить что задолго до него появился день открытых данных который и сейчас проводится и о нём глобально можно почитать на сайте ODD и в России он будет проводится 1 марта и наша команда будет его организовывать ещё и в Армении.
А Love Data Week это, по сути такой конкурент в хорошем смысле для Open Data Day, многие решили делать регулярные мероприятия, но в другие, близкие даты.
Например, EU Open Data Days пройдут в Люксембурге 19-25 марта.
Участвуйте где можете и всем будет счастье.
#opendata #events
А Love Data Week это, по сути такой конкурент в хорошем смысле для Open Data Day, многие решили делать регулярные мероприятия, но в другие, близкие даты.
Например, EU Open Data Days пройдут в Люксембурге 19-25 марта.
Участвуйте где можете и всем будет счастье.
#opendata #events
В рубрике как это устроено у них каталог визуализаций 3D сканов археологических объектов, объектов культурного наследия и иных научных коллекций физических объектов MorphoSource [1]. Включает визуализацию результатов сканирования, возможность запросить сами данные и обеспечивает доступность данных, чаще опубликованных под лицензией CC-BY-NC, свободное использование для некоммерческих целей.
Всего 172 тысяч объектов из которых 170.5 тысяч это объекты животного и растительного происхождения.
У проекта есть открытое API [2] и открытый код. Создан в Duke University за счет финансирования Национального научного фонда США.
Ссылки:
[1] https://www.morphosource.org
[2] https://morphosource.stoplight.io/docs/morphosource-api/rm6bqdolcidct-morpho-source-rest-api
[3] https://github.com/morphosource
#opendata #datacatalogs #datasets #archeology
Всего 172 тысяч объектов из которых 170.5 тысяч это объекты животного и растительного происхождения.
У проекта есть открытое API [2] и открытый код. Создан в Duke University за счет финансирования Национального научного фонда США.
Ссылки:
[1] https://www.morphosource.org
[2] https://morphosource.stoplight.io/docs/morphosource-api/rm6bqdolcidct-morpho-source-rest-api
[3] https://github.com/morphosource
#opendata #datacatalogs #datasets #archeology
Свежий интересный продукт по контролю качества данных DQX - Data Quality Framework от Databricks Labs [1].
Плюсы:
- зрелость поскольку Databricks один из лидеров рынка дата инженерии
- хорошая документация, судя по первому взгляду
- декларативное описание тестов в YAML (тут очень субъективно)
- интегрированность и заточенность на работу с Apache Spark
- открытый код на Github
Минусы:
- зависимость от Databricks Workspace в их дата каталоге Unity
- код открыт но лицензия несвободная, а специальная Databricks License с ограничениями [2], вполне возможно внешних контрибьюторов это оттолкнёт
Он очень напоминает движок Soda [3] который тоже даёт возможность декларативного описания тестов, но ещё более заточенный на их облачный сервис и который бесплатен только в рамках 45 дней тестирования. Можно пользоваться из Soda Core, правда, который под лицензией Apache 2.0
Итоговая ситуация такова что из частично открытых остались только движки Soda и great_expectations [4] который также стремительно коммерциализируется, но вроде как его команда обещала сохранить продукт GX Core под лицензией Apache 2.0 и развивать его, но как бы не закончилось также как с Elasticsearch и MongoDB, со сменой лицензии или тем что новые ключевые возможности будут только в облачных сервисах.
А DQX продукт интересный, но хотелось бы то же самое, но без вот этого вот всего (с).
Итого я могу сказать что есть заметный дефицит инструментов контроля качества данных. Сейчас нет ни одного подобного продукта под лицензией MIT, с простой интеграцией и, желательно, декларативным описанием тестов.
Поляна инструментов контроля качества данных совершенно точно заполнена не до конца и "рулят" на нём продукты в гибридном состоянии открытого кода и SaaS платформ.
Ссылки:
[1] https://databrickslabs.github.io/dqx/
[2] https://github.com/databrickslabs/dqx?tab=License-1-ov-file#readme
[3] https://github.com/sodadata/soda-core
[4] https://github.com/great-expectations/great_expectations
#opensource #dataquality #datatools
Плюсы:
- зрелость поскольку Databricks один из лидеров рынка дата инженерии
- хорошая документация, судя по первому взгляду
- декларативное описание тестов в YAML (тут очень субъективно)
- интегрированность и заточенность на работу с Apache Spark
- открытый код на Github
Минусы:
- зависимость от Databricks Workspace в их дата каталоге Unity
- код открыт но лицензия несвободная, а специальная Databricks License с ограничениями [2], вполне возможно внешних контрибьюторов это оттолкнёт
Он очень напоминает движок Soda [3] который тоже даёт возможность декларативного описания тестов, но ещё более заточенный на их облачный сервис и который бесплатен только в рамках 45 дней тестирования. Можно пользоваться из Soda Core, правда, который под лицензией Apache 2.0
Итоговая ситуация такова что из частично открытых остались только движки Soda и great_expectations [4] который также стремительно коммерциализируется, но вроде как его команда обещала сохранить продукт GX Core под лицензией Apache 2.0 и развивать его, но как бы не закончилось также как с Elasticsearch и MongoDB, со сменой лицензии или тем что новые ключевые возможности будут только в облачных сервисах.
А DQX продукт интересный, но хотелось бы то же самое, но без вот этого вот всего (с).
Итого я могу сказать что есть заметный дефицит инструментов контроля качества данных. Сейчас нет ни одного подобного продукта под лицензией MIT, с простой интеграцией и, желательно, декларативным описанием тестов.
Поляна инструментов контроля качества данных совершенно точно заполнена не до конца и "рулят" на нём продукты в гибридном состоянии открытого кода и SaaS платформ.
Ссылки:
[1] https://databrickslabs.github.io/dqx/
[2] https://github.com/databrickslabs/dqx?tab=License-1-ov-file#readme
[3] https://github.com/sodadata/soda-core
[4] https://github.com/great-expectations/great_expectations
#opensource #dataquality #datatools
Я обещал написать развернутое мнение про свежую стратегию развития статистики и Росстата до 2030 года. Когда-нибудь доберусь до того чтобы написать прям подробно-подробно, но понял что это уже ближе к работе чем прокомментировать документ и фактически придётся описывать своё видение и собственную характеристику оценки российской статистики.
Я сфокусируюсь на кратких тезисах того что есть и того что нет:
1. О целях и рынке данных
В стратегии есть два пункта про доход и рынок данных. Первый присутствует на 15й странице отсутствие рынка государственных данных, который мог бы стать
источником дополнительных доходов для бюджета страны;
второй на 21 странице в целевых индикаторах
создан рынок государственных статистических данных,
удовлетворяющий пользовательские запросы на платной основе
Что важно про них понимать:
- де-факто Росстат и его территориальные управления и ранее поставляли данные и их ключевыми покупателями были региональные органы власти;
- рынок государственных данных - это не только и не то чтобы первично Росстат. Это давние разговоры про то что есть датасеты востребованные бизнесом и хорошо бы если бы их предоставление было бы на системной основе;
- к закрытию существующих данных это имеет меньшее отношение, это не про цензуру, а про монетизацию. Которая может быть как оправданной, в случаях сейчас недоступных данных которые будут доступны, но чаще не оправдана поскольку бьёт по малому и среднему бизнесу и возможностям журналистов и исследователей работать с данными.
Что важно - в документе нет ничего кроме этих фраз про форму развития этого рынка и про то что он мог бы стать вообще-то означает что мог бы и не стать. Потому что рынок данных может быть реализован множеством способов.
Это может быть:
a) Предоставление данных на платной основе отдельными ведомствами независимо
б) Наличие одного ведомства с маркетплейсом данных для продажи данных других ведомств.
в) Продажа данных через уполномоченных операторов (на самом деле предоставление доступа только уполномоченным операторам), а через них всему рынку. Такую модель применяют в ряде развитых стран вроде Австралии.
Из документа стратегии вообще непонятно каким этот рынок будет, какова в нём будет роль Росстата и вообще хоть что-то кроме этих слов. А ведь это, на минуточку, документ стратегии. Можно допустить предположение что будет через какое-то время отдельный закон или постановление о "маркетплейсе госданных" и в нем будет отсылка на эту стратегию, тогда эти слова про рынок немного понятнее.
2. Раздел II. Характеристика государственной статистики
в Российской Федерации и мире
Ключевое про этот раздел что он катастрофически неполон, как в части международного опыта так и российского. Про международный опыт я пишу здесь с завидной регулярностью, а вот относительно российского тут есть такой нюанс что официальная государственная статистика != Росстат. А в документе нет никаких цифр, хотя бы верхнеуровневых по числу сотрудников вовлеченных в создание ведомственной статистики, по числу ведомств, числу отчетных форм. Большой важный пробел.
В принципе этот раздел с описанием того как в мире и в России устроено был бы логичнее если бы был опубликован как отдельный подробный документ оценки текущего состояния официальной статистики в РФ. Но ничего такого я не видел как и опубликованных результатов аудита текущего состояния.
Самое главное, в характеристике текущего состояния нет ничего про деньги. Ни сколько на Росстат тратится, ни сколько тратится на ведомственную статистику, нет сравнения с другими странами сопоставимого размера/ВВП на душу населения/уровня доходов, нет вообще ничего про то сколько Росстат зарабатывает/зарабатывал денег и каким образом. Есть описания кадровых проблем, нет цифр текущей заработной платы и это справедливо ко всем обозначенным в стратегии вызовам.
—
Чуть позже я продолжу разбирать этот документ и напишу про остальное.
#statistics #regulation #russia
Я сфокусируюсь на кратких тезисах того что есть и того что нет:
1. О целях и рынке данных
В стратегии есть два пункта про доход и рынок данных. Первый присутствует на 15й странице отсутствие рынка государственных данных, который мог бы стать
источником дополнительных доходов для бюджета страны;
второй на 21 странице в целевых индикаторах
создан рынок государственных статистических данных,
удовлетворяющий пользовательские запросы на платной основе
Что важно про них понимать:
- де-факто Росстат и его территориальные управления и ранее поставляли данные и их ключевыми покупателями были региональные органы власти;
- рынок государственных данных - это не только и не то чтобы первично Росстат. Это давние разговоры про то что есть датасеты востребованные бизнесом и хорошо бы если бы их предоставление было бы на системной основе;
- к закрытию существующих данных это имеет меньшее отношение, это не про цензуру, а про монетизацию. Которая может быть как оправданной, в случаях сейчас недоступных данных которые будут доступны, но чаще не оправдана поскольку бьёт по малому и среднему бизнесу и возможностям журналистов и исследователей работать с данными.
Что важно - в документе нет ничего кроме этих фраз про форму развития этого рынка и про то что он мог бы стать вообще-то означает что мог бы и не стать. Потому что рынок данных может быть реализован множеством способов.
Это может быть:
a) Предоставление данных на платной основе отдельными ведомствами независимо
б) Наличие одного ведомства с маркетплейсом данных для продажи данных других ведомств.
в) Продажа данных через уполномоченных операторов (на самом деле предоставление доступа только уполномоченным операторам), а через них всему рынку. Такую модель применяют в ряде развитых стран вроде Австралии.
Из документа стратегии вообще непонятно каким этот рынок будет, какова в нём будет роль Росстата и вообще хоть что-то кроме этих слов. А ведь это, на минуточку, документ стратегии. Можно допустить предположение что будет через какое-то время отдельный закон или постановление о "маркетплейсе госданных" и в нем будет отсылка на эту стратегию, тогда эти слова про рынок немного понятнее.
2. Раздел II. Характеристика государственной статистики
в Российской Федерации и мире
Ключевое про этот раздел что он катастрофически неполон, как в части международного опыта так и российского. Про международный опыт я пишу здесь с завидной регулярностью, а вот относительно российского тут есть такой нюанс что официальная государственная статистика != Росстат. А в документе нет никаких цифр, хотя бы верхнеуровневых по числу сотрудников вовлеченных в создание ведомственной статистики, по числу ведомств, числу отчетных форм. Большой важный пробел.
В принципе этот раздел с описанием того как в мире и в России устроено был бы логичнее если бы был опубликован как отдельный подробный документ оценки текущего состояния официальной статистики в РФ. Но ничего такого я не видел как и опубликованных результатов аудита текущего состояния.
Самое главное, в характеристике текущего состояния нет ничего про деньги. Ни сколько на Росстат тратится, ни сколько тратится на ведомственную статистику, нет сравнения с другими странами сопоставимого размера/ВВП на душу населения/уровня доходов, нет вообще ничего про то сколько Росстат зарабатывает/зарабатывал денег и каким образом. Есть описания кадровых проблем, нет цифр текущей заработной платы и это справедливо ко всем обозначенным в стратегии вызовам.
—
Чуть позже я продолжу разбирать этот документ и напишу про остальное.
#statistics #regulation #russia
Telegram
Ivan Begtin
Свежая стратегия развития системы государственной статистики и Росстата до 2030 года с сайта Пр-ва РФ [1]. Там есть как хорошее, так и не очень. Я позже разберу его подробнее, а пока надеюсь найдутся те кто его проанализирует и изложит своё мнение.
Попыток…
Попыток…
28 января будет проходить Privacy Day 2025 интересный для всех кто интересуется приватностью, персональными данными и балансе частной жизни и общественного интереса.
Среди организаторов наши друзья из CyberHub Армения с рассказом про инфобез для НКО в контексте Армении, но актуальный для всех.
А также многие другие участники из постсоветских стран, России, международных организаций, практики, специалисты и тд.
Я также приму участие в одной из дискуссий.
#events #privacy
Среди организаторов наши друзья из CyberHub Армения с рассказом про инфобез для НКО в контексте Армении, но актуальный для всех.
А также многие другие участники из постсоветских стран, России, международных организаций, практики, специалисты и тд.
Я также приму участие в одной из дискуссий.
#events #privacy
2025.privacyday.net
Privacy Day 2025
Международная конференция о приватности, защите персональных данных и балансе между доступом к информации и тайной частной жизни
Для тех кто хочет поработать с относительно небольшими открытыми данными в области культуры по ссылке доступен слепок Госкаталога музейного фонда РФ в формате Parquet (3GB) преобразованный из слепка датасета в 78GB с портала данных Минкультуры.
Для тех кто захочет поделать интересных запросов к этим данным вот тут их примеры которые я приводил на семинаре и которые можно делать с помощью DuckDB.
Подчеркну что с файлами Parquet и DuckDB работать можно на недорогих ноутбуках, настольных компьютерах и тд., загружать эти данные на сервер нет необходимости.
Серия запросов по объединению наиболее тяжелых экспонатов по весу и получению отсортированного списка предметов по весу в любом измерении
1. copy (select name, museum.name, weight/1000 as weight from 'data.parquet' where weightUnit = '{"name":"килограммы"}' order by weight desc) to 'heavy_kg_to_tonn.csv';
2. copy (select name, museum.name, weight/100000 as weight from 'data.parquet' where weightUnit = '{"name":"граммы"}' order by weight desc) to 'heavy_gramm.csv';
3. copy (select name, museum.name, weight from 'data.parquet' where weightUnit = '{"name":"тонны"}' order by weight desc) to 'heavy_tonn.csv';
4. select * from read_csv(['heavy_kg_to_tonn.csv', 'heavy_tonn.csv']) order by weight desc;
Рейтинг музеев по качеству заполнения описания (поле description) во внесённых элементах каталога
select t1.name as name, c as num, total, c*100.0/total as share from (select museum.name as name, count(id) as c from 'data.parquet' where len(description) = 0 group by museum.name) as t1 join (select museum.name as name, count(id) as total from 'data.parquet' group by museum.name) as t2 on t1.name = t2.name order by share desc;
Рейтинг музеев по качеству заполнения invNumber (инвентарный номер) во внесённых элементах каталога
select t1.name as name, c as num, total, c*100.0/total as share from (select museum.name as name, count(id) as c from 'data.parquet' where invNumber = '' group by museum.name) as t1 join (select museum.name as name, count(id) as total from 'data.parquet' group by museum.name) as t2 on t1.name = t2.name order by share desc;
#opendata #russia #parquet #duckdb
Для тех кто захочет поделать интересных запросов к этим данным вот тут их примеры которые я приводил на семинаре и которые можно делать с помощью DuckDB.
Подчеркну что с файлами Parquet и DuckDB работать можно на недорогих ноутбуках, настольных компьютерах и тд., загружать эти данные на сервер нет необходимости.
Серия запросов по объединению наиболее тяжелых экспонатов по весу и получению отсортированного списка предметов по весу в любом измерении
1. copy (select name, museum.name, weight/1000 as weight from 'data.parquet' where weightUnit = '{"name":"килограммы"}' order by weight desc) to 'heavy_kg_to_tonn.csv';
2. copy (select name, museum.name, weight/100000 as weight from 'data.parquet' where weightUnit = '{"name":"граммы"}' order by weight desc) to 'heavy_gramm.csv';
3. copy (select name, museum.name, weight from 'data.parquet' where weightUnit = '{"name":"тонны"}' order by weight desc) to 'heavy_tonn.csv';
4. select * from read_csv(['heavy_kg_to_tonn.csv', 'heavy_tonn.csv']) order by weight desc;
Рейтинг музеев по качеству заполнения описания (поле description) во внесённых элементах каталога
select t1.name as name, c as num, total, c*100.0/total as share from (select museum.name as name, count(id) as c from 'data.parquet' where len(description) = 0 group by museum.name) as t1 join (select museum.name as name, count(id) as total from 'data.parquet' group by museum.name) as t2 on t1.name = t2.name order by share desc;
Рейтинг музеев по качеству заполнения invNumber (инвентарный номер) во внесённых элементах каталога
select t1.name as name, c as num, total, c*100.0/total as share from (select museum.name as name, count(id) as c from 'data.parquet' where invNumber = '' group by museum.name) as t1 join (select museum.name as name, count(id) as total from 'data.parquet' group by museum.name) as t2 on t1.name = t2.name order by share desc;
#opendata #russia #parquet #duckdb
hubofdata.ru
Государственный каталог музейного фонда в формате Parquet - Хаб открытых данных
Оригинальные данные опубликованы по адресу https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits В этом наборе данных была взята версия 3 от 23.09.2023 и преобразована из формата JSONS в...
В продолжение разговора про обновлённую стратегию развития статистики и Росстата в РФ, очень в тему публикация в блоге Всемирного банка о мотивации и компетенции сотрудников статистических служб.
Там приведены результаты опросов сотрудников статслужб Латинской америки и Карибских стран, результаты такие что хотя 78% сотрудников готовы хорошо работать, но только 46% планируют остаться работать в статведомстве. Там, кстати, есть ссылка на опрос удовлетворенности госслужащих зарплатой и у статистиков она особенно низка.
Иначе говоря платят специалистам в этой области мало, чем они объективно недовольны и из-за чего компетенции страдают так как специалисты лучшей квалификации идут в бизнес и в другие госорганы.
И это один из наиболее ключевых вопросов во всех реформах статслужб в мире и на которых пока мало хороших решений.
Что я вижу из происходящего в мире:
1. Маргинализация статистических служб в странах где изначально официальная статистика была сомнительной. Например, некоторые африканские страны. И использование альтернативных источников для получения нужных показателей/индикаторов потенциальными их потребителями.
2. Попытки обновления статистических служб с сохранение их идентификации именно в такой роли. Как правило усложнённые как раз недофинансированием и отсутствием компетенций.
3. Трансформация статистических служб в государственные службы данных и дальнейшая их реформа с точки зрения обеспечения инфраструктуры работы и доступа к данным для госорганов, бизнеса и граждан.
Всё это сводится, в том числе, к вопросу лидерства подобных организаций. И для полноценной реформы статистики здесь есть всего 3 сценария:
1) Главой стат службы должен быть профессионал в области статистики с видением реформ и готовностью их проводить (из того что я знаю наиболее знающие люди в этой области на такую должность просто не пойдут).
2) Главой стат службы должен быть профессионал в области государственных данных и трансформировать службу в службу данных (в РФ не наблюдается такой тренд)
3) Присоединить (не подчинить, а присоединить) Росстат к Минцифры РФ (не выглядит пока реалистично)
4) Главой стат службы должен быть человек с сильным внутриполитическим влиянием который уже привлечёт остальных профессионалов в статистике и работе с данными.
Что такое этот четвертый вариант? Это как если бы главой статслужбы назначили Германа Грефа или Мишустин со словами "я устал, я мухожух" уходя с поста премьера лично занялся бы реформой Росстата, благо у него опыт автоматизации ФНС был вполне релевантный.
Вот тогда можно будет поверить что будут реальные и серьёзные изменения в российской официальной статистике.
В других странах ситуация другая. Во многих развивающихся странах статслужбы крайне бедны и многие их информационные системы были созданы в рамках поддержки от Всемирного банка и других международных организаций.
Тем не менее я лично ставлю на то что неизбежно официальные статистические службы будут или трансформироваться или интегрироваться в государственные органы отвечающие за политику работы с данными и их предоставление.
#regulation #statistics #policies #thoughts
Там приведены результаты опросов сотрудников статслужб Латинской америки и Карибских стран, результаты такие что хотя 78% сотрудников готовы хорошо работать, но только 46% планируют остаться работать в статведомстве. Там, кстати, есть ссылка на опрос удовлетворенности госслужащих зарплатой и у статистиков она особенно низка.
Иначе говоря платят специалистам в этой области мало, чем они объективно недовольны и из-за чего компетенции страдают так как специалисты лучшей квалификации идут в бизнес и в другие госорганы.
И это один из наиболее ключевых вопросов во всех реформах статслужб в мире и на которых пока мало хороших решений.
Что я вижу из происходящего в мире:
1. Маргинализация статистических служб в странах где изначально официальная статистика была сомнительной. Например, некоторые африканские страны. И использование альтернативных источников для получения нужных показателей/индикаторов потенциальными их потребителями.
2. Попытки обновления статистических служб с сохранение их идентификации именно в такой роли. Как правило усложнённые как раз недофинансированием и отсутствием компетенций.
3. Трансформация статистических служб в государственные службы данных и дальнейшая их реформа с точки зрения обеспечения инфраструктуры работы и доступа к данным для госорганов, бизнеса и граждан.
Всё это сводится, в том числе, к вопросу лидерства подобных организаций. И для полноценной реформы статистики здесь есть всего 3 сценария:
1) Главой стат службы должен быть профессионал в области статистики с видением реформ и готовностью их проводить (из того что я знаю наиболее знающие люди в этой области на такую должность просто не пойдут).
2) Главой стат службы должен быть профессионал в области государственных данных и трансформировать службу в службу данных (в РФ не наблюдается такой тренд)
3) Присоединить (не подчинить, а присоединить) Росстат к Минцифры РФ (не выглядит пока реалистично)
4) Главой стат службы должен быть человек с сильным внутриполитическим влиянием который уже привлечёт остальных профессионалов в статистике и работе с данными.
Что такое этот четвертый вариант? Это как если бы главой статслужбы назначили Германа Грефа или Мишустин со словами "я устал, я мухожух" уходя с поста премьера лично занялся бы реформой Росстата, благо у него опыт автоматизации ФНС был вполне релевантный.
Вот тогда можно будет поверить что будут реальные и серьёзные изменения в российской официальной статистике.
В других странах ситуация другая. Во многих развивающихся странах статслужбы крайне бедны и многие их информационные системы были созданы в рамках поддержки от Всемирного банка и других международных организаций.
Тем не менее я лично ставлю на то что неизбежно официальные статистические службы будут или трансформироваться или интегрироваться в государственные органы отвечающие за политику работы с данными и их предоставление.
#regulation #statistics #policies #thoughts
Telegram
Ivan Begtin
Я обещал написать развернутое мнение про свежую стратегию развития статистики и Росстата до 2030 года. Когда-нибудь доберусь до того чтобы написать прям подробно-подробно, но понял что это уже ближе к работе чем прокомментировать документ и фактически придётся…
В продолжение моих расхваливаний в адрес Parquet и DuckDB, приведу ещё один пример. Для задача Dateno я в последние дни анализирую большой датасет индикаторов статистики Всемирного банка из data.worldbank.org.
И вот, для справки, Всемирный банк предоставляет данные своих индикаторов не самым удобным образом. При многих достоинствах их данных, но там почти нет того что называется массовой выгрузкой, bulk download, и приходится выкачивать данные через API. Выгрузка этих данных по каждому индикатору - это около 22 ГБ в виде 3382 JSON файлов. Общим объёмом около 76 миллионов записей. Это не все, а примерно 12% всех индикаторов которые удалось проверить. Немного, на самом деле, но всё равно надо чуть-чуть заморочиться.
После преобразования этих файлов в один Parquet файл его размер составляет 44MB, а это 0.2% от исходного объёма. Опять же полученный файл не только сохраняет все возможности его анализа, но и этот анализ происходит куда быстрее.
Откуда такая эффективность? От того что данные индикаторов сильно денормалированы. Колоночное сжатие на них крайне эффективно. Жаль что Всемирный банк данные для массовой выгрузки до сих пор не публикует, хочется надеяться что когда-нибудь начнёт.
Но важный вывод тут ещё и в другом. Если кто-то из статистических служб и не только говорит о том что они не публикуют данные потому что они очень большие и рядовой пользователь не может с ними работать, то знайте что этот человек:
1) Или безграмотен.
2) Или целенаправленно врёт.
Кроме DuckDB и Parquet есть и другие инструменты сильно снижающие порог аналитической работы на недорогих устройствах.
#opendata #duckdb #statistics #parquet #worldbank
И вот, для справки, Всемирный банк предоставляет данные своих индикаторов не самым удобным образом. При многих достоинствах их данных, но там почти нет того что называется массовой выгрузкой, bulk download, и приходится выкачивать данные через API. Выгрузка этих данных по каждому индикатору - это около 22 ГБ в виде 3382 JSON файлов. Общим объёмом около 76 миллионов записей. Это не все, а примерно 12% всех индикаторов которые удалось проверить. Немного, на самом деле, но всё равно надо чуть-чуть заморочиться.
После преобразования этих файлов в один Parquet файл его размер составляет 44MB, а это 0.2% от исходного объёма. Опять же полученный файл не только сохраняет все возможности его анализа, но и этот анализ происходит куда быстрее.
Откуда такая эффективность? От того что данные индикаторов сильно денормалированы. Колоночное сжатие на них крайне эффективно. Жаль что Всемирный банк данные для массовой выгрузки до сих пор не публикует, хочется надеяться что когда-нибудь начнёт.
Но важный вывод тут ещё и в другом. Если кто-то из статистических служб и не только говорит о том что они не публикуют данные потому что они очень большие и рядовой пользователь не может с ними работать, то знайте что этот человек:
1) Или безграмотен.
2) Или целенаправленно врёт.
Кроме DuckDB и Parquet есть и другие инструменты сильно снижающие порог аналитической работы на недорогих устройствах.
#opendata #duckdb #statistics #parquet #worldbank
Свежий документ Data Governance in Open Source AI [1] от Open Source Initiative про то как публиковать данные для обучения ИИ с открытым кодом. В документе много всего, важно что они промоутируют отход от чистого определения Open Data и говорят о новом (старом) подходе Data Commons с разными моделями доступа к данным.
Дословно в тексте упоминаются, привожу как есть:
- Open data: data that is freely accessible, usable and shareable without restrictions, typically
under an open license or in the Public Domain36 (for example, OpenStreetMap data);
• Public data: data that is accessible to anyone without authentication or special permissions
(for example, Common Crawl data). Note that this data can degrade as web content
becomes unavailable;
• Obtainable data: data that can be obtained or acquired through specific actions, such as
licensing deals, subscriptions or permissions (for example, ImageNet data);
• Unshareable non-public data: data that is confidential or protected by privacy laws,
agreements or proprietary rights and cannot be legally shared or publicly distributed.
С точки зрения многих в открытых данных всё это звучит как размывание открытости, но с точки зрения практики ИИ в этом есть логика.
Ссылки:
[1] https://opensource.org/blog/reimagining-data-for-open-source-ai-a-call-to-action
#opendata #data #readings
Дословно в тексте упоминаются, привожу как есть:
- Open data: data that is freely accessible, usable and shareable without restrictions, typically
under an open license or in the Public Domain36 (for example, OpenStreetMap data);
• Public data: data that is accessible to anyone without authentication or special permissions
(for example, Common Crawl data). Note that this data can degrade as web content
becomes unavailable;
• Obtainable data: data that can be obtained or acquired through specific actions, such as
licensing deals, subscriptions or permissions (for example, ImageNet data);
• Unshareable non-public data: data that is confidential or protected by privacy laws,
agreements or proprietary rights and cannot be legally shared or publicly distributed.
С точки зрения многих в открытых данных всё это звучит как размывание открытости, но с точки зрения практики ИИ в этом есть логика.
Ссылки:
[1] https://opensource.org/blog/reimagining-data-for-open-source-ai-a-call-to-action
#opendata #data #readings
Open Source Initiative
Reimagining data for Open Source AI: A call to action
The Open Source Initiative (OSI) and Open Future have published a white paper: “Data Governance in Open Source AI: Enabling Responsible and Systematic Access.” This document is the culmination of a global co-design process, enriched by insights from a vibrant…
Написал в рассылку текст Работаем с дата фреймами. Почему не Pandas и какие альтернативы? [1] про альтернативы Pandas такие как Polars, Dask, DuckdB и cuDF. А также там же подборка ссылок на большое число параллельно развивающихся инструментов.
А я повторю тезис что Pandas нужный, полезный и важный, но легаси инструмент у которого есть уже много высокопроизводительных альтернатив значительно упрощающих работу с данными большого объёма на недорогих устройствах.
Ссылки:
[1] https://begtin.substack.com/p/pandas
#opensource #dataengineering #dataframes #datatools
А я повторю тезис что Pandas нужный, полезный и важный, но легаси инструмент у которого есть уже много высокопроизводительных альтернатив значительно упрощающих работу с данными большого объёма на недорогих устройствах.
Ссылки:
[1] https://begtin.substack.com/p/pandas
#opensource #dataengineering #dataframes #datatools
Ivan’s Begtin Newsletter on digital, open and preserved government
Работаем с дата фреймами. Почему не Pandas и какие альтернативы?
Самый популярный инструмент для работы с аналитиков в последние годы - это программная библиотека Pandas для Python.
В рубрике как это устроено у них Европейский проект Europeana [1] является не только общедоступной поисковой системой по культурному наследию Евросоюза, но и одним из крупнейших источников открытых данных используемых исследователями и просто заинтересованными пользователями.
В рамках Europeana доступно сразу несколько API [2] позволяющих получать доступ к поиску и информации об объектах в индексе, а также все метаданные доступны через открытый FTP сервер [3]. Это более 242 GB сжатых метаданных в формате RDF. После распаковски это чуть более 1TB RDF/XML документов включающих все описания всех размещённых на сайте изображений культурного наследия.
В виду высокой избыточности RDF документов, итоговые данные можно преобразовать в базу от 50 до 100GB, с чем уже можно работать без серверной инфраструктуры.
Не все знают также что Europeana - это агрегатор цифровых объектов из европейских культурных инициатив и проектов и агрегируется туда далеко не всё. Например, в Europeana лишь 626 445 записей [4] из греческого национального поисковика по культурному наследию SearchCulture.gr, а на самом сайте греческого проекта их 938 929 [5].
Тем не менее именно благодаря Europeana значительные объёмы информации о культурном наследии Европы стали доступны как открытые данные и большая часть культурных учреждений стран ЕС являются или аккредитованными партнерами Europeana или предоставляют информацию о своих коллекциях национальным аккредитованным партнерам.
Ссылки:
[1] https://www.europeana.eu
[2] https://europeana.atlassian.net/wiki/spaces/EF/pages/2461270026/API+Suite
[3] https://europeana.atlassian.net/wiki/spaces/EF/pages/2324463617/Dataset+download+and+OAI-PMH+service
[4] https://www.europeana.eu/en/collections/organisation/1331-greek-aggregator-search-culture-gr
[5] https://www.searchculture.gr/aggregator/portal/?language=en
#opendata #culture #europe #europeana
В рамках Europeana доступно сразу несколько API [2] позволяющих получать доступ к поиску и информации об объектах в индексе, а также все метаданные доступны через открытый FTP сервер [3]. Это более 242 GB сжатых метаданных в формате RDF. После распаковски это чуть более 1TB RDF/XML документов включающих все описания всех размещённых на сайте изображений культурного наследия.
В виду высокой избыточности RDF документов, итоговые данные можно преобразовать в базу от 50 до 100GB, с чем уже можно работать без серверной инфраструктуры.
Не все знают также что Europeana - это агрегатор цифровых объектов из европейских культурных инициатив и проектов и агрегируется туда далеко не всё. Например, в Europeana лишь 626 445 записей [4] из греческого национального поисковика по культурному наследию SearchCulture.gr, а на самом сайте греческого проекта их 938 929 [5].
Тем не менее именно благодаря Europeana значительные объёмы информации о культурном наследии Европы стали доступны как открытые данные и большая часть культурных учреждений стран ЕС являются или аккредитованными партнерами Europeana или предоставляют информацию о своих коллекциях национальным аккредитованным партнерам.
Ссылки:
[1] https://www.europeana.eu
[2] https://europeana.atlassian.net/wiki/spaces/EF/pages/2461270026/API+Suite
[3] https://europeana.atlassian.net/wiki/spaces/EF/pages/2324463617/Dataset+download+and+OAI-PMH+service
[4] https://www.europeana.eu/en/collections/organisation/1331-greek-aggregator-search-culture-gr
[5] https://www.searchculture.gr/aggregator/portal/?language=en
#opendata #culture #europe #europeana