В последние дни уходящей администрации Байдена, 15 января OMB (Офис управления и бюджета США) выпустили [1] руководство по реализации OPEN Government Data Act [2] это документ с конкретными шагами и требованиями принятого 6 лет назад закона об открытости. Его ещё тогда подписал Трамп, а потом, по разным причинам команда Байдена тянула с ним до последнего и выпустили только сейчас.
Документ короткий, 32 страницы, привязан к контексту и законодательству США. На что можно обратить внимание:
- реализация принципа Open by default
- чёткий перечень причин по которым агентствам рекомендуется выбрать почему они публикуют данные. Там есть, например, развитие технологий ИИ и публикация данных для их обучения и улучшение воспроизводимости научных исследований. Ну и более популярных причин вроде пользы для общества тоже много
- нет жёстких рекомендаций по форматам, упоминают CSV, JSON и XML и то что любые другие машиночитаемые открытые форматы
- всё построено вокруг Federal Data Catalog и инвентаризации данных агентствами, результаты инвентаризации рассматриваются как data asset
- и, конечно, у каждого государственного агентства должен быть Open Data Plan, документ описывающий принципы и порядок раскрытия данных.
Документ выдержанный в правильных терминов открытых лицензий, стандартов, приоритетов и тд. Но, конечно, задержался он на 6 лет:)
Ссылки:
[1] https://www.nextgov.com/digital-government/2025/01/omb-issues-open-government-data-act-guidance-6-years-after-its-signing/402225/
[2] https://www.whitehouse.gov/wp-content/uploads/2025/01/M-25-05-Phase-2-Implementation-of-the-Foundations-for-Evidence-Based-Policymaking-Act-of-2018-Open-Government-Data-Access-and-Management-Guidance.pdf
#opendata #usa #government
Документ короткий, 32 страницы, привязан к контексту и законодательству США. На что можно обратить внимание:
- реализация принципа Open by default
- чёткий перечень причин по которым агентствам рекомендуется выбрать почему они публикуют данные. Там есть, например, развитие технологий ИИ и публикация данных для их обучения и улучшение воспроизводимости научных исследований. Ну и более популярных причин вроде пользы для общества тоже много
- нет жёстких рекомендаций по форматам, упоминают CSV, JSON и XML и то что любые другие машиночитаемые открытые форматы
- всё построено вокруг Federal Data Catalog и инвентаризации данных агентствами, результаты инвентаризации рассматриваются как data asset
- и, конечно, у каждого государственного агентства должен быть Open Data Plan, документ описывающий принципы и порядок раскрытия данных.
Документ выдержанный в правильных терминов открытых лицензий, стандартов, приоритетов и тд. Но, конечно, задержался он на 6 лет:)
Ссылки:
[1] https://www.nextgov.com/digital-government/2025/01/omb-issues-open-government-data-act-guidance-6-years-after-its-signing/402225/
[2] https://www.whitehouse.gov/wp-content/uploads/2025/01/M-25-05-Phase-2-Implementation-of-the-Foundations-for-Evidence-Based-Policymaking-Act-of-2018-Open-Government-Data-Access-and-Management-Guidance.pdf
#opendata #usa #government
Nextgov
OMB issues OPEN Government Data Act guidance 6 years after its signing
The law requires agency data to be open by default.
January 20
404 пишет про то что данные с американского портала data.gov исчезают при новой администрации [1] количественно не очень много, но вероятность что будут исчезать данные по гендерным исследованиям или изменению климата весьма велика.
Jack Cushman из Гарвардского Университета начал проект по сохранению данных государственных данных и кода в архиве Harvard Law School Library Innovation Lab. Обещают вскоре опубликовать данные и метаданные собранного [2].
А я ещё год назад активистам в OKF говорил что архивация данных - это самое главное сейчас в тематике работы с данными и ещё неизвестно сколько общественных порталов открытых данных закроются из-за приостановки финансирования и закрытия USAID.
Ссылки:
[1] https://www.404media.co/archivists-work-to-identify-and-save-the-thousands-of-datasets-disappearing-from-data-gov/
[2] https://lil.law.harvard.edu/blog/2025/01/30/preserving-public-u-s-federal-data/
#opendata #datarescue #datasets #usa
Jack Cushman из Гарвардского Университета начал проект по сохранению данных государственных данных и кода в архиве Harvard Law School Library Innovation Lab. Обещают вскоре опубликовать данные и метаданные собранного [2].
А я ещё год назад активистам в OKF говорил что архивация данных - это самое главное сейчас в тематике работы с данными и ещё неизвестно сколько общественных порталов открытых данных закроются из-за приостановки финансирования и закрытия USAID.
Ссылки:
[1] https://www.404media.co/archivists-work-to-identify-and-save-the-thousands-of-datasets-disappearing-from-data-gov/
[2] https://lil.law.harvard.edu/blog/2025/01/30/preserving-public-u-s-federal-data/
#opendata #datarescue #datasets #usa
February 2
Собственно в продолжение сохранение открытых данных США. Открытый каталог данных USAID теперь закрыт [1], а сайт организации usaid.gov отключён.
У нас в Dateno сохранено немало [2] метаданных USAID, но, в основном, с других порталов открытых данных, а с порталом открытых данных USAID всегда были проблемы с его индексированием (многое правительственные сайты США за CDN и тяжело индексируются без ручного вмешательства).
А вообще повторяется история что и во многих странах, смена политического руководства приводит к исчезновению контента и данных.
В данном случае данные USAID не то чтобы очень ценные, финансы агентств публикуются на USASpending.gov и Grants.gov, но тем не менее тенденция на потерю данных есть.
Ссылки:
[1] https://data.usaid.gov
[2] https://dateno.io/search?query=usaid&refinementList[source.owner_type][0]=Central%20government&refinementList[source.countries.name][0]=United%20States
#opendata #usa #datarescue
У нас в Dateno сохранено немало [2] метаданных USAID, но, в основном, с других порталов открытых данных, а с порталом открытых данных USAID всегда были проблемы с его индексированием (многое правительственные сайты США за CDN и тяжело индексируются без ручного вмешательства).
А вообще повторяется история что и во многих странах, смена политического руководства приводит к исчезновению контента и данных.
В данном случае данные USAID не то чтобы очень ценные, финансы агентств публикуются на USASpending.gov и Grants.gov, но тем не менее тенденция на потерю данных есть.
Ссылки:
[1] https://data.usaid.gov
[2] https://dateno.io/search?query=usaid&refinementList[source.owner_type][0]=Central%20government&refinementList[source.countries.name][0]=United%20States
#opendata #usa #datarescue
February 2
В рубрике интересных наборов данных много датасетов связанных с переходом власти в США, в первую очередь созданных активистами спасающими данные скрываемые/удаляемые администрацией Трампа.
End of term archive [1] совместный проект International Internet Preservation Consortium (IIPC), National Digital Infrastructure and Preservation Program (NDIIPP), Университетов Стенфорда и Джорджа Вашингтона, по архивации всех данных и цифровых материалов при смене президентов в США. Включает коллекции за 2008, 2012, 2016 и 2020 годы. Общий объём датасетов порядка 450TB.
Работа идёт в форме открытого кода [2] и открытых датасетов [3] и сейчас продолжается архивация ресурсов связанных с прошлой администрацией Байдена [4]. Копия данных хранится в Интернет Архиве [5] и, на сегодняшний день, составляет более 582 TB
Другой проект ForeignAssistance dot gov emergency backup [7] архив государственного сайта ForeignAssistance.gov где USAID раскрывали аналитику международной помощи. Он, также, был закрыт во время закрытия USAID. Всё что удалось сохранить автор проекта превратил в наборы данных CSV
Data.gov archive [8] проект по архивации данных из портала Data.gov от Harvard Law School Library и все данные они выложили в открытый каталог данных большого объёма Source Cooperative [9]. Лично я не ожидал что они выложат его именно туда, в Source Cooperative по большей части геоданные, но зато и хранение заточено под облачное хранение в амазоне данных большого объёма. Всего 16TB
Проект Environment Data & Governance Initiative продолжил работу после первого срока Трампа и с января месяца они постоянно сохраняют климатические данные и ресурсы. Подобнее в их блоге [10]
—
А также существует значительное число инициатив меньшего масштаба.
Сохранение данных, цифровых объектов и знаний становится всё более значимой задачей. Кто-то выделяет на него личное время, кто-то ресурсы и сотрудников (проект EOT Archive), кто-то быстро находит финансирование (проект архива Data.gov был профинансирован Фондом Братьев Рокфеллеров).
Ссылки:
[1] https://eotarchive.org
[2] https://github.com/end-of-term
[3] https://eotarchive.org/data/
[4] https://github.com/end-of-term/eot2024
[5] https://archive.org/details/EndofTermWebCrawls
[6] https://archive.org/details/EndOfTerm2024WebCrawls
[7] https://foreignassistance.andrewheiss.com/
[8] https://lil.law.harvard.edu/blog/2025/02/06/announcing-data-gov-archive/
[9] https://source.coop/repositories/harvard-lil/gov-data/description
[10] https://envirodatagov.org/blog/
#digitalpreservation #webarchives #trump #usa
End of term archive [1] совместный проект International Internet Preservation Consortium (IIPC), National Digital Infrastructure and Preservation Program (NDIIPP), Университетов Стенфорда и Джорджа Вашингтона, по архивации всех данных и цифровых материалов при смене президентов в США. Включает коллекции за 2008, 2012, 2016 и 2020 годы. Общий объём датасетов порядка 450TB.
Работа идёт в форме открытого кода [2] и открытых датасетов [3] и сейчас продолжается архивация ресурсов связанных с прошлой администрацией Байдена [4]. Копия данных хранится в Интернет Архиве [5] и, на сегодняшний день, составляет более 582 TB
Другой проект ForeignAssistance dot gov emergency backup [7] архив государственного сайта ForeignAssistance.gov где USAID раскрывали аналитику международной помощи. Он, также, был закрыт во время закрытия USAID. Всё что удалось сохранить автор проекта превратил в наборы данных CSV
Data.gov archive [8] проект по архивации данных из портала Data.gov от Harvard Law School Library и все данные они выложили в открытый каталог данных большого объёма Source Cooperative [9]. Лично я не ожидал что они выложат его именно туда, в Source Cooperative по большей части геоданные, но зато и хранение заточено под облачное хранение в амазоне данных большого объёма. Всего 16TB
Проект Environment Data & Governance Initiative продолжил работу после первого срока Трампа и с января месяца они постоянно сохраняют климатические данные и ресурсы. Подобнее в их блоге [10]
—
А также существует значительное число инициатив меньшего масштаба.
Сохранение данных, цифровых объектов и знаний становится всё более значимой задачей. Кто-то выделяет на него личное время, кто-то ресурсы и сотрудников (проект EOT Archive), кто-то быстро находит финансирование (проект архива Data.gov был профинансирован Фондом Братьев Рокфеллеров).
Ссылки:
[1] https://eotarchive.org
[2] https://github.com/end-of-term
[3] https://eotarchive.org/data/
[4] https://github.com/end-of-term/eot2024
[5] https://archive.org/details/EndofTermWebCrawls
[6] https://archive.org/details/EndOfTerm2024WebCrawls
[7] https://foreignassistance.andrewheiss.com/
[8] https://lil.law.harvard.edu/blog/2025/02/06/announcing-data-gov-archive/
[9] https://source.coop/repositories/harvard-lil/gov-data/description
[10] https://envirodatagov.org/blog/
#digitalpreservation #webarchives #trump #usa
February 8