Продовольственная и сельскохозяйственная организация ООН (FAO) опубликовали отчёт Towards open and transparent forest data for climate action: Experiences and lessons learned [1]
В докладе опыт сразу нескольких проектов по работе с данными в FAO. Это, например:
- Global Forest Resources Assessment Platform [2] - платформа для мониторинга лесов
- Food and Agriculture Microdata Catalogue (FAM) [3] - каталог микроданных о еде и агрокультуре
и многое другое.
Доклад в формате Lessons Learned непривычен для российского читателя, у нас на удивление не принято признавать что не всё и не всегда идёт как планировалось и что надо учиться на ошибках, по крайней мере в публичном секторе.
Что важно так это то что открытые данные, открытый код, свободные лицензии становятся нетъемлимой частью работы структур ООН.
Ссылки:
[1] https://www.fao.org/documents/card/ru/c/cb8908en/
[2] https://fra-data.fao.org
[3] https://www.fao.org/food-agriculture-microdata/en
#opendata #data #un #food #agriculture #fao
В докладе опыт сразу нескольких проектов по работе с данными в FAO. Это, например:
- Global Forest Resources Assessment Platform [2] - платформа для мониторинга лесов
- Food and Agriculture Microdata Catalogue (FAM) [3] - каталог микроданных о еде и агрокультуре
и многое другое.
Доклад в формате Lessons Learned непривычен для российского читателя, у нас на удивление не принято признавать что не всё и не всегда идёт как планировалось и что надо учиться на ошибках, по крайней мере в публичном секторе.
Что важно так это то что открытые данные, открытый код, свободные лицензии становятся нетъемлимой частью работы структур ООН.
Ссылки:
[1] https://www.fao.org/documents/card/ru/c/cb8908en/
[2] https://fra-data.fao.org
[3] https://www.fao.org/food-agriculture-microdata/en
#opendata #data #un #food #agriculture #fao
В рубрике полезных инструментов по работе с данными Mito [1], движок с открытым кодом встраивающийся в JupyterLab 2.0 и 3.0 и позволяющий работать с данными как если бы это был Excel или OpenRefine.
Фактически это lowcode инструмент по генерации кода на Python на основе манипуляций с датафреймом внутри тетрадки Jupyter. Как оказалось, очень удобная штука с большим числом пользователей.
Ссылки:
[1] https://www.trymito.io/
#data #datawranling #tools #datatools #opensource
Фактически это lowcode инструмент по генерации кода на Python на основе манипуляций с датафреймом внутри тетрадки Jupyter. Как оказалось, очень удобная штука с большим числом пользователей.
Ссылки:
[1] https://www.trymito.io/
#data #datawranling #tools #datatools #opensource
www.trymito.io
Best Python Spreadsheet Automation & Code Generation | Mito
Mito is the fastest way to do Python data science. Edit your data in a spreadsheet, and generate Python code automatically.
В рубрике интересных больших наборов данных, данные OpenAIRE Research Graph [1]. В наборе данных собраны все метаданные о публикациях, данных, исследователях, изданиях, финансировании и иных сведений из европейского проекта OpenAIRE. Это, в общей сложности, сведения о:
- 24 финансирующих структуры
- 97 000+ публикаторов (изданий/организаций)
- 3 000 000+ научных проектов
- 132 000 000+ научных публикаций
- 15 000 000+ научных наборов данных
а также сведения о программном обеспечении и иных научных продуктах.
Общий объём хранения в системе OpenAIRE около 860ТБ, а объём OpenAIRE Research Graph около 136ГБ [2].
Данные собираются из множества источников, включая ORCID, Crossref, Microsoft Academic Graph и других [3].
Это большая, сложная, неплохо продуманная система агрегации данных и публичный продукт в виде сайтов, данных и API.
Есть ли там исследователи и исследовательские центры из России? Да, конечно же есть. 797 научных организаций из России зарегистрированы в OpenAIRE [4].
Ссылки:
[1] https://graph.openaire.eu/develop/graph-dumps.html
[2] https://zenodo.org/record/5801283
[3] https://graph.openaire.eu/about#architecture
[4] https://explore.openaire.eu/search/find?active=organizations&country=%22RU%22
#data #opendata #science #openacess #datasets #eu
- 24 финансирующих структуры
- 97 000+ публикаторов (изданий/организаций)
- 3 000 000+ научных проектов
- 132 000 000+ научных публикаций
- 15 000 000+ научных наборов данных
а также сведения о программном обеспечении и иных научных продуктах.
Общий объём хранения в системе OpenAIRE около 860ТБ, а объём OpenAIRE Research Graph около 136ГБ [2].
Данные собираются из множества источников, включая ORCID, Crossref, Microsoft Academic Graph и других [3].
Это большая, сложная, неплохо продуманная система агрегации данных и публичный продукт в виде сайтов, данных и API.
Есть ли там исследователи и исследовательские центры из России? Да, конечно же есть. 797 научных организаций из России зарегистрированы в OpenAIRE [4].
Ссылки:
[1] https://graph.openaire.eu/develop/graph-dumps.html
[2] https://zenodo.org/record/5801283
[3] https://graph.openaire.eu/about#architecture
[4] https://explore.openaire.eu/search/find?active=organizations&country=%22RU%22
#data #opendata #science #openacess #datasets #eu
graph.openaire.eu
OpenAIRE API documentation - Dumps of the OpenAIRE Research Graph
OpenAIRE API documentation - Research graph dump, covid-19 dump, dump of funded products, dumps about research communities, initiatives and infrastructures, dump of ScholeXplorer, dump of DOIBoost, old XML dumps
В рубрике больших наборов открытых данных для аналитической работы, в проекте Open Beneficial Ownership выложили наборы данных в виде аналитических баз данных по конечным владельцам компаний [1].
Данные можно скачать в виде CSV файлов, баз данных Postgres и Sqlite, в виде сайта Datasette и доступны через Google Bigquery. Тут важно вспомнить что оригинальные данные в проекте хранятся в виде больших JSON дампов и то что выложено сейчас - это нормализация этих данных в виде плоских таблиц. Вот тут можно их скачать [2] и использовать любым удобным аналитическим инструментом.
Главный недостаток этих наборов данных - это неполнота. Пока совсем далеко не все страны охвачены, в базах есть сведения из реестров Великобритании, Дании, Словакии, Украины и частично Латвии.
Ссылки:
[1] https://www.openownership.org/en/blog/launch-of-beneficial-ownership-data-standard-analysis-tools/
[2] https://bods-data.openownership.org/
#datasets #opendata #data #companies
Данные можно скачать в виде CSV файлов, баз данных Postgres и Sqlite, в виде сайта Datasette и доступны через Google Bigquery. Тут важно вспомнить что оригинальные данные в проекте хранятся в виде больших JSON дампов и то что выложено сейчас - это нормализация этих данных в виде плоских таблиц. Вот тут можно их скачать [2] и использовать любым удобным аналитическим инструментом.
Главный недостаток этих наборов данных - это неполнота. Пока совсем далеко не все страны охвачены, в базах есть сведения из реестров Великобритании, Дании, Словакии, Украины и частично Латвии.
Ссылки:
[1] https://www.openownership.org/en/blog/launch-of-beneficial-ownership-data-standard-analysis-tools/
[2] https://bods-data.openownership.org/
#datasets #opendata #data #companies
openownership.org
Launch of Beneficial Ownership Data Standard analysis tools
Open Ownership is unveiling a set of data analysis tools to help anyone wanting to reuse and work with data published in line with the Beneficial Ownership Data Standard
Forwarded from Трансперенси
«Декларатор» и Инфокультура собрали в архив инстаграмы российских чиновников
После признания Meta экстремистской организацией возник риск, что российские чиновники станут массово удалять свои аккаунты в инстаграме.
Мы помогли НП «Инфокультура» собрать архив инстаграмов российских чиновников. Ссылки на архивы будут доступны в профилях госслужащих на declarator.org
После признания Meta экстремистской организацией возник риск, что российские чиновники станут массово удалять свои аккаунты в инстаграме.
Мы помогли НП «Инфокультура» собрать архив инстаграмов российских чиновников. Ссылки на архивы будут доступны в профилях госслужащих на declarator.org
Telegram
Национальный цифровой архив
Закончена архивация Instagram аккаунтов официальных лиц и политиков РФ. Сохранён 171 аккаунт. Код архивации и список инстаграм аккаунтов выложены в репозитории на Github [1], а итоговые данные собраны в архиве в 1.4GB [2]
Успешно были заархивированы все…
Успешно были заархивированы все…
Вот уже несколько дней наблюдаю нарастающий поток пользователей которые которые приходят в реестр аккредитованных ИТ компаний на DataCrafter'е [1]. Он открыт и общедоступен, но что случилось? Он что, исчез на сайте Минцифры? У нас то версия ещё за ноябрь 2021 года, публичный контур датакрафтера обновляется не так часто, время от времени.
Ссылки:
[1] https://data.apicrafter.ru/packages/accreditorgs
#opendata #datasets #it #companies
Ссылки:
[1] https://data.apicrafter.ru/packages/accreditorgs
#opendata #datasets #it #companies
DataCrafter
Реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий
Организации зарегистрированные в Минкомсвязи России и имеющие пониженную ставку налогообложения
Forwarded from Национальный цифровой архив
Почему веб архивы неполны, охватывают не всё и даже самостоятельно сохранив сайт в нём можно не найти то что видно пользователю?
Большинство систем архивации материалов с сайтов основаны на принципах поисковых роботов, они обходят веб страницы, извлекают из HTML кода ссылки и далее переходят по ним, как правило, индексируя в первую очередь наиболее часто цитируемые страницы/ссылки.
Так работает для большинства сайтов, но, часто, разработчики сайтов сознательно или в силу технических особенностей делают сайты непригодными для такого индексирования. Например, ранее популярные технологии Adobe Flash и Microsoft Silverlight очень мешали таким поисковым роботам.
Главное же препятствие сейчас - это технологии динамической подгрузки контента Ajax. В качестве примера рассмотрим сайт Заповедник | Россия за пределами столиц (zapovednik.space). Это контентный сайт, состоящий из текстов, фотографий и изображений, относительно небольших по объёму.
Типовая ссылка на материал на сайте выглядит вот так
https://zapovednik.space/material/osobennosti-natsionalnoj-pandemii
Однако в теле веб страницы не найти её текста или ссылок на изображения. Это можно увидеть открыв ссылку
view-source:https://zapovednik.space/material/osobennosti-natsionalnoj-pandemii
и посмотрев на HTML код. Посмотрев на код других страниц можно убедиться что он везде одинаковый.
Чуть изучив код сайта можно выяснить что текст и изображения подгружаются через специальный Ajax запрос в виде JSON файла.
Для рассмотренного примера по такой ссылке
https://zapovednik.space/api/material?id=otdelitsja-ot-traditsij-i-podchinitsja-pravilam
Как архивировать подобные сайты? Есть два подхода
1. Написать специальный скрипт который вначале найдёт все ссылки на страницы /material/[идентификатор] и сохранит все JSON файлы, а далее на основе ссылок на картинки и ссылок в текстах соберет все связанные ресурсы. В этом случае будет потеряна вся интерфейсная часть сайта, но сохранится его контент. Придётся отдельно хранить результаты архивации интерфейса и данные+контент.
2. Использовать такие краулеры как Brozzler или Browsertrix использующие реальные браузеры и сохранять сайт не то как его видит поисковый паук, а то как он представлен пользователю. Они медленнее, но их результат более приближен к тому что ожидает увидеть пользователь.
Этот пример лишь один из многих поясняющих почему веб-архивация и архивация цифрового контента не может быть полностью автоматизирована в ситуации когда мы стремимся к полноте охвата содержания и не хотим чего-либо упустить.
#guides #digitalpreservation #webarchives #crawl
Большинство систем архивации материалов с сайтов основаны на принципах поисковых роботов, они обходят веб страницы, извлекают из HTML кода ссылки и далее переходят по ним, как правило, индексируя в первую очередь наиболее часто цитируемые страницы/ссылки.
Так работает для большинства сайтов, но, часто, разработчики сайтов сознательно или в силу технических особенностей делают сайты непригодными для такого индексирования. Например, ранее популярные технологии Adobe Flash и Microsoft Silverlight очень мешали таким поисковым роботам.
Главное же препятствие сейчас - это технологии динамической подгрузки контента Ajax. В качестве примера рассмотрим сайт Заповедник | Россия за пределами столиц (zapovednik.space). Это контентный сайт, состоящий из текстов, фотографий и изображений, относительно небольших по объёму.
Типовая ссылка на материал на сайте выглядит вот так
https://zapovednik.space/material/osobennosti-natsionalnoj-pandemii
Однако в теле веб страницы не найти её текста или ссылок на изображения. Это можно увидеть открыв ссылку
view-source:https://zapovednik.space/material/osobennosti-natsionalnoj-pandemii
и посмотрев на HTML код. Посмотрев на код других страниц можно убедиться что он везде одинаковый.
Чуть изучив код сайта можно выяснить что текст и изображения подгружаются через специальный Ajax запрос в виде JSON файла.
Для рассмотренного примера по такой ссылке
https://zapovednik.space/api/material?id=otdelitsja-ot-traditsij-i-podchinitsja-pravilam
Как архивировать подобные сайты? Есть два подхода
1. Написать специальный скрипт который вначале найдёт все ссылки на страницы /material/[идентификатор] и сохранит все JSON файлы, а далее на основе ссылок на картинки и ссылок в текстах соберет все связанные ресурсы. В этом случае будет потеряна вся интерфейсная часть сайта, но сохранится его контент. Придётся отдельно хранить результаты архивации интерфейса и данные+контент.
2. Использовать такие краулеры как Brozzler или Browsertrix использующие реальные браузеры и сохранять сайт не то как его видит поисковый паук, а то как он представлен пользователю. Они медленнее, но их результат более приближен к тому что ожидает увидеть пользователь.
Этот пример лишь один из многих поясняющих почему веб-архивация и архивация цифрового контента не может быть полностью автоматизирована в ситуации когда мы стремимся к полноте охвата содержания и не хотим чего-либо упустить.
#guides #digitalpreservation #webarchives #crawl
Заповедник
Путешествие по России за пределами столиц
В рубрике интересных инструментов с открытым кодом txtai [1], движок для семантического поиска по данным с использованием ИИ. ИИ, там, конечно нет, но есть много машинного обучения и, в принципе, интересный подход к индексированию данных и их поиску. На его основе много чего интересного сделано, например, tldrstory [2] пример с открытым кодом по пониманию заголовков и текстов новостей, а для разработчиков хороший пример code question [3] для получения ответов на поисковые запросы прямо в терминале.
У того же автора интересный продукт paperai [4] для ревью научных статей. Поисковый движок настраивается через YAML файлы, на основе которых создаются отчеты.
Интересный сам движок и подход в целом, его было бы интересно проверить на интересных больших данных на других языках.
Ссылки:
[1] https://github.com/neuml/txtai
[2] https://github.com/neuml/tldrstory
[3] https://github.com/neuml/codequestion
[4] https://github.com/neuml/paperai
#data #opensource #datatools #search
У того же автора интересный продукт paperai [4] для ревью научных статей. Поисковый движок настраивается через YAML файлы, на основе которых создаются отчеты.
Интересный сам движок и подход в целом, его было бы интересно проверить на интересных больших данных на других языках.
Ссылки:
[1] https://github.com/neuml/txtai
[2] https://github.com/neuml/tldrstory
[3] https://github.com/neuml/codequestion
[4] https://github.com/neuml/paperai
#data #opensource #datatools #search
GitHub
GitHub - neuml/txtai: 💡 All-in-one open-source embeddings database for semantic search, LLM orchestration and language model workflows
💡 All-in-one open-source embeddings database for semantic search, LLM orchestration and language model workflows - neuml/txtai
Для тех кто пользуется телеграмом регулярно, поделюсь несколькими идеями продуктов которыми мне самому заняться всегда не хватало времени/мотивации/занятости. Да и специализация моя data engineering, что немного в другой области.
Первая идея весьма очевидная.
Аналог Slack/Element на базе Telegram
У телеграм'а есть сильное ограничение в числе каналов и чатов которые возможно поддерживать в одиночку. Больше чем на 20 каналов подписываться самоубийственное занятие, а чаты идут вперемешку рабочие и нерабочие и всякие. В этом смысле Slack или Element (Matrix) организованные по комнатам и сгруппированные по компаниям удобнее для корпоративного использования. В десктопном телеграме есть возможность группировать каналы и чаты, но, скажем так, довольно ограниченная.
Так вот востребованная штука - это сделать аналог Slack'а поверх телеграма. Почему так? Аналог Slack - это:
1. Способ организации рабочего пространства. В нем должны быть собраны все чаты команд, каналы команды и тд.
2. Автоматизированная архивация всей корпоративной переписки в чатах.
3. Корпоративный поиск по чатам (нужен поиск только по чатам в рамках определенной группы).
4. Иные возможности как у Slack'а
Почему Телеграм? Потому что он повсеместен. Сотрудники могут пользоваться корпоративным мессенжером или любым имеющимся, не так важно. Телеграм создает готовую инфраструктуру поверх которой может быть построено полноценное рабочее пространство.
—
Конечно, идеально было бы если бы в самом телеграм'е эти опции были бы вшиты, у корпоративной версии было бы платящих немало клиентов. Тех кто для коммуникаций команды сейчас выбирает между Mattermost и Element.
#ideas #tech #telegram
Первая идея весьма очевидная.
Аналог Slack/Element на базе Telegram
У телеграм'а есть сильное ограничение в числе каналов и чатов которые возможно поддерживать в одиночку. Больше чем на 20 каналов подписываться самоубийственное занятие, а чаты идут вперемешку рабочие и нерабочие и всякие. В этом смысле Slack или Element (Matrix) организованные по комнатам и сгруппированные по компаниям удобнее для корпоративного использования. В десктопном телеграме есть возможность группировать каналы и чаты, но, скажем так, довольно ограниченная.
Так вот востребованная штука - это сделать аналог Slack'а поверх телеграма. Почему так? Аналог Slack - это:
1. Способ организации рабочего пространства. В нем должны быть собраны все чаты команд, каналы команды и тд.
2. Автоматизированная архивация всей корпоративной переписки в чатах.
3. Корпоративный поиск по чатам (нужен поиск только по чатам в рамках определенной группы).
4. Иные возможности как у Slack'а
Почему Телеграм? Потому что он повсеместен. Сотрудники могут пользоваться корпоративным мессенжером или любым имеющимся, не так важно. Телеграм создает готовую инфраструктуру поверх которой может быть построено полноценное рабочее пространство.
—
Конечно, идеально было бы если бы в самом телеграм'е эти опции были бы вшиты, у корпоративной версии было бы платящих немало клиентов. Тех кто для коммуникаций команды сейчас выбирает между Mattermost и Element.
#ideas #tech #telegram
Forwarded from Национальный цифровой архив
Всем привет! Представляем обновленный сайт проекта «Национальный цифровой архив»: https://ruarxive.org.
Посетите наш сайт, чтобы:
— Просмотреть сохраненные проекты и коллекции — с помощью регулярно обновляемой таблицы в AirTable можно находить конкретные объекты, отслеживать их статус архивации, а также скачивать уже собранные архивы для просмотра и воспроизведения локально на собственном компьютере.
— С помощью специальной формы подачи на архивацию сообщить нам риске исчезновения или уничтожения какого-либо информационного ресурса.
— Помочь нам в архивации, если вы готовы стать волонтером проекта — есть задачи для тех, кто имеет навыки программирования и нет.
— Ознакомиться с существующими инструментами — в специальном разделе будут перечислены основные утилиты и приложения для работы с архивами, их описания и полезные ссылки для самостоятельного ознакомления.
В разработке раздел «Гайды», где мы будем публиковать пошаговые руководства по работе с инструментами для сбора и извлечения данных веб-сайтов.
Посетите наш сайт, чтобы:
— Просмотреть сохраненные проекты и коллекции — с помощью регулярно обновляемой таблицы в AirTable можно находить конкретные объекты, отслеживать их статус архивации, а также скачивать уже собранные архивы для просмотра и воспроизведения локально на собственном компьютере.
— С помощью специальной формы подачи на архивацию сообщить нам риске исчезновения или уничтожения какого-либо информационного ресурса.
— Помочь нам в архивации, если вы готовы стать волонтером проекта — есть задачи для тех, кто имеет навыки программирования и нет.
— Ознакомиться с существующими инструментами — в специальном разделе будут перечислены основные утилиты и приложения для работы с архивами, их описания и полезные ссылки для самостоятельного ознакомления.
В разработке раздел «Гайды», где мы будем публиковать пошаговые руководства по работе с инструментами для сбора и извлечения данных веб-сайтов.
Forwarded from Национальный цифровой архив
Если вы готовы помочь с составлением подобных руководств по архивации, напишите нам или сделайте git commit к репозиторию: https://github.com/ruarxive/ruarxive.github.io.
Поддержать архивацию цифровых ресурсов можно здесь: https://ruarxive.org/about/donate.
Поддержать архивацию цифровых ресурсов можно здесь: https://ruarxive.org/about/donate.
GitHub
GitHub - ruarxive/ruarxive.github.io: Website of Ruarxive.org. Blog, knowledge base and documentation
Website of Ruarxive.org. Blog, knowledge base and documentation - ruarxive/ruarxive.github.io
Epic Games запустили ограниченную бету [1] приложения RealityScan позволяющего переносить образы объектов из реального мира в 3D модели. Достаточно сделать множество фотографий, а на их основе приложение собирает конкретный объект который потом можно использовать, например, для проектирования квартиры.
Штука интересная, может стать мэйнстримом для моделирования виртуальной реальности и многих компьютерных игр, фильмов и ещё много чего.
Ссылки:
[1] https://www.epicgames.com/site/en-US/news/epic-games-introduces-realityscan-app-now-in-limited-beta
#innovations #apps
Штука интересная, может стать мэйнстримом для моделирования виртуальной реальности и многих компьютерных игр, фильмов и ещё много чего.
Ссылки:
[1] https://www.epicgames.com/site/en-US/news/epic-games-introduces-realityscan-app-now-in-limited-beta
#innovations #apps
Epicgames
Epic Games Introduces RealityScan App, Now in Limited Beta
Capture the world with RealityScan, a free 3D scanning app with cloud processing. Create realistic 3D models with your iPhone or iPad, get AR guidance, and upload directly to Sketchfab.
Forwarded from Национальный цифровой архив
Новости проекта на 5 апреля 2022 г.
- открыт обновлённый сайт Ruarxive.org. Сайт разработан на движке Docusaurus, он с открытым кодом, можно направлять ошибки/предложения через механизм issues в Github и участвовать в подготовке материалов гайдов
- начата архивационная кампания сайтов комитетов и комиссий Государственной Думы РФ: основание, новость о переходе сайтов на единый дизайн.
- начата архивационная кампания сайтов относящихся к популяризации науки таких как сайт Фонда Эволюция, сайт Комитета по лженауке при Президиуме РАН (klnran.ru), Думай Казань и др. Основание: заброшенность сайтов их создателями, отсутствие обновлений несколько лет. Нужна помощь в поиске подобных цифровых ресурсов/сайтов
- закончена архивация медиа: Кабельщик (cableman.ru), Новая Газета (novayagazeta.ru). Файлы архивов закачиваются в хранилище.
- продолжается архивация медиа The Bell
- из архива сайта Эха Москвы в 173GB, создана копия сайта только из HTML страниц размеров в 911МБ в сжатом виде, около 5ГБ в распакованном виде. Полезно для извлечения списка всех программ, извлечения расшифровки передач, извлечению иных текстов из архива сайта радиостанции.
- идёт работа по объединению медиа файлов из архива Эха Москвы собранных с CDN сервера и извлеченных из архива сайта и других источников и загрузке в облачное хранилище.
- завершено создание специализированной коллекции Эха Москвы в Интернет архиве. Доступно по прямой ссылке https://archive.org/details/echo-of-moscow
#news #digitalpreservation #webarchives
- открыт обновлённый сайт Ruarxive.org. Сайт разработан на движке Docusaurus, он с открытым кодом, можно направлять ошибки/предложения через механизм issues в Github и участвовать в подготовке материалов гайдов
- начата архивационная кампания сайтов комитетов и комиссий Государственной Думы РФ: основание, новость о переходе сайтов на единый дизайн.
- начата архивационная кампания сайтов относящихся к популяризации науки таких как сайт Фонда Эволюция, сайт Комитета по лженауке при Президиуме РАН (klnran.ru), Думай Казань и др. Основание: заброшенность сайтов их создателями, отсутствие обновлений несколько лет. Нужна помощь в поиске подобных цифровых ресурсов/сайтов
- закончена архивация медиа: Кабельщик (cableman.ru), Новая Газета (novayagazeta.ru). Файлы архивов закачиваются в хранилище.
- продолжается архивация медиа The Bell
- из архива сайта Эха Москвы в 173GB, создана копия сайта только из HTML страниц размеров в 911МБ в сжатом виде, около 5ГБ в распакованном виде. Полезно для извлечения списка всех программ, извлечения расшифровки передач, извлечению иных текстов из архива сайта радиостанции.
- идёт работа по объединению медиа файлов из архива Эха Москвы собранных с CDN сервера и извлеченных из архива сайта и других источников и загрузке в облачное хранилище.
- завершено создание специализированной коллекции Эха Москвы в Интернет архиве. Доступно по прямой ссылке https://archive.org/details/echo-of-moscow
#news #digitalpreservation #webarchives
ruarxive.org
Russian national digital archive (ruarxive.org) | Russian national digital archive (ruarxive.org)
Archive of digital-born websites, data, images, video and other objects
Как Вы знаете, мы, Инфокультура, не стали проводить день открытых данных в Москве (opendataday.ru) в начале марта 2022 года поскольку сочли это неуместным в текущей ситуации. Что мы можем делать сейчас для сохранения открытости данных в России?
Anonymous Poll
14%
Провести ОДД летом/осенью
9%
Провести небольшие семинары/лекции весной/летом.
18%
Сделать мини-конференцию на тему "Что дальше?"
12%
Открытости государственных данных в России более нет, говорить об этом уже не с кем.
47%
Сфокусироваться на архивации открытых данных, планировать что они могут исчезать.
Пора подводить итоги голосования. Всего проголосовало 326 человек, чуть меньше половины, 47% голосуют за то что архивация сейчас открытых данных сейчас самое важное. Далее 18% проголосовавших за то что надо делать мини-конференцию/мероприятие на тему "Что дальше?".
Всё идет к тому что это наиболее реалистичные действия в ближайшие месяцы, а может быть и год.
Другие подходы к работе над открытостью актуальность теряют.
Например, делать сейчас оценку открытости по стране в целом, регионам или ФОИВам бессмысленно. Во первых методики оценки открытости сейчас все нерелевантны, российские НПА всегда давали возможность формальной оценки по тому что там расписано, но это почти полностью административные данные не имеющие отношения ни к качеству жизни граждан, ни к экономическому эффекту открытия, ни к противодействию коррупции. Но даже эти данные сейчас будут исчезать, как сейчас исчезают данные по субсидиям, госконтрактам, иным данным которые раскрывались в рамках антикоррупционной повестки. Причём происходить это будет под лозунгом защиты органов власти, корпораций, компаний, отдельных лиц от санкций или хакеров. Примеров много, вот скажем исчезновение реестра ИТ компаний с сайта Минцифры РФ из этой категории событий.
Ходят слухи что Минэкомразвития РФ собирается делать доклад по открытости госсайтов. Так вот я сразу могу сказать что это бессмысленная работа. Во первых потому что я уже писал ранее что это измерение открытости административных, никому ненужных данных, а во вторых любые измерения и оценки степени соблюдения федерального законодательства - это не про рейтинги, а про передачу результатов такой оценки в органы прокуратуры которые за соблюдением законов надзирают. И, в третьих, органы власти, и я в этом многократно убедился, не должны оценивать другие органы власти. В лучшем случае должна быть независимая оценка.
Очень надеюсь что мои коллеги оставшиеся в Счетной палате это тоже понимают и не станут заниматься подготовкой доклада по открытости за прошлый год. Потому что выглядеть такая работа будет, мягко скажу, очень некрасиво в текущей общественной ситуации, не говоря уже о том что открытости власти - это инструмент поддержания/расширения доверия к власти, а в текущей ситуации, также скажу мягко, этот кризис доверия открытостью не преодолеть.
В любом случае в ближайшее время мы начнём тотальную архивацию всех порталов открытых данных и разделов открытых данных на сайтах госорганов РФ. Начиная с крупнейших и продолжая всеми остальными. Частично такие архивы уже делались, просто будет этому процессу системная работа придана. Подробности я напишу и они будут также в канале @ruarxive.
#opendata #russia #policy
Всё идет к тому что это наиболее реалистичные действия в ближайшие месяцы, а может быть и год.
Другие подходы к работе над открытостью актуальность теряют.
Например, делать сейчас оценку открытости по стране в целом, регионам или ФОИВам бессмысленно. Во первых методики оценки открытости сейчас все нерелевантны, российские НПА всегда давали возможность формальной оценки по тому что там расписано, но это почти полностью административные данные не имеющие отношения ни к качеству жизни граждан, ни к экономическому эффекту открытия, ни к противодействию коррупции. Но даже эти данные сейчас будут исчезать, как сейчас исчезают данные по субсидиям, госконтрактам, иным данным которые раскрывались в рамках антикоррупционной повестки. Причём происходить это будет под лозунгом защиты органов власти, корпораций, компаний, отдельных лиц от санкций или хакеров. Примеров много, вот скажем исчезновение реестра ИТ компаний с сайта Минцифры РФ из этой категории событий.
Ходят слухи что Минэкомразвития РФ собирается делать доклад по открытости госсайтов. Так вот я сразу могу сказать что это бессмысленная работа. Во первых потому что я уже писал ранее что это измерение открытости административных, никому ненужных данных, а во вторых любые измерения и оценки степени соблюдения федерального законодательства - это не про рейтинги, а про передачу результатов такой оценки в органы прокуратуры которые за соблюдением законов надзирают. И, в третьих, органы власти, и я в этом многократно убедился, не должны оценивать другие органы власти. В лучшем случае должна быть независимая оценка.
Очень надеюсь что мои коллеги оставшиеся в Счетной палате это тоже понимают и не станут заниматься подготовкой доклада по открытости за прошлый год. Потому что выглядеть такая работа будет, мягко скажу, очень некрасиво в текущей общественной ситуации, не говоря уже о том что открытости власти - это инструмент поддержания/расширения доверия к власти, а в текущей ситуации, также скажу мягко, этот кризис доверия открытостью не преодолеть.
В любом случае в ближайшее время мы начнём тотальную архивацию всех порталов открытых данных и разделов открытых данных на сайтах госорганов РФ. Начиная с крупнейших и продолжая всеми остальными. Частично такие архивы уже делались, просто будет этому процессу системная работа придана. Подробности я напишу и они будут также в канале @ruarxive.
#opendata #russia #policy
Telegram
Ivan Begtin
Как Вы знаете, мы, Инфокультура, не стали проводить день открытых данных в Москве (opendataday.ru) в начале марта 2022 года поскольку сочли это неуместным в текущей ситуации. Что мы можем делать сейчас для сохранения открытости данных в России?
Провести ОДД…
Провести ОДД…
Forwarded from Национальный цифровой архив
Мы планируем организовать мини-конференцию о цифровой архивации. Собираем обратную связь у сообщества, какие из тем вам наиболее интересы?
Anonymous Poll
44%
Технические аспекты веб-архивации: инструменты и гайды
24%
Особенности архивации контента из соцсетей
20%
Архивация данных и API
28%
Персональные/ личные цифровые архивы
30%
Архивы как данные. Технологии анализа больших архивов
19%
Архивы СМИ. Как они создаются и кому они нужны
29%
Как работать с онлайн-архивами
25%
Юридические аспекты архивации контента и данных
23%
Хочу посмотреть ответы
В рубрике особо интересных больших наборов данных 165 терабайт данных переписи США 1950 года выложено национальными архивами США [1]. Мне трудно подобрать аналоги по масштабам, такие события редкость и сделано это было сразу после того как закончились 72 года сохранения конфиденциальности переписи. После чего все микрофильмы были оцифрованы (а может быть и раньше) и в 2022 году выложены в виде подобного проекта.
Сайт позволяет искать по сканам заполненных карточек переписи и, что особенно важно, все данные опубликованы как открытые данные. Набор данных включает все метаданные и все отсканированные на микрофильмах карточки [2], каждый имеет возможность скачать эти данные и осуществлять самостоятельный анализ и проводить исследования.
Надо отдать должное, в США не только довольно уважительное отношение к архивам, но и организована работа гражданских архивистов (citizen archivists) на специальном портале HistoryHub [3]. Гражданские архивисты - это люди помогающие архивным службам, создающие собственные архивные проекты.
Ссылки:
[1] https://1950census.archives.gov/
[2] https://www.archives.gov/developer/1950-census
[3] https://historyhub.history.gov
#opendata #datasets #history #digitalpreservation #usa
Сайт позволяет искать по сканам заполненных карточек переписи и, что особенно важно, все данные опубликованы как открытые данные. Набор данных включает все метаданные и все отсканированные на микрофильмах карточки [2], каждый имеет возможность скачать эти данные и осуществлять самостоятельный анализ и проводить исследования.
Надо отдать должное, в США не только довольно уважительное отношение к архивам, но и организована работа гражданских архивистов (citizen archivists) на специальном портале HistoryHub [3]. Гражданские архивисты - это люди помогающие архивным службам, создающие собственные архивные проекты.
Ссылки:
[1] https://1950census.archives.gov/
[2] https://www.archives.gov/developer/1950-census
[3] https://historyhub.history.gov
#opendata #datasets #history #digitalpreservation #usa
National Archives
1950 Census Dataset on the Amazon Web Services (AWS) Registry of Open
The National Archives and Records Administration (NARA) publishes the 1950 Census dataset on the AWS Registry of Open Data. This documentation guides users in how to access the data.
Data.world, стартап в виде каталога данных, подняли инвестиций на $50M [1]. Кроме общедоступного каталога они предоставляют и в основном зарабатывают на семантически связанных данных корпоративных каталогов данных. Интересная идея в сторону большего понимания того какими данными ты управляешь, но, конечно недешёвое. Хотя и инвестиции не так уж велики, но вполне ощутимы чтобы усилить конкуренцию между уже десятком корпоративных каталогов данных и решений с открытым кодом.
Ссылки:
[1] https://techcrunch.com/2022/04/05/data-world-raises-50m-to-help-enterprises-organize-and-track-their-data/
#opendata #datacatalogs #data #startups
Ссылки:
[1] https://techcrunch.com/2022/04/05/data-world-raises-50m-to-help-enterprises-organize-and-track-their-data/
#opendata #datacatalogs #data #startups
TechCrunch
Data.World raises $50M to help enterprises organize and track their data
Data.World, a data catalog platform aimed at enterprise customers, has raised $50 million in a funding round led by Goldman Sachs.
В США The Aspen Institute совместно с The Gov Lab разработали модель/концепцию платформы открытых данных некоммерческого сектора, 990 Data platform [1] с рекомендацией её создания для IRS, налоговой службы США. Основная идея в том чтобы превратить текущие отчеты НКО заполняемые по "форме 990" в платформу на которой можно наглядно увидеть данные и скачать наборы данных.
Идей в документе много, в том числе обогащение данных о НКО сведениями о господдержке, грантах и иными данными из других государственных систем.
В США есть несколько коммерческих платформ решающих похожие задачи, из наиболее известных - GuideStar и Charity Navigator. При этом, конечно, потребность в открытом общедоступном ресурсе и открытых данных существует.
Когда-то, много лет назад, мы создали похожий продукт OpenNGO [2] в котором свели все доступные сведения о некоммерческих организациях. Он и сейчас доступен и регулярно обновляется, с теми лишь ограничениями которые вводятся в последние годы. Например, исчезают данные о учредителях НКО из ЕГРЮЛ, закрыты данных о государственных субсидиях (многие получатели НКО), сокращается раскрытие сведений о госконтрактах и ещё многое другое. Но проект никуда не исчез, он работает, доступен, открытые данные все также доступны в виде наборов данных.
О некоторых особенностях российского "рынка НКО" я писал в нескольких колонках в РБК:
- Незачет по НКО: чем плох реестр социально ориентированных НКО [3]
- Некоммерческий бюджет: как чиновники стали использовать НКО в своих целях [4]
Стала ли эта тема менее актуальной последние годы? Нет, не стала. Большая часть публичной аналитики и исследований НКО в России которые мне приходится читать, либо крайне сужены до очень узких тем, либо двуличны.
НКО в России можно разделить на условные 4 типа:
- госНКО - созданные Пр-вом, ФОИВами, иными органами власти и "накачанные финансированием", из совокупный ежегодный доход превышает доход всего остального некоммерческого сектора. Сюда можно отнести крупнейшие GONGO (government oriented NGO) созданные, как бы физлицами, но приближенных к лицам принимающим решения и это НКО существующие почти на 100% за счёт госсубсидий или "невыплаченных налогов", финансирования от коммерческих или госкомпаний которое поступает от их политических обязательств, а не добровольных решений.
- коммерческие НКО - коммерческие организации, созданные в форме НКО из-за требований законодательства, как правило. Пример: коммерческие университеты или некоторые частные учреждения, туда же попадают адвокатские палаты и тд.
- регулируемые НКО - существующие в такой форме объединения, в силу их изначальной природы, и институционализированные в такой форме. Религиозные организации, политические партии и тд.
- инициативно созданные - это как раз те некоммерческие организации которые создают в форме некоммерческих именно потому что хотят вести некоммерческую деятельность.
Это основная классификация, остальное можно считать дополнением. Российская особенность в том что блок госНКО минимален по числу организаций и максимален по доходу. Но речь тут конечно не только о деньгах.
Ссылки:
[1] https://www.aspeninstitute.org/wp-content/uploads/files/content/docs/pubs/Information_for_Impact_Report_FINAL_REPORT_9-26-13.pdf
[2] https://openngo.ru
[3] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585
[4] https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3
#ngo #opendata #data
Идей в документе много, в том числе обогащение данных о НКО сведениями о господдержке, грантах и иными данными из других государственных систем.
В США есть несколько коммерческих платформ решающих похожие задачи, из наиболее известных - GuideStar и Charity Navigator. При этом, конечно, потребность в открытом общедоступном ресурсе и открытых данных существует.
Когда-то, много лет назад, мы создали похожий продукт OpenNGO [2] в котором свели все доступные сведения о некоммерческих организациях. Он и сейчас доступен и регулярно обновляется, с теми лишь ограничениями которые вводятся в последние годы. Например, исчезают данные о учредителях НКО из ЕГРЮЛ, закрыты данных о государственных субсидиях (многие получатели НКО), сокращается раскрытие сведений о госконтрактах и ещё многое другое. Но проект никуда не исчез, он работает, доступен, открытые данные все также доступны в виде наборов данных.
О некоторых особенностях российского "рынка НКО" я писал в нескольких колонках в РБК:
- Незачет по НКО: чем плох реестр социально ориентированных НКО [3]
- Некоммерческий бюджет: как чиновники стали использовать НКО в своих целях [4]
Стала ли эта тема менее актуальной последние годы? Нет, не стала. Большая часть публичной аналитики и исследований НКО в России которые мне приходится читать, либо крайне сужены до очень узких тем, либо двуличны.
НКО в России можно разделить на условные 4 типа:
- госНКО - созданные Пр-вом, ФОИВами, иными органами власти и "накачанные финансированием", из совокупный ежегодный доход превышает доход всего остального некоммерческого сектора. Сюда можно отнести крупнейшие GONGO (government oriented NGO) созданные, как бы физлицами, но приближенных к лицам принимающим решения и это НКО существующие почти на 100% за счёт госсубсидий или "невыплаченных налогов", финансирования от коммерческих или госкомпаний которое поступает от их политических обязательств, а не добровольных решений.
- коммерческие НКО - коммерческие организации, созданные в форме НКО из-за требований законодательства, как правило. Пример: коммерческие университеты или некоторые частные учреждения, туда же попадают адвокатские палаты и тд.
- регулируемые НКО - существующие в такой форме объединения, в силу их изначальной природы, и институционализированные в такой форме. Религиозные организации, политические партии и тд.
- инициативно созданные - это как раз те некоммерческие организации которые создают в форме некоммерческих именно потому что хотят вести некоммерческую деятельность.
Это основная классификация, остальное можно считать дополнением. Российская особенность в том что блок госНКО минимален по числу организаций и максимален по доходу. Но речь тут конечно не только о деньгах.
Ссылки:
[1] https://www.aspeninstitute.org/wp-content/uploads/files/content/docs/pubs/Information_for_Impact_Report_FINAL_REPORT_9-26-13.pdf
[2] https://openngo.ru
[3] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585
[4] https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3
#ngo #opendata #data
В Nature статья Time to recognize authorship of open data [1], о сложностях сочетания научной работы и открытости данных по причине необходимости распространения данных под свободными лицензиями не предполагающими авторства.
Ответов статья не даёт, скорее задаёт правильный вопрос - как совместить необходимость упоминания вклада исследователей и открытость научных данных по принципам FAIR. По сути эта статья - это приглашение к дискуссии на эту тему.
Ссылки:
[1] https://www.nature.com/articles/d41586-022-00921-x
#opendata #openaccess #openscience #FAIR
Ответов статья не даёт, скорее задаёт правильный вопрос - как совместить необходимость упоминания вклада исследователей и открытость научных данных по принципам FAIR. По сути эта статья - это приглашение к дискуссии на эту тему.
Ссылки:
[1] https://www.nature.com/articles/d41586-022-00921-x
#opendata #openaccess #openscience #FAIR
Nature
Time to recognize authorship of open data
Nature - The open data revolution won’t happen unless the research system values the sharing of data as much as authorship on papers.