Для тех кто интересуется темой приватности, завтра будет проходить одна из наиболее интересных русскоязычных конференций по этой теме Евразийский конгресс по защите данных [1].
Я также там буду выступать с краткой презентацией про трекеры в мобильных приложениях которые мы нашли в магазине мобильных приложений RuStore.
На конгрессе много интересных докладов, всячески рекомендую прослушать её целиком. Если бы я завтра не бегал первую половину дня по официальным делам, то тоже также бы и сделал, поэтому то что не смогу посмотреть вживую, буду смотреть онлайн.
Ссылки:
[1] https://edpc.network/
[2] https://rustoreprivacy.infoculture.ru
#privacy #events
Я также там буду выступать с краткой презентацией про трекеры в мобильных приложениях которые мы нашли в магазине мобильных приложений RuStore.
На конгрессе много интересных докладов, всячески рекомендую прослушать её целиком. Если бы я завтра не бегал первую половину дня по официальным делам, то тоже также бы и сделал, поэтому то что не смогу посмотреть вживую, буду смотреть онлайн.
Ссылки:
[1] https://edpc.network/
[2] https://rustoreprivacy.infoculture.ru
#privacy #events
edpc.network
Евразийский конгресс по защите данных
В связи с новостями о возможной ликвидации Роснано, напомню что мы проводили архивацию их сайтов и иных ресурсов в рамках Национального цифрового архива (@ruarxive). Все материалы доступны для прямой выгрузки по ссылке [1] у нас в хранилище, метаданные с описаниями пока хранятся отдельно, скорее всего загрузим уже всё вместе в Интернет-архив.
Есть сомнения что за прошедшие 11 месяцев у Роснано появилось много нового контента, скорее мог исчезать старый, тем не менее мы организуем повторную архивацию в ближайшие дни. Для перестраховки что слухи - это не только слухи.
Ссылки:
[1] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
#digitalpreservation #webarchives #archives
Есть сомнения что за прошедшие 11 месяцев у Роснано появилось много нового контента, скорее мог исчезать старый, тем не менее мы организуем повторную архивацию в ближайшие дни. Для перестраховки что слухи - это не только слухи.
Ссылки:
[1] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
#digitalpreservation #webarchives #archives
Есть у меня такая особая рубрика, "надолго отложенные проекты", может быть даже навсегда, не могу сказать сейчас. Это те гражданские технологические проекты (civic tech) которые невозможно создать сейчас потому что на них нет финансирования в России, или есть серьёзные риски что придётся их цензурировать настолько что проще не делать. Я последние лет 10 нарисовал десятки схем идей таких проектов, а по другим написал их краткие концепции.
Но это такой особый жанр напоминания себе что на один сделанный проект 5 проектов замороженных/отложенных/невозможных.
А сейчас ещё и остро неактуальных, потому что войны (внешние и внутренние) и прозрачность государства совершенно не сочетаются.
#opendata #opengov #mindmaps
Но это такой особый жанр напоминания себе что на один сделанный проект 5 проектов замороженных/отложенных/невозможных.
А сейчас ещё и остро неактуальных, потому что войны (внешние и внутренние) и прозрачность государства совершенно не сочетаются.
#opendata #opengov #mindmaps
Особенно интересное на конференции Coalesce - это публичный анонс моделей данных на Python. Об этом в презентации их продуктовой команды [1] и можно найти на сайте конференции [2] запись выступления, по ключевым словам "Announcing dbt's Second Language: When and Why We Turn to Python". По моему, пока доступно только после регистрации на сайте, но может уже выложили или скоро выложат для всех.
Хотя и поддержка моделей данных на Python там в зачаточном уровне, новость эта замечательна для тех кто не любит SQL или любит его сильно меньше чем программировать на Python. Например, я языки запросов к данным вроде SQL люблю сильно меньше чем обработать данные на скриптовом или ином языке программирования. Это сила привычки и вопрос доступности инструментов.
Авторы пока заявляют о том что эти модели в самом зачаточном виде, но с ними уже можно работать.
По ним уже есть документация [3], чат и дорожная карта.
Лично для меня главным недостатком dbt остаётся то что это инструмент, как и pandas, для работы с табличными (плоскими) моделями данных.
И, важно, конечно, помнить что самые продвинутые возможности по удобству они реализуют в своём dbt cloud IDE которое постепенно превращается в облачную среду подготовки данных [4].
Ссылки:
[1] https://docs.google.com/presentation/d/1e3wB7EQ0EXugGhfCjVCp_dDFEbY_uKyVjMqG1o7alnA/edit?usp=sharing
[2] https://coalesce.getdbt.com/
[3] https://docs.getdbt.com/docs/building-a-dbt-project/building-models/python-models
[4] https://docs.google.com/presentation/d/11-71MIh9ASGM2n-i0KxXc_yf6w1tq0l1bUobWdnfloY/edit?usp=sharing
#data #datatools #dbt #python #datamodelling
Хотя и поддержка моделей данных на Python там в зачаточном уровне, новость эта замечательна для тех кто не любит SQL или любит его сильно меньше чем программировать на Python. Например, я языки запросов к данным вроде SQL люблю сильно меньше чем обработать данные на скриптовом или ином языке программирования. Это сила привычки и вопрос доступности инструментов.
Авторы пока заявляют о том что эти модели в самом зачаточном виде, но с ними уже можно работать.
По ним уже есть документация [3], чат и дорожная карта.
Лично для меня главным недостатком dbt остаётся то что это инструмент, как и pandas, для работы с табличными (плоскими) моделями данных.
И, важно, конечно, помнить что самые продвинутые возможности по удобству они реализуют в своём dbt cloud IDE которое постепенно превращается в облачную среду подготовки данных [4].
Ссылки:
[1] https://docs.google.com/presentation/d/1e3wB7EQ0EXugGhfCjVCp_dDFEbY_uKyVjMqG1o7alnA/edit?usp=sharing
[2] https://coalesce.getdbt.com/
[3] https://docs.getdbt.com/docs/building-a-dbt-project/building-models/python-models
[4] https://docs.google.com/presentation/d/11-71MIh9ASGM2n-i0KxXc_yf6w1tq0l1bUobWdnfloY/edit?usp=sharing
#data #datatools #dbt #python #datamodelling
Forwarded from Национальный цифровой архив
В связи с ликвидацией Федерального агентства по туризму (Ростуризм) мы спешно архивируем все его цифровые ресурсы.
В нашем каталоге госдоменов к Ростуризму относятся следующие:
—
russiatourism.ru
www.russiatourism.ru
last.russiatourism.ru
opendata.russiatourism.ru
opendata2.russiatourism.ru
reestr.russiatourism.ru
rgo.russiatourism.ru
www2.russiatourism.ru
—
Если Вы знаете какие-либо дополнительные сайты и иные цифровые ресурсы которые могут исчезнуть в связи с ликвидацией агентства или если Вы располагаете любыми архивами и материалами о его деятельности которые исчезают/исчезли ранее или могут быть недоступны, напишите нам на [email protected] или чате к этому каналу.
Мы постараемся в ближайшее время сохранить всё что будет ещё возможно.
#digitalpreservation #webarchive
В нашем каталоге госдоменов к Ростуризму относятся следующие:
—
russiatourism.ru
www.russiatourism.ru
last.russiatourism.ru
opendata.russiatourism.ru
opendata2.russiatourism.ru
reestr.russiatourism.ru
rgo.russiatourism.ru
www2.russiatourism.ru
—
Если Вы знаете какие-либо дополнительные сайты и иные цифровые ресурсы которые могут исчезнуть в связи с ликвидацией агентства или если Вы располагаете любыми архивами и материалами о его деятельности которые исчезают/исчезли ранее или могут быть недоступны, напишите нам на [email protected] или чате к этому каналу.
Мы постараемся в ближайшее время сохранить всё что будет ещё возможно.
#digitalpreservation #webarchive
Приватность_в_российских_мобильных_приложениях_Результаты_анализа.pdf
1.3 MB
Вчера прошёл Евразийский конгресс по защите данных [1] о котором я ранее писал. Я там выступал с презентацией Приватность в российских мобильных приложениях. Результаты анализа приложений в RuStore․ Можно посмотреть в записи [2] и я прилагаю презентацию.
Основные выводы:
- Несмотря на публичную риторику "нежелательных стран" российские приложения в рамках импортозамещения передают туда персональные данные
- VK, создатели RuStore, одновременно разрабатывают приложения наиболее насыщенные трекерами
- Импортозамещение не включает защиты интересов потребителей цифровых продуктов․
Подробнее на сайте исследования [3].
Ссылки:
[1] https://edpc.network/
[2] https://www.youtube.com/watch?v=YTfp5uWNkWk
[3] https://rustoreprivacy.infoculture.ru
#privacy #events
Основные выводы:
- Несмотря на публичную риторику "нежелательных стран" российские приложения в рамках импортозамещения передают туда персональные данные
- VK, создатели RuStore, одновременно разрабатывают приложения наиболее насыщенные трекерами
- Импортозамещение не включает защиты интересов потребителей цифровых продуктов․
Подробнее на сайте исследования [3].
Ссылки:
[1] https://edpc.network/
[2] https://www.youtube.com/watch?v=YTfp5uWNkWk
[3] https://rustoreprivacy.infoculture.ru
#privacy #events
В Новой Зеландии приняли закон о простом языке (plain language act). Об
этом в статье в Guardian [1] в том числе и о том почему этот закон приняли, а причина в том чтобы законы были понятны и тем людям для которых английский язык не основной. Иначе говоря - это защита прав мигрантов, о чём бы и другим странам было бы не лишне подумать.
Текст закона можно прочитать на сайте Парламента Новой Зеландии [2], как и дебаты парламента где он довольно активно обсуждался.
Ссылки:
[1] https://www.theguardian.com/world/2022/oct/20/new-zealand-passes-plain-language-bill-to-jettison-jargon
[2] https://www.parliament.nz/en/pb/bills-and-laws/bills-proposed-laws/document/BILL_115953/plain-language-bill
#plainlanguage #plainenglish
этом в статье в Guardian [1] в том числе и о том почему этот закон приняли, а причина в том чтобы законы были понятны и тем людям для которых английский язык не основной. Иначе говоря - это защита прав мигрантов, о чём бы и другим странам было бы не лишне подумать.
Текст закона можно прочитать на сайте Парламента Новой Зеландии [2], как и дебаты парламента где он довольно активно обсуждался.
Ссылки:
[1] https://www.theguardian.com/world/2022/oct/20/new-zealand-passes-plain-language-bill-to-jettison-jargon
[2] https://www.parliament.nz/en/pb/bills-and-laws/bills-proposed-laws/document/BILL_115953/plain-language-bill
#plainlanguage #plainenglish
Полезный текст на Хабре о том что A-GPS подверглось "эмбарго" и почему смартфоны в России перестали точно определять местонахождение [1]. Главный вывод из текста можно сделать в том что это вопрос открытости даже не данных, а протоколов. Все проприетарные риски и зависимости которые были и остаются решать можно только открытостью кода, данных, интерфейсов и тд.
Но решить оно может не всё, крупнейшие естественные и неестественные монополии всё равно контролируют большую часть экосистем и технологических сервисов. История с GPS показательна, в случае сложных продуктов вводить национальные санкции необязательно, достаточно чтобы санкции соблюдали отдельные компании владеющие инфраструктурой. Примерно как история с VISA и MasterCard для финансовой инфраструктуры и похожая ситуация с Qualcomm.
Ссылки:
[1] https://habr.com/ru/post/694984/
#opensource #openprotocols #gps
Но решить оно может не всё, крупнейшие естественные и неестественные монополии всё равно контролируют большую часть экосистем и технологических сервисов. История с GPS показательна, в случае сложных продуктов вводить национальные санкции необязательно, достаточно чтобы санкции соблюдали отдельные компании владеющие инфраструктурой. Примерно как история с VISA и MasterCard для финансовой инфраструктуры и похожая ситуация с Qualcomm.
Ссылки:
[1] https://habr.com/ru/post/694984/
#opensource #openprotocols #gps
Хабр
Эмбарго на A-GPS или почему смартфоны стали плохо определять местоположение
Ориентировочно с мая 2022 года в разных темах на форуме 4PDA и других интернет-площадках начали появляться сообщения вида "Что-то смартфон стал плохо ловить спутники GPS и показывать точное...
В рубрике полезных текстов, ссылок, документов и инструментов для работы с данными, ИИ, технологиям и не только:
- Blueprint for an AI Bill of Rights [1] черновик билля о правах в отношении ИИ, билль - это законопроект под лозунгом "делаем так чтобы автоматизированные системы работали для американского народа" и выпущен он Управлением по научно-технической политике Белого дома. Документ важный, о нём много можно написать отдельно, главная мысль - системы ИИ должны быть безопасны, аудируемы и прозрачны. Я бы ждал скоро появления международного AI Safety Index и сдвига многих правозащитников в эту сторону.
- 6 Reactions to the White House’s AI Bill of Rights [2] а также 6 реакций на этот законопроект, причём не все положительные. Есть те кто считают что он избыточен поскольку есть универсальные законы, а есть те кто считает что он недостаточен. Как бы то ни было, регулирования ИИ прибыло и будет больше, сильно больше.
- xonsh [3] кросс-платформенная оболочка для командной строки, гибрид между Python и Unix Shell. Кому-то покажется мутантом, а выглядит очень интересно. Для тех кто любит Python и Shell конечно же.
- Self Hosting Guide [4] очень подробный гайд по самостоятельному хостингу большого числа приложений и сервисов. Очень полезно для тех кто не хочет зависимости ни от кого.
- SigNoz [5] продукт с открытым кодом по мониторингу приложений и серверов, аналог DataDog и NewRelic, для тех кто хочет self-hosted. Выглядит очень неплохо, надо пробовать.
- Open Research across Disciplines [6] подборка примеров и практик по открытому доступу по 28 научным дисциплинам из Великобритании. Очень много примеров, о многих я не знал.
Ссылки:
[1] https://www.whitehouse.gov/ostp/ai-bill-of-rights/
[2] https://spectrum.ieee.org/white-house-ai
[3] https://github.com/xonsh/xonsh
[4] https://github.com/mikeroyal/Self-Hosting-Guide
[5] https://github.com/SigNoz/signoz
[6] https://www.ukrn.org/disciplines/
#opensource #opendata #ai #openaccess
- Blueprint for an AI Bill of Rights [1] черновик билля о правах в отношении ИИ, билль - это законопроект под лозунгом "делаем так чтобы автоматизированные системы работали для американского народа" и выпущен он Управлением по научно-технической политике Белого дома. Документ важный, о нём много можно написать отдельно, главная мысль - системы ИИ должны быть безопасны, аудируемы и прозрачны. Я бы ждал скоро появления международного AI Safety Index и сдвига многих правозащитников в эту сторону.
- 6 Reactions to the White House’s AI Bill of Rights [2] а также 6 реакций на этот законопроект, причём не все положительные. Есть те кто считают что он избыточен поскольку есть универсальные законы, а есть те кто считает что он недостаточен. Как бы то ни было, регулирования ИИ прибыло и будет больше, сильно больше.
- xonsh [3] кросс-платформенная оболочка для командной строки, гибрид между Python и Unix Shell. Кому-то покажется мутантом, а выглядит очень интересно. Для тех кто любит Python и Shell конечно же.
- Self Hosting Guide [4] очень подробный гайд по самостоятельному хостингу большого числа приложений и сервисов. Очень полезно для тех кто не хочет зависимости ни от кого.
- SigNoz [5] продукт с открытым кодом по мониторингу приложений и серверов, аналог DataDog и NewRelic, для тех кто хочет self-hosted. Выглядит очень неплохо, надо пробовать.
- Open Research across Disciplines [6] подборка примеров и практик по открытому доступу по 28 научным дисциплинам из Великобритании. Очень много примеров, о многих я не знал.
Ссылки:
[1] https://www.whitehouse.gov/ostp/ai-bill-of-rights/
[2] https://spectrum.ieee.org/white-house-ai
[3] https://github.com/xonsh/xonsh
[4] https://github.com/mikeroyal/Self-Hosting-Guide
[5] https://github.com/SigNoz/signoz
[6] https://www.ukrn.org/disciplines/
#opensource #opendata #ai #openaccess
The White House
Blueprint for an AI Bill of Rights
Among the great challenges posed to democracy today is the use of technology, data, and automated systems in ways that threaten the rights of the American public. Too often, these tools are used to limit our opportunities and prevent our access to critical…
Сегодня, завтра и послезавтра идёт интересное мероприятие World Ethical Data Forum [1]․ Я узнал о нём с запозданием, иначе обязательно бы подал доклад для выступления. Но и послушать других там интересно, много выступлений про стратегии работы с данными, приватность, данные в открытом доступе, Интернет и так далее.
Не буду подсказывать на что именно идти слушать дистанционно, там много всего. Авторизоваться можно на сайте форума [2], трансляция и обсуждение идёт там на платформе Matrix, через виджеты внутри комнат где параллельно идет обсуждение выступлений, что тоже несколько необычно.
Чуть позже сделаю обзор того что успею посмотреть и послушать.
Ссылки:
[1] https://agenda.worldethicaldata.org/
[2] https://forum.worldethicaldata.org
#privacy #data #datastrategies
Не буду подсказывать на что именно идти слушать дистанционно, там много всего. Авторизоваться можно на сайте форума [2], трансляция и обсуждение идёт там на платформе Matrix, через виджеты внутри комнат где параллельно идет обсуждение выступлений, что тоже несколько необычно.
Чуть позже сделаю обзор того что успею посмотреть и послушать.
Ссылки:
[1] https://agenda.worldethicaldata.org/
[2] https://forum.worldethicaldata.org
#privacy #data #datastrategies
agenda.worldethicaldata.org
WEDF2022 Agenda
Web site created using create-react-app
Интересный продукт/сервис/проект Explainpaper [1] по переводу научных статей с
"непонятного научного" на простой язык․ Мне лично, в какой-то степени, везёт, я читаю статьи где всё, обычно, довольно таки понятно. Но есть немало научных статей написанных таким языком что надо в нём пробираться словно сквозь дебри.
О внутренностях проекта очень мало информации, но сама его возможность весьма интересна.
Ссылки:
[1] https://www.explainpaper.com
#ai #plainlanguage #openaccess #openscience
"непонятного научного" на простой язык․ Мне лично, в какой-то степени, везёт, я читаю статьи где всё, обычно, довольно таки понятно. Но есть немало научных статей написанных таким языком что надо в нём пробираться словно сквозь дебри.
О внутренностях проекта очень мало информации, но сама его возможность весьма интересна.
Ссылки:
[1] https://www.explainpaper.com
#ai #plainlanguage #openaccess #openscience
Полезное чтение про данные, технологи и не только:
- Restfox [1] аналог Postman с открытым кодом, позволяет настраивать и тестировать работу с API. До уровня Postman не дотягивает, но выглядит неплохо
- Python 3.11.0 is released — Impacts to Data Science and Engineering [2] - коротко о том почему надо прямо сейчас обновлять Python до 3.11. Если кратко: быстрее на 10-60%, лучше управление ошибками и много изменения затрагивающих работу с данными.
- Hertz [3] фреймворк для Go по созданию микросервисов. Давно пора переводить микросервисы на Go и Rust.
- Data Catalogs Are Dead; Long Live Data Discovery [4] очередной текст в копилку хайпа про смерть корпоративных каталогов данных и развитие data discovery. Будем честными, ещё каталоги то мало где внедрены, а тут сразу data discovery. Автор Barr Moses, CEO стартапа Monte Carlo, так что текст нельзя считать независимым. Но почитать стоит
- Open Source Law, Policy & Practice [5] вышла вторая редакция книжки про регуляторное регулирование открытого кода. Книга полезная, но как же она далека от госполитики в постсоветских странах! В открытом доступе, к сожалению, нет. Только заказывать за деньги, но если интересуетесь законами про open source, то читать стоит.
Ссылки:
[1] https://github.com/flawiddsouza/Restfox
[2] https://medium.com/codex/python-3-11-0-is-released-impacts-to-data-science-and-engineering-2d6c474611f4
[3] https://github.com/cloudwego/hertz
[4] https://medium.com/towards-data-science/data-catalogs-are-dead-long-live-data-discovery-a0dc8d02bd34
[5] https://global.oup.com/academic/product/open-source-law-policy-and-practice-9780198862345?cc=gb&lang=en&#the
#opensource #datatools #data #python #datacatalogs #datadiscovery
- Restfox [1] аналог Postman с открытым кодом, позволяет настраивать и тестировать работу с API. До уровня Postman не дотягивает, но выглядит неплохо
- Python 3.11.0 is released — Impacts to Data Science and Engineering [2] - коротко о том почему надо прямо сейчас обновлять Python до 3.11. Если кратко: быстрее на 10-60%, лучше управление ошибками и много изменения затрагивающих работу с данными.
- Hertz [3] фреймворк для Go по созданию микросервисов. Давно пора переводить микросервисы на Go и Rust.
- Data Catalogs Are Dead; Long Live Data Discovery [4] очередной текст в копилку хайпа про смерть корпоративных каталогов данных и развитие data discovery. Будем честными, ещё каталоги то мало где внедрены, а тут сразу data discovery. Автор Barr Moses, CEO стартапа Monte Carlo, так что текст нельзя считать независимым. Но почитать стоит
- Open Source Law, Policy & Practice [5] вышла вторая редакция книжки про регуляторное регулирование открытого кода. Книга полезная, но как же она далека от госполитики в постсоветских странах! В открытом доступе, к сожалению, нет. Только заказывать за деньги, но если интересуетесь законами про open source, то читать стоит.
Ссылки:
[1] https://github.com/flawiddsouza/Restfox
[2] https://medium.com/codex/python-3-11-0-is-released-impacts-to-data-science-and-engineering-2d6c474611f4
[3] https://github.com/cloudwego/hertz
[4] https://medium.com/towards-data-science/data-catalogs-are-dead-long-live-data-discovery-a0dc8d02bd34
[5] https://global.oup.com/academic/product/open-source-law-policy-and-practice-9780198862345?cc=gb&lang=en&#the
#opensource #datatools #data #python #datacatalogs #datadiscovery
GitHub
GitHub - flawiddsouza/Restfox: Offline-First Minimalistic HTTP & Socket Testing Client for the Web & Desktop
Offline-First Minimalistic HTTP & Socket Testing Client for the Web & Desktop - flawiddsouza/Restfox
Я ранее регулярно рассказывал как работать с веб-архивами и про инструменты которые мы создаём для работы с ними. За пару отпускных дней удалось вернуться к давним планам по улучшению инструментов по работе с ними и пора рассказать о развитии инструмента metawarc [1].
Metawarc - это утилита командной строки созданная изначально для задач цифрового дознания, сбора данных из архивов веб- сайтов. Я лично активно её применял в задачах исследований/расследований, вроде "Государство как пират" [2] о том как косвенные следы пиратского ПО находятся в документах на сайтах госорганов.
Эта утилита работает с WARC файлами, слепками веб-сайтов которые умеют создавать такие инструменты как wget, wpull, Heritrix и другие краулеры веб-сайтов из так называемой экосистемы WARC.
Изначальные функции инструмента были в том чтобы заглянуть в содержание WARC файла, перебрать каждую запись, найти попадающие под типы офисных документов и из каждого офисного документа (.doc, .docx, .xls и других) извлечь кто его создал, какая компания, когда и тд. Задача которая относится скорее к цифровому дознанию чем к цифровой архивации. Цифровое дознание (digital forensic) - это, в принципе, одно из применений веб-архивов и цифровых архивов в принципе.
Но кроме цифрового дознания есть много других областей в которых нужна обработка WARC файлов. Например, извлечение данных определенного типа, вроде файлов Excel или извлечение содержания веб-страниц для последующего полнотекстового индексирования или анализ полноты загруженных файлов и упрощение их обработки.
Поэтому утилиту я, наконец-то, обновил изменив команду index, теперь она не генерирует JSON файл с метаданными, а создает базу SQLite куда эти метаданные кладет. Это не метаданные внутри офисных файлов, но метаданные HTTP запросов и параметров записей в WARC. Их использование сильно ускоряет другие задачи, например, это новые команды поддерживаемые metawrc - dump, stats, list, export
Команда stats выводит статистику по числу записей в WARC файле в разрезе расширений файлов или типов контента (mime)
Команда list позволяет листать записи в WARC файле передавая в качестве параметров список расширений, список типов контента или запрос к SQLite базе данных (кусок SQL запроса после WHERE).
Команда dump работает как list, но для сохранения выбранный файлов в отдельную папку. Поскольку не все файлы в WARC можно сохранять с полным путем, то файлы сохраняются каждый с уникальным идентификатором и к ним прилагается список файлов с соответствием каждого файла ссылке в WARC файле.
Команда export позволяет выгружать содержимое WARC файла в машиночитаемом виде. Она даёт возможности экспортировать заголовки из WARC файла в формате JSON lines и содержимое HTML страниц для полнотекстового индексирования, например, с помощью Opensearch, Elastic или Meilisearch.
Инструмент будет полезен всем кто изучает веб сайты, работает с архивами в формате WARC и создает их. Желающие могут воспользоваться, к примеру, архивами сайтов Мемориала [3] или архивами сайтов Роснано [4] которые мы сохраняли в @ruarxive в 2021 году.
Ошибки, идеи и предложения пишите в Issues на github [5]
Ссылки:
[1] https://github.com/datacoon/metawarc
[2] https://begtin.tech/government-piracy/
[3] https://cdn.ruarxive.org/public/webcollect2021/memorial2021/
[4] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
[5] https://github.com/datacoon/metawarc/issues
#opensource #webarchives #digitalpreservation #opendata
Metawarc - это утилита командной строки созданная изначально для задач цифрового дознания, сбора данных из архивов веб- сайтов. Я лично активно её применял в задачах исследований/расследований, вроде "Государство как пират" [2] о том как косвенные следы пиратского ПО находятся в документах на сайтах госорганов.
Эта утилита работает с WARC файлами, слепками веб-сайтов которые умеют создавать такие инструменты как wget, wpull, Heritrix и другие краулеры веб-сайтов из так называемой экосистемы WARC.
Изначальные функции инструмента были в том чтобы заглянуть в содержание WARC файла, перебрать каждую запись, найти попадающие под типы офисных документов и из каждого офисного документа (.doc, .docx, .xls и других) извлечь кто его создал, какая компания, когда и тд. Задача которая относится скорее к цифровому дознанию чем к цифровой архивации. Цифровое дознание (digital forensic) - это, в принципе, одно из применений веб-архивов и цифровых архивов в принципе.
Но кроме цифрового дознания есть много других областей в которых нужна обработка WARC файлов. Например, извлечение данных определенного типа, вроде файлов Excel или извлечение содержания веб-страниц для последующего полнотекстового индексирования или анализ полноты загруженных файлов и упрощение их обработки.
Поэтому утилиту я, наконец-то, обновил изменив команду index, теперь она не генерирует JSON файл с метаданными, а создает базу SQLite куда эти метаданные кладет. Это не метаданные внутри офисных файлов, но метаданные HTTP запросов и параметров записей в WARC. Их использование сильно ускоряет другие задачи, например, это новые команды поддерживаемые metawrc - dump, stats, list, export
Команда stats выводит статистику по числу записей в WARC файле в разрезе расширений файлов или типов контента (mime)
Команда list позволяет листать записи в WARC файле передавая в качестве параметров список расширений, список типов контента или запрос к SQLite базе данных (кусок SQL запроса после WHERE).
Команда dump работает как list, но для сохранения выбранный файлов в отдельную папку. Поскольку не все файлы в WARC можно сохранять с полным путем, то файлы сохраняются каждый с уникальным идентификатором и к ним прилагается список файлов с соответствием каждого файла ссылке в WARC файле.
Команда export позволяет выгружать содержимое WARC файла в машиночитаемом виде. Она даёт возможности экспортировать заголовки из WARC файла в формате JSON lines и содержимое HTML страниц для полнотекстового индексирования, например, с помощью Opensearch, Elastic или Meilisearch.
Инструмент будет полезен всем кто изучает веб сайты, работает с архивами в формате WARC и создает их. Желающие могут воспользоваться, к примеру, архивами сайтов Мемориала [3] или архивами сайтов Роснано [4] которые мы сохраняли в @ruarxive в 2021 году.
Ошибки, идеи и предложения пишите в Issues на github [5]
Ссылки:
[1] https://github.com/datacoon/metawarc
[2] https://begtin.tech/government-piracy/
[3] https://cdn.ruarxive.org/public/webcollect2021/memorial2021/
[4] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
[5] https://github.com/datacoon/metawarc/issues
#opensource #webarchives #digitalpreservation #opendata
GitHub
GitHub - datacoon/metawarc: metawarc: a command-line tool for metadata extraction from files from WARC (Web ARChive)
metawarc: a command-line tool for metadata extraction from files from WARC (Web ARChive) - datacoon/metawarc