Ivan Begtin

Для тех кто интересуется темой приватности, завтра будет проходить одна из наиболее интересных русскоязычных конференций по этой теме Евразийский конгресс по защите данных [1].

Я также там буду выступать с краткой презентацией про трекеры в мобильных приложениях которые мы нашли в магазине мобильных приложений RuStore.

На конгрессе много интересных докладов, всячески рекомендую прослушать её целиком. Если бы я завтра не бегал первую половину дня по официальным делам, то тоже также бы и сделал, поэтому то что не смогу посмотреть вживую, буду смотреть онлайн.

Ссылки:
[1] https://edpc.network/
[2] https://rustoreprivacy.infoculture.ru

#privacy #events

edpc.network

Евразийский конгресс по защите данных

2.0K viewsIvan Begtin, 12:14

Ivan Begtin

В связи с новостями о возможной ликвидации Роснано, напомню что мы проводили архивацию их сайтов и иных ресурсов в рамках Национального цифрового архива (@ruarxive). Все материалы доступны для прямой выгрузки по ссылке [1] у нас в хранилище, метаданные с описаниями пока хранятся отдельно, скорее всего загрузим уже всё вместе в Интернет-архив.

Есть сомнения что за прошедшие 11 месяцев у Роснано появилось много нового контента, скорее мог исчезать старый, тем не менее мы организуем повторную архивацию в ближайшие дни. Для перестраховки что слухи - это не только слухи.

Ссылки:
[1] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/

#digitalpreservation #webarchives #archives

3.2K viewsIvan Begtin, 14:30

Ivan Begtin

Есть у меня такая особая рубрика, "надолго отложенные проекты", может быть даже навсегда, не могу сказать сейчас. Это те гражданские технологические проекты (civic tech) которые невозможно создать сейчас потому что на них нет финансирования в России, или есть серьёзные риски что придётся их цензурировать настолько что проще не делать. Я последние лет 10 нарисовал десятки схем идей таких проектов, а по другим написал их краткие концепции.

Но это такой особый жанр напоминания себе что на один сделанный проект 5 проектов замороженных/отложенных/невозможных.

А сейчас ещё и остро неактуальных, потому что войны (внешние и внутренние) и прозрачность государства совершенно не сочетаются.

#opendata #opengov #mindmaps

2.0K viewsIvan Begtin, 17:07

Ivan Begtin

Особенно интересное на конференции Coalesce - это публичный анонс моделей данных на Python. Об этом в презентации их продуктовой команды [1] и можно найти на сайте конференции [2] запись выступления, по ключевым словам "Announcing dbt's Second Language: When and Why We Turn to Python". По моему, пока доступно только после регистрации на сайте, но может уже выложили или скоро выложат для всех.

Хотя и поддержка моделей данных на Python там в зачаточном уровне, новость эта замечательна для тех кто не любит SQL или любит его сильно меньше чем программировать на Python. Например, я языки запросов к данным вроде SQL люблю сильно меньше чем обработать данные на скриптовом или ином языке программирования. Это сила привычки и вопрос доступности инструментов.

Авторы пока заявляют о том что эти модели в самом зачаточном виде, но с ними уже можно работать.

По ним уже есть документация [3], чат и дорожная карта.

Лично для меня главным недостатком dbt остаётся то что это инструмент, как и pandas, для работы с табличными (плоскими) моделями данных.

И, важно, конечно, помнить что самые продвинутые возможности по удобству они реализуют в своём dbt cloud IDE которое постепенно превращается в облачную среду подготовки данных [4].

Ссылки:
[1] https://docs.google.com/presentation/d/1e3wB7EQ0EXugGhfCjVCp_dDFEbY_uKyVjMqG1o7alnA/edit?usp=sharing
[2] https://coalesce.getdbt.com/
[3] https://docs.getdbt.com/docs/building-a-dbt-project/building-models/python-models
[4] https://docs.google.com/presentation/d/11-71MIh9ASGM2n-i0KxXc_yf6w1tq0l1bUobWdnfloY/edit?usp=sharing

#data #datatools #dbt #python #datamodelling

2.2K viewsIvan Begtin, 04:31

Ivan Begtin

Forwarded from Национальный цифровой архив

В связи с ликвидацией Федерального агентства по туризму (Ростуризм) мы спешно архивируем все его цифровые ресурсы.

В нашем каталоге госдоменов к Ростуризму относятся следующие:
—
russiatourism.ru
www.russiatourism.ru
last.russiatourism.ru
opendata.russiatourism.ru
opendata2.russiatourism.ru
reestr.russiatourism.ru
rgo.russiatourism.ru
www2.russiatourism.ru
—
Если Вы знаете какие-либо дополнительные сайты и иные цифровые ресурсы которые могут исчезнуть в связи с ликвидацией агентства или если Вы располагаете любыми архивами и материалами о его деятельности которые исчезают/исчезли ранее или могут быть недоступны, напишите нам на [email protected] или чате к этому каналу.

Мы постараемся в ближайшее время сохранить всё что будет ещё возможно.

#digitalpreservation #webarchive

2.3K viewsIvan Begtin, 08:28

Ivan Begtin

Приватность_в_российских_мобильных_приложениях_Результаты_анализа.pdf

1.3 MB

Вчера прошёл Евразийский конгресс по защите данных [1] о котором я ранее писал. Я там выступал с презентацией Приватность в российских мобильных приложениях. Результаты анализа приложений в RuStore․ Можно посмотреть в записи [2] и я прилагаю презентацию.
Основные выводы:
- Несмотря на публичную риторику "нежелательных стран" российские приложения в рамках импортозамещения передают туда персональные данные
- VK, создатели RuStore, одновременно разрабатывают приложения наиболее насыщенные трекерами
- Импортозамещение не включает защиты интересов потребителей цифровых продуктов․

Подробнее на сайте исследования [3].

Ссылки:
[1] https://edpc.network/
[2] https://www.youtube.com/watch?v=YTfp5uWNkWk
[3] https://rustoreprivacy.infoculture.ru

#privacy #events

3.2K viewsIvan Begtin, 14:08

Ivan Begtin

В Новой Зеландии приняли закон о простом языке (plain language act). Об
этом в статье в Guardian [1] в том числе и о том почему этот закон приняли, а причина в том чтобы законы были понятны и тем людям для которых английский язык не основной. Иначе говоря - это защита прав мигрантов, о чём бы и другим странам было бы не лишне подумать.

Текст закона можно прочитать на сайте Парламента Новой Зеландии [2], как и дебаты парламента где он довольно активно обсуждался.

Ссылки:
[1] https://www.theguardian.com/world/2022/oct/20/new-zealand-passes-plain-language-bill-to-jettison-jargon
[2] https://www.parliament.nz/en/pb/bills-and-laws/bills-proposed-laws/document/BILL_115953/plain-language-bill

#plainlanguage #plainenglish

3.0K viewsIvan Begtin, 13:45

Ivan Begtin

Полезный текст на Хабре о том что A-GPS подверглось "эмбарго" и почему смартфоны в России перестали точно определять местонахождение [1]. Главный вывод из текста можно сделать в том что это вопрос открытости даже не данных, а протоколов. Все проприетарные риски и зависимости которые были и остаются решать можно только открытостью кода, данных, интерфейсов и тд.

Но решить оно может не всё, крупнейшие естественные и неестественные монополии всё равно контролируют большую часть экосистем и технологических сервисов. История с GPS показательна, в случае сложных продуктов вводить национальные санкции необязательно, достаточно чтобы санкции соблюдали отдельные компании владеющие инфраструктурой. Примерно как история с VISA и MasterCard для финансовой инфраструктуры и похожая ситуация с Qualcomm.

Ссылки:
[1] https://habr.com/ru/post/694984/

#opensource #openprotocols #gps

Хабр

Эмбарго на A-GPS или почему смартфоны стали плохо определять местоположение

Ориентировочно с мая 2022 года в разных темах на форуме 4PDA и других интернет-площадках начали появляться сообщения вида "Что-то смартфон стал плохо ловить спутники GPS и показывать точное...

4.2K viewsIvan Begtin, 13:41

Ivan Begtin

В рубрике полезных текстов, ссылок, документов и инструментов для работы с данными, ИИ, технологиям и не только:
- Blueprint for an AI Bill of Rights [1] черновик билля о правах в отношении ИИ, билль - это законопроект под лозунгом "делаем так чтобы автоматизированные системы работали для американского народа" и выпущен он Управлением по научно-технической политике Белого дома. Документ важный, о нём много можно написать отдельно, главная мысль - системы ИИ должны быть безопасны, аудируемы и прозрачны. Я бы ждал скоро появления международного AI Safety Index и сдвига многих правозащитников в эту сторону.
- 6 Reactions to the White House’s AI Bill of Rights [2] а также 6 реакций на этот законопроект, причём не все положительные. Есть те кто считают что он избыточен поскольку есть универсальные законы, а есть те кто считает что он недостаточен. Как бы то ни было, регулирования ИИ прибыло и будет больше, сильно больше.
- xonsh [3] кросс-платформенная оболочка для командной строки, гибрид между Python и Unix Shell. Кому-то покажется мутантом, а выглядит очень интересно. Для тех кто любит Python и Shell конечно же.
- Self Hosting Guide [4] очень подробный гайд по самостоятельному хостингу большого числа приложений и сервисов. Очень полезно для тех кто не хочет зависимости ни от кого.
- SigNoz [5] продукт с открытым кодом по мониторингу приложений и серверов, аналог DataDog и NewRelic, для тех кто хочет self-hosted. Выглядит очень неплохо, надо пробовать.
- Open Research across Disciplines [6] подборка примеров и практик по открытому доступу по 28 научным дисциплинам из Великобритании. Очень много примеров, о многих я не знал.

Ссылки:
[1] https://www.whitehouse.gov/ostp/ai-bill-of-rights/
[2] https://spectrum.ieee.org/white-house-ai
[3] https://github.com/xonsh/xonsh
[4] https://github.com/mikeroyal/Self-Hosting-Guide
[5] https://github.com/SigNoz/signoz
[6] https://www.ukrn.org/disciplines/

#opensource #opendata #ai #openaccess

The White House

Blueprint for an AI Bill of Rights

Among the great challenges posed to democracy today is the use of technology, data, and automated systems in ways that threaten the rights of the American public. Too often, these tools are used to limit our opportunities and prevent our access to critical…

2.2K viewsIvan Begtin, 17:59

Ivan Begtin

Сегодня, завтра и послезавтра идёт интересное мероприятие World Ethical Data Forum [1]․ Я узнал о нём с запозданием, иначе обязательно бы подал доклад для выступления. Но и послушать других там интересно, много выступлений про стратегии работы с данными, приватность, данные в открытом доступе, Интернет и так далее.

Не буду подсказывать на что именно идти слушать дистанционно, там много всего. Авторизоваться можно на сайте форума [2], трансляция и обсуждение идёт там на платформе Matrix, через виджеты внутри комнат где параллельно идет обсуждение выступлений, что тоже несколько необычно.

Чуть позже сделаю обзор того что успею посмотреть и послушать.

Ссылки:
[1] https://agenda.worldethicaldata.org/
[2] https://forum.worldethicaldata.org

#privacy #data #datastrategies

agenda.worldethicaldata.org

WEDF2022 Agenda

Web site created using create-react-app

2.1K viewsIvan Begtin, 10:45

Ivan Begtin

Интересный продукт/сервис/проект Explainpaper [1] по переводу научных статей с
"непонятного научного" на простой язык․ Мне лично, в какой-то степени, везёт, я читаю статьи где всё, обычно, довольно таки понятно. Но есть немало научных статей написанных таким языком что надо в нём пробираться словно сквозь дебри.

О внутренностях проекта очень мало информации, но сама его возможность весьма интересна.

Ссылки:
[1] https://www.explainpaper.com

#ai #plainlanguage #openaccess #openscience

2.4K viewsIvan Begtin, 15:01

Ivan Begtin

Полезное чтение про данные, технологи и не только:
- Restfox [1] аналог Postman с открытым кодом, позволяет настраивать и тестировать работу с API. До уровня Postman не дотягивает, но выглядит неплохо
- Python 3.11.0 is released — Impacts to Data Science and Engineering [2] - коротко о том почему надо прямо сейчас обновлять Python до 3.11. Если кратко: быстрее на 10-60%, лучше управление ошибками и много изменения затрагивающих работу с данными.
- Hertz [3] фреймворк для Go по созданию микросервисов. Давно пора переводить микросервисы на Go и Rust.
- Data Catalogs Are Dead; Long Live Data Discovery [4] очередной текст в копилку хайпа про смерть корпоративных каталогов данных и развитие data discovery. Будем честными, ещё каталоги то мало где внедрены, а тут сразу data discovery. Автор Barr Moses, CEO стартапа Monte Carlo, так что текст нельзя считать независимым. Но почитать стоит
- Open Source Law, Policy & Practice [5] вышла вторая редакция книжки про регуляторное регулирование открытого кода. Книга полезная, но как же она далека от госполитики в постсоветских странах! В открытом доступе, к сожалению, нет. Только заказывать за деньги, но если интересуетесь законами про open source, то читать стоит.

Ссылки:
[1] https://github.com/flawiddsouza/Restfox
[2] https://medium.com/codex/python-3-11-0-is-released-impacts-to-data-science-and-engineering-2d6c474611f4
[3] https://github.com/cloudwego/hertz
[4] https://medium.com/towards-data-science/data-catalogs-are-dead-long-live-data-discovery-a0dc8d02bd34
[5] https://global.oup.com/academic/product/open-source-law-policy-and-practice-9780198862345?cc=gb&lang=en&#the

#opensource #datatools #data #python #datacatalogs #datadiscovery

GitHub

GitHub - flawiddsouza/Restfox: Offline-First Minimalistic HTTP & Socket Testing Client for the Web & Desktop

Offline-First Minimalistic HTTP & Socket Testing Client for the Web & Desktop - flawiddsouza/Restfox

2.0K viewsIvan Begtin, 17:58

Ivan Begtin

Я ранее регулярно рассказывал как работать с веб-архивами и про инструменты которые мы создаём для работы с ними. За пару отпускных дней удалось вернуться к давним планам по улучшению инструментов по работе с ними и пора рассказать о развитии инструмента metawarc [1].

Metawarc - это утилита командной строки созданная изначально для задач цифрового дознания, сбора данных из архивов веб- сайтов. Я лично активно её применял в задачах исследований/расследований, вроде "Государство как пират" [2] о том как косвенные следы пиратского ПО находятся в документах на сайтах госорганов.

Эта утилита работает с WARC файлами, слепками веб-сайтов которые умеют создавать такие инструменты как wget, wpull, Heritrix и другие краулеры веб-сайтов из так называемой экосистемы WARC.

Изначальные функции инструмента были в том чтобы заглянуть в содержание WARC файла, перебрать каждую запись, найти попадающие под типы офисных документов и из каждого офисного документа (.doc, .docx, .xls и других) извлечь кто его создал, какая компания, когда и тд. Задача которая относится скорее к цифровому дознанию чем к цифровой архивации. Цифровое дознание (digital forensic) - это, в принципе, одно из применений веб-архивов и цифровых архивов в принципе.

Но кроме цифрового дознания есть много других областей в которых нужна обработка WARC файлов. Например, извлечение данных определенного типа, вроде файлов Excel или извлечение содержания веб-страниц для последующего полнотекстового индексирования или анализ полноты загруженных файлов и упрощение их обработки.

Поэтому утилиту я, наконец-то, обновил изменив команду index, теперь она не генерирует JSON файл с метаданными, а создает базу SQLite куда эти метаданные кладет. Это не метаданные внутри офисных файлов, но метаданные HTTP запросов и параметров записей в WARC. Их использование сильно ускоряет другие задачи, например, это новые команды поддерживаемые metawrc - dump, stats, list, export

Команда stats выводит статистику по числу записей в WARC файле в разрезе расширений файлов или типов контента (mime)

Команда list позволяет листать записи в WARC файле передавая в качестве параметров список расширений, список типов контента или запрос к SQLite базе данных (кусок SQL запроса после WHERE).

Команда dump работает как list, но для сохранения выбранный файлов в отдельную папку. Поскольку не все файлы в WARC можно сохранять с полным путем, то файлы сохраняются каждый с уникальным идентификатором и к ним прилагается список файлов с соответствием каждого файла ссылке в WARC файле.

Команда export позволяет выгружать содержимое WARC файла в машиночитаемом виде. Она даёт возможности экспортировать заголовки из WARC файла в формате JSON lines и содержимое HTML страниц для полнотекстового индексирования, например, с помощью Opensearch, Elastic или Meilisearch.

Инструмент будет полезен всем кто изучает веб сайты, работает с архивами в формате WARC и создает их. Желающие могут воспользоваться, к примеру, архивами сайтов Мемориала [3] или архивами сайтов Роснано [4] которые мы сохраняли в @ruarxive в 2021 году.

Ошибки, идеи и предложения пишите в Issues на github [5]

Ссылки:
[1] https://github.com/datacoon/metawarc
[2] https://begtin.tech/government-piracy/
[3] https://cdn.ruarxive.org/public/webcollect2021/memorial2021/
[4] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
[5] https://github.com/datacoon/metawarc/issues

#opensource #webarchives #digitalpreservation #opendata

GitHub

GitHub - datacoon/metawarc: metawarc: a command-line tool for metadata extraction from files from WARC (Web ARChive)

metawarc: a command-line tool for metadata extraction from files from WARC (Web ARChive) - datacoon/metawarc

3.0K viewsIvan Begtin, 04:57

About

Blog

Apps

Platform