Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Проекты по открытости в России о которых часто забывают и не грех напомнить ещё раз.

- Научный агрегатор открытых репозиториев openrepository.ru - создан НЭИКОН за счёт гранта от Фонда президентских грантов. Включает данные агрегированные из научных репозиториев статей российских университетов.
- Открытый корпус opencorpora.org для русского языка, большой краудсорсинговый проект, морфологически, синтаксически и семантически размеченный корпус текстов на русском языке. Полностью открытый, с возможностью скачать собранные в нём данные
- Firststat firststat.ru большая некоммерческая база доменов в зонах .ru, .su, .рф. Несмотря на отсутствие дампов открытых данных, у проекта есть открытый код и недокументированное API которое, например, помогает в сборе всех госдоменов для проекта govdomains
- Открытые данные и API Госдумы api.duma.gov.ru документация не обновлялась около 8 лет, последние наборы данных деклараций депутатов публиковались в 2012 году. Но генератор токенов для API и само API всё ещё работает. Кроме данных по голосованию - это источник стенограмм, выступлений депутатов и ещё многих других данных Госдумы.

Если Вы знаете какие-либо интересные общественные или редко упоминаемые, но интересные госпроекты по открытости данных, напишите о них.

#opendata #opengov #openprojects
Очень скоро мы опубликуем небольшое, но ёмкое исследование о том как некоторые госорганы и госорганизации распоряжаются данными граждан. Подробности раскрывать не буду чтобы не испортить сюрприз.

А пока небольшой опрос для всех читателей канала
Если орган власти или госучреждение на регулярной основе передаёт данные о гражданах в юрисдикции других стран, например, членов НАТО, то это?
anonymous poll

Халатность высшего порядка – 99
👍👍👍👍👍👍👍 47%

И есть настоящие иностранные агенты – 79
👍👍👍👍👍👍 37%

Нормальная бизнес практика – 19
👍 9%

Ничего не значит, ничего не случится – 15
👍 7%

👥 212 people voted so far.
Норвежский регулятор "вломил" социальной сети Grindr штраф в 10% годовой выручки (не прибыли, а выручки) за несоблюдение требований GDPR [1]

Сумма штрафа - 100 миллионов норвежских крон, это 11.6 миллионов долларов США или 881 миллион рублей.

Я бы на месте Яндекса и Mail.ru крепко задумался заранее, им европейские регуляторы могут "навесить" и побольше ещё и за российское происхождение.

Ссылки:
[1] https://www.datatilsynet.no/contentassets/da7652d0c072493c84a4c7af506cf293/advance-notification-of-an-administrative-fine.pdf

#privacy #norway #eu
В контексте последней новости про Grindr не лишним будет напомнить что развязка этой истории с астрономическим штрафом в $11.6 миллиона долларов США началась ещё в начале 2020 года когда норвежская служба по правам потребителей (The Norwegian Consumer Council) провела исследование дейтинговых приложений и оформила официальные заявления не только на Grindr, но и на другие сервисы. Например, на сервисы сбора данных: Twitter`s MoPub, AT&T’s AppNexus, OpenX, AdColony и Smaato. По всем признакам можно ждать штрафов и в их адрес тоже, ну или как минимум оперативной кооперации с расследователями в Норвегии и драконовский штраф в адрес Grindr это намёк остальным, ещё не оштрафованным.

Ссылки:
[1] https://www.forbrukerradet.no/side/new-study-the-advertising-industry-is-systematically-breaking-the-law/

#privacy
Тем временем проголосовало уже 128 человек голоса. Чуть больше голосующих считает что это халатность и чуть меньше, но больше 40%, считают что это и есть инагенты. Завтра ещё будет время на голосование. А утром 28-го (чуть-чуть потерпите) будет представлена причина зачем это голосование нужно.
Большая статья в The Verge о том что внутри команды Signal идёт борьба [1], в частности не все согласны с полным отказом от модерации контента и что модель невмешательства может привести к будущим проблемам и уже сейчас вызывает этические вопросы.

Речь, в частности, идет про группы к которым кто угодно может присоединится и где используется end-to-end шифрование и сама команда Signal не может модерировать их названия, аватарки, описания и тд. по этой же причине.

И, в целом, о том что приложения обеспечивающие приватность могут использоваться экстремистами после последних событий января пишут всё чаще. Такими темпами почти все проекты с сильной криптографией и end-to-end шифрованием могут оказаться в зоне риска.

Ссылки:
[1] https://www.theverge.com/22249391/signal-app-abuse-messaging-employees-violence-misinformation

#signal #privacy
Twitter открыли их новое API для исследователей [1]. Теперь для академических целей оно бесплатно и необходимо иметь академическую аффиляцию и чёткий запрос направленный компании через специальную форму [2]

С одной стороны это хорошо, а с другой стороны, на самом деле, с каждым годом Twitter всё более закрывает своё API и облегчает доступ лишь для узких интересов таких как исследования без коммерческого применения.

Аналогично поступают и другие социальные сети, замыкая пользователей данных на их платные API.

Ссылки:
[1] https://blog.twitter.com/developer/en_us/topics/tips/2021/enabling-the-future-of-academic-research-with-the-twitter-api.html
[2] https://developer.twitter.com/en/portal/petition/academic/is-it-right-for-you

#twitter #data #opendata
В примерах того как не надо публиковать данные и вообще государственные документы есть знаковое пополнение. В реестр социальных заказов Московской области [1], помимо того что сами сведения публикуются не в машиночитаемом виде и даже не в Excel, а в виде PDF документов, так ещё и эти документы содержат только сканы с нечитаемыми текстами.

Например, список социального заказа по теме "Спортивная подготовка" [2] с 6-й страницы включает таблицы которые невозможно прочитать.

И казалось бы, чего ради, экономии пары мегабайт? Так её можно было бы достигнуть публикую хотя бы PDF не в виде скана, а ещё лучше Excel, а ещё лучше машиночитаемые форматы.


Ссылки:
[1] https://budget.mosreg.ru/reestr-socialnyx-zakazov/
[2] https://budget.mosreg.ru/reestr-socialnyx-zakazov/redirect/localhost/customResources?uuid=5a106ae2-91a1-44a9-bad6-975ac6ecbc03&version=29.12.2020%2008.46.55.108

#opendata #openfinances
Алекс Ховард, один из давних активистов в открытых данных и зам. руководителя Sunlight Foundation когда-то написал открытое письмо в адрес администрации Белого дома [1] с вопросами о том вернут ли они уровень прозрачности на уровень который обеспечивала администрация Барака Обамы.

Вопрос, действительно, актуальный. Вернется ли всё в до-Трамповскую систему раскрытия информации о посетителях и иных данных или останется по прежнему?

Ссылки:
[1] https://e-pluribusunum.org/2021/01/26/open-letter-on-open-government-to-press-secretary-psaki-and-white-house-officials/

#opendata #usa
В США есть официальный реестр государственных доменов в зоне .gov [1], его регулярно обновляют, ведомство GSA публикует обновлённый перечень, а разного рода проекты и активисты активно его используют. Ко времени окончания срока Трампа этот реестр сократился примерно на четверть, в виду госполитики по постепенному сокращению доменов и созданию поддоменов и разделов на госпорталах.

Ben Balter, старший руководитель технических программ в Github'е регулярно анализирует этот список и публикует полученные результаты. Вот и в этом году две недели назад он разместил аналитику со свежими результатами анализа [2].

Что мы можем из него узнать?
- Всего - 1121 федеральный .gov домен (есть ещё некоторое количество в ведение властей штатов и графств)
- 264 домена просто перенаправляют на другие домены
- к 845 доменам можно обращаться без www
- 95.36% доменов поддерживают HTTPS, а 44.3% доменов поддерживают HSTS
- у 669 (72.25%) есть адрес IPv6
- у 305 (32.94%) доменов идентифицируется CMS

и так далее. Полный список доменов и их профилей и данные сканирования общедоступны [3].

Напомню что в России нет официального госреестра госдоменов и большая часть доменов не в зоне .gov.ru. Неофициальный их реестр доступен в репозитории Инфокультуры [4] и там только корневых доменов более 180, а только в зоне .gov.ru с поддоменами более 941 штук.


Ссылки:
[1] https://github.com/GSA/data/tree/master/dotgov-domains
[2] https://ben.balter.com/2021/01/11/analysis-of-federal-dotgov-domains-pre-biden-edition/
[3] https://ben.balter.com/2021-analysis-of-federal-dotgov-domains/domains/
[4] https://github.com/infoculture/govdomains/tree/master/refined

#government #domains
Сегодня Privacy Day https://privacyday.ru/
там будет представление нашего доклада @infoculture о приватности государственных мобильных приложений.

Следите за новостями, оставайтесь с нами!
Приватность государственных мобильных приложений в России [1] - свежее исследование от команды @infoculture. Мы проверили 44 государственных мобильных приложения в которых 39 из них содержат код сторонних трекеров и 38 из них содержат код сторонних трекеров с юрисдикциями в США и Японии. Почитайте подробнее там, много интересного.

Об этом я сегодня буду говорить на Privacy Day, презентацию можно посмотреть по ссылке [2], а также вышла статья в РБК с комментариями представителей Минцифры и ДИТ Москвы [3]

И здесь мне тоже есть что добавить:
1. Конечно же речь идёт не только о "технических сервисах" вроде Google Firebase и Firebase Crashlytics. Многие трекеры являются совершенно необязательными и более похоже что их включили не по злому умыслу, а для удобства разработки и аналитики. Не подумав, в общем, что, впрочем, ответственных за них не оправдывает. Это такие сервисы как HockeyApp, Estimote, Flurry, AltBeacon и другие.
2. Если верить коллегам что без сервисов Google в экосистеме Android работать невозможно, то мы же понимаем что импортозамещение в этой области это просто профанация? Получается что есть экосистемные требования и у Правительства РФ нет другого пути кроме как с Google договариваться в будущем.
3. Все кто делают коммерческие мобильные приложения которые передают данные в зарубежные сервисы теперь знают что и госорганы поступают аналогично
4. Есть как минимум 5 госприложений в которых нет ни одного встроенного трекера, например, "Госуслуги.Дороги". То есть если очень хочется то можно создавать приложения и без слежки. Так почему же не всем и не всегда хочется?;)
5. Конечно, прежде чем публиковать материалы онлайн, очень хотелось бы вести профессиональный дискурс о вопросах приватности, безопасности, свободы и ограничений использования цифровых сервисов. Но вот не работает механизм дискуссий вокруг смысловых документов в России. Их приходится адаптировать под формат который был бы понятен и удобен СМИ, иначе обратной реакции от органов власти просто не возникает.
6. При этом всё очень конструктивно. У нас очень понятные рекомендации для регуляторов, контролёров, разработчиков и пользователей.
7. Это не последний обзор по этой теме, если есть какие-то приложения которые мы упустили, а они наверняка есть, то пишите, все подвергнем тщательной вивисекции.

P.S. Конечно результаты доступны и как открытые данные.
- Приложения и трекеры иностранных юрисдикций [3]
- Выборка исследуемых госприложений [4]
- Данные о трекерах госприложений [5]
- Сводные собранные данные по всем госприложениям [6] (трекеры, разрешения и т.д.)

Ссылки:
[1] https://privacygosmobapps.infoculture.ru/
[2] https://www.beautiful.ai/player/-MS6JaKYDpr8q1UCAjmA
[3] https://ngodata.ru/dataset/apps-trackers-jurisdiction
[4] https://ngodata.ru/dataset/gos-mobile-apps
[5] http://ngodata.ru/dataset/gos-apps-trackers
[6] https://ngodata.ru/dataset/gos-full-csv

#privacy #infoculture #mobileapps
для тех кто упустил опрос, напомню
Forwarded from Ivan Begtin (Ivan Begtin) via @vote
Если орган власти или госучреждение на регулярной основе передаёт данные о гражданах в юрисдикции других стран, например, членов НАТО, то это?
anonymous poll

Халатность высшего порядка – 82
👍👍👍👍👍👍👍 45%

И есть настоящие иностранные агенты – 70
👍👍👍👍👍👍 39%

Нормальная бизнес практика – 16
👍 9%

Ничего не значит, ничего не случится – 13
👍 7%

👥 181 people voted so far.
Вдогонку к предыдущим публикациям, инфографика.

#privacy
Ответы на некоторые вопросы

1. Как защититься от слежки?

В отличие от баннерорезок для персональных компьютеров и браузеров для телефонов это сложнее и делается через фильтры на уровне DNS.

Два сервиса которые я могу порекомендовать это:
- Blokada [1] - бесплатый и с открытым кодом [2], создается небольшой шведскок командой за пожертвования и монетизации версии со встренным VPN.
- NextDNS [3] - стартап по приватности, на бесплатном аккаунте до 300 тысяч запросов в месяц. У меня работает на 3-х устройствах и я за планку в 300 тысяч запросов уже почти выбиваюсь так что буду оформлять платный за 149р в месяц или переключу часть устройств на Blokada.

Наверняка есть и другие варианты, эти наиболее известные.

2. Что такого в том что госприложения передают данные трекерам?

Для гражданина - в том что трекеры эти данные перепродают и фактически приложения не обеспечивают достаточной конфиденциальности. А через госприложения могут проходить взаимодействия с гос-вом о которых человек может не хотеть передавать информацию третьей стороне.

Для государства - это всё равно что подкармливать самостоятельно разведки других стран.

3. Персональные данные, на самом деле, не передаются

На самом деле они передаются потому что данных в виде IP адреса, идентификатора рекламы и минимальных доп сведений достаточно чтобы отслеживать активность пользователя смартфона. Даже отладочные сведения передаваемые в Google Firebase имеют ценность.

4. Государственные приложения малопопулярны.

Сегодня, 28 января 2021 года, приложение Госуслуги на 10-м месте по популярности для платформы Android и держится в первой десятке уже не один месяц. Почта России на 61 месте, Налоги ФЛ на 84 месте.

5. А все ли госприложения Вы учли?

Нет, мы не учитывали приложения сделанные госкомпаниями в рамках их коммерческой деятельности. Например, Сбербанк, ВТБ и др. Потому что правильнее их сравнивать с аналогичными компаниями на рынке.

6. Почему вообще смотреть на госприложения, есть ведь более популярное типа ТикТок?

Потому что государство идет по пути принудительной их предустановки и это про обязательную, а не добровольную модель использования и слежки за потребителем. Но наиболее популярные приложения тоже необходимо изучать что и делают многие регуляторы потребительского рынка по всему миру.

Ссылки:
[1] https://blokada.org
[2] https://go.blokada.org/dev_home
[3] https://nextdns.io/

#privacy
По следам нашего исследования особенно добавлю разного рода наблюдения за СМИ:
- Коммерсант опубликовали материалы исследования проигнорировав просьбу об эмбарго до 00:00 28 января и опубликовали статью https://www.kommersant.ru/doc/4663281 до того как мы доделали текст, по сырым материалам, в общем очень некрасиво. Делаю себе пометку в маленькой синей записной книжке.
- CNews "обжелтели", их заголовок "Государственные мобильные приложения кишат иностранными трекерами. Они воруют данные россиян" не соответствует действительности, конечно же, а ссылку на первоисточник ставить им, видимо, религия не позволяет https://safe.cnews.ru/news/top/2021-01-28_mobilnye_gosprilozheniya. Делаю себе ещё одну пометку в маленькой синей записной книжке что CNews кишит теми кто не ссылается на первоисточник.
- ТАСС не публикуют новость, а только реакцию госорганов на неё https://tass.ru/obschestvo/10566365.
- аналогично РИА Новости полностью ушли в журналистику реакции https://ria.ru/20210128/tekhnologii-1594910804.html
- вышел репортаж на НТВ и написали в Царьграде - извините, на них ссылаться не буду, это то чего я скорее опасался чем ожидал, потому что цель была в том чтобы обозначить проблему не сваливаясь в охранительную ментальность и повестку.

Ну и в целом, ссылаться на первоисточник никто не любит, но первое что делают СМИ когда слышат название любой организации - это пробивают учредителей и пишут новость уже с их указанием (Коммерсант), что выглядит скорее смешно, но уж таковы российские медиа реалии.

Пройдет 2-3 месяца и мы перепроверим все те приложения что проверяли в этом исследовании и напишем об этом уже кратко, посмотрим повлияло ли оно или нет.

#media #privacy
В блоге IOM, органа ООН по миграции, свежая публикация "Using “Big Data” to forecast migration" [1] о том как они используют данные из разных источников и моделируют потоки мигрантов и предсказывают направления миграции в будущем.

Немаловажно то откуда они берут данные, а это, например, Social Connectedness Index [2] от Facebook, в котором производится измерение связности территорий через социальные связи в Facebook.

Сам Facebook отдает эти данные в рамках инициативы Data for good [3] и они одни из крупнейших поставщиков данных для проекта Humanitarian Data Exchange [4].

Конкретно этот набор данных Social Connectedness Index [5] будет интересен исследователям в любой стране, но, России там нет. Возможно по причине плохих (отсутствующих) отношений России с Управлением по координации гуманитарных вопросов ООН (UN OCHA), а может быть Facebook не любит Россию, а может по каким-то ещё причинам.

А вот Беларусь, Украина, Киргизия, Грузия, Армения, Азербайджан, Казахстан, Узбекистан, Молдова, Таджикистан присутствуют.

Ссылки:
[1] https://medium.com/@UNmigration/using-big-data-to-forecast-migration-8c8e64703559
[2] https://dataforgood.fb.com/tools/social-connectedness-index/
[3] https://dataforgood.fb.com
[4] https://data.humdata.org/organization/facebook
[5] https://data.humdata.org/dataset/social-connectedness-index

#opendata #data #facebook #un #iom #migration
Для тех кто интересуется и впервые подписался на мой блог, я напомню о прошлых докладах и публикациях:
- Ежегодные доклады по открытости государства (совместно со Счетной палатой) и доклад по открытости ГИС
- Работа с открытыми данными: особенности публикации и использования в российском правовом поле
- Утечки персональных данных из государственных информационных систем (я публиковал его от себя лично в 2018 году, поскольку он был даже скорее про безопасность чем про приватность)
- Использование электронной почты в государственной инфраструктуре РФ

На самом деле их было куда больше, какие-то "пласты" моей жизни были посвящены тематике госзакупок и ещё в 2009 году я вскрывал и публиковал истории связанные именно с ними, далее было несколько проектов когда наша команда анализировала госсайты органов власти, это было около 2010 года.

Доклады - это большая и трудоёмкая работа, иногда удаётся её сделать быстро и дешево, например, доклад про утечки персональных данных из ГИС я лично готовил ещё в 2018 году и передавал чиновникам в Минцифре, Роскомнадзора и Генпрокуратуры, но эффект у него возник только после того как передал журналистам. Да, даже передача прокурорам не работает (а я тогда был председателем экспертного совета по цифре при Генпрокуратуре).

С другими документами та же история. Обратная связь от госорганов возникает только от докладов Счетной палаты, но она идет уже в режиме "Вы нам скажите как правильно и мы сделаем". И, наконец, самое "тяжёлое" ведомство это ДИТ Москвы. Содержательной реакции от них нет практически никогда.

В последнем докладе про 44 государственных мобильных приложения у нас многое не отражено. Чтобы провести тщательный анализ надо делать тестовую лабораторию, перехватывать все запросы приложений к сайтам, отслеживать каждый IP адрес и домен, идентифицировать какие из них каким компаниям, подсетям и юрисдикциям относятся, декомпилировать Java код приложений (предварительно проговорив такую юридическую возможность), провести интервью с разработчиками и тд. Это добавило бы/добавит гораздо больше содержания. Но проблема в том что на реакцию российских органов власти это _не влияет_ и это системная проблема. Работают только "медиадубинка" и "дубинка госконтроля/госаудита", позитивная мотивация не проглядывается. Хотя и с большим удовольствием хотелось бы исследовать и писать о хорошем - том какие замечательные кейсы использования открытых данных существуют и тому подобное.

Я вскоре напишу об этой проблеме лонгрид в begtin.substack.com и попробую поразмышлять о том как подобное преодолевать, подписывайтесь.

#opendata #research #reports
Что такое институты работы с данными (data institutions) и как они должны развиваться и в чём их роль? Об этом в публикации The Open Data Institute " What are data institutions and why are they important? " [1]

В каком-то смысле этот текст самореклама the ODI поскольку он даёт ответ на вопрос зачем сам ODI нужен, но в нём есть и здравое зерно по созданию того что в России принято называть центрами компетенций (но опять же в России это название стало уже "ругательным").

Текст полезный для понимания будущего регулирования данные в Евросоюзе и Великобритании.

Ссылки:
[1] https://theodi.org/article/what-are-data-institutions-and-why-are-they-important/

#data