Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Последний раз я обновлял рейтинг и метрики стран по открытости кода 2 года назад. Расчёты и данные рейтинга сохранено на Data.world в проекте "Open source government project" [1]. Тогда открытый код публиковался 58 странами и десятками международных организаций. Сейчас их значительно больше потому что кураторы списка открытых репозиториев государства на Github [2] не учитывают госорганы публикующие свой код на других платформах и поскольку не поспевают за раскрытием кода в контексте COVID-19, многие страны начали публиковать код приложений.

Пока же вот ещё несколько стран которые точно прибавились к тому списку из 58 стран и начали публиковать исходный код в последнее время:
- Ирландия https://github.com/HSEIreland/
- Словакия https://github.com/slovak-egov
- Мадагаскар https://github.com/e-Gouvernance-Madagascar

Забегая вперед сказу скажу что России в этом списке по прежнему нет. Официально в России всё ещё нет политики раскрытия исходного кода и открытой его разработки.

Ссылки:
[1] https://data.world/ibegtin/open-source-government-project
[2] http://government.github.com/

#opensource #opengov #opendata
Forwarded from Госзатраты
«Госзатраты» планируют опубликовать архив документов по истории госфинансов в России.

Уже несколько месяцев команда нашего проекта кропотливо собирает исторические документы, связанные с темой госфинансов. Среди них как уже оцифрованные материалы, так и те, которые никогда не публиковались. Мы объединим на одной общедоступной площадке самые разные исторические источники — от бюджетов, отчетов и перечней цен до статистических сводок и учебников.

Приглашаем принять участие в создании цифрового архива по истории госфинансов. Будем признательны всем, кто сможет предоставить материалы для оцифровки или пришлет готовые сканы, веб-ссылки на архивы или наборы данных с исторической ретроспективой. Если вам есть, чем поделиться — пишите Ольге Пархимович на эл. почту [email protected].
Роскомнадзор анонсировал мобильное приложение [1] для ускоренной подачи жалоб граждан на запрещенную информацию.

Как я и говорил ранее, на госприложения этот год будет урожайным. Его вариант для Android'а [2] сейчас помечен как в разработке и поэтому пока не получается стандартными средствами скачать APK файл для анализа на предмет трекеров и разрешений. Разрешения, вернее, можно увидеть и так на странице в Google Play.

Если Вы знаете как скачать APK файл такого приложения и можете помочь инструкцией/инструментом или скачать его и передать на исследование, то можем узнать какие трекеры Роскомнадзора туда запрятал. Или не запрятал, не проверишь не узнаешь.

Буду рад любой помощи, пишите мне в Telegram или на почту [email protected]

Ссылки:
[1] https://rkn.gov.ru/news/rsoc/news73388.htm
[2] https://play.google.com/store/apps/details?id=org.rkn.ermp

#privacy #mobile #rkn #roskomnadzor
Итак, парам-пам-пам, о том почему бессмысленно обращаться в Роскомнадзор по поводу трекинга пользователей в госприложениях.

В свежее приложение Роскомнадзора [1] включён код передачи данных в сервис Google Firebase и в сервис AppMetrica (Яндекс).

На скриншоте результат анализа через инструменты Exodus Privacy. На всякий случай перепроверка через MobSF это подтверждает. Там и с точки зрения безопасности приложение неидеально, но пусть это анализируют другие.

Не только "гос госу глаз не выклюет", но и "Роскомнадзор сам себя не выпорет".

А пора бы Роскомнадзору быть не только дуботолками и чертями веревочными, а заканчивать это божедурье и начать работать.

Ссылки:
[1] https://play.google.com/store/apps/details?id=org.rkn.ermp

#privacy
Google обновили "Требования к приложениям, имеющим отношение к коронавирусной инфекции COVID-19" [1].

Теперь упоминание COVID-19 в приложении возможно только в случаях если:

1. Приложения, содержащие информацию о болезни, лечении, вакцинировании и тестировании, а также другие данные, связанные с коронавирусной инфекцией COVID-19.
2. Приложения, созданные для помощи в борьбе с коронавирусной инфекцией COVID-19, ее сдерживании, исследованиях, обучении или подготовке в этой сфере.
3. Приложения, созданные для оказания услуг, непосредственно связанных с коронавирусной инфекцией COVID-19, например услуг в области здравоохранения, предоставления социальной поддержки (выплат, продовольственных талонов) или выдачи кредитов.

Приложения должны иметь подтверждение:

1. Письмо на официальном бланке соответствующего государственного учреждения или организации. Оно должно включать название приложения и название его пакета.
2. Государственный регистрационный номер организации здравоохранения (NPI в США, NIN в Индии и т. д.). Применимо не для всех стран.

Также были обновлены разделы "Требования к конфиденциальности" и "Видимость приложения и информирование пользователя".

Похоже что в ближайшее время начнется чистка Google Play от приложений не соответствующих этим требованиям.

Российские приложения, кстати, также необходимо будет проверить на соответствие и, скорее всего, обновить.

Ссылки:
[1] https://support.google.com/googleplay/android-developer/answer/9889712#privacy_requirements

#privacy #covid19
В марте 2021 года Еврокомиссия официально открытывает портал Open Research Europe [1] созданный для публикации материалов исследований в рамках исследовательской программы Евросоюза Horizon 2020. Внутри платформы движок от F1000Research [2], коммерческой платформы для открытой публикации научных материалов. Её бизнес модель, в отличие от "классических издательств", во взимании от 800 до 1300 евро за ревью и публикации статьи. Изначально платформа создавалась под публикацию биомедицинских исследований, но, похоже, будет использоваться и для других научных направлений.

А Open Research Europe имеет свой ISSN, похоже что, будет приравнено к научному изданию и обязательным для всех исследований в рамках Horizon 2020.

Ссылки:
[1] https://open-research-europe.ec.europa.eu/
[2] https://f1000research.com

#openaccess #research #opendata #europe
В Glowing Flow короткий и полезный текст про управление метаданными [1], конечно, с акцентом на корпоративные системы управления метаданными, но ими не ограничиваясь.

Полезно для понимания того как рынок корпоративных данных будет структурироваться в ближайшее время. Каждый блок - это кусок функций единой системы или отдельный, но интегрированный продукт.

Ссылки:
[1] https://gradientflow.com/the-growing-importance-of-metadata-management-systems/
Для тех кто изучает то как государство раздает деньги, новый полезный набор данных "Данные грантовых конкурсов Ростуризма" [1] собран с сайта грантов Ростуризма [2] и охватывает всех получателей и заявителей на гранты.

Нам этот набор был интересен, в первую очередь, с точки зрения его подключения к проектам Открытые НКО [3], Госзатраты [4] и Госрасходы [5], но уверен что многие найдут ему разные другие способы применения.

Данные в формате CSV, описание полей и структуры файлов есть в описании набора, поскольку текст описания многострочен, то файл надо правильно открывать, впрочем Excel, OpenOffice и все программные пакеты обработки CSV это умеют.

Данные будут полезны журналистам исследователям, всем изучающим деятельность Ростуризма и распределение госфинансирования.

Отдельно обращу внимание что, с одной стороны, Ростуризм начал значительно лучше публиковать данные, создали специальный портал opendata.tourism.gov.ru [6] и даже кое-что полезное там публикуют, а вот этих данных там нет и на самом сайте системы публикации грантов тоже нет.

Но у нас есть и никогда не жалко поделиться.

Ссылки:
[1] https://ngodata.ru/dataset/grant-contests-rosturizm
[2] https://1619.tourism.gov.ru/
[3] http://openngo.ru
[4] http://clearspending.ru
[5] http://spending.gov.ru
[6] http://opendata.tourism.gov.ru

#opendata #data #tourism #grants
Тем кто ищет большие данные со множеством взаимосвязей и пригодных для углублённого анализа, набор данных графовой базы Software Heritage [1] - это несколько терабайт данных о исходном коде архивируемом в этом проекте. Включает данные о релизах, файлах исходного кода, авторах, каждой строке, изменениях в коде и так далее, для это есть описание схемы [2] и инструкций по развертыванию этой базы у себя.

Software Heritage [3] - это французский проект в INRIA по созданию универсального хранилища всего исходного кода человечества. У проекта довольно сильный акцент на научном использовании, авторы регулярно пишут научные статьи о сохранении исходного кода, а также есть фокус на сохранение исходного кода создаваемого в рамках научное работы. Поэтому, например, сохраняются исходные коды из системы открытых научных архивов Франции HAL [4] и многое другое.

А сам проект поддерживается Microsoft, Huawei, Intel, Societe Generale и ещё рядом крупных компаний и академических структур.

Ссылки:
[1] https://docs.softwareheritage.org/devel/swh-dataset/graph/index.html
[2] https://docs.softwareheritage.org/devel/swh-dataset/graph/schema.html#
[3] https://softwareheritage.org
[4] https://hal.archives-ouvertes.fr/

#opendata #opensource #opengov
Алексей Лукацкий довольно сдержанно пишет о довольно важной проблеме, российское регулирование отстаёт даже у, казалось бы, неглупых людей в Минцифре РФ. При всей той критике что я в их адрес могу адресовать, я, всё же, несмотря ни на что и вопреки всему, считаю что это тот редкий случай когда люди понимающие в ИТ там есть. Но современное ИТ - это не набор готового ПО на которое у его разработчиков есть все права. Это сложный механизм управления зависимостями (dependency management), отдельная и большая индустрия software and application intelligence и так далее.

Если какой-то продукт сделан без внешних, особенно опенсорсных компонентов, то это или, извините, или "вещь в себе" (например, управление навигацией истребителя или атомной подводной лодкой), или "уникальное произведение искусства" (крайне редкое, всё таки Леонардо да Винчи и другие полиматы это редкость), либо и чаще "кусок устаревшего говна" (устаревшее, неинтегрируемое, никому не нужное ПО).

Да, регулирование зависимостей это куда более сложная задача чем "всё запретить", это требует гораздо более серьёзного разговора с владельцами ИТ продуктов, переговоров с их разработчиками, наличия экспертных центров и тд. и тп. В принципе, системной политики в части разработки ПО, но даже её, даже очень осмысленную, многие разработчики софта проклянут последними словами потому что всё это время все эти зависимости были предметом коммерческой и технической целесообразности.

#opensource #software
Для тех кто задается вопросами о том в чём риски встраиваемых трекеров, большое исследование от цифровой лаборатории ExpressVPN по трекерам использовавших SDK X-Mode [1]

Исследование выявило использование этого трекера в 450 приложениях скачанных совокупно 1.7 миллиардов раз.
Именно с его помощью правительство США следило (а может и следит сейчас) за мусульманскими общинами.

Это сейчас один из главных вызовов для рынка AdTech. Он вырос настолько и создал столь эффективные инструменты коммерческой слежки что уже нельзя говорить о том что "пусть о нас собирают данные, они ведь просто хотят наши деньги". Проблема в том что государства в данном случае могут выступать не только как "этичные регуляторы", но и как неэтичные потребители собираемых данных слежки за собственными гражданами и гражданами других стран.

Ссылки:
[1] https://www.expressvpn.com/digital-security-lab/investigation-xoth

#privacy #xmode #mobile #adtech
Продолжая рефлексию на реакцию на наш доклад о приватности госприложений [1], меня больше всего удивило что нас за него никто не критиковал, потому что поводов для критики хватает и, я не скрою, изначальная задумка у нас была и, в какой-то степени, остаётся больше чем то что было опубликовано. Я обращу внимание на то что за кадром, но то что остаётся важным.

1. Совершенно точно исследование покрывает далеко не все госприложения. Искать их не так просто, либо по сайтам госорганов, либо в Google Play, но в том же Google Play поиск по разработчикам работает не всегда. Например. Поиск не работает по СПБ ГУП "СПБ ИАЦ" [2] вот из этого приложения "Наш Санкт-Петербург" [3], а московский ГКУ Информационный город [4] находит легко. Поэтому, конечно, исследование охватывает далеко не все госприложения и многие новые появятся в этом году.
2. Это исследование включает только/ самый базовый анализ. Того что можно гарантированно подтвердить по наличию кода SDK трекера в приложении. А есть многое что касается передачи данных на сервера разных контрагентов для чего нет SDK или SDK не используется. Самый простой пример - это карты и геокодеры. Например, в Стопкоронавирус.РФ [5] есть вшитый код и библиотек кода Яндекс.Карт, но базово как трекер статическим анализом они не выявляются, потому что формально трекером они не считаются (не находятся в базах Exodus Privacy), но данные туда передаются.
3. Чтобы не говорилось про госприложения в них многократно меньше трекеров чем в топ 100 самых популярных андроид приложений в России. Есть популярные мобильные приложения в которых вшито до 20 трекеров, при том что в госприложениях их 1-3, очень редко больше. Но мы специально не стали давать такого сравнения потому что есть такие важные факторы:
- нормативные органичения у госорганов из-за требований к КИИ и законе о персональных данных;
- в отличие от всех остальных приложений, госприложения монопольны, а некоторые будут предустанавливаться.
- рынок adtech хотя многим и не нравится (и мне тоже не очень то, если честно), но часто российское госрегулирование хуже даже плохих рыночных практик.
4. Создатели госприложений начали играть в обсуфскацию кода. Это когда наименование компонентов программы и тексты классов Java в приложении заменяются и преобразуются так чтобы восстановить исходный код было бы сложнее. Например, всё то же приложение Стопкоронавирус.РФ сделано с обфускацией кода. Учитывая что там нет какой-то сверхзначимой интеллектуальной собственности которую надо защищать и наоборот этот код надо бы раскрывать, то выглядит это подозрительно и как-будто целенаправлено для ограничения декомпиляции приложения общественными исследователями.
5. Почему нет анализа того какой трафик передаётся от приложений? Есть три причины:
а) Это трудоёмкая задача, требующая построения тестового стенда, даже если и виртуального, и довольно много времени на каждое приложение. Автоматическое тестирование приложений даёт только малую часть картины и тут требуется ручная проверка от нескольких дней до пары недель.
б) Многие госприложения работают только после авторизации на госуслугах, что также ограничивает тестирование их функций. Кроме того получается что тот кто тестирует приложения должен быть
в) В отличие от статического анализа, выявления факта передачи данных даёт возможность говорить о фактах передачи данных в третьим лицам и трансграничную передачу данных. Статический анализ говорит что "эй ребята мы тут нашли всякое в вашем приложении что потенциально может вредить пользователям" и даёт возможность разработчикам скорректировать приложение. А выявление факта передачи говорит уже "эй ребята, мы тут нашли что вы сливаете данные куда не надо, вами могут заинтересоваться правоохранители".
Вышел свежий доклад The State of Open Humanitarian Data 2021 [1] от Центра гуманитарных данных при UN OCHA (Управление по координации гуманитарных вопросов ООН) о доступности данных о гуманитарных проблемах в развивающихся странах.

Я регулярно пишу про их проект data.humdata.org как один из лучших порталов открытых данных существующих по модели data for good. Данные они получают не только от структур ООН, но много добровольных пожертвований от крупного бизнеса.

Ссылки:
[1] https://centre.humdata.org/the-state-of-open-humanitarian-data-2021/

#opendata #data #un #humdata
Для тех кто ищет открытые данные, продолжаю регулярную публикацию полезных наборов данных.

База всех участковых России [1] собрана из открытого, но недокументированного API МВД РФ, включает сведения о более чем 47 тысячах участковых и 2 гигабайта с их фотографиями с сайта МВД России.

Данные включают сведения о:
- ФИО
- должности
- местонахождению
- координатах
- времени работы

Когда-то этот набор данных мы собирали в рамках проекта "Открытая полиция", теперь публикуем на портале "Данные НКО'. Его можно использовать в самых разных задачах, от гендерных исследований (сколько женщин работает участковыми), ведомственных (сколько участковых имеют должность полковника полиции?), социальных - сделать мобильные приложения для своего субъекта/задач и так далее.

Ссылки:
[1] https://ngodata.ru/dataset/mvd-districts

#opendata #police
В Bloomberg воскресили историю 2018 года о том что сервера с продуктами SuperMicro содержали инструменты для слежки в пользу Китая [1], на сей раз речь идёт о серверах которые использовались Минобороны США в несекретных сетях. И тут важно вспомнить что в прошлый раз когда эта тема всплывала, её отрицали все - АНБ, Apple, сама компания SuperMicro и тд. [2]. Интересный вопрос возникает, они тогда отчаянно врали, и если да то почему?

Ссылки:
[1] https://www.bloomberg.com/features/2021-supermicro/
[2] https://9to5mac.com/2021/02/12/super-micro-spy-chip-story/

#spying #china #us #supermicro
1-3 марта состоится 52 сессия статкомитета ООН. Она пройдет виртуально и выступления на ней можно будет увидеть онлайн [1], до неё будет несколько дополнительных мероприятий, 17-го и 24-го февраля:
- 17 February 2021 - Second Global Chat on the 52nd session of the Statistical Commission
- 24 February 2021 - High-level event: The COVID-19 pandemic: How the data and statistical community stepped up to the new challenges

Увидеть которые можно там же на сайте UNStat

Ссылки:
[1] https://unstats.un.org/unsd/statcom/52nd-session/

#un #unstats #statistics