Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
В рубрике интересные наборы данных.

В РБК вышла публикация об утечке данных о 1.3 миллионах пользователей Clubhouse [1] со ссылкой на какое-то издание Cybernews. Это пример, конечно, слабой журналистской работы. Да, ссылка на эти данные опубликована на одном из профессиональных форумов, но это ссылка на вполне легальный датасет опубликованный на платформе Kaggle [2] как открытые данные под лицензией Creative Commons. А в наборе данных довольно таки минимальная информация для базового сетевого анализа.

Всё что там есть это следующие поля:
- username
- twitter
- Instagram
- num_followers
- num_following
- time_created
- invitedbyuser_profile

Набор опубликован 3-го апреля и собран с помощью API Clubhouse с помощью программной библиотеки clubhouse-py [3]

Поэтому, конечно, Clubhouse может потребовать убрать этот набор данных из открытого доступа если сочтут что его сбор нарушает их условия использования, но называть это "утечкой данных" - это очень сильно грешить против истины.

Ссылки:
[1] https://www.rbc.ru/technology_and_media/11/04/2021/607267e59a79479abb304045?from=from_main_7
[2] https://www.kaggle.com/johntukey/clubhouse-dataset
[3] https://github.com/stypr/clubhouse-py

#opendata #kaggle #data
April 11, 2021
Коротко про обновлённый "реестр отечественного ПО" [1], в формате "мелких придирок":

1. Раздела "Открытые данные" нет
2. Экспорт реестра в Excel и в XML не работает и давно
3. API для получения данных в JSON нет
4. В записях есть ошибки, в реквизитах, названиях организаций и не только. Пример [2], у организации ИНН 7257777608 не существующий
5. В протоколах заседаний экспертного совета ссылки на приказы из будущего с датой 31.12.2021 [3], см. последнюю страницу.
6. Зачем приказы министра и протоколы эксп. совета публиковать сканами я не понимаю. Это же демонстрация что в министерстве нет электронного документооборота.

Концептуально тоже есть что написать, но это уже про другой жанр и формат.

Ссылки:
[1] https://reestr.digital.gov.ru/reestr/
[2] https://reestr.digital.gov.ru/reestr/303592/
[3] https://reestr.digital.gov.ru/upload/iblock/7b6/%D0%9F%D1%80%D0%BE%D1%82%D0%BE%D0%BA%D0%BE%D0%BB%20220%D0%BF%D1%80%20%D0%BE%D1%82%2019.03.2021.pdf

#it #registry #digital
April 11, 2021
Оказывается Gitpod [1], онлайн редактор кода и среда разработки, получили следующий раунд финансирования в $13 миллионов долларов [2], а в общей сложности это $16 миллионов долларов с их старта в 2019 году [3].

Gitpod - это онлайн замена сервисов разработки таких как Visual Studio, продукты Jetbrains и многие другие, с той особенностью что разработа идёт сразу в облаке и это даёт много возможностей для разработчиков, например:
- быстрое развёртывание рабочего места
- поделиться рабочим местом с коллегой (sharing workspace)
- интеграция со всеми популярными системами управления кодом
- поддержка сразу около 20 языков разработки (впрочем это сейчас все большие IDE обеспечивают).
и ещё довольно множество возможностей

На мой взгляд Gitpod практически идеально подходит для обучения, я не удивлюсь если они сделают специальную Education версию, помимо скидок для студентов. Но и для совместной работы в командах ИТ разработчиках он вполне интересен, попробовать точно стоит, я пока пока не знаю как такой облачный сервис справляется с большими проектами со многими зависимостями.

Gitpod интересен двумя особенностями.
1. Это opensource продукт и SaaS продукт одновременно. Можно пользоваться сервисом онлайн, а можно скачать исходный код и развернуть у себя в компании/университете/лаборатории [4]. Причём исходный код они открыли ещё в середине 2020 года,
2. У создающей его команды длительный бэкграунд в разработке облачных IDE с открытым кодом. Они являются разработчиками Eclipse Theia [5] облачного IDE и Xtext [6], фреймворка по разработке языков программирования.

Переход к облачной разработке - это, можно сказать, продолжение развитие облачной инфраструктуры. Сейчас довольно много облачных IDE - AWS Cloud9, CodeAnythere, GitHub Codespace, а также немало IDE с облачной интеграцией, например Microsoft VS Studio.

Ссылки:
[1] https://www.gitpod.io
[2] https://www.gitpod.io/blog/next-chapter-for-gitpod
[3] https://www.crunchbase.com/organization/gitpod
[4] https://github.com/gitpod-io/gitpod
[5] https://theia-ide.org/
[6] https://www.eclipse.org/Xtext/

#opensource #it
April 12, 2021
В Армении открыли National Open Access Desk (NOAD) [1] проект по открытости науки (open access) помогающий учёным не просто публиковать результаты исследований таких как статьи, публикации и данные, но и интегрировать результаты в общеевропейскую инициативу OpenAIRE [2]. Сама платформа NOAD работает на польском продукте DinGO dLibra [3], а в Армении поддерживается Институтом проблем информатизации и автоматизации.

Ссылки:
[1] https://noad.sci.am
[2] https://explore.openaire.eu/
[3] https://dingo.psnc.pl/

#opendata #openaccess
April 12, 2021
В прошлую пятницу я выступал на конференции по открытости финансов организованной НИФИ при Минфине РФ. Выступал я там, скорее, с экспертной презентацией о том как устроено раскрытие данных о госфинансах в России и в мире. Не знаю будут ли организаторы выкладывать запись, обычно то что я пишу на слайдах это 30-50% дополнения к тому о чём говорю. Если кто-то интересуется этой темой, моя презентация доступна по ссылке [1]

Ссылки:
[1] https://www.beautiful.ai/player/-MY3pm6wz-kYHb1obuzj

#budgets #govfinances
April 12, 2021
Для тех кто интересуется как проверять мобильные приложения на предмет того куда и как они передают данные и как это базово проверять, подборка инструментов:

- Exodus Privacy [1] - набор инструментов и база трекеров от французской НКО Exodus Privacy
- Pithus [2] - инструмент для анализа приложений для Android с удобным интерфейсом. Ограничения: apk файлы не более 65 мегабайт
- Apkpure [3] - сервис для выгрузки APK файлов для телефонов Android
- Mobile Security Framework [4] - инструмент анализа APK файлов, с полностью открытым кодом
- Virustotal [5] - умеет выдавать подробную информацию, в том числе, про APK файлы.
- AppCensus [6] - база данных и консультанты/исследователи разбирающие мобильные приложения и отслеживающие передаваемый ими трафик. Публикуют отчёты об исследованиях, например, австралийских приложений
- AppBrain [7] - большая база собранных метаданных и данных по мобильным приложениям
- AppFollow [8] - сервис мониторинга инсталляций и отзывов о приложениях.

В этому всему есть некоторое количество открытого кода, скриптов и так далее. Если кто-то захочет предметно проверить и сравнить, например, банковские приложения или самые популярные игры или ещё раз проверить госприложения - сделать это не так уж сложно.

Ссылки:
[1] https://exodus-privacy.org
[2] https://beta.pithus.org
[3] https://apkpure.com
[4] https://opensecurity.in
[5] https://virustotal.com
[6] https://www.appcensus.io
[7] https://www.appbrain.com
[8] https://appfollow.io

#privacy #android #mobile
April 12, 2021
April 12, 2021
С 17 по 21 мая пройдёт неделя открытости государств, OpenGovWeek [1], мероприятие Open Government Partnership [2] посвящённое восстановлению доверия граждан, открытости государств, открытости данных, общественному диалогу и так далее. Несмотря на то что Россия в OGP так и не вступила и, судя по последним событиям, скорее всего не вступит, но темы которые там будут обсуждаться справедливы и для нас.

А ключевая тема в снижении доверии граждан из-за антиковидных мер и "отступления от демократии".

Пока в рамках этой недели анонсировано только несколько мероприятий в Канаде, Эстонии, Эквадоре, Румынии и Колумбии, но скоре всего в ближайшие недели их станет значительно больше.

Там нет обязательности в организации мероприятия только в странах OGP, можно и в других. Стоит ли нам провести вебинар или публичную дискуссию в России? Или, как это сделали в Румынии, мини-хакатон?

Ссылки:
[1] https://www.opengovweek.org/
[2] https://www.opengovpartnership.org/

#opendata #opengov
April 13, 2021
April 13, 2021
Продолжая тему про государственные информационные системы, мобильные приложения, передачу данных третьим сторонам. Рассмотрим одно мобильное приложение от Минцифры в подробностях.

Лидеры цифрового развития
Опубликовано в Google Play от Минцифры России [1], последний раз обновлялось 3 октября 2019 года.
В "политике кофиденциальности" указана ссылка на сайт самарской компании Eventicious [2] которая действительно, делает такие приложения для частного рынка и для разного рода госкомпаний по 223-ФЗ [3].

Особенность этих приложений в том что данные хранятся в России на серверах компании Ивентишес и тут возникает вопрос. А какой статус у этого приложения. Оно ГИС или не ГИС? Или оно часть услуги ? Если оно часть услуги, то почему приложение опубликовано от Минцифры РФ, если оно заказано как приложение (кстати, не могу найти контракт), то почему данные не хранятся на серверах Министерства или одного из его подведов?

К этим вопросам добавляется ещё один. В приложениях Eventicious есть код со ссылками на два сервиса за пределами РФ [4]. Это chat-prod.eventic.io с адресом в Ирландии и time.eventicious.com с адресом в Голландии.

А я напомню про наше исследование приватности в государственных мобильных приложениях [5] и ещё раз подчеркну что проблема чаще не в том что данные передаются за рубеж, а в двуличности государственной политики в этой области.

Ссылки:
[1] https://play.google.com/store/apps/details?id=ru.ddl
[2] https://eventicious.com/privacy/#ru
[3] https://clearspending.ru/supplier/inn=6311151902&kpp=631101001
[4] https://beta.pithus.org/report/23bd9b1823cfa48ef9f3ee5abb48f30ec3f5671f22e3059614690915967003c5
[5] https://privacygosmobapps.infoculture.ru/

#privacy #mobile #apps #digital
April 13, 2021
April 14, 2021
Вчера в интервью Росбалту [1] я постарался насколько возможно изложить все опасения по поводу того как данные собираются мобильными приложениям и в чём проблема регулирования/отсутствия регулирования в этой области.

Ох и сложно, конечно, выдерживать конструктивную критику, но я старался как мог.

Ссылки:
[1] https://www.rosbalt.ru/moscow/2021/04/13/1897113.html

#privacy #mobile
April 14, 2021
В рубрике интересные наборы данных слепок всех отчетов кредитных организаций в России о их бенефициарах собранный с сайта Банка России [1]. Формально эти документы называются "Список лиц, под контролем либо значительным влиянием которых находится кредитная организация", их публикует ЦБ РФ на страницах кредитных организаций. Например, на странице Сбербанка на сайте ЦБ [2], но там опубликован только последний файл со схемой, а в этом архиве все изменения за всё время с начала подобной отчетности. Например, код Сбербанка в ЦБ 1481 и в архиве есть документы о структуре бенефициаров с 2015 года.

Вот такой список файлов:
- RB1481_20150814.pdf
- RB1481_20180416.pdf
- RB1481_20190826.pdf
- RB1481_20200413.pdf
- RB1481_20200508.pdf
- RB1481_20200907.pdf
и так по всем кредитным организациям.

Формат наименования документов: RB[кодбанка]_[YYYddmm].pdf , пример RB3535_20200904.pdf

В виду того что данные не являются машиночитаемыми, в первую очередь они могут быть применимы для ручной обработки и для тренировки алгоритмов распознавания именованных сущностей.

Получить список кодов банков можно на сайте ЦБ РФ по ссылке [3].

Не стесняйтесь обратной связи и идей как можно превращать эти PDF документы в машиночитаемые наборы данных.

А мы тем временем начинаем восстанавливать и ре-активировать Хаб открытых данных [4], это один из самых первых порталов открытых данных в России который я когда создавал под брендом OpenGovData (ещё в 2010-2011 годах). В последние годы мы больше усилий положили на общественный портал данных для НКО NGOData [5], но есть много данных которые в тематику НКО не укладываются и они будут появляться на хабе.

Ссылки:
[1] https://hubofdata.ru/dataset/bankbenef
[2] http://www.cbr.ru/banking_sector/credit/coinfo/?id=350000004
[3] http://www.cbr.ru/banking_sector/credit/FullCoList/
[4] http://hubofdata.ru
[5] http://ngodata.ru

#data #opendata #cbr #banking #ownership
April 14, 2021
Open Ownership, проект по разработке стандарта и публикации данных о бенефициарах юридических лиц, опубликовали доклад о применении данных о бенефициарах при процедурах госзаказа Beneficial ownership data in procurement [1]. Об этом же исследовании и его контексте в их блоге [2] и в блоге Data in Government [3] на государственном портале Великобритании gov.uk

Не случайно что эту инициативу упоминают и работают над ней именно в Великобритании. В декабре 2020 года был опубликован документ Transforming public procurement (Green paper) [4] для обсуждения с экспертами и профессионалами. В нём, на 82 страницах текста были изложены вопросы реформы государственного заказа, по итогам года с COVID-19, ситуаций описываемых в документе как "экстремальный кризис" и с необходимостью адаптации процедур государственных расходов под современные технологии и реалии. И вот в этом документе и явным образом есть упоминание на необходимость введения обязательного требования по раскрытию конечных бенефициаров компаний, вплоть до того чтобы это было отсекающим критерием для любой конкурентной процедуры. Не раскрыл сведения о бенефициарах - не можешь получать деньги от государства.

В России практика раскрытия информации о бенефициарных владельцах обязательна только для кредитных организаций, а в госзакупках она отсутствует почти полностью. Плюс к этому в нашей стране слишком много случаев "номинальных владельцев" юридических лиц и эта практика используется не только для сокрытия бенефициарных владельцев при госзакупках, но и чтобы обходить требования закона о госслужбе, к примеру и других ограничениий накладываемых разного рода видами профессиональной деятельности.

При этом, судя по развитию реформ государственного заказа по развитым странам, я бы оценивал высокой вероятность перехода стандартов Open Ownership и Open Contracting [5] в международный статус и постепенное внедрение их в рекомендации ОЭСР, Всемирного банка и иных межгосударственных организаций. Они и так уже есть в рекомендациях OGP и далее вопрос лишь времени в дальнейшем развитии.

Ссылки:
[1] https://www.openownership.org/uploads/OO%20BO%20Data%20in%20Procurement.pdf
[2] https://www.openownership.org/blogs/beneficial-ownership-data-in-procurement-beyond-transparency-and-accountability/
[3] https://dataingovernment.blog.gov.uk/2021/04/08/who-really-benefits-from-uk-business-ownership/
[4] https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/943946/Transforming_public_procurement.pdf
[5] https://www.open-contracting.org/

#opendata #opengov #procurement
April 15, 2021
Ещё один "мелкий нюанс" с новым реестром отечественного ПО [1] - это "гниение ссылок". Ссылки из старого реестра не открываются в новом заменой домена, а также при формировании ссылок в них указывается не номер программы в реестре, а на технический идентифкатор в базе данных. Вот пример: [2], код программы в реестре ПО 10269, а идентификатор в ссылке 330494 (reestr.digital.gov.ru/reestr/330494/). Такое вообще не редкость и бывает когда разработчики изначально не думают о пользователях. Я знаю десятки сайтов органов власти где подобное происходило неоднократно при замене CMS системы или создании нового сайта госоргана/госучреждения.

Эта проблема есть не только у госорганов. Например, в Великобритании достаточно давно, с 2017 года, обсуждают об создании постоянных ссылок для государственных документов [3] и рассматривают DOI в этом качестве. Казалось бы какая очевидная идея и можно было бы применять не только для цифровых документов, но "почему то", такие инновации внедряются с большим трудом и не только в государстве.

Но есть и примеры постоянных ссылок с момента появления организации. W3C имеет W3C URI Persistence Policy [4] с 1999 года и все опубликованные документы W3C всегда доступны по тем ссылкам что они были размещены.

Впрочем, надо отдать должное коллегам из Минцифры, экспорт в XML из реестра, наконец-то, заработал, что, отчасти снимает проблему устаревания ссылок поскольку в экспортированных данных есть уникальные идентификаторы ПО. Но, счастье было бы полным, если бы экспорт в XML содержал _все_ данные по карточкам ПО, например, сейчас не экспортируются код ОГРН владельца ПО.

Кроме того, я напомню, в данных есть ошибки с реквизитами организаций. Сильно меньше чем в других госреестрах, но доли процента записей (около 10 невалидных кодов ИНН).

В любом случае это лучше чем было, теперь реестр можно подвергать автоматическому анализу, как минимум.

Возвращаясь к изначальной теме, вся проблема с устареванием ссылок в реестрах как раз могла бы решаться через уникальные ссылки основанные на уникальном идентификаторе записи присвоенной приказом, а не техническом номере в базе данных.

В остальном же лучше публиковать данные дампами на дату и создавать раздел "Открытые данные" и у этого есть 2 причины:
1. Так просто напросто удобнее в работе с данными которые меняются со временем. Пример похожей модели - это данные ФИАС где регулярные дампы в XML и DBF и всегда можно их сравнить
2. Некоторые криворукие разработчики делают экспорт данных динамическим. Когда таким образом экспортируется от 10 до 100 записей проблем не возникает. Когда идёт экспорт всего реестра - это гарантированный способ положить всю систему DDoS атакой. Кешировать данные для экспорта - это, также, подставка для кривых рук. Регулярные (ежесуточные/еженедельные) дампы и API - это правильное решение.

А в целом реестров в стране десятки тысяч, я давно хочу написать что я думаю по тому как они должны быть/могли бы быть организованы уже в виде концептуального документа.

Ссылки:
[1] http://reestr.digital.gov.ru
[2] https://reestr.digital.gov.ru/reestr/330494/
[3] https://github.com/alphagov/open-standards/issues/75
[4] https://www.w3.org/Consortium/Persistence

#opendata #digital #registries
April 15, 2021
В рубрике интересных наборов данных, база монетарных мер центральных банков в исследовательской статье A global database on central banks' monetary responses to Covid-19 [1] и в виде Excel файла [2]. Материалы опубликованы на сайте банка международных расчётов (BIS) и является результатом мониторинга реакции центральных банков в виде 900 зарегистрированных событий от 39 банков.

Банка России нет в этом списке, но много других есть и сама база полезна для исследователям COVID-19 и реакции на него.

Ссылки:
[1] https://www.bis.org/publ/work934.htm
[2] https://www.bis.org/publ/work934_data.xlsx

#opendata #datasets
April 15, 2021
Я не люблю комментировать политику и политические решения, но, конечно, по поводу последних санкций США против нескольких не самых больших и известных российских ИТ компаний могут показаться довольно странными. Не крупнейшие компании, не так много взаимодействующие с контрагентами за рубежом, ну и ещё немало вопросов. Вот и в MIT Technology Review пишут об этом [1], несколько раз упоминая Kaspersky (Лаборатория Касперского) и упоминая их предыдущий инцидент в США и работу с правительствами многих стран. Намёк более чем прозрачен и похоже что эти санкции в США специально проведены по модели "давайте вломим по не самым важным и крупным, чтобы остальные заполошились и побежали договариваться". Так часто делают, во многих делах, меры против не самых крупных лоббистов принимаются не по причине их веса, а чтобы "открыть кассовую комнату" куда побегут лоббисты и нанятые GR специалисты.

Хуже то что власти в США реально могут похоронить ИТ бизнес/ИТ рынок в России не только через санкции на компании, но и через запрет участие российским компаниям в технологических экосистемах в их юрисдикции. Это всё достаточно серьёзно и, честно говоря, я не понимаю что с этим можно будет сделать потому что госполитика в части поддержки российского бизнес/цифровых платформ была, если честно, хреноватая.

Больше всего у меня вызывает опасения что если США наложат санкции на крупнейшие российские цифровых холдинги, то российская модель развития Интернета и рынков связанных с цифровой пойдёт по пути буквальной чоболизации, официальной и законодательно закреплённой отдаче отдельных рынков в монополии корпораций доходы которой резко просядут.

Не хочется, конечно, "кассандрить" раньше времени, но я бы не исключал и удерживал в голове такой сценарий развития до конца этого года.

Ссылки:
[1] https://www.technologyreview.com/2021/04/15/1022895/us-sanctions-russia-positive-hacking/

#digital
April 16, 2021
Обновилась документация, появился новый портал с документацией [1], по проекту Frictionless Data. Теперь там довольно удобно собраны примеры, описания и руководства по работе с этим фреймворком. Лично я уделяю ему столько внимания потому что на сегодняшний день - это одна из наиболее продуманных инициатив с открытым кодом по стандартизации наборов данных.

Альтернативы ему, или коммерческие, с централизованными реестрами/репозиториями такими как QRI, или узкоспециализированные под академическую работу - RO-CRATE или под архивацию цифровых объектов такие как BagIt.

Но, конечно, есть и множество альтернатив: DataCrate [2], BioCompute [3], стандарты RDA [4], стандарты Force11 [5], CodeMeta [6] и многочисленные стандарты публикации данных и метаданных используемые на национальном уровне и в рамках отдельных отраслей (биоинформатика, лингвистика и тд).

Впрочем большая часть стандартов, всё же, про научную сферу, а Frictionless Data про общепринятую. Ещё год-два и публиковать данные в виде "голого" CSV или XML файла будет неприличным. Упакованные данные куда ценнее и пригоднее к работе.

Ссылки:
[1] https://framework.frictionlessdata.io
[2] https://github.com/UTS-eResearch/datacrate
[3] https://github.com/biocompute-objects/BCO_Specification
[4] https://rd-alliance.org/
[5] https://www.force11.org/
[6] https://codemeta.github.io/

#opendata #data #standards
April 16, 2021
The Verge пишет о запрете в Евросоюзе на применение ИИ для массовой слежки и систем социальных кредитов [1]. Причём, ожидаемо, новое регулирование будет экстерриториальным, с оборотными штрафами и прочими подходами уже опробованными в GDPR. Подробнее об этом в материалах Politico [2], которые и раздобыли черновик регулирования.

Это регулирование сильно отличается от того что происходит в этой теме в США или в Китае, много аргументов про инновации и не только.

Если говорить про экономику, да, такие ограничения сдержат часть инноваций. Но если говорить про смысл, то не все инновации одинаково полезны. Можно приравнять ИИ в массовой слежке к опытом на людях. Да, запрет опытов над людьми тоже сдерживает инновации, но может оно и неплохо?

Ссылки:
[1] https://www.theverge.com/2021/4/14/22383301/eu-ai-regulation-draft-leak-surveillance-social-credit
[2] https://www.politico.eu/article/europe-strict-rules-artificial-intelligence/

#ai #data #regulation #eu
April 18, 2021
В 2020 году в России было зарегистрировано 605.5 тысяч ИП и ликвидировано 947.5 тысяч ИП, зарегистрировано 232.1 тысячи юридических лиц и ликвидировано 545.6 тысяч юридических лиц. Это наибольшее число ликвидаций ИП с 2012 года, наименьшее число регистраций ИП с 2014 года и наименьшее число регистраций юридических лиц с 2012 года.

Причин может быть множество:
- снижение деловой активности на время COVID-19
- ухудшение экономической ситуации
- ограниченный режим регистрации ИП и юридических лиц и ограничения в сроках приёма в налоговых органов
А может быть и что-то ещё.

В рубрике "полезные наборы данных", актуализированный набор данных временных рядов налоговой статистики [1] регистрации юр. лиц и индивидуальных предпринимателей.
Набор данных включает:
- данные статистики по субъектам федерации в виде временных рядов
- данные статистики по субъектам федерации по годам и индикаторам
- данные статистики по Российской Федерации (агрегировано)
- первичные данные с сайта ФНС России в формате Excel файлов
- исходный код для обработки Excel файлов и генерации файлов статистики

С помощью примера исходного кода можно извлечь и другую статистику, например, по видам юр. лиц, детальные цифры по которым тоже есть в статистических формах ФНС России.

Объём данных небольшой, но полезный в рамках исследований по COVID-19 и деловой активности в принципе.

Ссылки:
[1] https://hubofdata.ru/dataset/nalogstats-timeseries

#opendata #datasets #statistics
April 19, 2021
April 19, 2021