Ivan Begtin
8.08K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Главная беда с открытостью данных в России не в низком уровне открытости, а в тенденции её уменьшить в последние годы. Я лишь приведу несколько значимых примеров:
- в 2019 году официально закрыт портал открытых данных Московской области [1]. Система АИСОД выведена из эксплуатации.
- в 2021 году закрыт портал открытых данных Санкт-Петербурга. Он без анонса объединён с порталом классификаторов [2]. При том что, конечно же, классификаторы - это подвид открытых данных, а не наоборот.
- в Республике Кабардино-Балкарии портал открытых данных был выведен из эксплуатации в 2019 году и, хотя его обещали запустить, но он по прежнему недоступен [3]
- у некоторых субъектов Российской Федерации порталов открытых данных никогда и не существовало, примеры: Республика Дагестан, Республика Северная Осетия, Брянская область, Псковская область. Некоторые данные публикуются на ряде сайтов РОИВов
- в большинстве случаев федеральных инициатив про данные и иных форм обязательств открытые данные не упоминаются. Например, никакого упоминания открытых данных есть в НСУД [4] (Национальная система управления даными) или в ведомственных программах цифровой трансформации.
- ожидания у пользователей снижаются, большинство считает что ситуация с открытыми данными становится хуже [5]
- и, конечно, качество данных в среднем от плохого к очень плохому. Данные не актуализируются, содержат неверные сведения, инструменты их публикации не имеют обратной связи, диалога с разработчиками нет и ещё многое другое.

К чему это всё? В этом году мы проведем такой обзор и мониторинг с акцентом на регионы и представим результаты реальной картины происходящего.

Ссылки:
[1] https://mits.mosreg.ru/download/document/4267260
[2] https://classif.gov.spb.ru
[3] https://pravitelstvo.kbr.ru/opendata/
[4] http://nsud.info.gov.ru/
[5] https://habr.com/ru/company/infoculture/blog/562076/

#opendata #opengov #russia
Роскомнадзор предложил легализовать просмотр порно для прошедших вакцинацию от коронавируса. (c) народное творчество

А если ещё более несерьёзно о серьёзном, то инициатива авторизовывать россиян желающих просмотреть порнографию, через Госуслуги [1], конечно же, прекрасный памятник нашей сюрреалистичной эпохе. Я к нему могу добавить сразу несколько дополнений:
- создать реестр отечественных производителей порно контента и обеспечить им дополнительные преимущества. Иначе говоря импортозамещение должно быть важным приоритетом развития отечественной порноиндустрии
- конечно же важно помнить что порнографические сайты - это ещё и социальные сети, их локализация на территории России совершенно необходима
- государство должно обеспечить социальную доступность услуг, включив в систему социального обслуживания населения карточки на порно для маломобильных граждан и социально уязвимых групп
- создать госкорпорацию РосПорноТехнологии и передать ей в оперативное управление архивы трафика созданные телеком провайдерами для исполнения "закона Яровой" (это же крупнейший порно архив, включая платный контент)

Ссылки:
[1] https://ria.ru/20210616/porno-1737236234.html

#rosgosporn
В Швейцарии на портале открытых данных появился новый раздел Evidat [1] на котором Swiss Federal Institute for Forest Snow and Landscape Research WSL (исследовательский центр леса, снега и территорий) [2] публикует данные собственных исследований.

Изначально эти данные публиковались и публикуются на одноимённом портале Envidat.ch [3], но как данные доступные только исследователям, а теперь они стали открытыми данными. Можно обратить внимание на стратегии доступа к открытым данным в Европе и США в том чтобы выгружать на порталы открытых данных наборы данных из репозиториев ограниченного доступа. В первую очередь репозиториев исследователей.

Много ли таких репозиториев в России, спросите Вы? Да, много. Сотни и тысячи репозиториев научных учреждений и институтов. Публикуются ли их данные? Нет, не публикуются. Инвентаризируются ли они? Нет, давно не инвентаризируются

Ссылки:
[1] https://opendata.swiss/de/organization/wsl
[2] https://www.wsl.ch/en/index.html
[3] https://www.envidat.ch
В Коммерсанте статья о том Минэкономразвития РФ раскритиковали текущую модель предустановки отечественного ПО [1] поскольку это создаёт дискриминационные условия другим российским разработчикам и, честно говоря, я с этим абсолютно согласен.

Честно говоря я считаю что единственно допустимые модели вмешательства государства тут только в двух возможных решениях:
1) Запрет на предустановку любого ПО и запрет на невозможность удаления любого ПО. Неважно западное это ПО или российское - любое ПО должно иметь возможность удаления, впрочем это и так реализуют или сделают крупнейшие апп сторы.
2) Создание каталога ПО по категориям с пометкой "Проверено Минцифрой". Если уж Минцифра берёт на себя ответственность за то что у нас стоит на телефонах и тд. то пусть и сделают каталог и по каждой категории несколько приложений разных игроков, а не только сверх-крупный-монопольный-бизнес.

Ссылки:
[1] https://www.kommersant.ru/doc/4858731

#mobile #apps #regulation
Весьма интересное исследование "Serving the Citizens—Not the Bureaucracy" [1] от Sascha Haselmayer о том как реформировать городские закупки. В цифрах закупки городов - это $6.4 триллиона или 8% ВВП и текст посвящён тому как сделать их приличными.

Документ полезный для понимания о том "как там у них" и сравнить с тем "как тут у нас". От российских реалий он далёк, но к тому как можно организовать закупки-здорового-человека интересен.

Ссылки:
[1] https://www.thechicagocouncil.org/research/report/serving-citizens-not-bureaucracy

#procurement
Дорогие сотрудники, класть туалетную бумагу вместе с жёваными газетами и наждачной бумагой мы приняли в целях оптимизации затрат на их хранение (с).

А если серьёзно, то, конечно, очень странное решение Комитета информатизации Санкт-Петербурга. Оптимизация - это понятно, непонятно её направление.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Получила ответ о причинах отказа от портала открытых данных СПб (https://yangx.top/ahminfin/397)от Комитета по информатизации и связи Санкт-Петербурга о том, что порталы были объединены для оптимизации затрат на сопровождение информационных систем. Причина понятна, но она не объясняет нелогичность объединения, т.к. открытые данные частью классификаторов не могут быть, а вот наоборот - вполне.

Ответило Правительство СПб через ВКонтакте чуть больше чем за сутки (с учетом необходимости получения ответа от Комитета, отличный результат). Продолжу поиск логики уже через обращения.

Кстати, подписчики подсказывают, что и на сайте Электронного атласа сломалась выгрузка данных (https://geoclass.gov.spb.ru/?map=1/11/30.333595/59.936096/0/).
Под вечер пятницы разбавлю регулярные новости рассуждениями.

Я тут было думал поругаться в адрес разного рода докладов и исследований, но понял что на каждый ругаться невозможно, времени не напасёшься на содержательные отзывы. Поэтому я поделюсь личной болью которую я ощущаю когда читаю некоторые (частые) документы отраслевого анализа.

И начну с нескольких тезисов:
1. Есть условные 3 подхода к анализу какой-то отрасли/проблемы/новой технологии.
1.1. Первый - академический, с попыткой соблюдения научной достоверности, ссылками и так далее. Обычно его придерживаются полноценные исследовательские центры .
1.2. Второй - консультативный. Многочисленные консультанты пишут тексты где достаточно смысла чтобы их читали и хотели подробностей, но недостаточно чтобы сделать выводы. Цель - продажа услуг, вполне понятная.
1.3. Экспертно/коммерческий - когда есть компании в отрасли и от них напрямую, их групп или ассоциаций готовится аналитика. Опять же модель понятная - повлиять на регуляторов и продвинуть свои продукты/компетенции
2. Конечно, реальность чуть сложнее, но основные направления эти три.
3. "Нюансы" возникают при смешении жанров. Если доклад пишут консультанты, исследователи и представители бизнеса вместе, то это не добавляет ему репутации/веса, а скорее лишает. Такие исследования оказываются несбалансированными, с очень разным качеством разных частей. Потому что интересы разных авторов разные.
4. Более глубокая проблема в конфликтах интересов. При смешении авторского состава лоббисты перемешиваются с исследователями и часто указываются не от их бизнес интересов. В таких исследованиях деклараций конфликтов интересов нет и они легко вводят в заблуждение читателя, предполагающего по знакомым авторам-исследователям что это исследовательский продукт.
5. Но это не так, смешение профессиональных авторов и "молодых исследователей" или лоббистов или статусных авторов или иных не имеющих к данной теме лиц - это инструмент легализации "экспертов". Создание экспертной видимости для людей не имеющих реального опыта, знаний и компетенций.
6. Таких докладов немало, не один, не два, это довольно популярный жанр в России, хорошо воспринимаемый некоторыми "высокими начальниками"
7. При этом нет ничего урного в исследованиях от коммерческих компаний. Более того они часто бывают хорошо подготовлены, а их эксперты обладают реальным опытом. Но для читающих их лиц принимающих решения в голове всегда есть пометка о коммерческой стороне лоббируемых интересов.
8. Смешение научного, коммерческого (да и консультативного) - это такой способ легализации знания с изначально заложенными конфликтами интересов.

Лично я считаю что незадекларированные конфликты интересов в исследованиях, публикация их от организаций "пустышек" или с непрозрачным финансированием - это, конечно, противоречит этике любой профессиональной экспертной работы.

Как-нибудь я постараюсь изложить всё это более подробно, а пока вот в такой краткой форме.

#studies #thoughts
О том как устроена работа с открытым кодом у Правительства Италии. В Италии есть большое сообщество open source разработчиков работающих на государство и публикующих исходный код. В аккаунте italia [1] на Github собраны их проекты и большой обзор сделанного в репозитории awesome-italia [2]. Например, там есть ещё и список наиболее интересных итальянских открытых данных Awesome Italian public datasets [3]

Но эта группа не единственная, практика раскрытия исходного кода в Италии есть у разных групп государственных разработчиков. Они все объединены на портале Developers Italia [4] где, в том числе, есть открытый каталог ПО созданного по заказу итальянских органов власти и публикуемых с открытым кодом. Оно называется Software A Riuso[5] (повторно используемо ПО).

Сейчас там 172 продукта о которых можно сказать следующее:
- для всех из них указаны: адрес публикации кода, ссылка на документацию, контакты и "оценка жизненности" (Vitalita)
- каждый проект проходит проверку на соответствие (комплаенс) для GDPR, руководству по дизайну [6], минимальным требованиям безопасности [7] и ещё ряду других
- большая часть кода опубликована на Github и в ряде случаев на экземплярах Gitlab органов власти. Всё в открытом доступе
- код раскрывается разработчиками в рамках контракта с органом власти или передаётся в Итальянское цифровое агентство (AGiD) [8] и раскрывается ими на их Github аккаунте
- для того чтобы формирование каталога было автоматизировано, в каждом репозитории разработчики создают файл publiccode.yml (пример [9]) в котором заполняют все необходимые метаданные. Кстати, разработчики оформили заполнение этого файла в стандарт [10] и сделали онлайн редактор [11]

В Италии удалось построить активное сообщество с открытым кодом, удаётся публиковать довольно много кода госпроектов онлайн, хорошо документировать свою работу и ещё многое другое. Это хороший пример на то чтобы обратить внимание как подобное может быть организовано в других странах.

Ссылки:
[1] https://github.com/italia/
[2] https://github.com/italia/awesome-italia
[3] https://github.com/italia/awesome-italian-public-datasets
[4] https://developers.italia.it/
[5] https://developers.italia.it/it/search?type=software_reuse&sort_by=relevance&page=0
[6] https://developers.italia.it/it/software/agid-agid-wai-portal
[7] https://www.agid.gov.it/it/sicurezza/misure-minime-sicurezza-ict
[8] https://www.agid.gov.it/
[9] https://github.com/Comune-Milano/ModelloDigitalizzazione/blob/main/publiccode.yml
[10] https://github.com/publiccodeyml/publiccode.yml
[11] https://publiccode-editor.developers.italia.it/

#opensource #government
Свежее исследование Tasks, Automation, and the Rise in US Wage Inequality [1] о том как в США за последние 40 лет снижалась средняя зарплата у групп работников в области рутинных типовых функций. Анализ охватывает с 1980 по 2016 год и возможен только благодаря тому что в США раскрываются подробнейшие сведения по группам населения при переписи и доступна статистика занятости.

Важнее подтверждённые выводы о том что зарплаты людей выполняющих типовую работу снижаются, одновременно с автоматизацией их работы.

Ссылки:
[1] https://www.nber.org/papers/w28920

#robotics #statistics
На следующей и через неделю мы от Ассоциации участников рынка данных и Инфокультуры проводим две экспертные сессии о том как бизнес предоставляет данные НКО, исследователям и госорганам для решения социальных проблем (пандемии, катастрофы, преступность, экология, длительность жизни, бедность) и так далее. И как исследователи, НКО, государственные органы используют эти данные или могли бы использовать.

Состав уже довольно представительный и содержательный, будет речь о том как это происходит в мире, какую пользу приносит и какова мотивация всех участнков.

Ещё есть время в программе, поэтому если есть те готовы не просто послушать, а ещё и рассказать о своём опыте с любой из этих сторон, пишите мне на [email protected] или в телеграм @ibegtin. Нужны подробности: какую организацию представляете, ФИО и краткие тезисы на 10-15 минут.

Мероприятия пройдут 25-го и 29-го июня. Их результаты пойдут в разработку модели коммуникации бизнеса и исследователей, НКО и государства.

В течение года мы ещё вернёмся к этой теме на более широко, открыто, с большими панелями на больших конференциях, а сейчас это именно экспертные встречи на 2-3 часа.

Также предварительный анонс - от АУРД мы будем проводить серию мероприятий до конца года. По тематикам: - государственные данные в региональном/муниципальном разрезе
- персональные данные и рынок обмена
- открытые данные по отраслям/территориям
- доступ к государственным информационным системам

и ещё по ряду направлений.

Что-то будет только онлайн, что-то в гибридном формате.

Если у Вас есть предложения по мероприятиям, готовность выступить с интересной историей и тд. пишите мне также на [email protected]

И напоминаю что АУРД - это ассоциация участников рынка данных, в ассоциацию входят представители бизнеса, НКО и университетов. Для некоммерческих организаций и университетов/образовательных организаций членство в ассоциации бесплатно, для бизнеса оно настолько велико что можно вступать без зазрения совести.

#data #opendata #events
В блоге Amazon текст How the cloud is helping us better understand and manage the oceans [1], о том как Amazon предоставляет свою инфраструктуру для крупных исследовательских проектов на данных и про их инициативу The Amazon Sustainability Data Initiative (ASDI) [2] когда Amazon выдает свои ресурсы в виде грантов и иной формы помощи проектам по исследованиям окружающей среды, включающим очень большие объёмы данных.

Многие из этих данных опубликованы в реестре больших наборов данных Amazon'а [3], трудно даже измерить их реальный объём. Но, тем самым, мы приходим к двум важным изменениям:
1. Очень скоро большая часть data-rich исследований переместится в облака и всё больше решений для учёных будет публиковаться именно там.
2. За счёт ADI и не только Amazon стремительно движется в сторону инфраструктурной монополии на некоторые типы данных. В определенный момент окажется что если хочешь вести исследования в какой-то теме, то у тебя и выбора особо нет, другие способы будут сильно дороже.

В России нет ничего подобного, я знаю немало общественных проектов с очень большими наборами данных которым проще разместить их в Amazon, Google, Azure, Github и других площадках чем где-либо в России, потому что в России нет возможности хранить бесплатно большие объёмы.

Ссылки:
[1] https://aws.amazon.com/ru/blogs/publicsector/how-cloud-helping-us-better-understand-manage-oceans/
[2] https://sustainability.aboutamazon.com/environment/the-cloud/asdi
[3] https://registry.opendata.aws/collab/asdi/

#opendata #amazon #environment #datasets
Хуже утечек персональных данных у российских госорганов - это сотрудники органов власти и госучреждений публикующих списки людей с их паспортными данными, адресами, номерами СНИЛС и так далее в открытом доступе.

Вот к примеру в одном из муниципальных районов официально выложен на сайте "СПИСОК ГРАЖДАН СОСТОЯЩИХ НА УЧЁТЕ В КАЧЕСТВЕ НУЖДАЮЩИХСЯ В ЖИЛЫХ ПОМЕЩЕНИЯХ, ПРЕДОСТАВЛЯЕМЫХ ПО ДОГОВОРАМ СОЦИАЛЬНОГО НАЙМА" в виде Excel файла.

В других случаях выложены договоры, паспортные данные ИП получившего лицензию на транспортные перевозки или граждан получающих социальные выплаты из муниципального бюджета или победителей спортивных соревнований.

Мало в каких странах в таких объёмах требуют персональные данные гражданина и одновременно так халатно к этому относятся.

#privacy #personaldata
Я приведу всё же ещё несколько ещё более конкретных примеров в качестве иллюстрации.

Реестры требований кредиторов также бывают в открытом доступе что можно увидеть своими глазами на примере сайта союза «Межрегиональный центр арбитражных управляющих» [1].

У сайта неактуальный сертификат, не скачиваются часть документов, но среди тех что доступны есть подробные файлы отчетов арбитражных управляющих и реестры кредиторов. В некоторых реестрах кредиторов только юр. лица, но во многих есть списки работников перед которыми не закрыты трудовые обязательства, вот к примеру [2].

Или вот пример как Департамент строительства и транспорта Белгородской области публикует реестры пострадавших граждан при долевом строительстве [3]. Видимо полагают что граждане пострадали недостаточно.

В аналогичном реестре в Республике Марий-Эл нет полных ФИО и паспортных данных [4], а в ростовской области только ФИО без иной идентифицирующей информации [5] и в Ленинградской области реестр вообще даже без ФИО [6]

В других регионах такие реестры просто не общедоступны.

Можно обратить внимание что часто объектами раскрытия данных являются не преступники, не те кто был уведомлен что их данные опубликуют, а рядовые граждане, виктимизируемые лишь тем что госорганы и иные организации в одностороннем порядке решили разместить их данные в открытом доступе.

А я не перестаю напоминать что это массовое явление за пределами фокуса интереса Роскомнадзора.

Ссылки:
[1] http://npmcau.ru
[2] http://www.npmcau.ru/upload/debsfiles/MAT_000000059_000001123_RTK%20Khitrinoy%20V.D..doc
[3] http://www.belgorodstroy.ru/media/uploads/%D0%A0%D0%95%D0%95%D0%A1%D0%A2%D0%A0_%D0%9F%D0%9E%D0%A1%D0%A2%D0%A0%D0%90%D0%94%D0%90%D0%92%D0%A8%D0%98%D0%A5_%D0%93%D0%A0%D0%90%D0%96%D0%94%D0%90%D0%9D_%D0%BD%D0%B0_%D1%81%D0%B0%D0%B9%D1%82.xls
[4] http://mari-el.gov.ru/minstroy/DocLib52/171123_01.xls
[5] http://www.bldnadz.donland.ru/Data/Sites/42/media/%D1%80%D0%B5%D0%B5%D1%81%D1%82%D1%80%D0%B3%D1%80%D0%B0%D0%B6%D0%B4%D0%B0%D0%BD/%D1%80%D0%B5%D0%B5%D1%81%D1%82%D1%80_%D0%B3%D1%80%D0%B0%D0%B6%D0%B4%D0%B0%D0%BD_%D0%B4%D0%BB%D1%8F_%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%BE%D0%B3%D0%BE_%D0%B4%D0%BE%D1%81%D1%82%D1%83%D0%BF%D0%B0_22.02.2019.xls
[6] http://expert.lenobl.ru/media/content/docs/6833/%D0%A0%D0%B5%D0%B5%D1%81%D1%82%D1%80%20%D0%B3%D1%80%D0%B0%D0%B6%D0%B4%D0%B0%D0%BD%2C%20%D0%BD%D0%B0%2001.10.2018.xls

#privacy #PersonalData
Кто-нибудь может поделиться во сколько Яндексу обошлась эта рекламная кампания и где можно найти ценник? Может я тоже хочу москвичам рекламных баллов раздать, знать бы условия, сколько там по деньгам, с кем разговаривать, на какие статьи КБК переводить, кто контролирует эти доходы в городской бюджет... простите увлёкся. В общем интересный кейс крупного онлайн ритейлера и его маркетинговых кампаний.
OpenLineage [1] - это относительно новый стандарт прослеживаемости данных, введенный в оборот в январе 2021 года и развиваемый The Linux Foundation в привязке к Apache Airflow и Apache Spark.

Основная идея в стандартизированном API для запуска задач, хранения данных, доступа к SQL и в том чтобы все это охватывалось универсальными метаданными.

Много подробностей в репозитории стандарта [2] и примеры продуктов таких как Marquez и Egeria которые OpenLineage поддерживают.

Ссылки:
[1] https://openlineage.io/
[2] https://github.com/OpenLineage/OpenLineage

#data #datapipelines #metadata
не могу подобрать комментарий
Роботы, роботы... Тысячи индусов у камер наблюдения и отслеживание работы сотрудников магазинов и ограблений. В Vice статья о Live Eye [1], компании которая подключает магазины к системе наблюдения за сотрудниками и сотрудники в конце дня отчитываются о всех действиях на камеру. А также там же про пример того как удалённый наблюдающий из динамиков угрожает вызвать полицию во время ограбления.

Статья скорее осуждающая, и я согласен в том что такая слежка 24/7 некомфортна для работников. Но каким будет её развитие? То же самое будут делать алгоритмы, автоматически определяющие что идёт ограбление магазина или иная экстренная ситуация.

Ссылки:
[1] https://www.vice.com/en/article/4avnnn/a-cctv-company-is-paying-remote-workers-in-india-to-yell-at-armed-robbers

#tech #surveillance
Сегодня с 12 часов модерирую круглый стол на ЦИПР
.
Ссылка на трансляцию 12:00 -13:30 “Экономика данных. Цифровое ускорение глобального сотрудничества”: https://youtu.be/H3NFpg040Ek

#data #datamarkets
Вышел доклад AI Watch - National strategies on Artificial Intelligence: A European perspective, 2021 edition [1] о инициативах ИИ в странах Евросоюза на основе базы данных EC-OECD.

Интересного там немало и, конечно же, практически все инициативы пересекаются с рынком данных на котором основан рынок ИИ.

Прямая ссылка на доклад [2]

Ссылки:
[1] https://publications.jrc.ec.europa.eu/repository/handle/JRC122684
[2] https://publications.jrc.ec.europa.eu/repository/bitstream/JRC122684/ai_watch_report_national_ai_strategies.pdf

#data #eu #regulation
В рубрике интересные наборы данных полный слепок данных с портала открытых данных Минкультуры России [1]. Всего 63 набора данных общим объёмом в архивной виде в 15.8 гигабайт, в формате JSON. Описание на хабе открытых данных [2].

Наибольший объём в архиве у госкаталога музейного фонда [3].

Зачем создан архив?
1) Для долгосрочного сохранения в виду частичного ухода команды в Минкультуры отвечавшей за открытость данных. На случай если они начнут исчезать с портала данных Минкультуры РФ.
2) Для возможности удобной выгрузки данных автоматизировано - достаточно взять значения из csv или json файла списка, добавить расширение .zip и выкачать по прямым ссылкам
3) Архивы каждого набора данных включают все версии набора данных и можно отследить изменения если есть такое желание.

Если Вы знаете наборы данных которые могут исчезнуть, находятся в зоне риска и тд. то пишите мне, они будут включены в план архивации и сохранены.

Ссылки:
[1] https://opendata.mkrf.ru
[2] https://hubofdata.ru/dataset/opendatamkrfru-archive
[3] https://cdn.ruarxive.org/public/datacollect/opendata.mkrf.ru/packages/7705851331-museum-exhibits.zip

#opendata #opengov #datasets