Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Сразу 2 новости об ОФД, хорошая и не очень.

Хорошая
1-ОФД выложили открытый код [1] их BigData analytics platform: Yupana
Лично я ещё не пробовал, но любой хороший и открытый продукт по анализу данных всегда найдет применение. Что радует - создатели дают подробное описание и много примеров

Не очень хорошая
У ОФД "Дримкас" [2] утекло 14 миллионов записей и, признаться, реакция этого ОФД на событие необоснованно вялая. Будем надеяться что все ОФД проведут ревизию мер обеспечения безопасности.

Ссылки:
[1] https://github.com/rusexpertiza-llc/yupana
[2] https://iz.ru/921673/vadim-arapov/ushli-iz-bazy-v-set-utekli-14-mln-zapisei-kompanii-i-pokupatelei

#data #dataleaks #leaks
После Мосфинфорума раза 3 пытался написать что не так с текущей системой госзаказа в России и никак не получается. Я об этом и так уже столько лет писал что просто сложно даже начать большой текст потому что заранее знаешь что в него всё не поместится.

Я напишу кратко текущие тренды:
- имитация конкуренции вызванная борьбой за конкуренцию
- имитация противодействия коррупции вызванная борьбой за противодействие коррупции
- ускорение депрофессионализация участников рынка вызванная давлением силовиков, невозможностью быть на рынке без выстроенных отношений с госзаказчиками
- абсолютная ориентация на процессы и их цифровизацию в ущерб смыслу, экономике и целеполаганию
- перевод всего связанного с процессами в электронную форму, даже при отсутствии финансово-экономического обоснования
- практически полное отсутствие контроля за результатам
- сверх-централизация регуляторных и контрольных полномочий у федеральной исполнительной власти
- противостояние между госкорпорациями и госкомпаниями против регуляторов в переводе 223-ФЗ под 44-ФЗ
- отсутствие стейкхолдеров представляющих граждан
- отсутствие стейкхолдеров представляющих субъекты и муниципалитеты
- отсутствие стейкхолдеров представляющих малый и средний бизнес (реальных стейкхолдеров, а не формально заявленных)
- усиление изоляционных тенденций в субъектах федерации (деньги по госзаказу идут преимущественно местным поставщикам)
- недостоверная аналитика связанная отсутствием контроля за качеством данных в ЕИС
- снижение открытости на фоне удаления информация о компаниях под санкциями из открытого доступа

Всё это, конечно, сугубо моё личное мнение и наблюдения последних лет.
На правах не рекламы, но объявления

Центр руководителей цифровой трансформации ВШГУ РАНХиГС планирует в 2020 году провести ряд исследований, связанных с применением дата-технологий в госуправлении. Чтобы эти исследования были полезны российскому сообществу специалистов по данным, мы хотим узнать, какие темы исследований были бы вам интересны. Если у Вас есть какие-то области интереса и пожелания по темам, мы будем за них очень признательны. Также мы открыты к сотрудничеству по проведению самих исследований.

Контакты: Потапова Екатерина, [email protected] TG: @Ekgeomar

Иначе говоря - если у Вас есть идеи того в каком направлении необходимо исследовать данные в госуправлении, то обязательно напишите Екатерине.
Тем временем утечки персональных данных на уровне стран перестают быть редкостью. В Эквадоре произошла утечка базы в 20.8 миллиона жителей (большинство жителей страны) [1] из-за некорректно настроенной базы Elastic Search. Можно сказать что это уже какое-то массовое бедствие в мире когда NoSQL базы данных MongoDB или ElasticSearch настраивают так что они оказываются общедоступными и утекают данные о миллионах людей.

И нельзя сказать что системно предпринимаются хоть какие-то шаги чтобы этого избежать.

Ссылки:
[1] https://www.zdnet.com/article/database-leaks-data-on-most-of-ecuadors-citizens-including-6-7-million-children/

#dataleaks #data #equador
Хочется писать про доброе, светлое и открытые данные, но на повестке куда более прозаические события вроде утечки данных о сетях связи, проектах и СОРМе в инфраструктуре МТС [1]. Всё это утекло через открытый rsync сервер о котором и пишет компания UpGuard.

Всё это о том что сейчас с сервисами мониторинга нескольких компаний которые регулярно сами сканируют сети или же пользуются Censys, Shodan и рядом других их менее известных аналогов, даже если администратор какой-то сети открывает доступ к нему на сутки, очень велика вероятность что этот сервис будет найдет и из него всё будет скачано.

Иначе говоря - параноидальность в защите данных никому не повредит. И отдельно я хочу сказать про обеспечение безопасности в органах власти. Массовое использование сотрудниками бесплатной почты, Dropbox'а, Яндекс.Диска и всего остального используемого для пересылки внутренних документов - может ещё ох как аукнуться. И не потому что эти сервисы нельзя использовать в корпоративных целях, а потому что их используют для преодоления ограничений как правило, довольно архаичных требований безопасности.

Возвращаясь к утечки из МТС - это само по себе, с одной стороны, интересно - всё таки материал о том как следят за россиянами и где и как СОРМ установлен. А с другой стороны более чем тревожно. Если подобные сведения утекают, то что же говорить об остальном?

Ссылки:
[1] https://www.upguard.com/breaches/mts-nokia-telecom-inventory-data-exposure#/security-lapse-russia/

#dataleaks #mts
Вчера было довольно познавательное мероприятие в Сбербанке по данным для искусственного интеллекта.
Много говорили про открытые данные и текущее состояние и качество госданных. У меня осталось ощущение повторения истории 5 летней давности, когда похожие разговоры и встречи шли в рамках Открытого правительства и вокруг него.

Все важнейшие вопросы остались:
1. Как убедить органы власти публиковать наиболее интересные данные?
2. Какие данные должны публиковаться?
3. Как измерить экономический эффект от открытия данных?
4. Что делать с персональными данными необходимыми для исследования и работы?
Много вопросов над которыми предстоит поработать.

--- Далее минутка рекламы ---
А я напомню что я лично участвую в этом всём от нашей Ассоциации участников рынка данных и подробнее о ней можно узнать тут - http://aurd.ru

Ассоциация ориентирована, в первую очередь на малый и средний бизнес с очень небольшими взносами, а также мы туда принимаем НКО и образовательные учреждения без взносов, членство для всех некоммерческих и государственных учреждений бесплатное. Пишите на [email protected] если хотите и готовы вступить.

Основные приоритеты ассоциации - это взаимодействие с государством в части регулирования/де регулирования рынка данных, открытие данных и многие другие инициативы в этой области.

И, да, я не могу не напомнить что модель работы ассоциаций - это быть площадкой для кооперации. Совместные мероприятия, семинары, конференции, обсуждения и многое другое. Большая часть активности и инициативы идёт от членов ассоциации, а роль ассоциации в помощи этим инициативам.
--- Минутка рекламы закончилась ---

Возвращаясь к тому как _перезапускать_ тему открытых данных, нам пора снова и вместе составлять всё то что было не доделано:
1. Составить список изменений в регуляторных документах - оживить ли 8-ФЗ или отдельный закон?
2. Составить список наиболее востребованных данных для раскрытия
3. Определить правила по которым данные должны раскрываться и кому - аналог data spectrum
и многое другое.
4. Что делать с "артефактами" вроде data.gov.ru, глубоко перезапускать, ликвидировать или ждать пока сам помрёт?

И это не все актуальные вопросы.

#data #ai #opendata
За всеми разговорами о доступе к данным для бизнеса и для граждан и об открытых данных государства важно помнить что сама темам открытости зарождалась в совсем других областях изначально. Например, в науке принцип обмена знаниями и данными - это просто часть естественного процесса взаимодействия учёных.

И в научной среде каталоги данных - это уже давно общепринятая норма. Более 2 тысяч таких каталогов данных собраны в проекте Re3Data [1], а многие другие легко находятся поиском проектов в области Открытой науки (Open Science).

Есть инструменты которые изначально были созданы именно для научной среды.
- Dataverse [2] портал данных созданный в Гарварде и поддерживающий несколько крупных каталогов научных данных, в основном университетов.
- Invenio [3] портал данных разработанный в CERN для хранения статей и огромных данных результатов исследования на адронном коллайдере и других инструментах.
- Zenodo [4] общеевропейский проект публикации данных исследовательскими центрами Евросоюза
- CKAN [5] стандарт портала данных для открытых данных многих государств также используется исследовательскими центрами и университетами.

Чем отличаются научные продукты и проекты в этой области?
Есть несколько важных отличий от порталов открытых данных:
1. Не все данные открыты по умолчанию. У некоторых доступ ограничен и требует подтверждения владельца, другие публикуются под эмбарго и доступны только после того как выйдет научная статья, а в иных случаях организация получила их под ограничивающими условиями и вынуждена их предоставлять только квалифицированным пользователям.
2. Для научных порталов данных важно как и дня научных публикаций указывать ORCID, DOI и иные идентификаторы. Это то чего нет в общественных и госпорталах.
3. Для научных порталов данных важны многие метаданные для точного цитирования и выбора того что цитировать
4. Почти всегда научные метаданные проходят ту или иную степень проверки качества, иначе не обеспечить воспроизводимость.

Порталы научных данных часто хороший пример для государства того как надо публиковать данные. Но, безусловно, они гораздо сложнее в управлении и поддержании актуальности, в виду необходимости соблюдения всех процедур заполнения метаданных.

Ссылки:
[1] https://www.re3data.org/
[2] http://dataverse.org
[3] https://invenio-software.org/
[4] https://zenodo.org
[5] http://ckan.org

#data #openscience #opendata
Переориентация госпрограмм на выполнение национальных проектов привела к снижению прозрачности бюджетной статистики Минфина

Запуск национальных проектов, несомненно, одна из наиболее амбициозных инициатив государства за последние годы. Но, как и у всех амбициозных инициатив, у нее есть не только высокие цели, но и последствия. Я бы даже сказал — сопутствующий ущерб. Профессиональные экономисты и эксперты в региональной политике могут рассказать о последствиях национальных проектов для ВВП, уровня жизни и инфраструктуры, а я расскажу о том, как они влияют на открытость государственных финансов в России.
...
Подробнее на РБК:
https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea

#budget #opengov
Множество полезных ссылок на английском про данные вместо одной новости.

Дайджест по данным:
- гайд по тому как извлечь данные из PDF отчёта мексиканского правительства, обработать, проанализировать и визуализировать с помощью инструментария на Python. [1]
- Амазон начал подкручивать алгоритмы поиска для большей видимости его собственных продуктов [2] (вот и доверяй после этого большим платформам, ага)
- Lectures in Quantitative Economicswith Python [3] свежая книга более в 1100 страниц о том как использовать Python в экономических расчётах. Студентам экономистам на заметку
- Умные телевизоры передают чувствительную информацию Netflix и Facebook [4]. Имеются в виду умные телевизоры в США в первую очередь, но смысл не меняется (статья Financial Times за пэйволлом).
- The Global Expansion of AI Surveillance [5] исследование от Carnegie Endowment for International Peace о том как глобальные системы слежки с искусственным интеллектом стремительно распространяются. Немного про Россию и много про Китай. В России упомянуты ключевые компании: Analytical Business Solutions, Cisco, Huawei, NtechLab, Speech Technology Center [6]. Даже не знаю порадоваться или опечалиться. А вот Huawei повсюду

Ссылки:
[1] https://github.com/PhantomInsights/mexican-government-report
[2] https://www.wsj.com/articles/amazon-changed-search-algorithm-in-ways-that-boost-its-own-products-11568645345
[3] https://lectures.quantecon.org/_downloads/pdf/py/Quantitative%20Economics%20with%20Python.pdf
[4] https://www.ft.com/content/23ab2f68-d957-11e9-8f9b-77216ebe1f17
[5] https://carnegieendowment.org/2019/09/17/global-expansion-of-ai-surveillance-pub-79847
[6] https://carnegieendowment.org/files/AI_Global_Surveillance_Index1.pdf

#digest #data #news
Многие базы данных имеют природу отнюдь не государственную, но общественную и исследовательскую. Иногда при господдержке, но часто за счёт частных и исследовательских фондов.

Например, сектор добычи полезных ископаемых, в первую очередь нефтегазовый сектор является объектом общественного интереса. И множество проектов в этой области создаются совсем не органами власти:
- Corporate Mapping Project [1] совместный проект нескольких канадских университетов и общественных организаций о том как устроено управление нефтегазовыми компаниями.
- National Oil Company Database [2] проект от NRGI с базой индикаторов по деятельности нефтегазовых компаний с высокой детализацией до компании.
- EITI [3] - стандарт раскрытия информации о добывающих компаниях. Применяется во многих станах, на постсоветском пространстве это: Казахастан, Киргизия, Таджикистан, Украина
- PWYP (Publish what you pay) [4] - международная НКО пропагандирующая прозрачность объектов общественного достояния - недр.
- Resource Contracts [5] база данных контрактов с добывающими компаниями сделанный совместно NRGI, Всемирным банком и рядом других организаций.
- Resouce Data [6] ещё один проект от NRGI с базой в виде наборов данных по добывающим отраслм
- Нигерийский проект по мониторингу разливов нефти [7]
- каталог проектов создающих и использующих данные в добывающем секторе [8]
- ResourceProjects [9] база платежей компаний странам за проекты в добывающей сфере. Налоги, роялти и иные платежи - всё здесь. Кстати данные по России там есть [10]

Ссылки:
[1] https://www.corporatemapping.ca/
[2] https://www.nationaloilcompanydata.org
[3] https://eiti.org/homepage
[4] https://www.pwyp.org/
[5] https://resourcecontracts.org/
[6] https://www.resourcedata.org/
[7] https://oilspillmonitor.ng/
[8] http://apps.resourcegovernance.org/use-ecosystem/
[9] http://www.resourceprojects.org/
[10] http://www.resourceprojects.org/country/Russian%20Federation

#data #oilgas #russia #un-digitaleconomy
19-20 октября пройдет хакатон Счетной палаты [1] с кучей интересных задач, полезных для понимания не только данных по госфинансам, но и работы с госданными в принципе.

Я же не могу не напомнить хорошее правило что когда Вы смотрите на подготовленные идеи проектов - не ограничивайтесь только ими. Часто какую-то идею вынашиваешь месяцами и годами и тут возможность её качественно представить.

Ссылки:
[1] https://web.facebook.com/events/804055623342930/

#opendata #data #hackahon #sprf
Для разнообразия не ссылки и новости, а размышления

У меня на руках сейчас довольно много подсчитанной аналитики по госрасходам (и доходам) по куче разных направлений, причём подсчитанной самостоятельно, а пока считаешь то и видишь, подтверждаешь знания, о том как всё на самом деле устроено на самых разных рынках.

Вот к примеру рынок дорожного строительства. Крупнейший по доле в госрасходах и в госзаказе. Прозрачность - минимальная, большая часть компаний малоизвестна кому-либо за пределами узкого круга, требований к раскрытию информации минимум. Во многих случаях информация отсутствует в принципе за исключением сведений в ЕГРЮЛ и ряде реестров.

Другой рынок фармацевтика. По факту 5-6 крупных производителей контролируют рынок, при этом есть пул крупных и средних дистрибьюторов, опять же, с минимальной прозрачностью через которых проходит львиная доля заказа. А во многих субъектах есть ещё и бывшие и действующие ГУПы областных фармаций через которых идёт централизованная закупка. Все истории про более-менее разумное регулирование - это регулирование на уровне самых верхнеуровневых договорённостей правительства с производителями, а вот эти все игры с текущим госрегулированием этой области - ох сколько там лукавства. И ведь нет ни одного публичного доступного документа описывающего текущую ситуацию сверху до низу - кто и как является маркет-мейкером, на что влияет даже минимальное регулирование и так далее.

В принципе видно что размер поставщика никак не влияет на прозрчность его деятельности. Только наличие лицензий, но и то слабо. При этом более половины годового госзаказа идёт на юрлица в форме ООО, около 25% идёт на бывшие ЗАО, а ныне непубличные АО и только всё остальное на все остальные предприятия. В зависимости от года на ПАО может приходится от 5 до 10% средств по госзаказу. В основном это ПАО в рамках энергохолдинов, нефтяных корпораций и ограниченного числа других ПАО.

Доля госкорпораций не так велика в целом только по причине того что они не представлены на рынке стройки зданий и стройки дорог. Если начать резать бюджет секторально, то можно даже предсказать направления развития дальнейшего регулирования и распространения госкорпораций.

Это, например:
- замещение дистрибьюторов медтехники и фармы под эгидой импортозамещения
- замещение значительной части ИТ интеграторов, сейчас ограничивает только то что трудно отстраивать компетенции и скоростью изменения технологий. Но тренд более чем явный

Все разговоры про результат - это разговоры про стройку. Но что же все стесняются говорить что без спутникового мониторинга здесь не обойтись.

Процедурность госзакупок вообще никак не влияет на то кто и как получает контракты. На распределение контрактов примерно с 10 миллионов рублей влияет только административный ресурс. Чаще легальный - переговоры с потенциальными подрядчиками до объявления торгов.

У меня ещё много рефлексии есть про ГЧП, государственные информационные системы, организации контроля результата и не только. Как-нибудь соберусь дописать

#thoughts #goszakaz
Буквально на днях вышло исследование Transparency International Russia по лоббизму в Госдуме в виде сайта [1] и в виде доклада [2]. Доклад довольно обстоятельный, скорее контентный чем технический, хотя и визуализация вполне хороша. А контентный потому что явно много материалов переработано для создания справки на каждого депутата.

Плюсы минусы и комментарии.
1. Конечно в России депутаты являются лоббистами в гораздо меньшей степени чем, например, члены советов и комиссий при Правительстве или при Президенте РФ. Не говоря уже о внутренних лоббистах внутри органов власти.
2. Лоббизм - это хорошо или плохо? В принципе, это как проституция. Можно с ней бороться, но сбор налогов и регистрация окажутся эффективнее. Лоббизм неизбежен, исследования его интересны многим, в первую очередь самим лоббистам.
3. Очень хочется увидеть результаты исследования и в виде открытых данных, там есть с чем поработать на хакатонах и не только.

Ссылки:
[1] https://dumabingo.ru/
[2] https://dumabingo.ru/%D0%9B%D0%BE%D0%B1%D0%B1%D0%B8%D0%B7%D0%BC%20%D0%B2%20%D0%93%D0%BE%D1%81%D0%B4%D1%83%D0%BC%D0%B5.pdf

#opengov #lobbying
Новость явно требует комментариев. Но краткий комментарий мой звучит так - товарищи журналисты, поднимите же наконец материалы по приоритетным национальным проектам 2006-2009 годов и сомнений в том как устроены и чем закончатся эти национальные проекты у вас никаких не будет.
Forwarded from Нецифровая экономика (Oleg Salmanov)
Две трети года позади, а министерству цифрового развития удалось раскассировать только 10,6% средств. И цифры за август показывают, что программа "Цифровая экономика" продолжает отставать - за месяц удалось исполнить ее бюджет на 1,5% (!!!). Такими темпами министерству понадобится 66 месяцев (5,5 лет), чтобы исполнить бюджет 2019 года!
8 октября будет моя лекция в Шанинке про дата расследования. Будет не только про старые расследования, но и про многое менее известное и новое. Не только про госзакупки, но и про поиск персональных данных и про пиратское ПО в госорганах
Forwarded from Инфокультура (Ksenija V. Orlova)
Приглашаем на открытую лекцию Ивана Бегтина «Дата-расследования: тысячи иголок с миллионах стогов сена», которая состоится 8 октября в библиотеке Шанинки.

Иван расскажет про три кейса по работе с открытыми данными и электронными документами госучреждений и информационных систем:

- «Слепые закупки» — что это? Латиница и другие способы искажения информации о государственных и муниципальных закупках в целях ограничения конкуренции и поиска сведений.
- Утечка персональных данных с сайтов государственных информационных систем — как более двух миллионов записей с данными россиян оказались в открытом доступе.
- Пиратский софт — использование пиратского программного обеспечения в российских госорганах. На сайте какого органа исполнительной власти не было найдено ни одного документа с признакам нелицензионного ПО?

Необходима предварительная регистрация: http://msses.ru/about/news/4434/?
Майкрософт убрали возможность ставить Windows 10 без интернета как пишут на Reddit [1]. На самом деле это не совсем так, и теперь установка с локальным аккаунтом возможна только если у компьютера нет доступа в Интернет или если несколько раз неправильно ввести телефон. Но суть остаётся прежней, Microsoft загоняет пользователей в онлайн и завязывает в свою экосистему.

Ссылки:
[1] https://www.reddit.com/r/Windows10/comments/daim1y/ms_has_removed_the_use_offline_account_option/

#microsoft
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Проект федерального бюджета на 2020 год опубликован на портале Электронного бюджета (budget.gov.ru). Что мы о нем знаем:

- Это бюджет Шредингера - данные по нему то есть, то их нет;
- нововведение этого года - коды госпрограмм, разделов и подразделов стали однозначными вместо двухзначных, коды ГРБС - двухзначные вместо трехзначных;
- столбцы отображаются рандомно: ГРБС после ЦСР и разделов/подразделов, а видам расходов еще больше повезло - их отображают даже после сумм;
- перечень главных администраторов ИФДБ через минуту после открытия страницы полностью пропал;
- целевым статьям расходов пожалели нулей.

Федеральный бюджет уже второй год вносится в Госдуму в электронном виде, но сомневаюсь, что по таким данным можно какие-то решения принять.
Вдогонку о том как приложения следят за пользователями вышел очень познавательный материал в The Bell о том как приложения смартфонов за нами шпионят [1]. Хорошая работа и весьма неплохо сделанный материал в виде проекта по дата-журналистике. Обратите внимание на многочисленные примеры того как злоупотребляют разрешениями на телефоне мобильные приложения российских "национальных чемпионов".

Такие материалы и исследования важны со всех сторон. Для пользователей в том чтобы понимать и использовать приложения осознанно, выбирая те которые обеспечивают качественный баланс приватности и сбора данных. А для бизнеса в том что интерес граждан к теме слежки за ними растёт очень резко. Важно не упустить того момента когда можно получить массовый отток клиентов из-за того что разработчики "забыли" отключить трекеры слежки.

Ссылки:
[1] https://thebell.io/shpion-iz-smartfona-top-10-prilozhenij-sobirayushhih-vashi-dannye/

#privacy
И снова о неприятном. В блоге компании Comparitech публикация об утечке данных о 20 миллионах российских налогоплательщиках [1]. Особой изюминкой является то что данные обнаружились на серверах на базе Elasticsearch на Украине.

Я добавлю что на сером и черном рынке торговли данными в России - данные с Украины и по Украине встречаются сейчас особенно часто. Сложно ли удивляться тому что на Украине собирается немало особо значимых данных о России и из России.

В любом случае новость безрадостная для рядовых россиян. А вскрывшийся факт утечки перс данных на Украину и в открытый доступ поднимает немало вопросов о том как такое возможно и всё ли в порядке в российском ФНС.

Ссылки:
[1] https://www.comparitech.com/blog/vpn-privacy/russian-tax-records-exposed-online/

#privacу #dataleaks