Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.74K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
О секретах популярности языка Python в сентябрьском исследовании от StackOverflow [1]. В качестве спойлера - главная причина в pandas [2], проекте поддерживаемом NUMFocus [3], организации поддерживающей качественные open source проекты полезные для науки.

В исследовании Stack Overflow это хорошо заметно, значительный прирост пользователей у Python происходит из аудитории "Academics" - это преподаватели, студенты и исследователи из университетской среды. Что и говорить, pandas - это отличный продукт по работе данными и полезный для любых задач анализа и обработки данных.

Ссылки:
[1] https://stackoverflow.blog/2017/09/14/python-growing-quickly/
[2] http://pandas.pydata.org/
[3] https://www.numfocus.org/open-source-projects/

#opendata #python #data
Вчера на одном совещании повесткой было было "а нужно ли вообще открытое правительство" после мая 2018 года. Не буду говорить где был разговор, но как минимум один федеральный министр там присутствовал.

В прошлом году я писал статью близкую к этой теме [1].

И подумываю написать свою позицию более развернуто однажды. Может быть даже в виде статьи.

Пока же сформулирую тезисы:
1. Текущие функции "министерства по открытому правительству" можно разделить на те которые относятся к деятельности в сфере общественных связей и к характеристикам основного, базового правительства.

2. Открытость не может быть "чужеродным наростом" системы государственного управления. Это характеристика, атрибут, "цифрового правительства", а не некая субстанция рядом.

3. Деятельность в направлении общественных связей - это, по сути, роли "министра по взаимодействию с гражданским обществом" или "министра по общественным связям". Нужна ли такая роль в будущем кабинете министров - я судить не берусь. Возможно, не повредит, но к открытости она имеет малое отношение.

4. Открытость основного правительства не может быть выделено в функцию/орган/проектный офис. Это доктрина которая должна быть неотъемлимой характеристикой государственного управления.

5. Реальности такова что в ближайшие годы (возможно десяток лет) Россия не вступит в ОЭСР, не вступит в Open Government Partnership, не исполняет G8 Open Data Charter (Хартии открытых данных Большой восьмерки) и не участвует в Хартии Открытых Данных (Open Data Charter). Иначе говоря - есть очень малое число международных обязательств в рамках которых может существовать сама доктрина открытости государства.

6. Но она существует, поскольку это явление которое лишь описывает запросы общества и бизнеса на взаимодействие с государством. Потребность в нем гораздо более фундаментально чем сам термин "открытость" который мы употребляем.

7. Лично у меня много претензий к открытому правительству в части слабой и неэффективной госполитики по открытым данным, но и я не уверен что его отсутствие сделает мир проще, лучше и тд.

8. Могу лишь точно сказать что чтобы ни пришло ему на смену - это не может быть очередное лоббистской структурой. Лишь прозрачность финансирования, деятельности, принятия решений и последовательность в этом - способно вызвать доверие гражданского и экспертного сообществ.

Ссылки:
[1] http://www.rbc.ru/opinions/politics/30/08/2016/57c542999a7947542d3df910

#opendata #opengov
В рубрике "их нравы" хочу отметить публикацию в блоге Sunlight Foundation о том как меняются государственные информационные ресурсы в США и как с них исчезает информация [1]. В Sunlight Foundation разработали классификацию того как чиновники удаляют информацию [2].

По их оценке это происходит следующими способами:
1. Изменение или удаление текстов и другого контента
2. Изменение или удаление ссылок
3. Перемещение целой страницы или коллекции страниц или установление редиректов
4. Изменение или удаление значимой секции веб-страницы или коллекции веб-страниц
5. Удаление целой страницы или документа
6. Удаление сайта целиком
7. Изменение или удаление веб-порталов пригодных для поиска
8. Изменение или удаление наборов данных

В посте много примеров и ссылок для тех кто хочет подтверждений.

Ссылки:
[1] https://sunlightfoundation.com/2017/10/04/classifying-changes-to-public-access-to-information-on-us-government-websites/
[2] http://sunlightfoundation.com/wp-content/uploads/2017/10/How-to-classify-changes-to-government-websites.pdf

#opendata #opengov #digitalpreservation
Совсем свежая новость - Президентская библиотека занялась созданием сетевого архива [1] и архивирует многочисленные государственные сайты с 2017 года.

Теперь я не могу утвержать что наш проект "Национальный цифровой архив" Инфокультуры [2] является единственным, но пока еще могу говорить что он является единственным открытым поскольку пока Президентская библиотека нигде не анонсировала доступа к этим накопленным архивным данным.

В любом случае - это хорошая новость и я рад что мои разговоры на конференциях и с библиотечным сообществом как-то подтолкнули коллег.

Я могу сказать что для архивации данных самое главное - это инфраструктура и методика. Я очень надеюсь что коллеги расскажут об этом подробнее. Есть много проектов кроме нашего кто хотел бы сформировать партнерство в сохранении современного цифрового наследия.

Ссылки:
[1] https://www.prlib.ru/news/689438
[2] https://archive.infoculture.ru

#digitalpreservation
В рубрике "Вы меня не спрашивали, но я отвечу (с)"

Один из результатов работы экспертного совета при Генпрокуратуре РФ - это утвержденная концепция цифровой трансформации [1]

Экспертный совет принимал участие в ее проработке и теперь это, насколько я знаю, это первый подобный документ принятый органом власти в России.

Там много специфичного именно для правоохранительной системы и тем важнее что эта трансформация начинается уже сейчас.

Ссылки:
[1] http://genproc.gov.ru/documents/orders/document-1253244/

#digitalgov
627.pdf
475.1 KB
Новости в мире открытых данных одним обзором:

1. Решение Совета ЕС о публикации документов в формате открытых данных [1] на их портале открытых данных Евросоюза [2]. Кстати, не все знают что у Евросоюза 2 портала открытых данных. Второй выступает как агргератор [3]

2. Крупнейший кооператив Великобритании планирует опубликовать информацию о более 4000 грантах выданных им местным сообществам [4]. Раскрытие будет происходить через портал 360Giving [5] где уже раскрывают данные о грантах десятки фондов.

3. Transparency Int и МИД Франции проводят совместный конкурс: Цифровой и прозрачный [6] по использованию открытых данных по противодействию коррупции. Представить себе подобное в России, пожалуй, невозможно. Не обязательно с Transparency, но по сути российская политика по противодействию коррупции пока далека от вовлечения граждан.

4. Французский кадарстр теперь доступен в формате GeoJSON, о чем пишут в блоге Etalab [7] и сам кадастр можно скачать с французского государственного портала открытых данных [8]


Ссылки:
[1] http://www.consilium.europa.eu/en/press/press-releases/2017/10/09-open-data-digital-services/
[2] http://data.europa.eu/euodp/en/data/publisher/consil
[3] https://www.europeandataportal.eu/
[4] https://blog.coop.co.uk/2017/10/09/were-sharing-data-on-our-co-ops-support-for-local-causes/
[5] http://www.threesixtygiving.org/about/
[6] https://www.transparency.org/prix-num%C3%A9rique-et-transparence
[7] https://www.etalab.gouv.fr/service-public-de-la-donnee-les-donnees-du-cadastre-sont-maintenant-disponibles-sur-data-gouv-fr
[8] http://www.data.gouv.fr/fr/datasets/cadastre/

#opendata #opengov
У нас есть такой особый жанр мероприятий - называется open data sprint. Это формат при котором мы готовим очень конкретные и четкие задания участникам и просим в течении 1 дня сделать как можно больше этих заданий от начала и до конца.

Побеждает тот кто лучше и быстрее сделает проекты по этим задачам.

Формат очень хорошо работает когда задачи четкие и конкретные. А они у нас такие и будут. В общем - это как спортивное программирование. Но, часто задачи с визуализацией и не только.

Я приглашаю всех кто не участвовал - приходить и поучаствовать, но прошу не приходить "просто посмотреть". Тут надо будет не смотреть, а очень и очень быстро оттачивать навыки:)

Записаться можно тут https://budget-apps.timepad.ru/event/591219/ и 15-го числа приходить.

#opendata #opengov #budgetapps
Обзор новостей открытых данных:

1. Большая коллекция инструментов по открытости государства, открытым данным и цифровизации государства на OGP Toolbox [1]. Более 1300 инструментов собрано от более чем 560 организаций.

2. В KyivPost публикация "Kateryna Onyiliogwu: Open Data in Ukraine – the good, the bad and the ugly?" [1] о состоянии открытых данных на Украине. Уникальных инсайдов нет, все как везде - есть те кто за, те кто сопротивляется и общее низкое качество данных.

3. Open Data Privacy Playbook [3] книга была опубликована еще в феврале 2017, полезна для всех кто занимается продвижением идеи открытости данных. Посвящена ограничениям приватности которые часто возникают при открытии наборов данных.

4. Книги опубликованные в США между 1923 и 1941 годах теперь будут публиковаться в открытом доступе в Archive.org [4]

5. Для тех кто ищет международные данные список - Awesome public datasets [5]

Ссылки:
[1] https://ogptoolbox.org/en/
[2] https://www.kyivpost.com/article/opinion/op-ed/kateryna-onyiliogwu-good-bad-ugly-developments-open-data.html
[3] https://cyber.harvard.edu/publications/2017/02/opendataprivacyplaybook
[4] https://blog.archive.org/2017/10/10/books-from-1923-to-1941-now-liberated/
[5] https://github.com/caesar0301/awesome-public-datasets

#opendata #opengov #privacy
Наконец-то мы можем анонсировать проект над которым давно работали и работать продолжаем - это проект Открытые НКО http://openngo.ru в котором собраны все данные по НКО, пока по финансам НКО, которые у нас были собраны за это время.

Там пока далеко не все данные и далеко не весь заявленный функционал, но очень многое уже сделано.

А вот тут презентации о проекте, об открытости НКО и о том как мы работали с данными для этого проекта https://komitetgi.ru/news/news/3468/
Будут вопросы, предложения и так далее - пишите на [email protected]

#opendata #opengov
С некоторым запозданием, но все же надо анонсировать.

Чуть меньше чем через час я буду вести вебинар [1] по бюджетам, субсидиям, госконтрактам и другим данным, а завтра в это же время буду рассказывать про налоговые и таможенные данные.

Я буду рассказывать о том как использовать данные сразу со многих точек зрения.

Рассказывать буду в интерактивном режиме, показывая как работать с теми или иными онлайн ресурсами.

Это вебинары про то "где-найти-нужные-мне-данные".
Будет полезно всем кто хочет что-то интересное делать на финансовых данных.

Ссылки:
[1] https://www.facebook.com/events/1146986132099492/

#opendata #opengov
В Эстонии маленькая-большая криптокатастрофа

Из за выявленной уязвимости в генераторе случайных чисел библиотеки RSA огромное число систем требуют обновления, а ведь некоторые используются, например, для идентификации граждан. Обо всем этом пишет Arstechnica в статье "Millions of high-security crypto keys crippled by newly discovered flaw" [1] где упоминается и необходимость перевыпуска 750 тысяч идентификационных карточек в Эстонии и другие последствия.

Ссылки:
[1] https://arstechnica.com/information-technology/2017/10/crypto-failure-cripples-millions-of-high-security-keys-750k-estonian-ids/

#privacy #security
Комиссия по ценным бумагам (SEC) в США предлагает превратить корпоративные страницы с документами в данные [1]. Это касается не только финансовых, но и нефинансовых данных об организациях. Тут можно вспомнить что SEC одним из первых агентств внедряло открытые данные в свою работу и доступность многочисленной корпоративной информации была обеспечена благодаря публикации базы EDGAR много лет назад [2]

Ссылки:
[1] https://www.datacoalition.org/sec-proposes-to-transform-corporate-cover-pages-from-documents-into-data/
[2]https://www.sec.gov/edgar.shtml

#opendata #opengov
Немного политоты в канал.
Актуальная сегодняшняя новость в том что Генеральная прокуратура не выявила нарушений закона в процессе создания фильма "Матильда", его финансирования и получения прокатного удостоверения [1] . Что немаловажно мы узнаем что депутат Наталья Поклонская сумела написать целых 43 депутатских запросов в Генпрокуратуру.

И тут то возникает небезинтересный вопрос, а сколько запросов и куда направляют наши депутаты? Не секрет что с ослаблением законодательной власти запросы являются одним из главных ресурсов в арсенале депутатов. Не пора ли Госдуме задуматься о собственной прозрачности и публиковать все без исключения запросы депутатов во все органы власти.

Кстати, для тех кто не знает, у Госдумы еще с 2012 года есть открытое API, с 2012 года не обновлявшееся [2] содержащее информацию о деятельности депутатов. К сожалению какое-либо дополнительной раскрытие информации об их деятельности с той поры не ведется.

Ссылки:
[1] http://www.interfax.ru/russia/583748
[2] http://api.duma.gov.ru/

#opendata #opengov
Не только в России у больших государственных систем могут отсутствовать резервные копии. База наличных и имущества в виде доказательств в департаменте полиции Нью-Йорка (NYPD) оказалась в центре скандала с выявившейся ситуацией отсутствия резервной копии [1].

Ситуация выяснилась во время судебного разбирательства [2] по запросу о свободе доступа к информации от Bronx Defenders, некоммерческой группы заинтересовавшейся исследованием содержания этой базы, однако в NYPD сослались на техническую сложность предоставления такого доступа

Об этой системе Property and Evidence Tracking System (PETS) писали еще год назад [3] и тогда выянилось что NYPD не могут даже подсчитать объем изъятых наличных которые они хранят. При том что сама система основана на SAP ERP в Capgemini [4] и на нее было потрачено 25.5 миллиона долларов с 2009 по 2012 годы (1 миллиард 453,5 миллиона рублей по курсу ЦБ на 20.10.2017) и резонный вопрос в том как же возникла вся эта ситуация.

Если у вас есть интересные материалы по открытым данным, данным вообще и цифровизации госуправления, пишите мне на @ibegtin или в чат @begtinchat и я включать их в обзоры.

Ссылки:
[1] https://arstechnica.com/information-technology/2017/10/nypd-database-that-tracks-seized-evidence-and-cash-has-no-backup/
[2] https://www.courthousenews.com/no-forfeiture-database-backup-millions-line-nypd-admits/
[3] https://arstechnica.com/information-technology/2016/09/nypd-cant-count-cash-theyve-seized-because-it-would-crash-computers/
[4] https://www.capgemini.com/fr-fr/wp-content/uploads/sites/2/2017/07/nypd_successfully_implements_property_and_evidence_tracking_system_0.pdf b

#opendata #opengov
Afisha (неожиданно) пишет [1] о гонорарах и конфликтах интересов среди руководителей театров. Эта статья транслирует свежее расследование Transparency Int. в России о нарушениях в театрах о чем можно прочитать у них на сайте здесь [2] и в спецпроекте [3].

Среди качественных не-политических расследований - это одно из наиболее проработанных и детальных. Главная тема - это конфликт интересов когда художественные руководители совмещают свою должность с должностью директора организации и заключают договора, по сути, сами с собой.

И хотя расследование не дает ответа за дело или не за дело сидит Кирилл Серебренников, но определенно оно задает новые вопросы - не рискуют ли и другие руководители театров нашей любимой родины.

Я добавлю от себя лично, что давно не веду сам подобных расследований, наша команда занимается созданием порталов/сервисов/инструментов работы с данными. Отчасти это связано с тем что сделать расследование и не политизировать его - это большое искусство. И тем лучше что такие расследования есть в России.

Ссылки:
[1] https://daily.afisha.ru/news/11975-transperensi-interneshnl-uznal-kak-rukovoditeli-gosudarstvennyh-teatrov-platyat-gonorary-sami-sebe/
[2] https://transparency.org.ru/projects/konflikt-interesov/transperensi-interneshnl-rossiya-obnaruzhili-narusheniya-v-teatrakh.html
[3] https://transparency.org.ru/special/teatr/

#opendata #opengov #procurement #spending
Еще одна иллюстрация к вопросу о качестве и достоверности государственных баз данных.

Пара живых примеров.

1. Репозитарий
Контракт N 2591902626917000023 [1] [2] от 2016-12-23 на 10 тыс. руб. на оказание услуг общедоступной электрической связи для нужд структурного подразделения по г. Березники был заключен между Государственным казенным учреждением Пермского края социального обслуживания населения "Центр помощи детям оставшимся без попечения родителей г. Соликамска" и, по регистрационной карточке контракта, с Акционерным обществом "Новый регистратор" (ИНН: 7719263354 КПП: 771801001).

Однако при проверке по документам оказывается что это договор между Пермским филиалом Ростелекома и данным ГБУ. Это видно по первой и последней странице и реквизитам в госконтракте [3].

Как реквизиты организации выступающей в роли репозитария ценных бумаг оказались в реквизитах госконтракта на поставку электросвязи в Березникам - для меня загадка.

Как минимум тут признаками аномалии является:
1. Не соответствие профиля деятельности поставщика профилю контракта (несовпадение кодов ОКДП/ОКПД и ОКВЭД), наличие у подрядчика особого статуса/особой роли
2. Несоответствие профиля поставщика 44-ФЗ, нет потребностей по 44-ФЗ которые могли бы закупаться у репозитариев работающих с ценными бумагами.
3. Значительное удаление поставщика от места исполнения при контрактах требующих поставки товаров, работ и услуг по месту нахождения заказчика.

2. Сокрытие информации о фактическом исполнителе

Контракт N 57750004150150002690000 [4] Внешэкономбанка от 2015-10-23 на 390 млн. руб на
услуги по аренде или лизингу, включая собственный или арендуемый нежилой фонд с неизвестной организацией поскольку в карточке контракта указана организация "Исполнитель" с кодом ИНН 0000000000

Сложно предполагать что эта информация скрыта по закону о перс данных в виду значительной суммы контракта и маловероятности заключения его с физическим лицом.

И это не единственный подобный их контракт, аналогичные были заключены и на большие суммы. Например контракт N 57750004150160000090000 на поставку консалтинговых услуг на 722 млн. рублей [6] [7]

Что является аномальным в данном случае:
1. Недостоверная информация в реестре контрактов, отсутствие достоверных реквизитов организации, неуказание ее наименование и кодов ИНН/КПП
2. Если, что было бы странно, подобное сокрытие реквизитов все таки законно, то неуказание нормативного-документа по которому они скрыты и обоснования сокрытия реквизитов.

Эти примеры - это лишь верхушка айсберга которая всплывает при работе с государственными базами данных, их очисткой и анализом.

Например, в рамках проекта КГИ "Госзатраты" [8] у нас нет возможности провести такую тотальную очистку, но мы предоставляем всю базу данных, для тех кому удобно с этими данными работать. На сегодняшний день - это одна из крупнейших систем раскрытия информации о госконтрактах в открытом доступе.

А в рамках нашего коммерческого API проекта - APICrafter (http://apicrafter.ru) [9] мы агрегируем данные из значительного объема других источников информации и осуществляем постепенную, но последовательную кросс-проверку данных. В APICrafter'е данные по закупкам - это лишь один из его модулей, развитие проекта предполагает значительно больший и широкий объем данных. Уже сейчас мы работаем над второй версией где появятся дополнительные базы данных.

Однако, во всех случаях и наших проектах, и других проектах работающих с открытыми источниками, вопрос управления качеством данных является краеугольный. Далеко не во всех проектах возможен полный отказ от ответственности. К примеру в том же APICrafter'е - пока мы делаем API над первичными данными, мы можем отказываться от ответственности. Когда мы начинаем сводить базы вместе, то совсем отказаться от нее не так просто, при сведении данных выявляется много странностей и разночтений среди которых те что я привожу в пример не являются чем-то исключительным.
Для многих непонятно что происходит в правоохранительной системе в России. За исключением общего ощущение что "все не так" и "все не работает" есть еще и огромный пласт личного опыта людей когда-либо оказавшихся жертвами или свидетелями преступлений и понимающих что и полиция и суды, часто никак не помогут.

Одна из ключевых проблем находящихся в корне всей этой ситуации - это палочная система в МВД, именно она и приводит к систематическому искажению статистики, утаиванию преступлений, попыткам накрутить раскрываемость и сознательным искажениям статистики.

В Коммерсанте вышла статья [1] с комментариями Олега Инсарова (руководитель главного управления правовой статистики и информационных технологий Генпрокуратуры России) и с кратким моим комментарием о том почему учет преступлений - это именно так область где внедрение цифровых технологий является первоочередной задачей

А я хочу напомнить о другом проекте КГИ "Открытая полиция" в котором, мы, в Инфокультуре, в рамках темы "Понятная полиция" сделали много материалов о том как устроена правоохранительная система и как добиваться защиты собственных прав.

Ссылки:
[1] https://www.kommersant.ru/doc/3448048
[2] http://openpolice.ru
[3] https://openpolice.ru/pages/ponyatnaya-policiya/

#opendata #opengov #openpolice
Можно ли заниматься вопросами гражданского общества в России сейчас? Если да то как именно? Один из форматов - это Зимняя школа Университета КГИ где в течении 4-х дней под Звенигородом участники изучают лучшие практики того как развиваются региональные и местные сообщества.

Как вы понимаете расхваливаю я школу не просто так, а поскольку сам выступал на ней в прошлом году и аудитория мне очень понравилась и по настрою и готовности к созданию нового.

Записаться можно до 16 ноября тут http://winter.kgischools.ru/

#opengov #kgi