Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.73K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Всемирный банк выпустил отчет о том как в течении 5 лет они развивают Открытые данные по всему миру [1]. Отчет написан в позитивном жанре и рассказывает о 45 странах где Всемирный банк продвигает эту тему. Россия там тоже есть с упоминанием Ульяновской области и федеральных инициатив в 2012 году. Правда вот о том что было после 2012 года они не пишут, но это и понятно почему.

Отчет, в любом случае, прочитать стоит чтобы хотя бы быть в курсе происходящего

Ссылки:
[1] http://blogs.worldbank.org/opendata/five-years-investments-open-data

#opendata #opengov
На какие каналы стоит подписаться тем кто любит читать про данные?

1. Mapporn - https://yangx.top/mapporn визуализация на картах, схемах и в виде инфографики
2. Городские данные - https://yangx.top/urbandata про данные города, ведет Андрей Кармацкий. Всячески рекомендую
3. Дата публикации - https://yangx.top/data_publication канал про журналистику данных от Андрея Дорожного
4. Open Data Science - https://yangx.top/opendatascience автор неизвестен, тема открытость данных в научном применении
5. Картинкамация https://yangx.top/kartinkamaciya - много инфографики

Если вы знаете другие интересные каналы про данные, визуализацию, открытость гос-ва и не только - пишите мне на @ibegtin или в чат @begtinchat

#opendata #telegram
Как человек не только говорящий про открытые данные, но и работающий с ними я могу сказать что, конечно, полнота и качество до сих пор самые критичные проблемы.

Вот важнейшие из них:
1. На многих разделах официальных сайтов и порталах данные не обновляются по 2 года и даже более.

2. Многие данные не содержат полных реквизитов и атрибутов, опубликованы в обрезаном виде. Например, нет кодов ОГРН/ИНН организаций и, в результате, данные по организациям требуют ручного сопоставления.

3. Многие ключевые данные не публикуются. Например, торговые реестры публикуются в открытом доступе далеко не везде, а в машиночитаемом виде так вообще в ограниченном числе регионов. К примеру, в Москве торговый реестр открытыми данными не является, а в Санкт-Петербурге он публикуется на сайте профильного управления в формате Excel

4. Видно что не ведется работа по систематизации данных. В большинстве регионов, ФОИВах и тд, она была проведена пару-тройку лет назад и с тех пор не повторяется. У многих госпорталов есть недокументированное API, или же публикуются открытые данные, но в порталы открытых данных они не включены

5. До сих пор часто проще написать "парсер данных" с веб страниц, чем выгружать их в машиночитаемых форматах в виду ошибок в данных мешающих их разбору.

6. Есть хорошие, но сложные примеры публикации больших наборов данных. Когда организация публикует каждый раз многогигабайтный XML файл полного дампа базы. Это гораздо удобнее чем выгружать парсером сотни тысяч записей, но тяжело в обработке каждый раз разбирать и сопоставлять с прошлой версией.

7. "Кривые API" порталов открытых данных. Большая часть разработчиков порталов пытается подавать их еще и как хранилища и данные загруженные туда, как правило, Заранее приведены в плоскую табличную форму хранимую внутри базы данных и экспортируемую пользователю по запросу. Но сделано это, чаще неудобно. К примеру, API портала открытых данных Санкт-Петербурга data.gov.spb.ru не синхронизовано с веб-интерфейсом.

Через API можно обращаться к базе данных и получать структуру полей, но там используются внутренние идентификаторы баз данных, а веб интерфейсе есть возможность получить сразу набор данных в форматах для экспорта, но используются другие идентификаторы. В итоге проще разбирать веб-интерфейс

В API data.mos.ru есть не только ошибки экспорта, но и оно в принципе плохо документировано в части, опять же выгрузки файлов которые у них разделены между выгрузкой через EHD хранилище и ссылками на файлы которые указываются в паспорте набора данных. В паспортах указана только выгрузка данных в ZIP'ованных XLSX файлах.

Эти смысловые и технические нюансы лишь одни из многих, ограничивающих использование данных.

Появление порталов открытых данных и публикации данных вообще лишь отчасти облегчило жизнь тем кто работает с ними, создает собственные проекты, коммерческие и общественные.

Пока я могу сказать что если говорить про объем данных, то в одном только портале bus.gov.ru Минфина опубликовано больше данных чем на всех порталах открытых данных субъектов федерации вместе взятых

Я считаю что тема открытых данных требует в России перезагрузки. Как и когда, я надеюсь мы узнаем это этой осенью, вне зависимости от того будут ли новости радостные или печальные.

#opendata #opengov
Региональное неравенство в 2016 году:

1. Расходы бюджета Москвы (как субъекта) больше, чем расходы бюджетов 42 регионов или 3 федеральных округов.

2. Расходы бюджета Московской области больше расходов бюджета Санкт-Петербурга. ТОП-5 регионов: Москва, Московская область, Санкт-Петербург, Татарстан и Краснодарский край.

3. На 47 регионов приходится 20% всех региональных расходов, на оставшиеся 39 - 80% (86-ой субъект - это г. Байконур).

4. Расходы бюджета Москвы больше, чем региональные расходы любого федерального округа за исключением ЦФО (в который она входит)
HM Land Registry в Великобритании опубликовало набор данных с 3 миллионами записей о владении частными компаниями землей и имуществом [1]. Сам набор данных можно посмотреть по ссылке [2]. Безусловно он поспособствует журналистким расследованиям которые активно развиваются в последние годы именно на данных о владении компаниями, землей и иным имуществом

Ссылки:
[1] https://www.gov.uk/government/news/hm-land-registry-makes-commercial-ownership-data-free
[2] https://www.gov.uk/guidance/hm-land-registry-commercial-and-corporate-ownership-data

#opendata #uk
В блоге OGP публикация о том как в странах с высоким доходом снижается доверие граждан к государству [1]. Это как еще одно подтверждение того что сама идея и идеология открытости государства идет от государства, а не от технологий. Это скорее попытка/попытки политиков адаптировать новые механизмы доверия к собственной деятельности.

Отчасти это и ответ на вопрос почему идея открытости государства получила ограниченное развитие в России. Доверие слишком сложная концепция в ситуациях неравного диалога власти и граждан и бизнеса.

Ссылки:
[1] https://www.opengovpartnership.org/stories/gathering-of-high-income-countries-address-declining-trust-government

#opendata #opengov
Анализ социальных затрат и результатов открытых данных - исследование на голландском языке по данным Нидерландов [1].

Много интересного, особенно много полезных ссылок на другие исследования и материалы.

Кстати, в TU Delft много и других публикаций именно по открытым данным [2] многие из которых на английском языке.

Ссылки:
[1] https://repository.tudelft.nl/islandora/object/uuid:b34165f8-7a62-431f-8b20-6120cafc6ae8
[2] https://repository.tudelft.nl/islandora/search/subject%3A%22open%255C%2Bdata%22
#opendata #europe
Открытые данные - это не только общественное достояние, но и складывающийся рынок сервисов по обеспечению прозрачности.

На сегодняшний день, можно сказать что в мире его делять 3 основных игрока:
- OpenGov [1]
- Socrata [2]
- OpenDataSoft [3]

OpenGov - это изначально проект по SaaS сервисам открытости бюджетов/расходов, а теперь и предлагающий создание порталов открытости, открытых данных.

Socrata - это один из наиболее давних игроков на рынке публикации данных, со своей платформой и сервисами по визуализации. Они охватывают значительное число штатов в США и множество стран.

OpenDataSoft - это французский стартап который сейчас вышел на американский рынок и сразу с заявкой на охват 500 городов в проекте Open Data America [4]

Если сравнить их по объему инвестиций, то Socrata смогли привлечь 54,5 млн. USD [5], OpenDataSoft 6.5 млн. USD [6], а OpenGov все 80 млн. USD [7]

При этом все они конкурируют, в основном, с бесплатными решениями такими как CKAN, DKAN и другими открытыми продуктами для каталогов открытых данных.

Сейчас все еще трудно предсказать в какую сторону будет развиваться рынок сервисов для открытых данных - консолидации данны на национальном уровне, платформ для разработчиков или как-то иначе, но можно говорить о наличии компаний вполне успешно зарабатывающих на их использовании.

И это только те кто создает инфраструктуру, без учета значительного большего и куда сложнее измеримого сектора пользователей открытых данных.

Ссылки:
[1] http://opengov.com
[2] http://socrata.com/
[4] http://statescoop.com/french-startup-piloting-open-data-portals-for-500-u-s-cities
[5] https://www.crunchbase.com/organization/socrata
[6] https://www.crunchbase.com/organization/opendatasoft
[7] https://www.crunchbase.com/organization/opengov

#opendata #opengov
Для тех кто мог упустить - 25 ноября пройдет Общероссийский гражданский форум [1] программа которого стала доступна онлайн и Вы там можете обнаружить секции про открытость государства и открытые данные и многое другое не менее интересное.

Мой день там будет очень плотно расписан, но немного свободного времени тоже будет, если Вы захотите меня там выловить - лучше напишите заранее.

И, кстати, зарегистрироваться еще не поздно зарегистрироваться, завтра последний день регистрации - не пропустите его!

[1] https://www.civil-forum.ru
[2] https://www.civil-forum.ru/forums/2017/programm/
[3] http://2017.civil-forum.ru/

#opendata #opengovernment #civicforum
О том как на базе данных делают работу исследователи-журналисты данных в публикации Paul Bradshow [1]

Он разбирает 4 истории:
1. Анализ 300 тысяч песен из MusicNotes и выявление певцов с наиболее широким диапазоном голосом и публикация в The Mirror [2]
2. She Giggles, He Gallops (Она хихикает, он скачет). Гендерные диалоги в фильмах [3] , исследование Julia Silge с анализом более 2000 диалогов из фильмов с выявлением гендерных стереотипов.
3. Исследование BuzzFeed по теннисным матчам [4]
4. ... и работа David Robinson о том как и кто публикует твиты Дональда Трампа [5], вплоть до выявления времени когда больше вероятности что твит написал он сам и когда, наоборот, пишут его помощники.

И у того же Paul Bradshow есть отличная публикация о том как делать красивые графики прямо в тексте используя шрифт AtF Spark [6]. Я пока не видел ни одного российского издания которое бы его использовало. Так что это может быть забавной фичей. Подробнее о шрифте и его создателях у них на сайте [7]

Ссылки:
[1] https://medium.com/@paulbradshaw/introducing-computational-thinking-to-journalists-23d7c260ef16
[2] http://www.mirror.co.uk/news/uk-news/singer-best-vocal-range-uk-4323076
[3] https://pudding.cool/2017/08/screen-direction/
[4] https://www.buzzfeed.com/johntemplon/how-we-used-data-to-investigate-match-fixing-in-tennis?utm_term=.xyqaBVVBXJ#.jxYYaMMaXp
[5] http://varianceexplained.org/r/trump-tweets/
[6] https://medium.com/@paulbradshaw/how-to-use-the-atf-spark-font-to-create-charts-with-just-text-6925b978fed3
[7] http://aftertheflood.co/projects/atf-spark

#opendata #datajournalism
На финальной стадии конкурса BudgetApps у нас есть отдельная номинация зрительского голосования, так что обязательно заходите и голосуйте http://budgetapps.ru

Кстати, конкурс уже скоро завершается - его итоги будут подведены и про самые интересные проекты я расскажу отдельно.

#opendata #budgetapps
The GovLab открыли проект Crowd Law [1] с большим числом материалов и примеров проектов по гражданскому нормотворчеству (citizen lawmaking). Материалов по этой теме давно уже много, а тут еще и сведенные в рамках одного ресурса, систематизировано и со множеством примеров.

Обратите внимание на приложение [2] со списоком из 25 проектов с систематизацией инициатив по разным характеристикам и приложение с разбором отдельных кейсов [3].

Обратите особенно внимание на проекты:
- Barcelona Decidim
- Labhacker (Brasil)
- EUCrowd

Конечно там нехватает российских проектов, но, будем честны, здесь есть два важных ограничения. Первое в том что текущий проект regulation.gov.ru откровенно слабый и на citizen participation полноценно не тянет, а старые проекты вроде zakon.government.ru и попытки играть в гражданское нормотворчество давно уже выпали из деятельности Открытого правительства и погублены в рамках работы текущего.

В принципе, в России беда с открытостью как процесса нормотворчества так и самих законов. В реестрах открытых данных сложнее всего найти данные о законах и нормативных документов:
- ни Минюст, ни Госдума, ни ФСО (владельцы портала pravo.gov.ru) не отдают нормативные документы в форматах открытых данных.
- отсутствуют действующие проекты по гражданскому нормотворчеству
- прошлые проекты довольно быстро были удалены из сети
- госполитика в этой области полностью отсутствует.

При этом нельзя сказать что открытость законотворчества никому не нужна, но есть много групп влияния не заинтересованных в развитии этой темы. Начиная с монополистов рынка нормативно-правовых документов, продолжая частью депутатов и чиновников теряющих эксклюзивное влияние на проектирование и разработку документов.

Ссылки:
[1] https://crowd.law
[2] https://docs.google.com/spreadsheets/d/1Eaw3-rpi8wyANCKvM37F4SqOGF3TSUyTmqkY1ky31h0/edit#gid=0
[3] https://docs.google.com/document/d/1O78APjyL2wArEUgsZLYjnDnbWY23eh7NNjiVfLBvXZU/edit#heading=h.geni25cr68kj
[4] https://www.decidim.barcelona/
[5] http://labhackercd.leg.br/
[6] https://avoinministerio.fi/eucrowd/

#opendata #opengov
Сегодня проходила конференция РБК по защите персональных данных
Конференция интересная, но, привычно, без представителей Роскомнадзора

А я там говорил о раскрытии перс данных госорганами, а чтобы не обижать больно федералов, приводил примеры того как это делает правительство любимого города.

Скриншот одного такого висящего в открытом доступе документа (далеко не единственного), но очень очевидного. Фамилии, паспорта и суммы я там вымарал https://www.facebook.com/photo.php?fbid=10155111277923263&set=a.491523343262.260793.625298262&type=3.

Этот и многие другие документы находятся в открытом доступе.

Если кратко то на уровне Москвы персданные граждан раскрываются минимум на 2-х публичных ресурсах, если расширенно, то число государственных систем в которых, по разным причинам, раскрывают паспортные данные граждан более чем велико.

Это, пожалуй, все что я бы хотел сказать о качестве государственного регулирования темы персональных данных

#privacy #opendata
Если иногда может показаться что все российские федеральные органы власти резко взялись за открытые данные и рапортуют об их доступности - не верьте. Не все.

Помимо нескольких прекрасных ФОИВов не публикующих практически ничего, до сих пор встречаются особо экзотические случаи когда под видом XML файлов выдают файлы MS Office XML (экспорт из Microsoft Word).

Вот пример набора данных Роснедр паспорт данных http://www.rosnedra.gov.ru/opendata/7703518529-prover
и файл XML http://www.rosnedra.gov.ru/opendata/7703518529-prover/data-1-structure-1.xml

Для тех кто не знает что это такое поясню. Microsoft Word позволяет сохранять .doc файлы в формате XML для разметки. У файла сохраняется расширение .xml, но это не машиночитаемый файл, это специальный файл с разметкой текста. Вы не сможете с его помощью работать с данными, но всеми признаками открытых данных он обладает, кроме смысла.

Файл был опубликован 27 октября 2016 года, всего лишь год назад. Да, то что набор данных не обновлялся год - это тоже важно, но речь не об этом.

Таких случаев много, их мало кто отслеживает, и мало по той причине что большая часть данных госорганов опять же бесполезны.

#opendata
Один из давних проектов Инфокультуры - это оценка простоты и читабельности русского языка (PlainRussian) [1]. Простой сервис который по формулам адаптированным для русского языка оценивает для какой аудитории он написан.

Сейчас мы запустили в работу специального телеграм бота который выдает эту оценку. Вот тут - @PlainRussianBot можно с помощью одной из двух команд /text или /url

Также можно туда кинуть .doc файл и по нему он тоже выдаст справку по всему тексту внутри него.

Бот эксприментальный так что предложения по работе бота, API и проекту в целом можно направлять в github или мне на @ibegtin или в чат @begtinchat

И несколько скриншотов примеров.

Ссылки:
[1] http://plainrussian.ru
[2] https://github.com/infoculture/plainrussian/issues

#opendata #plainlang #api