Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Для тех кто пишет научные и исследовательские работы на тему открытых данных рекомендую прочитать "Towards a Genealogy of Open Data" [1] это научная статья 2014 года написанная Jonathan Gray и посвященная истории появления терминов открытое государство и открытые данные, а также политическая история которая им предшествовала.

В 2012 году я также писал на эту тему публицистическую статью "Открытое государство. История и новый смысл" [2].

Рано или поздно, сразу после или прямо перед оставкой последнего федерального Правительства ревизия сделанного и несделанного будет проведена. И тогда будет время провести и смысловую ревизию, насколько оно отклонилось от изначальных приниципов и чем "открытость по российски" отличается от открытости в мире.

Ссылки:
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2605828
[2] http://polit.ru/article/2012/06/28/open_gov/

#opendata #opengov
Всех с наступившим 2017 годом!
В Монреале власти города решили организовать мониторинг трафика через 100 сенсоров Bluetooth на наиболее загруженных магистралях [1]. Непосредственно работу осуществляла компания Orange Traffic [2], а все данные передаются в Urban Mobility Management Center города.

Цифровизация существующей инфраструктуры меняет не только подход к мониторингу трафика, но и отношения между водителями и гос-вом. В Индии начали выдавать цифровые лицензии для водителей [3], а точнее дали возможность предъявлять полицейским данные со специального приложения Digilocker, вместо бумажной лицензии.


Ссылки:
[1] https://www.springwise.com/montreal-monitoring-city-traffic-via-drivers-bluetooth
[2] http://www.orangetraffic.com/en
[3] https://yourstory.com/2016/09/digilocker/

#opendata #opengov #digitalgov #driving #smartcity
84.8 миллиарда рублей долга только 858 крупных должников Газпром Межрегионгаз на ноябрь 2016 года [1]. При том что Газпром охватывает лишь 59 регионов - эти данные при сочетании с другими, особенно при регулярном их мониторинге, позволяют оценить масштаб внутренней задолженности в стране.

Агрегированные данные по регионам выложены на хаб открытых данных [2], а сам интерес к ним в том что рано или поздно вопросы огромного числа внутренних и внешних долгов в России станут одними из первоочередных и создание проекта "Страна долгов" или "Долговая Россия" уже сейчас возможно на этих данных, данных бюро кредитных историй, банков, списков должнников по ЖКХ и многому другому.

Ссылки:
[1] http://mrg.gazprom.ru/implementation/spisok-dolzhnikov/#list,by_amount
[2] https://hubofdata.ru/dataset/gazprom-mrg-debtors

#opendata #corporatedata #debts
Вышло большое исследование "How can we improve urban resilience with open data?" [1] посвященное использованию открытых данных для создания комфортной городской жизни. Исследование делалось в рамках проекта Open data for Development коллективом из команды Open North и все при поддержке Института откртыых данных Великобритании (Open Data Institute).

Основные выводы исследования можно прочитать в блоге ODI.

Вот лишь некоторые примеры из этого исследования:
- NYC Business Atlas - инструмент анализа бизнес-возможностей по районам Нью-Йорка, с информации о демографии, разрешениях на строительство и так далее.
- BuildingEye in San Francisco - гражданский проект с удобным интерфейсом для активистов для работы с данными о городской инфраструктуре
- The Open Data for Resilience Initiative - проект помогающий государственным властям взаимодействовать с сообществами по сбору данных

Другие примеры: Betaville, Greater Toronto Area Housing Action Lab, Digital Matatus, Dublin City Dashboard, District 2030, Civic Accelerator Programme

и многие другие. Исследование стоит внимательно прочтения, как минимум, из-за обилия живых примером.

Ссылки:
[1] https://drive.google.com/file/d/0B8BZxtR6WDBJcHYzallaZFNBRFU/view
[2] http://theodi.org/blog/improving-the-resilience-of-cities-using-open-data

#opendata #opengov #smartcity #cityresilence #urbandata
Компания Uber открыла проект Movement [1] в котором по запросу готова предоставлять данные о более чем 2 миллиардах поездках машин на Uber по всему миру. Подробнее о том как устроен их проект в ролике на Youtube [2] и, на русском языке, в заметке на Roem [3].

Резонный вопрос который может задать любой читатель этой новости в том зачем коммерческая компания будет предоставлять данные которые являются, в том числе, топливом на котором она строит свою бизнес модель. Ответ в том что для создания репутации и "торга" с властями городов по всему миру. Власти пытающиеся ограничить Uber получают в обратную сторону данные которых они так желают. Журналисты получают возможность ссылаться на Uber в своих data-расследованиях.

И да, конечно, Uber не единственный краудсорсинговый проект придерживающийся подобной политики. В основном его, конечно, реализуют общественные проекты такие как Wikipedia, OpenStreetMap, Dmoz и десятки других созданные некоммерческими организациями и общественными движениями. Но, также, подобная практика есть и у коммерческих компаний. Некоторые из них дают собственные данные, например, Google раздающий данные из своего Transparency report [4] или Citymapper призывающий власти публиковать больше открытых данных [5], [6].

Что можно сказать точно, так это то что крупные международные игроки куда больше вкладывают усилий в популяризацию работы, как со своими данными, так и в публикацию открытых данных властями, по сравнению с практически всем российским интернет-бизнесом. Не называя имен конкретных компаний, можно говорить о том что они лоббируют эксклюзивный доступ к госданным и не предоставляют их, ни пользователям, ни по запросу. В результате, рано или поздно окажется что единственный способ получить данные из некоторых российских компаний будет очень негуманным, лоббированием регулирования раскрытия ими информации через российских законодателей. Но этот способ борьбы с вампирами с помощью людоедов красивым никому не покажется.


Ссылки:
[1] https://movement.uber.com/cities
[2] https://www.youtube.com/watch?time_continue=5&v=bszvEIMVsIc
[3] https://roem.ru/09-01-2017/239968/uber-movment/
[4] https://www.google.com/transparencyreport/
[5] https://theodi.org/news/citymapper-government-open-data-improve-cities
[6] https://medium.com/citymapper/building-a-city-without-open-data-124356672deb

#opendata #opengov #citydata #uber #ubermovement
Специально для тех кто не знает как Uber Movement выглядит изнутри вот картинка
Британское статистическое бюро ONS (Office of National Statistics) разместило в своем блоге обзор их практики публикации открытых данных [1].

Это один из лучших подходов к этой теме у статистических ведомств, а сам сайт бюро [2] - это наглядный пример того как должен выглядеть сайт дата-ориентированного ведомства. Если сравнить с российским Росстатом [3] то разница в подходах почувствуется еще более остро.

Ключевое в доступности данных для анализа. Для всех баз и индикаторов публикуются, и Excel файлы, и машиночитаемые данные в CSV и других форматах (например, в формате SDMX).

Возможно именно по этой причине у Twitter'аккаунта ONS более 245 тысяч подписчиков [4], а у Росстата 354 читателя [5] и 2.5 тысячи подписчиков во Вконтакте [6].

Ссылки:
[1] https://blog.ons.digital/2017/01/06/some-open-data-publishing-principles/
[2] https://www.ons.gov.uk/
[3] http://www.gks.ru/
[4] https://twitter.com/ONS
[5] https://twitter.com/rosstatistika
[6] https://vk.com/rosstatistika

#opendata #opengov #statistics
TCData360 [1] - это новый проект Всемирного банка с 1800 индикаторами [2] из разных баз данных по внешней торговле, торговому балансу стран, инновациям, рейтингам и так далее.

По каждой стране есть ее профиль, например, вот страны постсоветского пространства:
- Россия - http://tcdata360.worldbank.org/countries/RUS
- Украина - http://tcdata360.worldbank.org/countries/UKR
- Казахстан - http://tcdata360.worldbank.org/countries/KAZ
- Беларусь - http://tcdata360.worldbank.org/countries/BLR

Данные из TCData360 доступны через API проекта [3], а визуализация данных в экспериментальном режиме есть по ссылке Visually Explore TCdata360 [4].

Этот портал не первый, и похоже, не последний портал данных Мирового банка. Напомню про другие их проекты с данными:
- Open Data Catalog - http://datacatalog.worldbank.org/
- DataBank - http://databank.worldbank.org/data/home.aspx
- Microdata Library - http://microdata.worldbank.org/
- World Development Indicators - http://wdi.worldbank.org/
- Open Finances - https://finances.worldbank.org/
- Projects and operations - http://www.worldbank.org/projects
- Open Data Toolkit - http://opendatatoolkit.worldbank.org/en/
- AidFlows - http://www.aidflows.org/
- Global Consumption Database - http://datatopics.worldbank.org/consumption/

Из всех международных структур Всемирный банк лидирует по раскрытию его баз данных. Возможно лишь ООН, как совокупность структур, вскоре приблизится к его масштабам раскрытия информации.

Ссылки:
[1] http://tcdata360.worldbank.org/
[2] http://tcdata360.worldbank.org/topics
[3] http://tcdata360.worldbank.org/tools
[4] https://alberto-sanchez-rodelgo.shinyapps.io/datascoper/

#opendata #opengov #data #worldbank
Появилась в открытом доступе запись моей лекции "От больших данных к большому брату" [1] в рамках лектория Новой Газеты.

Я рассказывал о том что большие данные давно используют для слежки за гражданами, но не стоит думать что государства лидируют в этой области. Корпорации куда больше мотивированы извлекать из нас знания (и деньги). Впрочем подробнее именно в этой лекции.

Ссылки:
[1] https://www.youtube.com/watch?v=lgqy_V8RCCM

#privacy #bigdata #paranoid #happyparanoid
John Tornhill из Financial Times написал заметку о том как дата-капиталисты наживаются на нашей приватности [1], однако немногие смогут прочитать ее за paywall'ом, поэтому стоит почитать ее пересказ [2] на сайте The GovLab.

Смысл статьи в том что данные настолько меняюи общество, сдвигают приоритеты в управлении что можно говорить о Dataism'е как его описывал израильский писатель Yuval Noah Harari [3], [4], [5] в книге Homo Deus которая окажется в продаже с 21 февраля 2017 года.

В том что данные все более управляют обществом уже давно нет новизны, но все еще и нет осознания рядовыми гражданами. Это довольно спорное утверждение что "скоро все все-равно будет прозрачным". У меня есть ровно противоположные предсказания, вплоть до появления сект людей противников сбора какой-либо информации о их жизни. Обязательно будут появляться места, дома, комнаты, изолированные от любого сбора информации. Точно также буду возникать и изолированные сети не подключенные ни к одной общей сети. Не как Tor, а вообще существующие изолированно физически.

Но это, конечно, будут капли в море общества которое начнет призывать к цифровому коммунизму. А борьба с data-капитализмом начнет приобретать не только экзотические национальные формы как в России, но и станет частью политической повестки множества стран.

Ссылки:
[1] https://www.ft.com/content/c0a6b882-d65d-11e6-944b-e7eb37a6aa8e
[2] http://thegovlab.org/data-capitalism-is-cashing-in-on-our-privacy%E2%80%89-%E2%80%89-%E2%80%89-%E2%80%89for-now/
[3] http://www.wired.co.uk/article/yuval-noah-harari-dataism
[4] https://www.ft.com/content/50bb4830-6a4c-11e6-ae5b-a7cc5dd5a28c
[5] http://www.dw.com/en/harari-on-homo-deus-immortality-dataism-and-health-the-infinite-market/a-19523293

#opendata #privacy #dataism #data
В РБК вышла статья Александра Гордеева "Цифровая диктатура: как в Китае вводят систему социального рейтинга" [1] о том как в Китайской народной республике законопослушность внедряется в жизнь цифровыми инструментами.

Подробннее о целях внедрения на английском языке [2], а также перечень санкций для тех у кого низкий рейтинг [3].

Социальный рейтинг - это специальный рейтинг каждого человека состоящий из множества факторов связанных с его кредитной историей, законопослушностью и соблюдением общественных правил (читай - "морали").
Его практическое воплощение хорошо показано в сериале Black Mirror в 1-й серии 3-го сезона [4].

Социальные рейтинги основаны на поощрении тех кто соблюдает все правила и введении ограничений для тех кто правила нарушает.

Для людей с низкими рейтингами санкции включают:
— запрет на работу в госучреждениях;
— отказ в соцобеспечении;
— особо тщательный досмотр на таможне;
— запрет на занятие руководящих должностей в пищевой и фармацевтической промышленности;
— отказ в авиабилетах и спальном месте в ночных поездах;
— отказ в местах в люксовых гостиницах и ресторанах;
— запрет на обучение детей в дорогих частных школах.

Хорошо ли это или плохо? Выиграем ли мы все если подобное будет внедрено? Это другой мир, которого нам, скорее всего, очень скоро не избежать.

Сейчас социальный рейтинг - это пилотный проект внедряемый в провинции Ханчжоу в Китае, но вскоре эта практика может распространиться и на другие регионы Китая и на другие страны.

При этом важно помнить об ограничениях и новых проблемах которые подобные рейтинги создадут:
- двойное наказание. Для многих нарушений и без того предусмотрены наказания в виде штрафов или же ограничений в деятельности. Это относится к судимости, например.
- конфликты. Часть оценок в социальный рейтинг может идти от оценки служащих с которыми контактирует человек и может привести к дальнейшим социальным конфликтам (это как раз тема серии Black Mirror).
- маргинализация. Маловероятно что рейтинг получится скрыть и использовать только для ранее заявленных целей. Можно быть на 100% уверенными что он распространится и на работу в госсекторе вообще и на прием на работу. Вакансии с пометкой минимального балла социального рейтинга необходимого для работы неизбежны.
- виктимизация. В ситуации невозможности скрыть информацию о рейтингах от других граждан вполне вероятны акты агрессии против лиц с наиболее низким рейтингом. Социальные разделения на "мы и они" приобретут гораздо более драматическую форму.

Я могу порекомендовать прочитать статью "On social credit and the right to be unnetworked" [5] с обзором большого числа проблем возникающим именно при массовом внедрегии социальных рейтингов.

Дополнительно стоит ознакомиться с анализом практики возврата налогов экспортными предприятиями в Китае (Deloitte) [6] - о том как схожие рейтинги и классификация предприятий на 4 категории со своими возможностями и ограничениями вводится в Китае с сентября 2016 года.

Не стоит рассчитывать на то что рейтинги будут вводиться только для граждан. Можно с высокой степенью уверенности утверждать что если они начнут вводиться, то затронут и коммерческие предприятия также. Уже сейчас многие компании в России экспериментируют с "рейтингами добросовестности", но пока нет ничего что было бы оформлено в государственную политику.

[1] http://www.rbc.ru/business/11/12/2016/584953bb9a79477c8a7c08a7
[2] https://chinacopyrightandmedia.wordpress.com/2014/06/14/planning-outline-for-the-construction-of-a-social-credit-system-2014-2020/
[3] https://www.instapaper.com/text?u=https%3A%2F%2Fchinacopyrightandmedia.wordpress.com%2F2016%2F09%2F25%2Fopinions-concerning-accelerating-the-construction-of-credit-supervision-warning-and-punishment-mechanisms-for-persons-subject-to-enforcement-for-trust-breaking%2F
[4] https://en.wikipedia.org/wiki/Nosedive
[5] http://cblr.columbia.edu/wp-content/uploads/2016/07/2_2016.2_Geslevich-Packin-and-Lev-Aretz_FINAL.pdf
[6] https://www2.deloitte.com/content/dam/Deloitte/cn/Documents/tax/ta-2016/deloitte-cn-tax-tap2522016-en-161122.pdf

#data #privacy
Я не хочу подробно писать о "дискуссии" между Лебедевым и Навальным вокруг бездеятельности второго и "крупного господрядчика" в лице Студии Лебедева. Я напишу только этот текст и не буду вступать в дискуссии в комментариях, здесь или где-либо еще. Мое мнение очень давно сложилось.

Все это смешно, и больше похоже на то что Навальный с Лебедевым договорились так раскачать блогосферу чтобы устроить Навальному дебаты на Дожде с наименее подготовленным, но медийным собеседником. Насчет "крупного господрячика Лебедева" - это даже не смешно. Все кто хоть чуточку в курсе того как устроены госрасходы знают насколько это глупое утверждение.

В прошлом году я был на большом форуме в Татарстане в рамках мероприятия международного союза городов (не помню его точного названия). Так вот главный акцент на котором делали все участники, в первую очередь, участники из демократических стран - Евросоюза, Австралии и других в том что города - это не форма управления. Городская власть ближе к людям вне зависимости от политического устройства страны.

Так же и здесь. Любимый Навальным ФАС России публикует в своем отчете о конкуренции цифру в 70% ВВП России формируемом госсектором. Эти цифры включают чистые госрасходы и расходы включающие госкорпорации и остальные government enterprises все вместе.

Очень немногие предприниматели в России могут не пересекаться с государством и заниматься профессиональной деятельностью. Это пересечение почти всегда не связано с политическим устройством, контракты заключаются с региональными, муниципальными властями или с отдельными госорганизациями.

Навальный в своей риторике обвиняет не только Лебедева, но и весь тот бизнес который живет в этих 70% ВВП от госсектора.

Я могу назвать это только 'дерьмовым популизмом', который в отличии от популизма классического, основан только на закидывании дерьмом оппонентов.

Это одна из причин почему я еще много лет назад говорил что ФБК Навального с самого начала жертвует профессионализмом в угоду фанатичной политике. А сам Навальный теряет поддержку любого думающего человека.

Выбор между "упырями" и "дерьмовыми популистами" как раз и наводит апатию на тех кто должен этот выбор делать.

Даже этот текст я пишу в формате "не сдержался". В нескольких СМИ в ближайшие недели и месяцы будут выходить материалы с моими комментариями и с интервью где я подробнее рассказываю о реальных проблемах в госзаказе которые куда серьезнее были и остаются чем вся риторика Навального.

#procurement
Два автора подряд в США пишут о рисках открытости данных в США с приходом Дональда Трампа. В первой "How Trump’s White House Could Mess With Government Data" [1], где автор во многих примерах и обещаниях Дональда Трампа улавливает риски потери данных. Уже сейчас есть риск потери доступа к климатическим данным и вероятность закрытия агентства EPA. Эту же тему продолжает главред InfoWorld в статье "Will open data survive Trump?" [2] которая в эпоху Трампа "Band of Big Brothers: Meet Trump’s spy team" [3] особенно актуальна.

Что и говорить - проблема не надуманная. Администрация Трампа вполне может пересмотреть приоритеты и перестать заигрывать с "излишней открытостью".

Ссылки:
[1] https://fivethirtyeight.com/features/how-trumps-white-house-could-mess-with-government-data/
[2] http://www.infoworld.com/article/3157870/open-source-tools/fears-of-trump-prompt-open-datas-underground-railroad.html
[3] http://www.infoworld.com/article/3150741/government/band-of-big-brothers-meet-trumps-spy-team.html

#opendata #usopendata #trump
Мало кто в России из тех кто пишет о госзакупках, на самом деле, пытается вникнуть в то как реально устроена вся эта система изнутри. Например, часто, слишком часто обходят стороной роль электронных торговых площадок и того факта что они являются некой экзотической (теневой) формой ГЧП. В свежей статье Ведомостей "Как зарабатывают площадки для госзаказа" [1] представлены наши цифры по анализу структуры рынка.

В данном случае я выступаю в роли не столько общественной сколько в роли экспертной. Этот анализ мы проводим в рамках работы аналитического агентства "Бюро контрактной информации" которое я возглавляю и которое специализируется как раз на глубоком изучении рынков, как госзаказа, так и контрактных отношений/закупок в корпорациях.

И это, кстати, наглядная демонстрация работы на основе открытых данных - для подсчета ключевых цифр необходимо зачастую перелопатить огромные объемы баз данных, файлов и множество источников информации.

В этом году планируется еще много публикаций на эту тему, и не только в формате сжатых статей в Ведомостях, но и в виде более комплексных документов.

Ссылки:
[1] http://www.vedomosti.ru/economics/articles/2017/01/19/673603-zarabativayut-ploschadki-goszakaza

#procurement #goszakaz
Новость которая прошла практически незамеченной, 15 декабря 2016 года вышли рекомендации W3C "Data on the Web Best Practices" [1] с большим числом примеров того как надо публиковать данные онлайн, в web'е.

Рекомендации охватывают широкий спектр тем, таких как:
- метаданные;
- лицензии для данных;
- происхождение данных;
- качество данных;
- версионность данных;
- идентификаторы данных;
- форматы данных;
- словари для данных;
- доступ к данным включая доступ к данным через API
- обратная связь
- улучшение данных
- и повторная публикация.

Что особенно важно так то что в документе сформулированы основные выгоды которые получает пользователь и публикатор данных:
- Reuse
- Comprehension
- Linkability
- Discoverability
- Trust
- Access
- Interoperability
- Processability

Все примеры связаны с данными выгодами и хорошо систематизированы. Было бы неплохо, конечно, прогнать через эти критерии российские методические рекомендации, почти наверняка мы можем ожидать что они не соответствуют где-то половине данных критериев.

Разумеется это не первый и не последний подобный документ от W3C, но для публикации данных до сих пор их рекомендации в России очень плохо используются.

Ссылки:
[1] https://www.w3.org/TR/2016/PR-dwbp-20161215/

#opendata #opengov #data #w3c