Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.74K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Моя статья в РБК «Темная сторона открытости: почему не все данные стоит раскрывать» http://www.rbc.ru/opinions/technology_and_media/16/05/2016/5739b2639a79474f9a96e10f о том какие данные можно и какие наоборот рискованно публиковать. Для многих неожиданность когда я выступаю в амплуа не открытости, а рисков открытости. Хотя в мире как раз всё так и устроено и вопросы персональных данных всегда идут рядом с вопросами открытости. Правильный баланс и гибкое управление рисками при раскрытии информации это необходимое условие. #opendata #privacy
В Исландии пиратская партия выходит в парламентские лидеры с 36% поддержкой со стороны избирателей. В Arstechnica гадают какое будущее Исландию ждёт http://arstechnica.co.uk/tech-policy/2016/05/icelandic-pirate-party-snowden-whistleblowers/

Теперь высока вероятность что Исландия предоставит гражданство Эдварду Сноудену, о чём уже говорили представители Пиратской партии, и то что там начнут внедрять прямую демократию, полную декриминализацию наркотиков и 35 часовую рабочую неделю.

Ещё один вероятный результат - это внедрение в Исландии идеи Transparency Haven https://en.immi.is/immi-resolution/ с защитой для журналистов по всему миру.

За этим не только интересно будет пронаблюдать, но и всё больше хочется в этом принять участие #opendata #privacy
«Гниение ссылок» (Reference rot) - это важная проблема работы с научной и юридической информацией на которую обращают внимание Гарвардские исследователи в статье «Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations» http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2329161

Более 70% в журналах на которые ссылаются авторы электронных статей устаревают. Дословно:
«We documented a serious problem of reference rot: more than 70%
of the URLs within the above mentioned journals, and 50% of the
URLs within U.S. Supreme Court opinions suffer reference rot —
meaning, again, that they do not produce the information originally
cited.»

И это коллосальная проблема связанная ещё и с регулярным обновленеим ПО официальных сайтов многих государственных органов. Все они забывают о «ссылочной целостности» при этих операциях. И не только в США, но и в России. #opendata #archives
Тем временем в Калифорнии принимают закон о переводе всех результатов работы госорганов под копирайт. Об этом пишут в Electronic Frontier Foundation https://www.eff.org/deeplinks/2016/04/ab-2880 это затрагивает все виды документов и материалов: отчёты, карты, аудио и видео

В Калифорнии уже был случай когда городской округ Inglewood подали в суд за нарушение копирайта на одного из жителей который загрузил видео с критикой мэрии на основе одного из роликов городского совета http://www.latimes.com/opinion/opinion-la/la-ol-inglewood-copyright-lawsuit-20150602-story.html

Проблема копирайта как цензура становится всё более актуальной и открытость государства постоянно подвергается рискам что этой открытости существовать осталось недолго #opengov #opendata
О том что сейчас происходит с открытостью данных в России на примере портала открытых данных Москвы.
Чтобы понять какая текущая ситуация в России с открытыми госданными стоит взглянуть на один из лучших (из российских) порталов - портал Открытых данных Москвы data.mos.ru
За большими средствами на его создание, рекламную кампанию, современным дизайном скрывается всего-ничего - 463 набора данных из которых более 100 - это "справочная информация" из органов власти http://data.mos.ru/opendata?categoryId=21&IsActual=true по 3-10 строки в каждом наборе данных.
Есть ли в городе данные которые можно было бы открыть? Сложно ли это сделать?
Только поверхностный анализ выявляет более 10 тысяч только Excel файлов со всевозможными реестрами, справочниками, статистикой и перечнями опубликовали департаменты и учреждения Москвы за эти годы. Реально же их большее количество поскольку многие файлы Excel находятся внутри ZIP архивов и их оттуда надо вытаскивать.
Все они могут быть, могли бы быть, сконвертированы в открытые данные в сравнительно короткие сроки. При неспешной, аккуратной работе 1 человека и 20 минутах на один набор - по 24 набора данных могли бы добавляться ежедневно.
И это, напомню, не какие-то новые данные, а те что уже публиковались ранее и то что не требует дополнительных согласований. Это простая, постоянная рутинная работа которую никто не делает.
Та же ситуация в большинстве, если не во всех, российских регионах и в органах власти. Те наборы данных опубликованные в рамках "обязательного списка" - это толика в море реально доступных данных которые могли бы быть переведены в машиночитаемый вид.
У федералов ситуация не лучше ни коим образом. Федеральный портал на котором у многих ведомств вообще ничего не опубликовано, а уже если говорить про опубликованное то он не выполняет ни функций агрегатора, нет и половины регионов, ни функций по консолидации открытых данных ФОИВов.
В итоге и по сей день большую часть ключевых данных те кому они нужны собирают скрейпингом или преобразованием Excel'вских реестров.
#‎opendata #‎opengov
О том как работать в связке «открытые данные - персональные данные» можно увидеть на примере Administrative Data Research Network в Великобритании https://adrn.ac.uk/ это государственный проект на базе университета Эссекса в котором исследователи получают доступ к детальным персонифицированным, но деперсонализированным данным таким как перепись, реестры новорожденных, базы пациентов, базы учителей включая их результативность и многое другое.

Эти данные персонифицированы - это означает что они предоставляются не в агрегированном виде. Каждая запись представлена как есть, за исключением, и это оговаривается явно, персональных данных. Из каждой записи удаляются: ФИО, адрес, национальные идентификаторы.

При этом, даже после деперсонализации, эти данные сохраняют высокий риск повторной идентификации человека (re-identification) и по этой причине доступ к ним предоставляется только после одобрения заявки и только со специальных терминалов в нескольких университетах.

А для того чтобы исследователи могли понять какие данные в принципе есть в наличии, каждый набор данных детально описан и его описание всегда доступно онлайн. И там же конкретные примеров результатов на основе этих данных https://adrn.ac.uk/research-projects/case-studies/

#opendata #opengov #privacy
Hitachi Consulting вместе с мэрией Копенгагена создали Сity Data Exchange (https://www.citydataexchange.com) , специальный сайт для продажи, покупки, распространения наборов данных. Туда они загрузили первые 56 наборов данных и рассчитывают на то что бизнес и органы власти будут не только публиковать данные, но и формировать общую экосистему продавая те данные которые имеют коммерческую ценность.

При этом, на сегодняшний день, портал больше похож на маркетинговую брошюру чем на полезный инструмент. Hitachi очень постарались в его визуальной упаковке, маркетинге. Например, их описание проекта https://www.hitachiinsightgroup.com/en-us/pdf/solution-profile/hitachi-solution-profile-city-data-exchange.pdf , статьи и прочие материалы о Умных городах https://www.hitachiinsightgroup.com/en-us/smart-cities.html Но реальность далеко не столь радужна.

Первые пользователи пишут о портале https://blog.ldodds.com/2016/05/21/first-impressions-of-copenhagens-city-data-exchange/ в нелицеприятном свете. Отмечая:
- неудобство работы
- то что данные взяты с портала открытых данных и помещены под закрытую лицензию
- то что API отделено от самих данных

Сама идея создания универсальной инфраструктуры имеет смысл, но качество и акценты в реализации также важны.

Итоговые впечатления о портале можно будет сделать где-то через полгода после того как станет понятно будет ли готов бизнес использовать его для продажи своих данных.

И, на закуску. Цифра в 1,511,028,278 bytes of data которую трансилируют они на главной странице - это, всего лишь, 1,5 гигабайта данных. Очень скромно по современным меркам. Ровно тот случай когда «высасывание из пальца» маркетинговых цифр сразу портит всё впечатление.

#opendata #opengov #smartcity
После того как в СМИ уже все прочитали, можно написать об этом и подробнее. Сегодня вышло в свет исследование о текущем состоянии государственной инфраструктуры электронной почты подготовленное Новые облачные технологии, при нашей экспертной поддержке со стороны АНО "Информационная культура"

Об этом очень подробная статья вышла в Коммерсанте http://www.kommersant.ru/doc/2996373 с акцентом на то что почти 80% госслужащих используют публичные почтовые сервисы для официальной переписки.
Исследование, в каком-то смысле, уникальное. Мы и раньше анализировали понемногу то каков уровень информатизации госорганов и _информационная культура_ госслужащих при электронной переписке, но без коллег мы никогда не смогли бы сделать это столь системно и масштабно.

Посмотрите само исследование по прямой ссылке тут http://rosgospochta.ru/MyOffice_email_report_2405_DRAFT.pdf
и сайт с наглядной визуализацией http://rosgospochta.ru
Забегая вперед, это не последнее исследование в котором наша команда принимает участие. Открытые данные дают множество возможностей для качественной аналитики. Какие-то исследования мы будем распространять от Инфокультуры или помогать коллегам, как в этом случае, своей экспертной поддержкой.

Другие мы уже проводим от нашей аналитической компании "Бюро контрактной информации" которое специализируется на анализе всего что связано с контрактными отношениями - закупками, контрактами, их исполнением, ценами и продукцией.
Нельзя быть сапожником без сапог, нельзя говорить про бизнес на открытых данных и всячески демонстрировать отказ от него. Аналитические исследования - это одно из наиболее полезных применений открытых данных на практике и никак не вредящее самой идеологии открытости, аналитика всегда требует большого объёма качественной общедоступной машиночитаемой информации.

А, возвращаясь к этому исследованию, конечно оно охватывает далеко не всё. Мы взяли почту как самый-самый базовый сервис отсутствие которого вызывает большие сомнения в качестве информатизации ОГВ и бюджетных учреждений.

Кроме них есть ещё такие как:
- хостинг для сайтов созданных на бюджетные средства
- распространение официальных документов через бесплатные файлообменные сервисы: Яндекс.Диск, Google Drive, Dropbox и другие
- использование различных SaaS сервисов для организации работы сотрудников (включая зарубежные SaaS сервисы)
- сливание персональных данных граждан через установку веб-счётчиков в закрытых частях сайтов, требующих авторизацию
И многое и многое и многое другое. Это ведь даже не вопрос того - импортное или отечественное, не только вопрос границ, но и вопрос последовательности государственной политики. Она не может существовать в вакууме и игнорировать сложившуюся реальность.
#‎opendata #‎opengov #‎privacy #‎publicinfractructure
От Nesta (ранее NESTA, National Endowment for Science, Technology and the Arts) НКО в Великобритании занимающегося инновациями вышел большой документ/исследование How Innovation Agencies Work: International lessons to inspire and inform national strategies. Они разбирают в документе кейсы 10 инновационных агентств национального уровня (Россию не рассматривают, но есть финны и чилийцы, к примеру). Исследование, как минимум, стоит прочитать чтобы понять как устроен подход к инновациям в этих 10 странах.

Что нужно отдать должным современным документам идущим от госструктур и мозговых центров UK - это понятность без bullshit. Этим они резко констрастируют со всеми документами международных консалтеров вроде PwC или McKinsey
В Великобритании развивается общественная дискуссия вокруг приватизации земельного реестра. Правительство страны запустило публичные консультации которые должны закончится 26 мая этого года, а члены OGN (Open Governement Network) составили свой отзыв с критикой этого решения. Их отзыв подписан 47 пользователями данных включая 27 представителей организаций членов OGN.

В чём проблема с приватизацией? Приватизация переводит в частную собственность сам земельный реестр. Его данные, одни из ключевых по экономическому эффекту открытости, перестают быть общественным достоянием. Новый владелец реестра неизбежно начнет монетизировать доступ к данным.

Официальные консультации на сайте Правительства UK: https://www.gov.uk/government/consultations/land-registry-moving-operations-to-the-private-sector

Ссылка на сайте OGN: http://www.opengovernment.org.uk/2016/04/26/what-impact-would-land-registry-privatisation-have-on-transparency-help-write-the-ogns-consultation-response/

Отзыв OGN на решение: https://docs.google.com/document/d/1A-3ckBTAAIWSwgpSTSD3IaPVWniLoeSd_eNJgrXgDc4/edit?usp=sharing
#opendata #opengov #uk
Мы в Инфокультуре и OKF Russia принялись всерьёз за работу с сообществом по открытым данным и проводим перепись активистов

Цель переписи в том чтобы составить список:
- активистов, разработчиков проектов и менторов готовых участвовать в жизни сообщества;
- тех кто готов участвовать в мероприятиях и не пропустить самые интересные;
- тех кому важно знать что происходит в теме открытых данных в России и в мире;

Для участия просим заполнить анкету по адресу - https://infoculture.typeform.com/to/QXF6a6

А также отправьте её, пожалуйста, тем кто, как Вы знаете, занимается открытыми данными, но стесняется об этом сказать сам.

#‎opendata #‎opengov
Очередной журнал «Internet Policy Review» вышел с темой «Большие данные: большие изменения во власти?» (Big Data: Big power shifts) и полностью посвящён теме различных аспектов этики использования и практики регулирования больших данных, в первую очередь в Евросоюзе. В частности, там весьма интересная статья о больших данных в агропромышленном секторе и о то что недавно Monsanto купили компанию ClimatePro и также собирают погодные данные со всех своих тракторов и не только. Это про то как информационное неравенство в данных играет на руку крупным компаниям и убивает бизнес малых в лице фермеров.

Статья: «Regulating “big data education” in Europe: lessons learned from the US» посвящена анализу больших данных в образовании и большей власти вендоров и меньшей у школ. Одной из ключевых тем является приватность данных студентов и специальное регулирование посвящённое этой теме во многих странах.

Другие статьи, также, заслуживают внимания.

Выпуск журнала: http://policyreview.info/articles/analysis/big-data-big-power-shifts
Статья о Monsanto: http://policyreview.info/articles/analysis/ethics-big-data-big-agriculture
Статья о анализе больших данных в образовании: http://policyreview.info/articles/analysis/regulating-big-data-education-europe-lessons-learned-us

#opendata #bigdata #privacy #agridata #edudata
Одними из сильнейших драйверов открытости в мире являются даже не национальные правительства и, часто, даже не граждане, а межгосударственные институты, в первую очередь институты развития, которые выцепляют лучшие национальные практики и начинают активно их предлагать.

Год назад Marcos Siqueira в блоге Всемирного банка написал пост: «What if we disclosed everything?» [1] (Что было бы если бы мы раскрывали всё?) где рассказал о своём опыте раскрытия информации о контрактах частно-государственных партнёрств в Бразилии и с призывом к радикальной прозрачности в этой области.

Сейчас в блоге FOMIN (подструктура МежАмериканского банка развития) появилась публикация о развитии этой практики в Мексике и использовании стандарта Open Contracting для этой цели. В публикации «Open data + increased disclosure = better public-private partnerships» [2] подробно рассмотрены выгоды общества от подобного раскрытия информации.

Эти публикации особенно показательны на фоне российской истории с «Платоном» когда изначально непрозрачная практика принятия решения и отсутствие вовлечения граждан и стали приводить к принципиальному общественному неприятию этого проекта. Аналогичная непростая ситуация с московскими парковками и похожая ситуация зреет со многими другими действующими проектами и системами которые некоторые чиновники уже хотят передать в концессию.


[1] http://blogs.worldbank.org/ppps/what-if-we-disclosed-everything
[2] http://www.fomin.org/en-us/Home/FOMINblog/Blogs/DetailsBlog/artmid/13858/articleid/6275/Open-data-increased-disclosure-better-public-private-partnerships.aspx

#opendata #opengov #ppp #privatepublic
С момента приказа о присоединении ФСКН к МВД прошло чуть менее 5 месяцев, но лично я уже вижу итоги и результаты, как минимум, с точки зрения сохранения информации.

Из 19 официальных сайтов территориальных управлений ФСКН в ЦФО недоступно уже 10 (на 2016-06-01), можно смело предполагать что с остальными официальными сайтами не лучше, их оперативно выпиливают из интернета.
Краткая сводка текущей доступности их сайтов тут https://docs.google.com/…/1d5Y7MiCeYLr2qIywx2qMPABwur…/edit…

Но картина, в целом, удручающая. Хуже чем с силовиками ситуация обстоит только с банками. После отзыва лицензии сайт банка живет только пару часов. А иногда и сразу же исчезает.
Для сравнения, ЦБ РФ хранит и даёт доступ к архивам всех официальных сайтов поглощённых им структур с 2003 года http://cbr.ru/finmarkets/?PrtId=archive

В России, есть много областей в которых есть просто нулевая активность государства:
- архивация цифровых материалов (не путайте с цифровыми архивами). Эта архивация про сохранение того что изначально создавалось в цифровой форме
- открытый исходный код. Можно сколько угодно спорить о его нужности-ненужности, особом российском пути, но в десятках стран сотни госструктур раскрывают свой исходный код и ведут открытую разработку.


#‎digitalpreservation #opensource
Одна из ключевых тем которую слишком часто избегают упоминать крупные вендоры и стартапы - это «Big Data Ethics». Фундаментальные вопросы приватности в работе с большими данные и информационное неравенство которое лишь нарастает от дисбаланса возможностей тех кто с данными работает по сравнению с теми о ком данные собираются. 2 года назад эта тема была хорошо раскрыта в статье «What’s Up With Big Data Ethics?»[1] на O’Relly Data, а за это время ситуация только усугубляется с каждым годом всё больше и больше.

Основная причина и проблемы в низкой грамотности граждан в том что касается данных (data literacy) и незнании как защищать свои права и приватность. В том же 2014 году в MIT вышла статья «openPDS: Protecting the Privacy of Metadata through SafeAnswers» [2] с примером инструмента который помогал бы пользователю предоставлять информацию по запросу.

Сейчас анализ больших данных и вся тема Big Data стала мейнстримом и большие данные, в том числе данные персональные, являются частью бизнес страгии многих компании что можно увидеть ещё в отчёте WEF за 2011 год «Personal Data: The Emergence of a New Asset Class».
И в том как уже сейчас сотовые операторы в России и другие компании деляться с банками и другими потребителями данных информацией о своих клиентах и их поведению [4].

О data literacy и этике и практике использования данных мобильных телефонов много написано в DataPop Alliance [5], но главный вопрос не решён глобально, осознание потребителями мобильной связи, мобильных приложений и гаджетов что они не только находятся под непрерывным наблюдением и сбором данных о них, но и помогают собирать данные об окружающих. Включение сенсоров в телефонах может использоваться не только для слежки для его владельцем, но и для сбора данных на каком-то расстоянии от него, как минимум в том что касается звуков, каналов Wifi и Bluetooth

Другая практика о которой не принято распространяться - это уже существующий или потенциальный доступ правохранительных данных к Вашим данным при проведении расследований.
Примеры:
- поиск свидетелей. Запрос в сотовые операторы и сервисы о списках людей и их местонахождении рядом с прошедшим преступлением.
- проверка на лежсвидельствование и алиби. Не только по сотовому оператору, но и по наличию действий на телефоне и тому насколько шаблоны поведения на телефоне соответствовали этому пользователю.
- доп источники информации. Например, при расследовании ДТП запрос на актуальное местонахождение водителя в выбранный момент времени и, при фиксации показателей гироскопов в телефоне, то и выявление точного времени столкновения до секунды и точный перечень всех свидетелей на дороге.

И, наконец, самое важное - это использование результатов анализа больших данных от маркетинга до манипулирования. Составление профиля потребителя и, самое главное, предсказание его поведения. Вероятности того что:
- в определенное время, он будет в определенном месте
- кому-то позвонит
- отправит кому-либо сообщение
- использует определенное приложение
- откроет определённый сайт
- … и будет в определённом психоэмоциональном состоянии

Как не продать человеку его старую «потребность» по прошлым поисковым запросам, а то что он может захотеть купить в будущем? Как повлиять на его поведение для извлечения из него максимальной маржи? Как научится предсказывать придёт ли он или нет на выборы и за кого проголосует? Как повлиять на решение тех кто на выборы пойдет? И многое другое

Big Data Ethics - это именно про огромный потенциал манипулирования гражданами со стороны data corporations и государств, активно трансформирующихся в data government.

[1] http://radar.oreilly.com/2014/03/whats-up-with-big-data-ethics.html
[2] http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0098790
[3] http://www3.weforum.org/docs/WEF_ITTC_PersonalDataNewAsset_Report_2011.pdf
[4] http://rusbase.com/howto/big-data-in-russia/
[5] http://datapopalliance.org/work/#data-ethics-and-literacy

#opendata #bigdata #privacy #bigdataethics
В блоге OCCRP большой текст ‘Attack on Poroshenko Reporting is PR, Not Analysis’ [1] обличающий статью в Politico Europe «Ukrainian innocent caught in Panama Papers web» [2].

Журналисты OCCRP, фактически, обвиняют Адриана Карачинского (Adrian Karatnycky) в том что он лоббист, а не журналист, а его Myrmidon Group LLC [3] является, буквально, иностранным агентом в изначальном понимании законодательства США. А то есть зарегистрированным лоббистом Республики Сербской в Боснии, и соответственно президента Республики Милорада Додика который также попался на коррупции в расследования OCCRP [4].

В отличии от Карачинского за OCCRP есть репутация и отсутствие аффилированности с любой одной из групп интересов. Поэтому эта история интересна ещё и «вскрытием» PR активности и лоббирования сменившихся властей на Украине. И поддержанием нейтральной позиции OCCRP в своих расследованиях.

Лично я готов поспорить что до конца дня сегодня об этом напишет несколько десятков российских СМИ, в основном государственных и окологосударственного толка. Впрочем, вопрос по прежнему в сохранении объективной картины которую эти СМИ, также, могут исказить.

[1] https://www.occrp.org/en/40-press-releases/presss-releases/5311-occrp-responds-criticism-poroshenko-ukraine-panama-papers
[2] http://www.politico.eu/article/panama-papers-defending-ukraine-president-petro-poroshenko-corruption-tax-finance-evasion/
[3] http://myrmidongrpllc.com/
[4] https://www.occrp.org/en/daily/4581-bosnia-and-herzegovina-former-high-representative-warns-of-criminally-captured-state

#panamapapers
В субботу 4 июня в США проходил National Day of Civic Hacking проходящий при поддержке Администрации Барака Обамы [1]. Сотни программистов по всей стране собрались на более 100 [2] параллельно идущих хакатонов и других мерориятий. Надо отдать должное организаторам Code For America, которые за всем эти стоят, мероприятия более чем посещаемые и эффективные в организации сообщества.

А их Fundraising Handbook [3] мог бы быть наглядным пособием для многих российских НКО. Что характерно - это уже 3-й такой National Day и до этого они уже проходили в 2013 и 2014 годах (что было в 2015 - непонятно).

Но самое главное что это масштабное мероприятие - это часть экосистемы государственных проектов по вовлечению граждан, а Civic hacking - это гораздо более широкая тема чем просто открытые данные.


[1] https://www.whitehouse.gov/blog/2016/06/03/open-data-and-innovation-national-day-civic-hacking-2016
[2] https://cache.codeforamerica.org/events/national-day-2016/
[3] https://docs.google.com/document/d/1c9Jbtdj_wKP2dDwxslXhBQoobzpTwsxkrSjAlLQdkI0/edit

#opendata #opengov