Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.74K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Очень интересный отчёт Government Accountability Office в США о том как можно экономить средства при госрасходах http://www.gao.gov/assets/680/676473.pdf если сравнить его с отчётами аналогичными в России, то просто небо и земля. А в контексте управления данными - они же пишут про многочисленные проблемы в том как органы власти с данными работают #government #opengov #opendata
В Китае создают так называют "pre-crime network" обеспечивающую predictive policing, предсказание возникновение криминальных инцидентов и других нарушений общественной безопасности об этом пишет Telegraph http://www.telegraph.co.uk/technology/2016/03/09/minority-report-style-technology-to-predict-crime-in-china/ со ссылкой на мартовскую статью в Bloomberg http://www.bloomberg.com/news/articles/2016-03-03/china-tries-its-hand-at-pre-crime

В самом Китае не используют термин "платформа больших данных" (big data platform) вместо этого определяют систему как "объединенная информационная среда" (united information environment) в Великобритании технологии предсказания преступления внедряются уже давно http://www.telegraph.co.uk/news/uknews/law-and-order/10059121/Minority-Report-policing-comes-to-the-UK.html и активно используются для профилактики преступлений.

 Аналогичные технологии внедряются во многих городах и штатах США. Такие компании как PredPol http://www.predpol.com/ активно продают свои решения полицейским департаментам, а в исследовании RAND от 2013 года http://www.rand.org/content/dam/rand/pubs/research_reports/RR200/RR233/RAND_RR233.pdf рассказывается об основных технологиях и путях развития

Вопрос который можно было бы задать себе, как всегда, возможны ли подобные технологии в России ? Способны ли российские правоохранительные органы к их внедрению и принесёт ли это пользу обществу? Как соблюсти баланс безопасности и манипулирования обществом при наличии "машинок предсказания" ? Эти вопросы пока остаются без ответа #opendata #bigdata #policing #openpolice
Тем временем в Филлипинах произошла утечка персональных данных о 55 миллионах избирателей http://cnnphilippines.com/news/2016/04/21/Comelec-hack-data-registered-Filipino-voters.html #privacy и стоят за этим Anonymous Philippines. Похоже что в мире набирает тренд по взлому баз избирательных комиссий.
Британская библиотека опубликовала 1 миллион изображений из своих архивов. Всё для свободного использования (public domain) и доступно через сервис Flickr https://www.flickr.com/photos/britishlibrary/ . Подробнее на сайте Британской библиотеки http://britishlibrary.typepad.co.uk/digital-scholarship/2013/12/a-million-first-steps.html , в блоге Flickr http://blog.flickr.net/en/2013/12/16/welcome-the-british-library-to-the-commons/

Этот набор фотографий - это часть проекта The Commons https://www.flickr.com/commons организованного Flickr и через который более 100 архивов по всему миру публикуют свои изображения как общественное достояние.
Открытость банков - это миф или неизбежное будущее ? http://bosfera.ru/bo/zakrytyy-mir-otkrytyh-dannyh #‎opendata
Моя статья в банковском обозрении о том что в мире постепенно развивается тема открытости банков. Единственное что я там не затронул - это то что с развитием альтернативных платежных систем банки могут просто не успеть.
Тем временем многие проекты на открытых данных связанных с бизнес информацией активно монетизируются. OpenCorporates запустили серию продуктов с базами с коммерческой информацией. Они предоставляют данные по организациям в виде датасетов. По сути - это продажа баз данных и их ежемесячного обновления. https://opencorporates.com/products #opendata
"A Political Economy Framework for the Urban Data Revolution" новое исследование от The Urban Institute посвящённое выработке последовательной политики в работе с городскими данными. В исследовании много примеров из области политической экономии и изменения практик городского управления для выработки политики для создания и анализа данных. http://www.urban.org/sites/default/files/alfresco/publication-pdfs/2016.04.26%20Political%20Economy%20of%20the%20Urban%20Data%20Revolution_FINAL.pdf #opendata #urbandata
Вышло исследование "The Effects of Income Transparency on Well-Being Evidence from a Natural Experiment" проведённое Ricardo Perez-Truglia из Microsoft Research и посвящённая эффекту от раскрытия данных о доходах, налоговых данных граждан, в Норвегии в 2001 году.

В исследовании подробно рассказывается об опросах об удовлетворенности жизнью проведенных в Норвегии с 1985 по 2013 годы.
А также упоминается, например, о том что данные о налогах граждан раскрываются в Норвегии с середины 19-го века, но тогда, это было в виде публикаций в газетах, то сейчас в виде специального сайта.

Также в исследовании есть тезис что современные норвежцы чаще ищут декларации друг друга чем видео на Youtube.

Публикация http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2657808
#opendata #transparency
О АРХИВАХ САЙТОВ МВД и ФМС

Думал на майских успеть сделать копии сайтов упраздняемых агентсв. ФСКН получается, Росфиннадзор получается, а вот с ФМС беда.

Вместо их сайта http://www.fms.gov.ru/ теперь заглушка с перенаправлением на сайт МВД.

Силовики вообще мастера заметать следы в публичном пространстве. Не могу забыть как в 2011 году МВД уничтожило одномоментно все официальные сайты УВД субъектов и создало новые в поддомене mvd.ru. Все архивы с отчетами чтобы были доступны просто исчезли.

Это всё о том как к информации относятся российские госорганы. Так как будто они тут ненадолго.

Только ЦБ РФ архивирует документы с 1998 года и сохранил сайты ФСФР http://cbr.ru/finmarkets/?PrtId=archive

Но это уникальная ситуация, большая часть других всё или многое уничтожают без архивации при смене сайта или орг реформах.

Какие ещё ресурсы надо срочно архивировать? Пишите мне на @ibegtin. Также я продолжаю искать тех кто поможет мне создать интерфейс над уже накопленными архивами сайтов за последние лет 5
Голландский Гринпис опубликовали утечку из более половины проекта соглашения между США и Евросоюзом https://www.ttip-leaks.org/ так называемое TTIP соглашение (Transatlantic Trade and Investment Partnership).

После чего 1-го мая выпустили пресс-релиз http://www.greenpeace.org/international/en/press/releases/2016/Leaked-TTIP-documents-confirm-major-risks-for-climate-environment-and-consumer-safety/ в котором обращают внимание на то что соглашение ограничивает исследования по изменению климата, снимает принцип евросоюза по допуску еды на рынки только после проверки, снимает несколько приниципов защиты окружающей среды

Arstechnica обращает внимание http://arstechnica.co.uk/tech-policy/2016/05/ttip-to-fail-leak-reveals-us-isds-gmos-demands/ что не только окружающая среда, но и многие технологические аспекты подозрительны в этом соглашении. Например, телекоммуникационные компании получают право игнорировать европейское законодательство о чём пишет группа EDRi после исследования соответствующего раздела TTIP https://edri.org/breaking-ttip-leaks-confirm-dangers-for-digital-rights/

После панамских бумаг и многих малых утечек очень похоже на то что этот год превзойдёт все предыдущие по вытаскиванию правды на свет. Всё тайное стало очень тяжело сохранять тайным.

#privacy #digitalrights
Полный архив Panama Papers ещё недоступен, но то что ранее публиковали уже активно переводят в наборы данных

И вот наборы данных по панамским бумагам
- в CSV https://github.com/amaboura/panama-papers-dataset-2016
- данные для Neo4J http://www.thereportertimes.com/panama-papers-icij-offshore-leaks-database-documents/23489/

И самое главное. База https://offshoreleaks.icij.org со всеми засвеченными при утечке организациями.

Думаю что 1-2 недели и найдутся активисты которые переделают её в наборы данных

#opendata #opengov #panamapapers
для тех кто ищет данные с исчезающих сайтов госорганов и правоохранительных органов в частности на хабе открытых данных теперь есть группа данных которая так и называется "Архивы сайтов правоохранительных органов России"
http://hubofdata.ru/group/lawenfarchive
Там сейчас архивы только 4-х сайтов:
- ФМС России fms.gov.ru
- ФСКН России fskn.gov.ru
- Сайт внутренних войск МВД vvmvd.ru
- Портал правоохранительных органов 112.ru
Из них портал 112.ru уже не существует в сети, архив сайта ФМС сделан со старой копии по адресу 92.fms.gov.ru, остальные пока еще временно доступны.
Все доступно в виде полных архивов сайтов с выкачанными страницами и документами. В формате WARC и в виде архива для распаковки на файловой системе.
Осталось еще примерно 26 сайтов внести в эту группу, их архив давно сделаны.
Сейчас больше времени уходит на то чтобы вручную их вносить в хаб со всеми метаданными #‎opendata #‎opengov #‎webarchive
Напомню что если есть сайты госорганов или же общественно значимых проектов находящихся под угрозой их исчезновения - пишите мне в фэйсбуке на facebook.com/ibegtin, в телеграме telegram.me/ibegtin или же по почте на [email protected]
Моя статья в РБК «Темная сторона открытости: почему не все данные стоит раскрывать» http://www.rbc.ru/opinions/technology_and_media/16/05/2016/5739b2639a79474f9a96e10f о том какие данные можно и какие наоборот рискованно публиковать. Для многих неожиданность когда я выступаю в амплуа не открытости, а рисков открытости. Хотя в мире как раз всё так и устроено и вопросы персональных данных всегда идут рядом с вопросами открытости. Правильный баланс и гибкое управление рисками при раскрытии информации это необходимое условие. #opendata #privacy
В Исландии пиратская партия выходит в парламентские лидеры с 36% поддержкой со стороны избирателей. В Arstechnica гадают какое будущее Исландию ждёт http://arstechnica.co.uk/tech-policy/2016/05/icelandic-pirate-party-snowden-whistleblowers/

Теперь высока вероятность что Исландия предоставит гражданство Эдварду Сноудену, о чём уже говорили представители Пиратской партии, и то что там начнут внедрять прямую демократию, полную декриминализацию наркотиков и 35 часовую рабочую неделю.

Ещё один вероятный результат - это внедрение в Исландии идеи Transparency Haven https://en.immi.is/immi-resolution/ с защитой для журналистов по всему миру.

За этим не только интересно будет пронаблюдать, но и всё больше хочется в этом принять участие #opendata #privacy
«Гниение ссылок» (Reference rot) - это важная проблема работы с научной и юридической информацией на которую обращают внимание Гарвардские исследователи в статье «Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations» http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2329161

Более 70% в журналах на которые ссылаются авторы электронных статей устаревают. Дословно:
«We documented a serious problem of reference rot: more than 70%
of the URLs within the above mentioned journals, and 50% of the
URLs within U.S. Supreme Court opinions suffer reference rot —
meaning, again, that they do not produce the information originally
cited.»

И это коллосальная проблема связанная ещё и с регулярным обновленеим ПО официальных сайтов многих государственных органов. Все они забывают о «ссылочной целостности» при этих операциях. И не только в США, но и в России. #opendata #archives
Тем временем в Калифорнии принимают закон о переводе всех результатов работы госорганов под копирайт. Об этом пишут в Electronic Frontier Foundation https://www.eff.org/deeplinks/2016/04/ab-2880 это затрагивает все виды документов и материалов: отчёты, карты, аудио и видео

В Калифорнии уже был случай когда городской округ Inglewood подали в суд за нарушение копирайта на одного из жителей который загрузил видео с критикой мэрии на основе одного из роликов городского совета http://www.latimes.com/opinion/opinion-la/la-ol-inglewood-copyright-lawsuit-20150602-story.html

Проблема копирайта как цензура становится всё более актуальной и открытость государства постоянно подвергается рискам что этой открытости существовать осталось недолго #opengov #opendata
О том что сейчас происходит с открытостью данных в России на примере портала открытых данных Москвы.
Чтобы понять какая текущая ситуация в России с открытыми госданными стоит взглянуть на один из лучших (из российских) порталов - портал Открытых данных Москвы data.mos.ru
За большими средствами на его создание, рекламную кампанию, современным дизайном скрывается всего-ничего - 463 набора данных из которых более 100 - это "справочная информация" из органов власти http://data.mos.ru/opendata?categoryId=21&IsActual=true по 3-10 строки в каждом наборе данных.
Есть ли в городе данные которые можно было бы открыть? Сложно ли это сделать?
Только поверхностный анализ выявляет более 10 тысяч только Excel файлов со всевозможными реестрами, справочниками, статистикой и перечнями опубликовали департаменты и учреждения Москвы за эти годы. Реально же их большее количество поскольку многие файлы Excel находятся внутри ZIP архивов и их оттуда надо вытаскивать.
Все они могут быть, могли бы быть, сконвертированы в открытые данные в сравнительно короткие сроки. При неспешной, аккуратной работе 1 человека и 20 минутах на один набор - по 24 набора данных могли бы добавляться ежедневно.
И это, напомню, не какие-то новые данные, а те что уже публиковались ранее и то что не требует дополнительных согласований. Это простая, постоянная рутинная работа которую никто не делает.
Та же ситуация в большинстве, если не во всех, российских регионах и в органах власти. Те наборы данных опубликованные в рамках "обязательного списка" - это толика в море реально доступных данных которые могли бы быть переведены в машиночитаемый вид.
У федералов ситуация не лучше ни коим образом. Федеральный портал на котором у многих ведомств вообще ничего не опубликовано, а уже если говорить про опубликованное то он не выполняет ни функций агрегатора, нет и половины регионов, ни функций по консолидации открытых данных ФОИВов.
В итоге и по сей день большую часть ключевых данных те кому они нужны собирают скрейпингом или преобразованием Excel'вских реестров.
#‎opendata #‎opengov