Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.73K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Обзор "Best government emerging technologies" вышел в этом месяце [1] от лица World Government Summit [2].

В списке технологий:
- Искусственный интеллект
- Блокчейн и распределенные реестры
- Новое производство
- Роботизация и пространство
- Умные платформы
- Виртуальный мир

На мой взгляд, список технологий неполон и сформулирован совсем не обязательно именно так, но множество хороших примеров дает представление о том что происходит с государственным управлением в мире.

Ссылки:
[1] https://worldgovernmentsummit.org/api/publications/document?id=24737dc4-e97c-6578-b2f8-ff0000a7ddb6
[2] https://worldgovernmentsummit.org/annual-gathering/reports

#govtech #digitalgov
Вышел OpenRefine 2.7RC1 [1] свежий кандидат в релизы известного open source продукта по чистке данных.
Из новых возможностей:
- использование Wikidata вместо Freebase
- перевод на японский
- экспорт кластеров

OpenRefine один из наиболее незаменимых инструментов при работе с данными, как с открытыми, так и не очень. Жаль лишь что его востребованность совершенно не коррелирует с развитием проекта. Основной разработчик не проявлял активности более 9 месяцев [2] и теперь основными контрибьюторами являются члены сообщества и привлеченные разработчики через BountySource.

Все это не дает пока надежды что OpenRefine может стабильно развиваться, в то время как спрос на data wrangling tools весьма немал. Коммерческие приложения вроде DataIku и Trifacta не дают той же гибкости. И вопрос о том на что заменять OpenRefine долгосрочно является актуальным.

Ссылки:
[1] https://github.com/OpenRefine/OpenRefine/releases/
[2] https://github.com/tfmorris

#opendata #data
Ответ вопрос о том как существует бизнес на открытых данных в том что бизнесу все равно данные открыты или нет, открытость лишь делает это топливо бесплатным и позволяет снизить издержки, иногда значительно.

Пример коммерческого проекта на данных - это Quandl - https://www.quandl.com/

Стартап предоставляющий часть данных бесплатно на своей платформе, а часть, коммерческих данных, только по платной подписке. Коммерческие данные они получают не из открытых источников или же сводят много данных из открытых для создания нового продукта.

Очень простая и очевидная модель для любого стартапа.

#opendata #data
Друзья, на International Open Data Day в Москве я буду вести секцию "Бизнес". На сегодняшний день подтвердилось 2 спикера и я продолжаю искать тех кто готов выступить о том как бизнес работает с открытыми данными.
Это 4-5 марта и все подробности здесь - http://msk.opendataday.ru

Есть направления:
- как компания зарабатывает на открытых данных
- как компании создают инфраструктуру для открытия данных
- как компания использует открытые данные для своих внутренниъ нужд
- как компания раскрывает данные

Если у Вас есть тема или Вы можете порекомендовать спикера - напишите мне в facebook.com/ibegtin или на email - [email protected]

#opendata
Визуализация законодательства Новой Зеландии http://bcn-nzln.co.nf/ по кластерам в зависимости от цитирования

Помимо того что это красиво и показывает какие законы чаще всего меняли, это еще и полезно для понимания того как переплетены законы.

Чтобы было понятно - в Новой Зеландии все законы опубликованы как набор открытых данных - https://data.govt.nz/dataset/show/776

Там по ссылке http://legislation.govt.nz/subscribe/ доступны для выгрузки законы начиная с 1267 года http://legislation.govt.nz/subscribe/act/imperial

В целом это все что я думаю про открытые данные о законодательстве и законотворчестве в России

#opendata #opengov
Всем исследованиям Яндекса нехватает только открытых данных - как и многие data corporations они их не отдают, но как пример визуализации данных - их работы выше всяких похвал
Яндекс проанализировал базу организаций и выяснил какие районы Москвы наиболее пригодны для жизни, какие для работы, а какие для работы. В квадратах 300х300 метров можно выяснить насколько удобно там жить и какие сервисы/бизнесы там представлены.

https://yandex.ru/company/researches/2017/moscow_districts
То что с приходом новой администрации в США стали исчезать открытые данные прошлой [1] - это, наверняка, читали уже многие. Нет, глобального тренда на полную закрытость нет ни в мире, ни в России, даже при российской шпиономании и бессмысленной паранойи в одном, и недостаточной в другом.

Но думать о том что открытые данные необходимо архивировать - надо обязательно.
Я веду длительный проект по архивации государственных сайтов находящихся под угрозой закрытия. И, в частности, сохраняю все ресурсы открытого правительства, поскольку, неизбежно все они изменятся при новом кабинете министров в России в 2018 году.

Сейчас предметом архивации являются сайты:
- open.gov.ru
- openstandard.ru
- data.gov.ru
- opendatacontest.ru
- opendatasummit.ru

В данном случае речь не о их глобальной ценности, хотя и что-то полезное там есть, а о сохранении того что может быть уничтожено.

Если Вы знаете какие-либо ресурсы созданные Открытым Правительством с 2012 года и все еще доступным или же если Вы знаете какие-то другие ресурсы которые могут прекратить свое существование при смене правительства - пишите мне на [email protected] или в чате в Telegram https://yangx.top/begtinchat

И все эти ресурсы будут сохранены.

Ссылки:
[1] https://technical.ly/dc/2017/02/15/trump-open-data-taken-down/

#opendata #opengov
Наконец-то мы подготовили анонс дня открытых данных в Москве с описанием всей программы - https://habrahabr.ru/company/infoculture/blog/322100/

Я лично приглашаю всех прийти, и послушать лекции, и похакатонить. Помимо ответственности за все мероприятие - я буду вести секцию "Бизнес". Мой доклад будет посвящен бизнес моделям, а докладчики на секции расскажут о своих коммерческих проектах.

Много лет мы работали над тем чтобы сообщество использующих открытые данные сформировалось и вот, наконец-то, все получается. Даже если государство забудет про открытость как ценность, невозможно будет изменить появившийся спрос на доступность информации.

Более чем 150 зарегистрировавшихся человек на ODD в Москве - это лишнее тому подтверждение

#opendata #opengov
Один из крупнейших проектов публикующих большие открытые данные и при этом не имеющем никакого отношения к государствам и правительствам - это Censys [1]. Проект и гигантская база сканирования публичных сетей охватывающий 1 миллион крупнейших веб-сайтов и все IP адреса (IPv4) в мире.

Проект ведется группой исследователей из университета Мичиган [2] при поддержке инфраструктурой от Google и проводит ежедневное сканирование всех адресов и доменов и выкладывают по 800 гигабайт в архиве (около 5 терабайт в распакованном виде) данных [3].

Итого, 5 терабайт в день, данные по всему Интернету, все IP адреса. Конечно, большая часть применения этой базы данных - это аудит безопасности сетей, сайтов, оборудования и так далее.

Сам проект затевался, в первую очередь, именно с точки зрения анализа степени уязвимости сервисов использующих SSL/TLS для нескольких видов новых атак, но, конечно, это не единственное его применение.

Исследование инфраструктуры Интернета позволяет отслеживать применение смену технологий, заранее знать какие продукты используются с точки зрения планирования применения новых и многое другое.

Не говоря уже о корпоративной разведке, которая часто заключается даже не во взломе, а в несанкционированном доступе к тому что "плохо лежит", по техническим причинам временно оказалось открытым.

Ссылки:
[1] https://censys.io
[2] https://censys.io/about
[3] https://censys.io/data

#opendata #censys #security
Мой канал про открытые данные, но не только про них. Я пишу про приватность, госзакупки, государство, цифровое государство, открытость в принципе, big data и прочую смесь практических и не очень тем. Совсем чистых каналов про открытость данных немного, но есть многие близкие по смыслу и духу.

Я уже упоминал канал Андрея Кармацкого https://yangx.top/urbandata и напомню про канал Strelka Magazine https://yangx.top/strelkamagazine - это каналы на которых бывают темы близкие к открытым данным и посвященные урбанистике.

В принципе же, у нас в России и в русскоязычном интернете мало блогов и каналов про открытые данные. Если Вы такие знаете - то пишите мне на @ibegtin или в @begtinchat или же вносите их напрямую в Awesome list на GIthub'е https://github.com/infoculture/awesome-opendata-rus

#opendata #opengovernment #telegram
Для тех кто ищет очень большие открытые данные и кому очень хочется работать с действительно большими объемами информации - есть примеры подобных данных (и созданные не на государственных данных).

Проект N-gram counts and language models from the CommonCrawl [1] создает базу N-gram на базе веб-страниц собранных в рамках проекта Common Crawl [2]. Объемы данных там составляют терабайты в сжатом виде - от 4 до 15 терабайт в совокупности, а может быть и больше. Скачивать все не обязательно, можно ограничиться любимыми языками. Самое удивительное что о проекте мало кто знает, хотя ему уже более 3 лет.

Сравнимые по объемы данные о n-gram публикует только Google в проекте Ngram Viewer созданные на базе Google Books [3] раскрывая большие объемы данных по множеству языков, но несравнимые с данными из Common Crawl.

Для тех кто задается вопросом что такое N-грамма [4] - это последовательность из нескольких элементов, в случая языка, предполагается что это последовательность из нескольких слов.

Для русского языка и в рунете также есть открытый проект Open Corpora [5] основанный на текстах публикуемых сообществами, меньший по объему, но выверенный вручную.

Извлечение N-gram - это лишь один из способов работы с Common Crawl. Есть и другие, существуют примеры скриптов помогающих быстро и легко извлекать из веб-страниц номера телефонов или же другую полуструктурированную информацию. Наборы данных Common Crawl хорошо подходят когда есть алгоритмы и задачи которые нужно опробовать на миллионах доменов и миллиардах веб-страниц.

Ссылки:
[1] http://statmt.org/ngrams/
[2] http://commoncrawl.org/
[3] http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[4] https://ru.wikipedia.org/wiki/N-%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0
[5] http://opencorpora.org/?page=downloads

#opendata #bigdata #commoncrawl
У проекта DataRefuge [1] по спасению климатических данных появилось сообщество Archivers.space [2] где сотни участников координируют свою работу по сохранению данных во время 15 мероприятий [3] идущих в США.

Все мероприятия координируются в PPEH Labs [4] при Penn University.

Я также напомню про проект Climate Mirror [5] по сохранению копий климатических данных, проект Azimuth Backup [6] и The Environmental Data and Governance Initiative [7].

Все эти проекты очень похожи на инициативы ArchiveTeam [8], команды которая сохраняла исчезающие данные и сайты еще до всех инициатив по DataRefuge.

Напомню что и в России у нас есть риск исчезнования открытых данных в будущем, по этой причине я веду архивацию всех сайтов связанных с открытыми данными и архивацию сайтов в принципе.

Ссылки:
[1] https://www.datarefuge.org/
[2] https://www.archivers.space/
[3] https://www.archivers.space/events
[4] http://www.ppehlab.org/datarefuge
[5] http://climatemirror.org
[6] http://math.ucr.edu/home/baez/azimuth_backup_project/
[7] https://envirodatagov.org/
[8] http://archiveteam.org/index.php?title=Main_Page

#opendata #datarefuge
Позавчера команда криптографов из Google опубликовали анонс первой "коллизии" криптографического алгоритма SHA1 [1]. Коллизия - означает уязвимость алгоритма к взлому, тот факт что, например, когда криптографическая функция используется для цифровой подписи, то эту подпись можно скомпрометировать создав другой документ с аналогичной подписью.

Алгоритму SHA-1 уже более 22 лет [2] и еще в 2005 году Брюс Шнайер писал о тому что алгоритм SHA-1 пора заменять [3].

Почему это важно? Алгоритм SHA-1 до сих пор используется в большом числе legacy систем. Он активно применялся в 1990-х и 2000-х годах и до сих пор во многих продуктах которые не обновлялись с той поры он используется. Кроме того SHA-1 это криптографическая функция которая часто используется для хранения паролей в базах данных и при отсутствии дополнительных мер может создать риски.

SHA-1 также активно использовался и используется для распространения дистрибутивов ПО и наборов данных.

Ссылки:
[1] https://security.googleblog.com/2017/02/announcing-first-sha1-collision.html
[2] https://ru.wikipedia.org/wiki/SHA-1
[3] https://www.schneier.com/blog/archives/2005/02/cryptanalysis_o.html

#security #sha1
Сжатые новости о главном в виде дайджеста:

1. Журналисты, энтузиасты и эксперты в США продолжают находится в недоумении что же будет делать администрация Трампа с данными о чем пишет Chase Gunter из FCW https://fcw.com/articles/2017/02/23/open-data-trump-future.aspx и Megan Moteni https://www.wired.com/2017/02/army-old-guard-archivers-federal-data-safer-think/ из Wired.

2. Аналогичные голоса приходят из области медицины критикующих Трампа за подмены науки "альтернативными" фактами - http://www.healio.com/hepatology/practice-management/news/online/%7B71d682b6-ba57-4919-b074-b5c66858ba0c%7D/bmj--trumps-policies-risk-head-on-collision-with-science-health-care

3. Европейский проект EuroGeographics обещает еще больше данных http://www.gisresources.com/eurogeographics-enhances-open-data-2017/

4. Morningstar, компания специализирующаяся на фондовой аналитике, открыла портал для разработчиков https://developer.morningstar.com/

5. Большой каталог того как гражданские данные помогают улучшать города - http://datasmart.ash.harvard.edu/news/article/how-can-data-and-analytics-be-used-to-enhance-city-operations-723

#opendata
Тем временем журналисты многих крупнейших СМИ в США продолжают свою войну с Трампом. В BuzzFeed вышла статья "Trump World" [1] с базой связей Трампа и его кабинета с более чем 2100 персонами и организациями. Эти же данные собраны в форматах CSV и GraphML [2], а также в виде Google Docs [3].

И база, регулярно, пополняется.

Кстати, BuzzFeed известен тем что они публикуют немало кода и данных на github'е. В их репозитории everything [4] можно найти немало данных, кода которым они его обрабатывают и статей на этих данных.

Другие интересные проекты на ту же тему:
- TrumpTracker [5] отслеживает все обещания Дональда Трампа. 7 он выполнил и 7 не выполнил на 26 февраля. Кстати, аналогичный проект TrudeauMeter [6] есть про Джастина Трудо, Президента Канады.

А также каталоги проектов в проектах Code Against Trump [7] и Stop Trump [8].
Проектов по организации сопротивления администрации Трампа становится так много что появляются проекты которые каталогизируют такие проекты.

И, отдельно, не могу не отметить проект по потребительскому сопротивлению Grap Your Wallet [9] каталогизирующий всех ритейлеров поддерживающих Дональда Трампа и сделавшие расширение для браузера которое предупреждает покупателя при попытке купить что-то в интернет-магазинах из этого списка.

Лично я наблюдаю как масштаб сопротивления Дональду Трампу растет и, конечно, на его фоне рождаются десятки и сотни идей и небольших проектов которые еще не раз вернутся в общественное пространство в самых разных формах.

А я лично продолжаю исходить из тезиса что Дональду Трампу будет очень сложно избежать импичмента.

Ссылки:
[1] https://www.buzzfeed.com/johntemplon/help-us-map-trumpworld?utm_term=.wem9OLdVv#.icnEoBLKW
[2] https://github.com/BuzzFeedNews/trumpworld
[3] https://docs.google.com/spreadsheets/d/1Z5Vo5pbvxKJ5XpfALZXvCzW26Cl4we3OaN73K9Ae5Ss/edit#gid=634968401
[4] https://github.com/BuzzFeedNews/everything
[5] https://trumptracker.github.io/
[6] https://www.trudeaumetre.ca/
[7] https://github.com/katerabinowitz/Code-Against-Trump
[8] https://github.com/bkeepers/stop-trump
[9] https://grabyourwallet.org/

#opendata #trump
Частый вопрос - где найти денег чтобы помогать открытым данным и открытости в принципе. Open Knowledge International раздает мини-гранты до $5000 [1] на создание инструментов по работе с Frictionless Data [2]

Эти инструменты включают библиотеки для таких языков программирования как Go, PHP, Java, C#, Swift, C++, Perl, Matlab, Clojure, R.

Для тех кто не слышал о том что такое Frictionless Data - это набор стандартов, таких как , Data Packages [3] созданных чтобы, с одной стороны, сохранить простоту табличных данных таких как в формате CSV, а с другой дать достаточно метаданных чтобы избежать ошибок в нотациях, чтении данных, разделителях и так далее.

$5 000 - это около 250 тысяч рублей. Небольшой грант для любой организации, но большой для индивидуальных разработчиков.

Если Вы решились, то надо вначале заполнить форму по ссылке [4].


Я и сам много лет думаю про организацию мини-грантов в России. Будь у меня хотя бы 3-4 свободных миллиона рублей, я бы по аналогии с OKI раздавал бы мини гранты, но на проекты _создающие данные_. Через краудсорсинг, парсинг множества источников и так далее. Вроде Open Food Database и ему подобных. Но в России еще не появились те грантодающие фонды которые были бы готовы раздавать на это деньги.

Ссылки:
[1] http://toolfund.frictionlessdata.io/
[2] http://www.frictionlessdata.io/
[3] http://frictionlessdata.io/data-packages/
[4] https://docs.google.com/forms/d/1q4dkiSJDPLEAzVhFSV-8ic5bpsEIG8v_ecmlGJNPmS4/viewform?edit_requested=true

#opendata #opengov #funding

Ссылки:
[1] http://toolfund.frictionlessdata.io/
[2] http://www.frictionlessdata.io/
[3] http://frictionlessdata.io/data-packages/
[4] https://docs.google.com/forms/d/1q4dkiSJDPLEAzVhFSV-8ic5bpsEIG8v_ecmlGJNPmS4/viewform?edit_requested=true

#opendata #opengov #funding
4-5 марта прошло в напряженном и отличном отмечании Дня открытых данных в Москве. Наши лекции и хакатон закончились, 300 человек посетило и мы со всем справились. Так что я возвращаюсь к регулярной публикации новостей.

В Великобритании приняли UK Digital Strategy [1] где интересно все, но я сделаю отдельный акцент на разделе 7. Data - unlocking the power of data in the UK economy and improving public confidence in its use [2]

В Великобритании описывают работу с данными в следующих разрезах:
- Supporting the data economy
- Building public trust
- Using government data effectively

Охватывает все - инфраструктуру данных, госданные, поощрение когда бизнес открывает собственные данные и многое другое.

И далее много деталей. Очень крутая стратегия для большой страны. Я еще напишу о ней подробнее

Ссылки:
[1] https://www.gov.uk/government/publications/uk-digital-strategy
[2] https://www.gov.uk/government/publications/uk-digital-strategy/7-data-unlocking-the-power-of-data-in-the-uk-economy-and-improving-public-confidence-in-its-use

#opendata #opengov
После года разработки вышла первая версия стандартов дизайна для официальных сайтов органов власти в США. U.S. Web Design Standards [1] представлены на специальном сайте

О том что включено в версию 1.0 можно прочитать в release notes [2]. Я же хочу обратить на высокий профессиональный уровень разработчиков стандартов. Они не пытались воспроизвести негодными методами формальный документ, наоборот, стандарты разработаны в Github репозитории и с мощнейшей обратной связью от сообщества [3].

Обязательно посмотрите на получившиеся в итоге:
- Визуальные компоненты [4]
- Страницы сайтов [5]
- Примеры реализации [6]

Я думаю уже не нужно напоминать что все это публикуется с открытым исходным кодом. А сами рекомендации применимы не только к госсайтам, но и к любой веб-разработке.

Всячески могу порекомендовать присмотреться к команде 18F. Они запускают одну госплатформу за другой.
Например такие проекты как:
- Federalist - https://federalist.18f.gov/ публикация статических госсайтов
- Communicart - https://cap.18f.gov/ ускоритель внутренних согласований малых покупок госслужащими по корп картам

Ссылки:
[1] https://standards.usa.gov/
[2] https://standards.usa.gov/whats-new/releases/#version-1-0-0
[3] https://github.com/18F/web-design-standards/issues
[4] https://standards.usa.gov/components/
[5] https://standards.usa.gov/page-templates/
[6] https://standards.usa.gov/getting-started/implementations/

#opendata #opengov #webdev