Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.73K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Совершенно неожиданная новость - Пентагон открыл свой портал открытых данных - data.mil [1]. Об этом уже пишет Fedscoop [2], акцентируя внимание на теме data stories.

В основе идеи сайта данные системы THOR (Theater History of Operations Reports) и большие объемы исторических баз данных. А вот взаимодействие пользователей и сообщество реализуется через стартап data.world, в форме специального сообщества [3].

Может ли российское военное ведомство создать портал открытых данных? Как ни странно может.
У Министерства обороны РФ есть несколько важных исторических ресурсов ни разу ранее не публиковавшихся как открытые данные.
Это:
- База ОБД Мемориал - https://www.obd-memorial.ru
- Проект Памяти героев Великой войны 1914-1918 - http://gwar.elar.ru/
- Проект "Подвиг народа" - http://podvignaroda.ru/
- Проект "Память народа" - https://pamyat-naroda.ru/
- Календарь победы - http://pobeda.elar.ru/

Почти все проекты делала корпорация ЭЛАР и практически во всех отсутствуют открытые данные. Некоторые из проектов не обновлялись с 2014 года и судьба их будущая неизвестна. Конкретно, ОБД Мемориал еще и была сделана на технологии не позволяющей архивацию сайта.

И да, некоторые проекты и базы уже давно потеряны. Например, http://kursk1943.mil.ru/ недоступен с момента обновления сайта Миноброны.

Иногда от важных шагов в открытости ограничивает только элементарное отсутствие знания о том что такое открытые данные. Может быть пример Пентагона подтолкнет Минобороны России к открытым данным в части исторического наследия.

Ссылки:
[1] https://www.data.mil/s/v2/data-mil/1ff45997-196e-4e9a-96e2-eed27e3e17ab/
[2] https://www.fedscoop.com/defense-digital-service-experiments-with-dods-data-strategy-in-new-site/
[3] https://data.world/datamil

#opendata #military #datastories
Да, не могу не прорекламировать. В мае пройдет научная конференция "Интернет по ту сторону цифр" http://internetbeyond.net/
где много ожидается выступлений о том как интернет устроен.

Конференция серьезная, с научным советом и тд. Но я постараюсь туда заглянуть, может быть выступить про открытые данные и послушать.

Кстати, я давно думаю про сбор баз данных по устройству Интернета.
Статистика, браузеры, сети и тд и тп. Да, все меняется постоянно, но данных очень много. Не говоря уже о социологии, пользователях, опросах, развитию IOT.

Когда-нибудь можно и над этими данными что-то интересное сделать.
#opendata #opengov
Множественные напоминания

Для общения про открытые данные есть множество каналов и возможностей, напоминаю про все:
- Чат в Телеграм - https://yangx.top/opendatarussiachat
- Чат привязанный к моему каналу - https://yangx.top/begtinchat (не только про открытые данные, но и про госзакупки, данные, этику данных, большие данные и открытость гос-ва в целом).
- Сообщество Open Data in Russian в Slack - https://opendatarussia.slack.com (более компактное, раньше мы туда собирали участников на хакатоне). Напишите свой email для инвайта. Slack удобен тем что там можно создать много чат комнат, удобно пересылать файлы и тд и тп. Telegram его добивает, но не убил еще)
- Сообщество OKI Russia на Meetup.com - https://www.meetup.com/oki-ru/

и, наверняка, множество других о которых не всегда получается вспомнить.

#opendata #opengov
Обзор новостей ссылками:
- Швейцарский центр data science открылся совсем недавно - https://datascience.ch/ и они ищут профессионалов
- Microsoft открыли GraphEngine для работы с большими связанными данными https://www.graphengine.io/
- Sentiment Analysis in Twitter. Конкурс для тех кто хочет и умеет анализировать эмоции и настроения по Twitter'у http://alt.qcri.org/semeval2017/task4/
- Открытое письмо Data for Humanity подписали 1000 человек включая ведущих ученых http://www.bigdata.uni-frankfurt.de/dataforhumanity/

Принципы из этого письма:
1. Не навреди
2. Используйте данные чтобы помогать создавать мирное сосуществование
3. Используйте данные чтобы помогать уязвимым людям и людям в нужде
4. Используете данные чтобы сохранять и улучшать естественную среду
5. Используйте данные чтобы помогать создать честный мир без дискриминации

#opendata #opengov
На канале UrbanData (https://yangx.top/urbandata) Андрей Кармацкий напомнил про стартап AeroState (https://aerostate.io) который специализируется на сборе данных о качестве воздуха с помощью аэростатов.

Это пример стартапа не про открытые данные, а про работу с данными в принципе и о том что подобные технологии способны дать лучшее качество данных и прогнозов чем наземные станции.

Мое личное мнение что данные о качестве жизни должны быть общедоступными. Чтобы такие стартапы и новые технологии использовались повсеместно необходимо чтобы городские власти регулярно пересматривали свой подход к организации того же метеонаблюдения и экологического мониторинга. Во многих городах и регионах по всему миру реализуется практика которая называется agile procurement предусматривающая гибкую закупку услуг и сервисов и, особенно, приоритетный запрос предложений от стартапов на решение существующих вызовов. Роль городских властей в этом случае меняется. Они формулируют проблемы и задачи и корректируют бюрократию под них, а не наоборот.

#opendata #startups #procurement
Ежедневная карта рисков аварий - проект [1] штата Индиана дающий возможность оценить опасность движения по дорогам штата. Подробнее в видео на сайте [2]. Кроме данных аварий там, также, есть замеры скользкости дороги и эта информация, также, отображается на карте.

Этот проект хороший пример того что можно сделать на данных проекта "Безопасные дороги" [3], где в России уже активно раскрываются данные ГИБДД по авариям сопряженным с пострадавшими.

Ссылки:
[1] http://www.in.gov/isp/ispCrashApp/main.html
[2] https://in.gov/isp/3268.htm
[3] https://xn--80abhddbmm5bieahtk5n.xn--p1ai/

#opendata
Обзор "Best government emerging technologies" вышел в этом месяце [1] от лица World Government Summit [2].

В списке технологий:
- Искусственный интеллект
- Блокчейн и распределенные реестры
- Новое производство
- Роботизация и пространство
- Умные платформы
- Виртуальный мир

На мой взгляд, список технологий неполон и сформулирован совсем не обязательно именно так, но множество хороших примеров дает представление о том что происходит с государственным управлением в мире.

Ссылки:
[1] https://worldgovernmentsummit.org/api/publications/document?id=24737dc4-e97c-6578-b2f8-ff0000a7ddb6
[2] https://worldgovernmentsummit.org/annual-gathering/reports

#govtech #digitalgov
Вышел OpenRefine 2.7RC1 [1] свежий кандидат в релизы известного open source продукта по чистке данных.
Из новых возможностей:
- использование Wikidata вместо Freebase
- перевод на японский
- экспорт кластеров

OpenRefine один из наиболее незаменимых инструментов при работе с данными, как с открытыми, так и не очень. Жаль лишь что его востребованность совершенно не коррелирует с развитием проекта. Основной разработчик не проявлял активности более 9 месяцев [2] и теперь основными контрибьюторами являются члены сообщества и привлеченные разработчики через BountySource.

Все это не дает пока надежды что OpenRefine может стабильно развиваться, в то время как спрос на data wrangling tools весьма немал. Коммерческие приложения вроде DataIku и Trifacta не дают той же гибкости. И вопрос о том на что заменять OpenRefine долгосрочно является актуальным.

Ссылки:
[1] https://github.com/OpenRefine/OpenRefine/releases/
[2] https://github.com/tfmorris

#opendata #data
Ответ вопрос о том как существует бизнес на открытых данных в том что бизнесу все равно данные открыты или нет, открытость лишь делает это топливо бесплатным и позволяет снизить издержки, иногда значительно.

Пример коммерческого проекта на данных - это Quandl - https://www.quandl.com/

Стартап предоставляющий часть данных бесплатно на своей платформе, а часть, коммерческих данных, только по платной подписке. Коммерческие данные они получают не из открытых источников или же сводят много данных из открытых для создания нового продукта.

Очень простая и очевидная модель для любого стартапа.

#opendata #data
Друзья, на International Open Data Day в Москве я буду вести секцию "Бизнес". На сегодняшний день подтвердилось 2 спикера и я продолжаю искать тех кто готов выступить о том как бизнес работает с открытыми данными.
Это 4-5 марта и все подробности здесь - http://msk.opendataday.ru

Есть направления:
- как компания зарабатывает на открытых данных
- как компании создают инфраструктуру для открытия данных
- как компания использует открытые данные для своих внутренниъ нужд
- как компания раскрывает данные

Если у Вас есть тема или Вы можете порекомендовать спикера - напишите мне в facebook.com/ibegtin или на email - [email protected]

#opendata
Визуализация законодательства Новой Зеландии http://bcn-nzln.co.nf/ по кластерам в зависимости от цитирования

Помимо того что это красиво и показывает какие законы чаще всего меняли, это еще и полезно для понимания того как переплетены законы.

Чтобы было понятно - в Новой Зеландии все законы опубликованы как набор открытых данных - https://data.govt.nz/dataset/show/776

Там по ссылке http://legislation.govt.nz/subscribe/ доступны для выгрузки законы начиная с 1267 года http://legislation.govt.nz/subscribe/act/imperial

В целом это все что я думаю про открытые данные о законодательстве и законотворчестве в России

#opendata #opengov
Всем исследованиям Яндекса нехватает только открытых данных - как и многие data corporations они их не отдают, но как пример визуализации данных - их работы выше всяких похвал
Яндекс проанализировал базу организаций и выяснил какие районы Москвы наиболее пригодны для жизни, какие для работы, а какие для работы. В квадратах 300х300 метров можно выяснить насколько удобно там жить и какие сервисы/бизнесы там представлены.

https://yandex.ru/company/researches/2017/moscow_districts
То что с приходом новой администрации в США стали исчезать открытые данные прошлой [1] - это, наверняка, читали уже многие. Нет, глобального тренда на полную закрытость нет ни в мире, ни в России, даже при российской шпиономании и бессмысленной паранойи в одном, и недостаточной в другом.

Но думать о том что открытые данные необходимо архивировать - надо обязательно.
Я веду длительный проект по архивации государственных сайтов находящихся под угрозой закрытия. И, в частности, сохраняю все ресурсы открытого правительства, поскольку, неизбежно все они изменятся при новом кабинете министров в России в 2018 году.

Сейчас предметом архивации являются сайты:
- open.gov.ru
- openstandard.ru
- data.gov.ru
- opendatacontest.ru
- opendatasummit.ru

В данном случае речь не о их глобальной ценности, хотя и что-то полезное там есть, а о сохранении того что может быть уничтожено.

Если Вы знаете какие-либо ресурсы созданные Открытым Правительством с 2012 года и все еще доступным или же если Вы знаете какие-то другие ресурсы которые могут прекратить свое существование при смене правительства - пишите мне на [email protected] или в чате в Telegram https://yangx.top/begtinchat

И все эти ресурсы будут сохранены.

Ссылки:
[1] https://technical.ly/dc/2017/02/15/trump-open-data-taken-down/

#opendata #opengov
Наконец-то мы подготовили анонс дня открытых данных в Москве с описанием всей программы - https://habrahabr.ru/company/infoculture/blog/322100/

Я лично приглашаю всех прийти, и послушать лекции, и похакатонить. Помимо ответственности за все мероприятие - я буду вести секцию "Бизнес". Мой доклад будет посвящен бизнес моделям, а докладчики на секции расскажут о своих коммерческих проектах.

Много лет мы работали над тем чтобы сообщество использующих открытые данные сформировалось и вот, наконец-то, все получается. Даже если государство забудет про открытость как ценность, невозможно будет изменить появившийся спрос на доступность информации.

Более чем 150 зарегистрировавшихся человек на ODD в Москве - это лишнее тому подтверждение

#opendata #opengov
Один из крупнейших проектов публикующих большие открытые данные и при этом не имеющем никакого отношения к государствам и правительствам - это Censys [1]. Проект и гигантская база сканирования публичных сетей охватывающий 1 миллион крупнейших веб-сайтов и все IP адреса (IPv4) в мире.

Проект ведется группой исследователей из университета Мичиган [2] при поддержке инфраструктурой от Google и проводит ежедневное сканирование всех адресов и доменов и выкладывают по 800 гигабайт в архиве (около 5 терабайт в распакованном виде) данных [3].

Итого, 5 терабайт в день, данные по всему Интернету, все IP адреса. Конечно, большая часть применения этой базы данных - это аудит безопасности сетей, сайтов, оборудования и так далее.

Сам проект затевался, в первую очередь, именно с точки зрения анализа степени уязвимости сервисов использующих SSL/TLS для нескольких видов новых атак, но, конечно, это не единственное его применение.

Исследование инфраструктуры Интернета позволяет отслеживать применение смену технологий, заранее знать какие продукты используются с точки зрения планирования применения новых и многое другое.

Не говоря уже о корпоративной разведке, которая часто заключается даже не во взломе, а в несанкционированном доступе к тому что "плохо лежит", по техническим причинам временно оказалось открытым.

Ссылки:
[1] https://censys.io
[2] https://censys.io/about
[3] https://censys.io/data

#opendata #censys #security
Мой канал про открытые данные, но не только про них. Я пишу про приватность, госзакупки, государство, цифровое государство, открытость в принципе, big data и прочую смесь практических и не очень тем. Совсем чистых каналов про открытость данных немного, но есть многие близкие по смыслу и духу.

Я уже упоминал канал Андрея Кармацкого https://yangx.top/urbandata и напомню про канал Strelka Magazine https://yangx.top/strelkamagazine - это каналы на которых бывают темы близкие к открытым данным и посвященные урбанистике.

В принципе же, у нас в России и в русскоязычном интернете мало блогов и каналов про открытые данные. Если Вы такие знаете - то пишите мне на @ibegtin или в @begtinchat или же вносите их напрямую в Awesome list на GIthub'е https://github.com/infoculture/awesome-opendata-rus

#opendata #opengovernment #telegram
Для тех кто ищет очень большие открытые данные и кому очень хочется работать с действительно большими объемами информации - есть примеры подобных данных (и созданные не на государственных данных).

Проект N-gram counts and language models from the CommonCrawl [1] создает базу N-gram на базе веб-страниц собранных в рамках проекта Common Crawl [2]. Объемы данных там составляют терабайты в сжатом виде - от 4 до 15 терабайт в совокупности, а может быть и больше. Скачивать все не обязательно, можно ограничиться любимыми языками. Самое удивительное что о проекте мало кто знает, хотя ему уже более 3 лет.

Сравнимые по объемы данные о n-gram публикует только Google в проекте Ngram Viewer созданные на базе Google Books [3] раскрывая большие объемы данных по множеству языков, но несравнимые с данными из Common Crawl.

Для тех кто задается вопросом что такое N-грамма [4] - это последовательность из нескольких элементов, в случая языка, предполагается что это последовательность из нескольких слов.

Для русского языка и в рунете также есть открытый проект Open Corpora [5] основанный на текстах публикуемых сообществами, меньший по объему, но выверенный вручную.

Извлечение N-gram - это лишь один из способов работы с Common Crawl. Есть и другие, существуют примеры скриптов помогающих быстро и легко извлекать из веб-страниц номера телефонов или же другую полуструктурированную информацию. Наборы данных Common Crawl хорошо подходят когда есть алгоритмы и задачи которые нужно опробовать на миллионах доменов и миллиардах веб-страниц.

Ссылки:
[1] http://statmt.org/ngrams/
[2] http://commoncrawl.org/
[3] http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[4] https://ru.wikipedia.org/wiki/N-%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0
[5] http://opencorpora.org/?page=downloads

#opendata #bigdata #commoncrawl
У проекта DataRefuge [1] по спасению климатических данных появилось сообщество Archivers.space [2] где сотни участников координируют свою работу по сохранению данных во время 15 мероприятий [3] идущих в США.

Все мероприятия координируются в PPEH Labs [4] при Penn University.

Я также напомню про проект Climate Mirror [5] по сохранению копий климатических данных, проект Azimuth Backup [6] и The Environmental Data and Governance Initiative [7].

Все эти проекты очень похожи на инициативы ArchiveTeam [8], команды которая сохраняла исчезающие данные и сайты еще до всех инициатив по DataRefuge.

Напомню что и в России у нас есть риск исчезнования открытых данных в будущем, по этой причине я веду архивацию всех сайтов связанных с открытыми данными и архивацию сайтов в принципе.

Ссылки:
[1] https://www.datarefuge.org/
[2] https://www.archivers.space/
[3] https://www.archivers.space/events
[4] http://www.ppehlab.org/datarefuge
[5] http://climatemirror.org
[6] http://math.ucr.edu/home/baez/azimuth_backup_project/
[7] https://envirodatagov.org/
[8] http://archiveteam.org/index.php?title=Main_Page

#opendata #datarefuge