Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.74K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Для тех кто задается вопросами о том как устроены госзакупки в России и кроме тех материалов на сайте Госвопрос которые Вы уже читали. Здесь будет множество ссылок на мои публикации разных лет.

В 2011 году в ЖЖ тезисами про устройство госзаказа - http://ivbeg.livejournal.com/438154.html

В 2011 году о проблемах гражданского контроля http://ivbeg.livejournal.com/351597.html

О том чем я занимался в 2011 году - http://ivbeg.livejournal.com/378570.html

Слепые закупки https://clearspending.ru/media/analytics/Open%20data%20as%20a%20tool%20for%20civil%20society%20and%20expert%20control%20in%20public%20procurement.pdf

Многие другие материалы уже просто недоступны. А про многие рассказывать долго и, кое-где, придется сбиваться на политику.

Но я то все очень хорошо помню как какие законы вносились и принимались. О очень хорошо помню как поправки в 94-ФЗ в 2009 году это был ФЗ N 93-ФЗ от 08.05.2009 для создания единого портала проходили без обсуждений, без ФЭО и спрятанными под проведение форума АТЭС.

Там вообще столько всякой пакости творилось что я на несколько лет перестал что-то серьезное делать в госзакупках потому что было элементарно противно.

Кстати, я тему открытых данных раскручивал в 2010-2012 годах пользуясь темой госзаказа.

Чувствую, мне надо книгу воспоминаний писать. "Государство как моя личная боль".

#goszakaz
Все больше и больше про госзакупки, на сей раз на Радио Медиаметрикс
http://radio.mediametrics.ru/vse_za_laiki/47557/

Тема стала все более актуальной и я ней возвращаюсь после очень долгого перерыва, но вот видимо давно уже пора.

#goszkaz
У сервиса GitLab который используют десятки тысяч проектов по всему миру произошла локальная катастрофа 31 января со случайным уничтожением базы данных на production сервере.

Серьезная история с профессиональной работой разработчиков сервиса, которые честно обо всем написали.
Перевод их лога на русском языке [1] и на английском оригинал [2]

Это страшная история для всех кто когда-либо вел большие проекты. В моей жизни что-то близкое происходило лишь дважды, но каждый раз с потерями удавалось восстанавливаться.

Паранойя потери данных для многих переживших подобное бывает сильнее паранойи приватности.

Ссылки:
[1] https://habrahabr.ru/company/centosadmin/blog/321074/
[2] https://docs.google.com/document/d/1GCK53YDcBWQveod9kfzW-VCxIABGiryG7_z_6jHdVik/pub

#data #backup #archives
4 марта по всему миру пройдет День открытых данных, мы, "Инфокультура" под эгидой OKI Russia вместе с партнерами организуем День открытых данных в Москве который пройдет в виде лекционного дня 4 марта и хакатона 5 марта.

Это преданонс - мы продолжаем работать над программой, скоро откроем сайт и сделаем полноценный анонс с упоминанием всех секций, всех спикеров и партнеров.

Программа хакатона продолжает формироваться - у нас уже есть 4 подтвержденные секции: НКО, СМИ, Бизнес и Город.

Наше мероприятие будет не государственным, не коммерческим, не политическим. Акцент будет именно на работе с данными во всех его проявлениях и мы будем звать тех спикеров у которых накопился реальный опыт и тех участников кто хочет узнать новое, погрузиться в тему или познакомиться с другими. Будут и сотрудников органов власти публикующие данные, а активисты сделавшие проекты, и крутые журналисты работающие с базами данных и многие другие.

Пока есть страница регистрации на Timepad'е - https://oki-russia.timepad.ru/event/439731/
и в Facebook https://www.facebook.com/events/1668561813437491/

Пока же прошу писать мне на @ibegtin или в @begtinchat предложения:
- какие еще секции Вы бы хотели увидеть?
- готовы ли Вы быть спикером? Если да, то присылайте тему выступления - я сведу Вас с модератором секции
- готовы ли Вы помочь на мероприятии - спонсорской поддержкой, выступить волонтером и так далее
- есть ли у Вас интересные данные или задачи чтобы дать участникам хакатона

Отдельно - обратите внимание. В секции "Бизнес" мы будем разбирать конкретные бизнес кейсы того как зарабатывают и можно зарабатывать на открытых данных. Здесь очень нехватает спикеров от бизнеса. Это хорошая возможность рассказать про свой стартап или для венчурных фондов и инвесторов рассказать о том какие стартапы Вы ждете.

Если Вы организуете OpenDataDay в Вашем городе или в другой стране для русскоязычной аудитории - мы будем рады проанонсировать Ваше событие в общем анонсе и выйти с Вами на связь в процессе.

#opendata #opengov #opendataday #data
Хочу напомнить о том что открытые данные - это не только "открытые государственные данные". Это любые базы данных в открытом доступе и под свободными лицензиями.

Например, моя любимая рубрика, наборы данных крупных международных корпораций.

Microsoft
- Microsoft Research dataset directory https://www.microsoft.com/en-us/research/academic-program/data-science-at-microsoft-research/ много исследовательских данных по десяткам тем
- Common objects in context http://mscoco.org/
- Логи сайта Microsoft.com еще с 1998 года https://archive.ics.uci.edu/ml/datasets/Anonymous+Microsoft+Web+Data
- Microsoft MAchine Reading COmprehension Dataset http://www.msmarco.org/

Google
- Google Ngram dataset - http://storage.googleapis.com/books/ngrams/books/datasetsv2.html огромная база Ngram от Гугла
- Google Webgraph (2002) - https://snap.stanford.edu/data/web-Google.html
- Google Open Images - https://github.com/openimages/dataset
- Google Syntactic N-grams http://commondatastorage.googleapis.com/books/syntactic-ngrams/index.html
- FreeBase https://developers.google.com/freebase/ выкупленный Google и встроенный в их API доступен как набор данных

Yahoo
- Webscope datasets https://webscope.sandbox.yahoo.com/ (13 терабайт в разжатом виде)

Facebook
- Датасет по связям из 2005 года - https://lists.ufl.edu/cgi-bin/wa?A2=ind1102&L=SOCNET&T=0&P=22841

Intel
- Intel Science and Technology Center for Big Data http://istc-bigdata.org/index.php/our-research-data-sets/ коллекция датасетов исследовательской лаборатории Intel


Другие компании поддерживают создание открытых данных посредством целевых грантов.
Например Amazon:
- Web data commons http://webdatacommons.org/ проект создает открытые данные на базе данных Common Crawl и получил грант от Amazon in Education

Обратите внимание что почти все эти наборы данных под лицензией Creative Commons. То есть их можно использовать для практически любых целей.

При том что data корпорации всегда больше заинтересованы в том чтобы получать данные, а не отдавать, но в мире все больше примеров когда вложения в общее благо приносит пользу и им самим.

Этот очень неполный список для меня иллюстративен и дает ответ на вопрос о том что не так с интернет-бизнесом в России. В первую очередь в отсутствии открытости, ни как ценности, ни как культуры. Медленно-медленно проникает у нас культура открытия исходного кода, куда хуже - культура свободных лицензий и совсем плохо культура открытости знаний, даже для тех проектов в которых нет коммерческих интересов.

#opendata #opengov #data
Figshare выпустили отчет о состоянии открытых данных [1] еще в октябре 2016 года где рассказывают о текущем состоянии темы. Что характерно все это проводится под эгидой компании Digital Science [2] которая помимо FigShare разрабатывает еще множество продуктов и сервисов для ученых.

В проекте нет ссылок на работу Open Knowledge International и нмного ссылок на Open Data Institute. В целом ощущение некого размежевания открытости данных в науке и открытости данных в общественной жизни.

Ссылки:
[1] https://figshare.com/blog/The_State_of_Open_Data_-_A_figshare_report_on_global_trends_around_open_data/252
[2] https://www.digital-science.com/

#opendata #opengov #digitalscience
Социальная ответственность в данных - это, например, когда вполне коммерческая компания DataSalon поддерживает открытую базу данных научных и исследовательских организаций OrgRef [1] . Все данные там в CSV и под Creative Commons.

Аналогично существует проект GRID в виде базы научных учреждений, их грантов и тому подобного [2], он поддерживается компанией Digital Science & Research и доступен в виде базы данных.

Это примерно все что я думаю о проекте "Карта Российской науки" (mapofscience.ru) теперь уже недоступном и о котором писали СМИ в 2013 году [3].

Ссылки:
[1] http://www.orgref.org/web/index.htm
[2] https://grid.ac/
[3] http://polit.ru/news/2013/11/25/ps_map/

#opendata #openscience
Специально для тех кто задается вопросом о том зачем нужна архивация сайтов - я готов дать ответ на этот вопрос. Проект 'Карта науки', который я упоминал ранее, пропал из сети, но я успел снять его копию в апреле 2015 года.

Копия сайта расположена по ссылке - http://cdn2.sdlabs.ru/preservation/webcollect/education/mapofscience.org/

Будьте осторожны, архивированный WARC файл из 44 мегабайт распаковывается в 5 гигабайт.

Ответы на вопросы как работать с WARC файлами тут:
- http://superuser.com/questions/628350/extract-files-from-a-web-archive-warc
- http://qanda.digipres.org/610/how-to-open-warc-files
- https://warc.readthedocs.io/en/latest/

Для тех кто задается вопросом "Зачем все это нужно если есть Интернет Архив (archive.org) ?" есть ответ.
Интернет-архив собирает только страницы и только тех сайтов которые его не блокируют на уровне robots.txt. А mapofscience.org его блокировал в Интернет архиве есть только снимки его главной страницы. Последний был 30 декабря 2016 года - http://web.archive.org/web/20161230051532/https://www.mapofscience.org/ , после чего сайт исчез


#digitalpreservation #notsoopenscience
Совершенно неожиданная новость - Пентагон открыл свой портал открытых данных - data.mil [1]. Об этом уже пишет Fedscoop [2], акцентируя внимание на теме data stories.

В основе идеи сайта данные системы THOR (Theater History of Operations Reports) и большие объемы исторических баз данных. А вот взаимодействие пользователей и сообщество реализуется через стартап data.world, в форме специального сообщества [3].

Может ли российское военное ведомство создать портал открытых данных? Как ни странно может.
У Министерства обороны РФ есть несколько важных исторических ресурсов ни разу ранее не публиковавшихся как открытые данные.
Это:
- База ОБД Мемориал - https://www.obd-memorial.ru
- Проект Памяти героев Великой войны 1914-1918 - http://gwar.elar.ru/
- Проект "Подвиг народа" - http://podvignaroda.ru/
- Проект "Память народа" - https://pamyat-naroda.ru/
- Календарь победы - http://pobeda.elar.ru/

Почти все проекты делала корпорация ЭЛАР и практически во всех отсутствуют открытые данные. Некоторые из проектов не обновлялись с 2014 года и судьба их будущая неизвестна. Конкретно, ОБД Мемориал еще и была сделана на технологии не позволяющей архивацию сайта.

И да, некоторые проекты и базы уже давно потеряны. Например, http://kursk1943.mil.ru/ недоступен с момента обновления сайта Миноброны.

Иногда от важных шагов в открытости ограничивает только элементарное отсутствие знания о том что такое открытые данные. Может быть пример Пентагона подтолкнет Минобороны России к открытым данным в части исторического наследия.

Ссылки:
[1] https://www.data.mil/s/v2/data-mil/1ff45997-196e-4e9a-96e2-eed27e3e17ab/
[2] https://www.fedscoop.com/defense-digital-service-experiments-with-dods-data-strategy-in-new-site/
[3] https://data.world/datamil

#opendata #military #datastories
Да, не могу не прорекламировать. В мае пройдет научная конференция "Интернет по ту сторону цифр" http://internetbeyond.net/
где много ожидается выступлений о том как интернет устроен.

Конференция серьезная, с научным советом и тд. Но я постараюсь туда заглянуть, может быть выступить про открытые данные и послушать.

Кстати, я давно думаю про сбор баз данных по устройству Интернета.
Статистика, браузеры, сети и тд и тп. Да, все меняется постоянно, но данных очень много. Не говоря уже о социологии, пользователях, опросах, развитию IOT.

Когда-нибудь можно и над этими данными что-то интересное сделать.
#opendata #opengov
Множественные напоминания

Для общения про открытые данные есть множество каналов и возможностей, напоминаю про все:
- Чат в Телеграм - https://yangx.top/opendatarussiachat
- Чат привязанный к моему каналу - https://yangx.top/begtinchat (не только про открытые данные, но и про госзакупки, данные, этику данных, большие данные и открытость гос-ва в целом).
- Сообщество Open Data in Russian в Slack - https://opendatarussia.slack.com (более компактное, раньше мы туда собирали участников на хакатоне). Напишите свой email для инвайта. Slack удобен тем что там можно создать много чат комнат, удобно пересылать файлы и тд и тп. Telegram его добивает, но не убил еще)
- Сообщество OKI Russia на Meetup.com - https://www.meetup.com/oki-ru/

и, наверняка, множество других о которых не всегда получается вспомнить.

#opendata #opengov
Обзор новостей ссылками:
- Швейцарский центр data science открылся совсем недавно - https://datascience.ch/ и они ищут профессионалов
- Microsoft открыли GraphEngine для работы с большими связанными данными https://www.graphengine.io/
- Sentiment Analysis in Twitter. Конкурс для тех кто хочет и умеет анализировать эмоции и настроения по Twitter'у http://alt.qcri.org/semeval2017/task4/
- Открытое письмо Data for Humanity подписали 1000 человек включая ведущих ученых http://www.bigdata.uni-frankfurt.de/dataforhumanity/

Принципы из этого письма:
1. Не навреди
2. Используйте данные чтобы помогать создавать мирное сосуществование
3. Используйте данные чтобы помогать уязвимым людям и людям в нужде
4. Используете данные чтобы сохранять и улучшать естественную среду
5. Используйте данные чтобы помогать создать честный мир без дискриминации

#opendata #opengov
На канале UrbanData (https://yangx.top/urbandata) Андрей Кармацкий напомнил про стартап AeroState (https://aerostate.io) который специализируется на сборе данных о качестве воздуха с помощью аэростатов.

Это пример стартапа не про открытые данные, а про работу с данными в принципе и о том что подобные технологии способны дать лучшее качество данных и прогнозов чем наземные станции.

Мое личное мнение что данные о качестве жизни должны быть общедоступными. Чтобы такие стартапы и новые технологии использовались повсеместно необходимо чтобы городские власти регулярно пересматривали свой подход к организации того же метеонаблюдения и экологического мониторинга. Во многих городах и регионах по всему миру реализуется практика которая называется agile procurement предусматривающая гибкую закупку услуг и сервисов и, особенно, приоритетный запрос предложений от стартапов на решение существующих вызовов. Роль городских властей в этом случае меняется. Они формулируют проблемы и задачи и корректируют бюрократию под них, а не наоборот.

#opendata #startups #procurement
Ежедневная карта рисков аварий - проект [1] штата Индиана дающий возможность оценить опасность движения по дорогам штата. Подробнее в видео на сайте [2]. Кроме данных аварий там, также, есть замеры скользкости дороги и эта информация, также, отображается на карте.

Этот проект хороший пример того что можно сделать на данных проекта "Безопасные дороги" [3], где в России уже активно раскрываются данные ГИБДД по авариям сопряженным с пострадавшими.

Ссылки:
[1] http://www.in.gov/isp/ispCrashApp/main.html
[2] https://in.gov/isp/3268.htm
[3] https://xn--80abhddbmm5bieahtk5n.xn--p1ai/

#opendata
Обзор "Best government emerging technologies" вышел в этом месяце [1] от лица World Government Summit [2].

В списке технологий:
- Искусственный интеллект
- Блокчейн и распределенные реестры
- Новое производство
- Роботизация и пространство
- Умные платформы
- Виртуальный мир

На мой взгляд, список технологий неполон и сформулирован совсем не обязательно именно так, но множество хороших примеров дает представление о том что происходит с государственным управлением в мире.

Ссылки:
[1] https://worldgovernmentsummit.org/api/publications/document?id=24737dc4-e97c-6578-b2f8-ff0000a7ddb6
[2] https://worldgovernmentsummit.org/annual-gathering/reports

#govtech #digitalgov
Вышел OpenRefine 2.7RC1 [1] свежий кандидат в релизы известного open source продукта по чистке данных.
Из новых возможностей:
- использование Wikidata вместо Freebase
- перевод на японский
- экспорт кластеров

OpenRefine один из наиболее незаменимых инструментов при работе с данными, как с открытыми, так и не очень. Жаль лишь что его востребованность совершенно не коррелирует с развитием проекта. Основной разработчик не проявлял активности более 9 месяцев [2] и теперь основными контрибьюторами являются члены сообщества и привлеченные разработчики через BountySource.

Все это не дает пока надежды что OpenRefine может стабильно развиваться, в то время как спрос на data wrangling tools весьма немал. Коммерческие приложения вроде DataIku и Trifacta не дают той же гибкости. И вопрос о том на что заменять OpenRefine долгосрочно является актуальным.

Ссылки:
[1] https://github.com/OpenRefine/OpenRefine/releases/
[2] https://github.com/tfmorris

#opendata #data
Ответ вопрос о том как существует бизнес на открытых данных в том что бизнесу все равно данные открыты или нет, открытость лишь делает это топливо бесплатным и позволяет снизить издержки, иногда значительно.

Пример коммерческого проекта на данных - это Quandl - https://www.quandl.com/

Стартап предоставляющий часть данных бесплатно на своей платформе, а часть, коммерческих данных, только по платной подписке. Коммерческие данные они получают не из открытых источников или же сводят много данных из открытых для создания нового продукта.

Очень простая и очевидная модель для любого стартапа.

#opendata #data
Друзья, на International Open Data Day в Москве я буду вести секцию "Бизнес". На сегодняшний день подтвердилось 2 спикера и я продолжаю искать тех кто готов выступить о том как бизнес работает с открытыми данными.
Это 4-5 марта и все подробности здесь - http://msk.opendataday.ru

Есть направления:
- как компания зарабатывает на открытых данных
- как компании создают инфраструктуру для открытия данных
- как компания использует открытые данные для своих внутренниъ нужд
- как компания раскрывает данные

Если у Вас есть тема или Вы можете порекомендовать спикера - напишите мне в facebook.com/ibegtin или на email - [email protected]

#opendata
Визуализация законодательства Новой Зеландии http://bcn-nzln.co.nf/ по кластерам в зависимости от цитирования

Помимо того что это красиво и показывает какие законы чаще всего меняли, это еще и полезно для понимания того как переплетены законы.

Чтобы было понятно - в Новой Зеландии все законы опубликованы как набор открытых данных - https://data.govt.nz/dataset/show/776

Там по ссылке http://legislation.govt.nz/subscribe/ доступны для выгрузки законы начиная с 1267 года http://legislation.govt.nz/subscribe/act/imperial

В целом это все что я думаю про открытые данные о законодательстве и законотворчестве в России

#opendata #opengov