Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.73K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
К вопросу о том как измерить эффект от открытия данных. Если кратко, то очень сложно. Эффект несомнненно есть, но все примеры реального социального или экономического эффекта необходимо выискивать и с большим трудом. Немного кейсов хорошо разобрано, чаще просто общая информация о пользователях.

Вот несколько примеров.

На портале Евросоюза опубликовано 300 примеров использования и раскрытия данных в странах Европы [1]. Увы, никаких подробностей, только самое базовое описание.

Проект Open Data 500 [2] от исследователей The GovLab собирает большой каталог, но и там без детального рассмотрения каждого примера.

Те же The GovLab собрали 19 примеров в проекте ODImpact [3] и разобрали их очень подробно.

The Open Data Institute в Великобритании ведёт каталог поддержанных им стартапов [4], а в Tech World подробно рассмотрено 22 подобных стартапа [5], компании работающие с открытыми данными поименованные на angel.co [6] (всего 72 компании) и по теме открытости государства [7] (101 компания).

Главный вопрос здесь и всегда - достаточно ли тема открытых данных самодостаточна для рассмотрения с точки зрения бизнеса?

Ответ, увы, скорее нет чем да. Более 5000 стартапов, только на angel.co, связаны с рынком больших данных [8], их доходы несопоставимо выше чем доходы стартапов работающие с открытыми данными и открытыми данными государства в частности.

С точки зрения бизнеса вся тема открытых данных погружена в тему больших данных и данных вообще, автономного рынка только открытых данных не существует. Коммерческие компании берут открытые данные и смешивают их с данными внутренними, купленными, закрытыми и непубличными. Как результат создают новые продукты где открытые данные были лишь одним из ингредиентов, но как измерить эффект именно этого ингредиента на финальное "блюдо" ?

Поэтому измерения эффекта именно от открытых данных столь сложно излагаемы и столь неполны. Но, безусловно, примеры как ODImpact показывают и прямой эффект именно от открытости данных.

Ссылки:
[1] https://www.europeandataportal.eu/en/using-data/use-cases
[2] http://opendata500.com/
[3] http://odimpact.org/
[4] https://theodi.org/global-network-directory/odi-startups/
[5] https://www.techworld.com/picture-gallery/startups/-innovative-uk-companies-using-open-data-3613884/
[6] https://angel.co/open-data-3
[7] https://angel.co/open-government-1
[8] https://angel.co/big-data

#opendata #opengov #data
Inside Airbnb [1] небольшой частный проект по сбору и визуализации данных из Airbnb по отдельным городам
У него неофициальный общественный статус и все данные там открыты, а также доступны интересные визуализации по отдельным городам, например, Берлин [2] или Торонто [3].

России там нет, хотя было бы немало интересно с данными по крупнейшим российским городам поработать, сравнить влияние ЧМ-2018 на структуру предложений.

Ссылки:
[1] http://insideairbnb.com
[2] http://insideairbnb.com/berlin/
[3] http://insideairbnb.com/toronto/

#opendata
Как устроена цифровая трансформация госуправления в мире у лидеров? На самоорганизации тесном взаимодействии одной из основ которого является относительно молодая группа стран Digital 7 (D7) ранее именовавшаяся Digital 5 (D5) [1].

Группа сформировалась в 2014 году и туда вошли: Эстония, Новая Зеландия, Израиль, Южная Корея и Великобритания. В феврале к ней присоединилось ещё две страны: Канада и Уругвай.

Работа группы основана на 9 принципах которые я процитирую прямо из их хартии [2]:
3.1. User needs — the design of public services that work for the citizen
3.2. Open standards — technology requires interoperability and so a clear commitment to a credible royalty free open standards policy for software is needed
3.3. Open source — where possible all future Government systems, tradecraft, manuals and standards are created as open source and are shareable between participants
3.4. Open markets — in government procurement create true competition for companies regardless of size. Encourage and support a start-up culture and promote economic growth through open markets
3.5. Open government (transparency) — be a member of the Open Government Partnership and use open licences to produce and consume open data
3.6. Connectivity — enable an online population through comprehensive and high quality digital infrastructure
3.7. Teach children to code — commitment to offer all children the opportunity to learn to code and build the next generation of skills
3.8. Assisted digital — a commitment to support all its citizens to access digital services
3.9. Commitment to share and learn — all members commit to work together to help solve each other’s issues wherever they can

Все перечисленные страны D7 активно вкладываются в открытые данные, все кроме Уругвая, Израиля и Южной Кореи ведут открытую разработку кода, и все без исключения имеют внутренние политики работы с открытым кодом.

Ссылки:
[1] https://en.wikipedia.org/wiki/Digital_5
[2] https://www.digital.govt.nz/dmsdocument/28-d7-charter/html

#opengov #digitalgov
Дата журналистам на заметку.

1. Заходите на сайт Газпроммежрегионгаза в раздел "Крупнейшие должники за газ"
http://mrg.gazprom.ru/implementation/spisok-dolzhnikov/

2. Парсите данные любым удобным Вам образом и превращаете в CSV или JSON где у Вас должны быть поля:
- наименование организации должника
- сумма задолженности
- наименование субъекта федерации
- наименование федерального округа в который субъект федерации входит

3. Открываете Википедию (или Wikidata) и скачиваете таблицу с населением страны по субъектам https://ru.wikipedia.org/wiki/Население_субъектов_Российской_Федерации

4. Открываете Википедию (или Wikidata) и скачиваете таблицу ВРП по субъектам https://ru.wikipedia.org/wiki/Список_субъектов_Российской_Федерации_по_валовому_продукту

5. На этих данных считаете рейтинги:
- субъектов по общей задолженности
- субъектов по задолженности на 1 человека
- субъектов по задолженности к ВРП

6. Аналогично для федеральных округов

7. Полученные цифры визуализируете любым удобным Вам образом

8. Вуаля! Отдавайте результат в любое федеральное издание, особенно в те которые сейчас активно чморят власти Московской области.

Потому что кто будет анти-лидером рейтинга я уже вам как бы подсказал.
#datajournalism #ddj #opendata
А вот и свежие новости цифровизации.
Если Вы ещё не читали, То очень рекомендую прочитать актуальную стратегию Счетной Палаты [1] особенно если Вы хотите знать какое ведомство будет отвечать за и влиять на открытость государства в России в ближайшие годы.

Это лишь отчасти ответ на вопрос как организована будет открытость государства в отсутствии "Открытого правительства", скорее лучше чем хуже потому что теперь рычаги влияния и полномочия будут реальными.

Ссылки:
[1] http://audit.gov.ru/about/document/strategy-2018-2024.php

#opendata #opengov
ФНС опубликовали свежие данные, а дата журналисты моментально проверили их на корректность и аномалии [1]

Во первых ФНС спасибо что работают по модели data-first. На рынке достаточно компаний и достаточно журналистов которые умеют работать с данными и сами создадут сервисы, а ФНС делают всё правильно.

Во вторых я считаю что публикация данных с ошибками и возможностью их исправления важнее чем отказ от публикации.

Особенно приятно что многие журналисты сразу создают интерактивные публикации [2]. Мы в Госзатратах [3] (проект по мониторингу госрасходов и госконтрактов) думаем не организовать ли небольшой конкурс для тех кто на основе данных ФНС и на основе данных по госконтрактам сделает интересную визуализацию, например, на данных по госконтрактам в связке с данными о среднесписочном числе сотрудников.

Пока конкурс мы не объявили, но точно будем проводить хакатон осенью, а пока если у Вас будут интересные визуализации по связке этих данных, пишите на [email protected]

Ссылки:
[1] https://vc.ru/43074-fns-v-rossii-nashlis-dve-kompanii-so-shtatom-bolee-600-tysyach-chelovek
[2] https://www.rbc.ru/economics/02/08/2018/5b62c4659a79473c2cd07ae1?from=center_3
[3] http://clearspending.ru

#opendata #opengov
Microsoft (команда Bing) опубликовали данные по распознанным образам 124 миллионов зданий в США [1] специально для сообщества OpenStreetMap и для загрузки в OpenStreetMap под свободной лицензией ODbL [2]

Все данные и код они же выложили на Github [3], а вся работа - это результат работы алгоритма RefineNet [4] где, конечно же, не обошлось и без глубокого обучения и CNTK (Microsoft Cognitive Toolkit) [5]

Во первых очень круто что крупнейшие дата-корпорации всё таки делятся данными с открытыми проектами, я бы сказал что российским есть с кого брать пример, но в России только Яндекс 5 лет назад помогал Wikidata [6], а сейчас, похоже, что и им не помогает.


Ссылки:
[1] https://blogs.bing.com/maps/2018-06/microsoft-releases-125-million-building-footprints-in-the-us-as-open-data/
[2] https://opendatacommons.org/licenses/odbl/
[3] https://github.com/Microsoft/USBuildingFootprints
[4] https://arxiv.org/abs/1611.06612
[5] https://github.com/Microsoft/CNTK
[6] https://www.wikimedia.de/wiki/Pressemitteilungen/PM_06_13_Wikidata_Yandex

#opendata #microsoft #bing
Inter-American development bank (Межамериканский банк развития) [1] выпустил брошюру "Открытые данные в Латинской Америке и на Карибах" ("Los datos abiertos en América Latina y el Caribe") [2]

Много сравнений и примеров того что происходит в Латинской Америке и на Карибах, примеры проектов, сравнение позиций в индексах открытости и многое другое.

Брошюра только на испанском, но сложной испанской лексики там нет, читается довольно легко.

Ссылки:
[1] https://www.iadb.org
[2] https://publications.iadb.org/handle/11319/8983

#opendata #opengov
Московский комсомолец с большим запозданием пишет о результатах аудиторской проверки "Карты Российской науки" [1], я писал об этом 29 июня [2] сразу после публикации сведений о результатах аудиторской проверки [3].

Самое странное что кто-то ещё и поднял страничку сайта mapofscience.ru [4] где ничего кроме главной страницы нет, а самое характерное - полное молчание со стороны руководства ГПНПБ и Прайсвотерхаус Куперс.

А вся эта история - она про чувство меры. В России есть много ИТ систем которые существуют только на бумаге и не только из-за коррупции, а ещё из-за смены законодательства или, реже, реальных проблем с внедрением. Но негласное правило в том что если стоимость системы превосходит некую планку - она должна существовать и быть в открытом доступе.

Попытаться делать систему с огромными расходами, в изначально конфликтной среде, изначально с сильным медийным вниманием и изначально со спорной архитектурой и идеей и думать что это сойдёт с рук - это в высшей степени авантюризм, в России заканчивающийся, как правило, уголовными делами.

Ссылки:
[1] https://www.mk.ru/politics/2018/08/02/na-skandalnuyu-kartu-rossiyskoy-nauki-potratili-450-millionov-rubley.html
[2] https://yangx.top/begtin/994
[3] http://audit.gov.ru/press_center/news/33645
[4] http://mapofscience.ru/

#opendata #opengov
В качестве напоминания. В свободное от общественных и коммерческих проектов время я немного сам программирую. В основном то что мне же самому нужно и что может пригодится другим.

Пример такого - это @FeedRetranslatorBot в телеграме которые перенаправляет новости из RSS каналов на сайте и просто страниц где есть новости в телеграм каналы. Бот был сделан для того чтобы заменить разного рода новостные читалки, а для удобства вместо категорий новостей чтобы можно было создать себе новостные каналы и в них транслировать то что интеерсно.

Особенность именно @FeedRetranslatorBot в алгоритмах внутри которые извлекают новости из сайтов у которых нет экспорта в RSS. Примеры:
- сайт ЦСР http://csr.ru/
- раздел пресс-релизов Лукойла http://www.lukoil.ru/PressCenter/Pressreleases
- отдел по церковной благотворительности РПЦ http://www.diaconia.ru/news/diaconia
и многие другие

Для того чтобы извлекать оттуда новости бот использует библиотеку newsworker https://github.com/ivbeg/newsworker которая как раз и извлекает из HTML заголовки, даты, ссылки и текст новости. Это даёт возможность охватить ещё и те источники новостей которые можно упустить при медиамониторинге.

Новости собираются в режиме от 15 до 30 минут, если не возникает проблем с первоисточником, например если он не банит внешних ботов как это иногда бывает с сайтом Роскомнадзора, например.

Бот работает на принципе forever free, создан не для монетизации, а для личного удобства (как я уже говорил он мне нужен для замены RSS читалок). Большая часть его кода открыта или будет открыта на github'е.

На основе бота уже создано множество каналов:
- Правительственный дайджест https://yangx.top/govdigest : новости администрации Президента, Правительства, ключевых министерств и мозговых центров
- Контрактная система https://yangx.top/gzcontracts : новости электронных торговых площадок, сайта госзакупок и других источников регулирования российской контрактной системы (государственной)
- Госфинансы https://yangx.top/govfin : новости Минфина, Казначейства, ФНС России и другие новости по госфинансам
- Московский патриархат https://yangx.top/mospatriarhia новости Московского патриархата и всех его синоидальных отдела (без учёта митрополий и епархий)
- Open Data Digest https://yangx.top/opendatadigest : международные новости про открытые данные
- Open Government Digeest https://yangx.top/opengovdigest : международные новости про открытость государства
- Data is Good https://yangx.top/dataisgood : международные источники про данные и алгоритмы
- Крупнейшие компании https://yangx.top/topcorpnews : новости топ 20 российских компаний по рейтингу РБК 500 (Газпром, Лукойл, Ростех и др)

Кроме того многие публичные каналы создают пользователи.
Например, Фил Кулин (канал Эшер II, https://yangx.top/usher2, https://usher2.club) создал такие каналы:
- Лента новостей с regulation.gov.ru https://yangx.top/ru_regulation : поток новостей по законопроектам для публичной реакции
- Новости Минцифры и Роскомнадзора https://yangx.top/ru_comnews : новости этих двух ведомств соответственно

Не все возможности реализованы, как я писал - вначале бот готовился для себя и лишь позже открыт для всех желающих.

Из того что запланировано:
- веб-интерфейс с документацией и каталогом общедоступных каналов (для тех кто решит их публичить)
- API и утилита командной строки для управления подписками
- монитор доступности сайтов с новостями (не заблокировали ли бота)
- упрощение горизонтального масштабирования

Вы также можете создать свои каналы с помощью этого бота. Он реагирует на команду /help, а мне можно задавать вопросы и пожелания в https://yangx.top/begtinchat.

#newsdigest #digest #feedbot
Коммерческие проекты по работе с данными на которые стоит обратить внимание. Даже если не для того чтобы купить, но для того чтобы понимать как и куда движется рынок. В основном он движется в интегрируемость и в облака.

Моделирование данных
- LookML https://looker.com/platform/data-modeling
- Matillion https://www.matillion.com/etl-for-redshift/

Извлечение, загрузка и преобразование данных
- Alooma https://www.alooma.com/
- Qubole https://www.qubole.com

Записные книжки (Data notebooks)
- Nurtch https://www.nurtch.com/
- Datadog Notebooks https://www.datadoghq.com/blog/data-driven-notebooks/ (часть их большего продукта)

Аналитика
- Looker https://looker.com
- Periscope Data https://www.periscopedata.com/
- Mode https://modeanalytics.com

Интеграция (оркестрация)
- Fivetran https://fivetran.com/

#data #tools
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Кто заплатит за содержание стадионов и других объектов, построенных к Чемпионату мира по футболу?

СМИ очень много писали о расходах из бюджета на подготовку и строительство стадионов, но после проведения чемпионата расходы не заканчиваются. Все созданные объекты, а это 12 построенных и реконструированных стадионов, а также 95 построенных, реконструированных и подготовленных тренировочных площадок в 25 субъектах, кто-то должен содержать и поддерживать. Для этого стадионы передаются в собственность регионам, а тренировочные площадки - спортивным организациям и клубам.

Подробная информация о том, какие были созданы объекты (включая информацию об адресе объекта, вместимости, текущем и планируемом собственнике, планируемом использовании в дальнейшем) содержится в "Концепции наследия чемпионата мира по футболу FIFA 2018 года", опубликованной на сайте Правительства РФ.

Помимо указанной информации в файле есть данные о ресурсном обеспечении реализации Концепции, а именно - перечислены мероприятия и источники их финансирования, например:

- эксплуатация и содержание стадионов, переданных из собственности РФ в собственность субъектов РФ, в 2019 году на 100% будут оплачены из федерального бюджета, а в 2020-2023 годах на 95% - из федерального и на 5% - из бюджета субъекта;

- адаптация стадионов в 2019 г. на 95% будет оплачена из федерального бюджета; - помимо этого запланированы мероприятия по замене натуральных газонов на искусственное покрытие, оснащение системой подогрева и дооборудование тренировочных площадок, финансирование обучения футболу детей с 6 лет и др., которые также на 95% будут оплачены из федерального бюджета. Полная таблица с перечислением всех мероприятий и источников финансирования опубликована в Приложении 3 к Концепции. Прогнозная оценка расходов на реализацию Концепции с 2018 по 2023 год составляет 16,02 млрд руб., из них: - 11,51 млрд руб. из федерального бюджета - 813 млн руб. из бюджетов субъектов РФ - 6,5 млн руб. из бюджетов муниципальных образований - 3,69 млрд руб. из внебюджетных источников.

http://static.government.ru/media/files/OWImhFu670JwOs4OQf0BynQOuhwrJSW8.pdf
Среди мировых порталов по открытым данным прибавилось, и относительно давно, GARDIAN [1], проект по консолидации открытых исследований и наборов данных [2] в области агрокультуры.

Более 93 тысяч публикаций и более 2100 наборов данных, все в открытом доступе и в самых разных форматах от HDF до Microsoft Access (MDB).

Проект создан CGIAR (Consultative Group for International Agricultural Research) [3], партнёрством в области агрокультуры и является частью их платформы для работы с большими данными [4]

У них же, кстати, немало работ ведется по онтологиям в агрокультуре таким как Crop Ontology [5] и Planteome [6]

Ссылки:
[1] http://gardian.bigdata.cgiar.org
[2] http://gardian.bigdata.cgiar.org/search.php#!/*/all/and/%7B%7D
[3] http://cgiar.org
[4] https://bigdata.cgiar.org/
[5] http://www.cropontology.org/
[6] http://planteome.org/

#opendata #opengov
Тем временем французы собираются запустить transport.data.gouv.fr [1], единую систему работы с транспортными данными. Проект долгосрочный, а со 2 октября откроют портал.

Основные его особенности:
- открытые данные всего собранного
- тесная работа с ре-публикаторами данных. 8 участников подтвердили и 6 участвуют в диалогею
- разработчики сервисов возвращают в data.gouv.fr очищенные и исправленные данные
- предоставление сервисам конечным пользователям через разработчиков приложений
- партнёрство со всеми регионами Франции, на предоставление данных

Подробнее в презентации [2]

Ссылки:
[1] https://transport.data.gouv.fr
[2] https://transport.data.gouv.fr/documents/TransportDataGouv-2846b8fb4cd5f07ed134a4c112e0c9e8.pdf?vsn=d

#opendata #france
Минфин, зачем-то, очень хочет не просто систематизировать данные, но и получить контроль над данными всех и вся воспользовавшись замешательством Минцифры и Минэка с созданием Национальной системы управления данными.

Прокомментировал вчера Ведомостям эту ситуацию https://www.vedomosti.ru/technology/articles/2018/08/07/777504-minfinu-bolshim-bratom

#data
За половину 2018 года в России было принято 250 законов, в Новой Зеландии 2 закона

В пропорции к числу жителей это:
- 1,7 закона на миллион человек в России
- 0,4 закона на миллион человек в Новой Зеландии

Разница в 4 раза. Если сравнить масштаб всего того что в России называют НПА, то разница будет в 10-20 раз

Интересно, есть ли в мире рейтинг стран по legaslation burden ?
К вопросу о продуктах на открытых данных.
Правительство провинции Нарино в Колумбии выпускает журнал инфографики "Le tengo el data" основанный на открытых данных страны.

Уже вышло 4 выпуска которые можно скачать в PDF по ссылке https://gana.nariño.gov.co/colaboracion/letengoeldato

#dataviz #opendata
Инфографика из изданий 0 и 4