Ivan Begtin
8.1K subscribers
2.02K photos
3 videos
102 files
4.75K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
ФНС опубликовали свежие данные, а дата журналисты моментально проверили их на корректность и аномалии [1]

Во первых ФНС спасибо что работают по модели data-first. На рынке достаточно компаний и достаточно журналистов которые умеют работать с данными и сами создадут сервисы, а ФНС делают всё правильно.

Во вторых я считаю что публикация данных с ошибками и возможностью их исправления важнее чем отказ от публикации.

Особенно приятно что многие журналисты сразу создают интерактивные публикации [2]. Мы в Госзатратах [3] (проект по мониторингу госрасходов и госконтрактов) думаем не организовать ли небольшой конкурс для тех кто на основе данных ФНС и на основе данных по госконтрактам сделает интересную визуализацию, например, на данных по госконтрактам в связке с данными о среднесписочном числе сотрудников.

Пока конкурс мы не объявили, но точно будем проводить хакатон осенью, а пока если у Вас будут интересные визуализации по связке этих данных, пишите на [email protected]

Ссылки:
[1] https://vc.ru/43074-fns-v-rossii-nashlis-dve-kompanii-so-shtatom-bolee-600-tysyach-chelovek
[2] https://www.rbc.ru/economics/02/08/2018/5b62c4659a79473c2cd07ae1?from=center_3
[3] http://clearspending.ru

#opendata #opengov
Microsoft (команда Bing) опубликовали данные по распознанным образам 124 миллионов зданий в США [1] специально для сообщества OpenStreetMap и для загрузки в OpenStreetMap под свободной лицензией ODbL [2]

Все данные и код они же выложили на Github [3], а вся работа - это результат работы алгоритма RefineNet [4] где, конечно же, не обошлось и без глубокого обучения и CNTK (Microsoft Cognitive Toolkit) [5]

Во первых очень круто что крупнейшие дата-корпорации всё таки делятся данными с открытыми проектами, я бы сказал что российским есть с кого брать пример, но в России только Яндекс 5 лет назад помогал Wikidata [6], а сейчас, похоже, что и им не помогает.


Ссылки:
[1] https://blogs.bing.com/maps/2018-06/microsoft-releases-125-million-building-footprints-in-the-us-as-open-data/
[2] https://opendatacommons.org/licenses/odbl/
[3] https://github.com/Microsoft/USBuildingFootprints
[4] https://arxiv.org/abs/1611.06612
[5] https://github.com/Microsoft/CNTK
[6] https://www.wikimedia.de/wiki/Pressemitteilungen/PM_06_13_Wikidata_Yandex

#opendata #microsoft #bing
Inter-American development bank (Межамериканский банк развития) [1] выпустил брошюру "Открытые данные в Латинской Америке и на Карибах" ("Los datos abiertos en América Latina y el Caribe") [2]

Много сравнений и примеров того что происходит в Латинской Америке и на Карибах, примеры проектов, сравнение позиций в индексах открытости и многое другое.

Брошюра только на испанском, но сложной испанской лексики там нет, читается довольно легко.

Ссылки:
[1] https://www.iadb.org
[2] https://publications.iadb.org/handle/11319/8983

#opendata #opengov
Московский комсомолец с большим запозданием пишет о результатах аудиторской проверки "Карты Российской науки" [1], я писал об этом 29 июня [2] сразу после публикации сведений о результатах аудиторской проверки [3].

Самое странное что кто-то ещё и поднял страничку сайта mapofscience.ru [4] где ничего кроме главной страницы нет, а самое характерное - полное молчание со стороны руководства ГПНПБ и Прайсвотерхаус Куперс.

А вся эта история - она про чувство меры. В России есть много ИТ систем которые существуют только на бумаге и не только из-за коррупции, а ещё из-за смены законодательства или, реже, реальных проблем с внедрением. Но негласное правило в том что если стоимость системы превосходит некую планку - она должна существовать и быть в открытом доступе.

Попытаться делать систему с огромными расходами, в изначально конфликтной среде, изначально с сильным медийным вниманием и изначально со спорной архитектурой и идеей и думать что это сойдёт с рук - это в высшей степени авантюризм, в России заканчивающийся, как правило, уголовными делами.

Ссылки:
[1] https://www.mk.ru/politics/2018/08/02/na-skandalnuyu-kartu-rossiyskoy-nauki-potratili-450-millionov-rubley.html
[2] https://yangx.top/begtin/994
[3] http://audit.gov.ru/press_center/news/33645
[4] http://mapofscience.ru/

#opendata #opengov
В качестве напоминания. В свободное от общественных и коммерческих проектов время я немного сам программирую. В основном то что мне же самому нужно и что может пригодится другим.

Пример такого - это @FeedRetranslatorBot в телеграме которые перенаправляет новости из RSS каналов на сайте и просто страниц где есть новости в телеграм каналы. Бот был сделан для того чтобы заменить разного рода новостные читалки, а для удобства вместо категорий новостей чтобы можно было создать себе новостные каналы и в них транслировать то что интеерсно.

Особенность именно @FeedRetranslatorBot в алгоритмах внутри которые извлекают новости из сайтов у которых нет экспорта в RSS. Примеры:
- сайт ЦСР http://csr.ru/
- раздел пресс-релизов Лукойла http://www.lukoil.ru/PressCenter/Pressreleases
- отдел по церковной благотворительности РПЦ http://www.diaconia.ru/news/diaconia
и многие другие

Для того чтобы извлекать оттуда новости бот использует библиотеку newsworker https://github.com/ivbeg/newsworker которая как раз и извлекает из HTML заголовки, даты, ссылки и текст новости. Это даёт возможность охватить ещё и те источники новостей которые можно упустить при медиамониторинге.

Новости собираются в режиме от 15 до 30 минут, если не возникает проблем с первоисточником, например если он не банит внешних ботов как это иногда бывает с сайтом Роскомнадзора, например.

Бот работает на принципе forever free, создан не для монетизации, а для личного удобства (как я уже говорил он мне нужен для замены RSS читалок). Большая часть его кода открыта или будет открыта на github'е.

На основе бота уже создано множество каналов:
- Правительственный дайджест https://yangx.top/govdigest : новости администрации Президента, Правительства, ключевых министерств и мозговых центров
- Контрактная система https://yangx.top/gzcontracts : новости электронных торговых площадок, сайта госзакупок и других источников регулирования российской контрактной системы (государственной)
- Госфинансы https://yangx.top/govfin : новости Минфина, Казначейства, ФНС России и другие новости по госфинансам
- Московский патриархат https://yangx.top/mospatriarhia новости Московского патриархата и всех его синоидальных отдела (без учёта митрополий и епархий)
- Open Data Digest https://yangx.top/opendatadigest : международные новости про открытые данные
- Open Government Digeest https://yangx.top/opengovdigest : международные новости про открытость государства
- Data is Good https://yangx.top/dataisgood : международные источники про данные и алгоритмы
- Крупнейшие компании https://yangx.top/topcorpnews : новости топ 20 российских компаний по рейтингу РБК 500 (Газпром, Лукойл, Ростех и др)

Кроме того многие публичные каналы создают пользователи.
Например, Фил Кулин (канал Эшер II, https://yangx.top/usher2, https://usher2.club) создал такие каналы:
- Лента новостей с regulation.gov.ru https://yangx.top/ru_regulation : поток новостей по законопроектам для публичной реакции
- Новости Минцифры и Роскомнадзора https://yangx.top/ru_comnews : новости этих двух ведомств соответственно

Не все возможности реализованы, как я писал - вначале бот готовился для себя и лишь позже открыт для всех желающих.

Из того что запланировано:
- веб-интерфейс с документацией и каталогом общедоступных каналов (для тех кто решит их публичить)
- API и утилита командной строки для управления подписками
- монитор доступности сайтов с новостями (не заблокировали ли бота)
- упрощение горизонтального масштабирования

Вы также можете создать свои каналы с помощью этого бота. Он реагирует на команду /help, а мне можно задавать вопросы и пожелания в https://yangx.top/begtinchat.

#newsdigest #digest #feedbot
Коммерческие проекты по работе с данными на которые стоит обратить внимание. Даже если не для того чтобы купить, но для того чтобы понимать как и куда движется рынок. В основном он движется в интегрируемость и в облака.

Моделирование данных
- LookML https://looker.com/platform/data-modeling
- Matillion https://www.matillion.com/etl-for-redshift/

Извлечение, загрузка и преобразование данных
- Alooma https://www.alooma.com/
- Qubole https://www.qubole.com

Записные книжки (Data notebooks)
- Nurtch https://www.nurtch.com/
- Datadog Notebooks https://www.datadoghq.com/blog/data-driven-notebooks/ (часть их большего продукта)

Аналитика
- Looker https://looker.com
- Periscope Data https://www.periscopedata.com/
- Mode https://modeanalytics.com

Интеграция (оркестрация)
- Fivetran https://fivetran.com/

#data #tools
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Кто заплатит за содержание стадионов и других объектов, построенных к Чемпионату мира по футболу?

СМИ очень много писали о расходах из бюджета на подготовку и строительство стадионов, но после проведения чемпионата расходы не заканчиваются. Все созданные объекты, а это 12 построенных и реконструированных стадионов, а также 95 построенных, реконструированных и подготовленных тренировочных площадок в 25 субъектах, кто-то должен содержать и поддерживать. Для этого стадионы передаются в собственность регионам, а тренировочные площадки - спортивным организациям и клубам.

Подробная информация о том, какие были созданы объекты (включая информацию об адресе объекта, вместимости, текущем и планируемом собственнике, планируемом использовании в дальнейшем) содержится в "Концепции наследия чемпионата мира по футболу FIFA 2018 года", опубликованной на сайте Правительства РФ.

Помимо указанной информации в файле есть данные о ресурсном обеспечении реализации Концепции, а именно - перечислены мероприятия и источники их финансирования, например:

- эксплуатация и содержание стадионов, переданных из собственности РФ в собственность субъектов РФ, в 2019 году на 100% будут оплачены из федерального бюджета, а в 2020-2023 годах на 95% - из федерального и на 5% - из бюджета субъекта;

- адаптация стадионов в 2019 г. на 95% будет оплачена из федерального бюджета; - помимо этого запланированы мероприятия по замене натуральных газонов на искусственное покрытие, оснащение системой подогрева и дооборудование тренировочных площадок, финансирование обучения футболу детей с 6 лет и др., которые также на 95% будут оплачены из федерального бюджета. Полная таблица с перечислением всех мероприятий и источников финансирования опубликована в Приложении 3 к Концепции. Прогнозная оценка расходов на реализацию Концепции с 2018 по 2023 год составляет 16,02 млрд руб., из них: - 11,51 млрд руб. из федерального бюджета - 813 млн руб. из бюджетов субъектов РФ - 6,5 млн руб. из бюджетов муниципальных образований - 3,69 млрд руб. из внебюджетных источников.

http://static.government.ru/media/files/OWImhFu670JwOs4OQf0BynQOuhwrJSW8.pdf
Среди мировых порталов по открытым данным прибавилось, и относительно давно, GARDIAN [1], проект по консолидации открытых исследований и наборов данных [2] в области агрокультуры.

Более 93 тысяч публикаций и более 2100 наборов данных, все в открытом доступе и в самых разных форматах от HDF до Microsoft Access (MDB).

Проект создан CGIAR (Consultative Group for International Agricultural Research) [3], партнёрством в области агрокультуры и является частью их платформы для работы с большими данными [4]

У них же, кстати, немало работ ведется по онтологиям в агрокультуре таким как Crop Ontology [5] и Planteome [6]

Ссылки:
[1] http://gardian.bigdata.cgiar.org
[2] http://gardian.bigdata.cgiar.org/search.php#!/*/all/and/%7B%7D
[3] http://cgiar.org
[4] https://bigdata.cgiar.org/
[5] http://www.cropontology.org/
[6] http://planteome.org/

#opendata #opengov
Тем временем французы собираются запустить transport.data.gouv.fr [1], единую систему работы с транспортными данными. Проект долгосрочный, а со 2 октября откроют портал.

Основные его особенности:
- открытые данные всего собранного
- тесная работа с ре-публикаторами данных. 8 участников подтвердили и 6 участвуют в диалогею
- разработчики сервисов возвращают в data.gouv.fr очищенные и исправленные данные
- предоставление сервисам конечным пользователям через разработчиков приложений
- партнёрство со всеми регионами Франции, на предоставление данных

Подробнее в презентации [2]

Ссылки:
[1] https://transport.data.gouv.fr
[2] https://transport.data.gouv.fr/documents/TransportDataGouv-2846b8fb4cd5f07ed134a4c112e0c9e8.pdf?vsn=d

#opendata #france
Минфин, зачем-то, очень хочет не просто систематизировать данные, но и получить контроль над данными всех и вся воспользовавшись замешательством Минцифры и Минэка с созданием Национальной системы управления данными.

Прокомментировал вчера Ведомостям эту ситуацию https://www.vedomosti.ru/technology/articles/2018/08/07/777504-minfinu-bolshim-bratom

#data
За половину 2018 года в России было принято 250 законов, в Новой Зеландии 2 закона

В пропорции к числу жителей это:
- 1,7 закона на миллион человек в России
- 0,4 закона на миллион человек в Новой Зеландии

Разница в 4 раза. Если сравнить масштаб всего того что в России называют НПА, то разница будет в 10-20 раз

Интересно, есть ли в мире рейтинг стран по legaslation burden ?
К вопросу о продуктах на открытых данных.
Правительство провинции Нарино в Колумбии выпускает журнал инфографики "Le tengo el data" основанный на открытых данных страны.

Уже вышло 4 выпуска которые можно скачать в PDF по ссылке https://gana.nariño.gov.co/colaboracion/letengoeldato

#dataviz #opendata
Инфографика из изданий 0 и 4
Это ещё один довод к вопросу о том почему нужна архивация онлайн проектов.
Forwarded from Roskomsvoboda
Правообладатели вынуждают энтузиастов ретро-игр закрывать свои проекты

➡️ https://roskomsvoboda.org/40878

После иска компании Nintendo против ряда «пиратских» сайтов, популярный портал с 18-летней историей EmuParadise заявил, что больше не будет предлагать классические игры для скачивания.

Ранее Nintendo наехала на интернет-ресурсы LoveROMS.com и LoveRETRO.co
Не говорите, пожалуйста, что данные это новая нефть! Ну серьёзно.

А то договоритесь до того что Яндекс, Mail.ru, Ростелеком и Мегафон и прочих признают ресурсодобывающими компаниями и им по "списку Белоусова" https://yangx.top/russica2/8917 тоже подсчитают EBITDA и попросят поделиться с государством "избыточными доходами".

Всё таки их жалко. Немного.
Один из самых простых внешне и сложных внутри общественно полезных проектов которыми я занимался - это "Простой русский язык" http://plainrussian.ru

Это сервис который проверяет текст на предмет его простоты и измеряет эту простоту в годах обучения и возрасте аудитории.

Визуально сервис простой для безобразия, просто форма в которой можно ввести ссылку или, во вкладке рядом, текст и получить измерение сложности по нескольким формулам. Самое сложное в том что в России не было формул измерения этой самой понятности текста. Они есть для английского, испанского, португальского, немецкого и ещё многих языков, но в России не проводились научные исследования, а мне очень хотелось измерять эту понятность и желательно простым образом.

Поэтому много лет назад я потратил несколько месяцев на то чтобы такие формулы адаптировать под русский язык. В статье на Хабре "Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов" [1] в 2014 году я рассказывал как это делалось. Не имея возможности проверить эти формулы на разных аудиториях, я, по сути, на базе обучающей выборки из текстов внеклассного чтения методом грубого перебора коэффициентов подобрал такие их показатели при которых среднее отклонение расчётного и предобученного значений было минимальным.

Тогда же и появился сервис plainrussian.ru и тогда же было доступно его API [2]. И тогда же я выложил исходный код формул [3], каждый желающий может реализовать это в своём приложении.

А моей изначальной идеей, как ни странно, было автоматически измерить сложность несколько сотен тысяч текстов с государственных сайтов и других источников. Потом, когда оказалось что формулы потребовали не 1-2 дней как я планировал, а нескольких месяцев, то я и не завершил создание базы сложности текстов.

Это один из тех проектов которые, на мой взгляд, могут быть исключительно некоммерческими. Многое можно ещё сделать к нему в довесок. Например, в телеграме @PlainRussianBot написан поверх этого API. Это наш внутренний бот в Инфокультуре для проверки текстов, но его можно использовать и извне. Он понимает команды /help, /url, /text и если ему переслать файл doc то он извлечет из него текст и измерит его сложность.

Ссылки:
[1] https://habr.com/company/infoculture/blog/238875/
[2] https://github.com/ivbeg/readability.io/wiki/API
[3] https://github.com/infoculture/plainrussian

#plainlanguage #plainrussian