Ivan Begtin

ФНС опубликовали свежие данные, а дата журналисты моментально проверили их на корректность и аномалии [1]

Во первых ФНС спасибо что работают по модели data-first. На рынке достаточно компаний и достаточно журналистов которые умеют работать с данными и сами создадут сервисы, а ФНС делают всё правильно.

Во вторых я считаю что публикация данных с ошибками и возможностью их исправления важнее чем отказ от публикации.

Особенно приятно что многие журналисты сразу создают интерактивные публикации [2]. Мы в Госзатратах [3] (проект по мониторингу госрасходов и госконтрактов) думаем не организовать ли небольшой конкурс для тех кто на основе данных ФНС и на основе данных по госконтрактам сделает интересную визуализацию, например, на данных по госконтрактам в связке с данными о среднесписочном числе сотрудников.

Пока конкурс мы не объявили, но точно будем проводить хакатон осенью, а пока если у Вас будут интересные визуализации по связке этих данных, пишите на [email protected]

Ссылки:
[1] https://vc.ru/43074-fns-v-rossii-nashlis-dve-kompanii-so-shtatom-bolee-600-tysyach-chelovek
[2] https://www.rbc.ru/economics/02/08/2018/5b62c4659a79473c2cd07ae1?from=center_3
[3] http://clearspending.ru

#opendata #opengov

vc.ru

ФНС: в России нашлись две компании со штатом более 600 тысяч человек

Ещё почти 400 тысяч организаций работают без сотрудников.

865 viewsIvan Begtin, 17:14

Ivan Begtin

Microsoft (команда Bing) опубликовали данные по распознанным образам 124 миллионов зданий в США [1] специально для сообщества OpenStreetMap и для загрузки в OpenStreetMap под свободной лицензией ODbL [2]

Все данные и код они же выложили на Github [3], а вся работа - это результат работы алгоритма RefineNet [4] где, конечно же, не обошлось и без глубокого обучения и CNTK (Microsoft Cognitive Toolkit) [5]

Во первых очень круто что крупнейшие дата-корпорации всё таки делятся данными с открытыми проектами, я бы сказал что российским есть с кого брать пример, но в России только Яндекс 5 лет назад помогал Wikidata [6], а сейчас, похоже, что и им не помогает.

Ссылки:
[1] https://blogs.bing.com/maps/2018-06/microsoft-releases-125-million-building-footprints-in-the-us-as-open-data/
[2] https://opendatacommons.org/licenses/odbl/
[3] https://github.com/Microsoft/USBuildingFootprints
[4] https://arxiv.org/abs/1611.06612
[5] https://github.com/Microsoft/CNTK
[6] https://www.wikimedia.de/wiki/Pressemitteilungen/PM_06_13_Wikidata_Yandex

#opendata #microsoft #bing

Bing

Microsoft Releases 130 million Building Footprints in the USA as Open Data

Bing has made very significant investments in the area of deep learning, computer vision and artificial intelligence to support a number of different search scenarios. The Bing Maps team has been applying these techniques as well with the goal to increase…

1.1K viewsIvan Begtin, 06:29

Ivan Begtin

Inter-American development bank (Межамериканский банк развития) [1] выпустил брошюру "Открытые данные в Латинской Америке и на Карибах" ("Los datos abiertos en América Latina y el Caribe") [2]

Много сравнений и примеров того что происходит в Латинской Америке и на Карибах, примеры проектов, сравнение позиций в индексах открытости и многое другое.

Брошюра только на испанском, но сложной испанской лексики там нет, читается довольно легко.

Ссылки:
[1] https://www.iadb.org
[2] https://publications.iadb.org/handle/11319/8983

#opendata #opengov

Inter-American Development Bank

We work to improve lives in Latin America and the Caribbean. Through financial and technical support for countries working to reduce poverty and inequality, we help improve health and education, and advance infrastructure.

660 viewsIvan Begtin, 06:50

Ivan Begtin

Московский комсомолец с большим запозданием пишет о результатах аудиторской проверки "Карты Российской науки" [1], я писал об этом 29 июня [2] сразу после публикации сведений о результатах аудиторской проверки [3].

Самое странное что кто-то ещё и поднял страничку сайта mapofscience.ru [4] где ничего кроме главной страницы нет, а самое характерное - полное молчание со стороны руководства ГПНПБ и Прайсвотерхаус Куперс.

А вся эта история - она про чувство меры. В России есть много ИТ систем которые существуют только на бумаге и не только из-за коррупции, а ещё из-за смены законодательства или, реже, реальных проблем с внедрением. Но негласное правило в том что если стоимость системы превосходит некую планку - она должна существовать и быть в открытом доступе.

Попытаться делать систему с огромными расходами, в изначально конфликтной среде, изначально с сильным медийным вниманием и изначально со спорной архитектурой и идеей и думать что это сойдёт с рук - это в высшей степени авантюризм, в России заканчивающийся, как правило, уголовными делами.

Ссылки:
[1] https://www.mk.ru/politics/2018/08/02/na-skandalnuyu-kartu-rossiyskoy-nauki-potratili-450-millionov-rubley.html
[2] https://yangx.top/begtin/994
[3] http://audit.gov.ru/press_center/news/33645
[4] http://mapofscience.ru/

#opendata #opengov

www.mk.ru

На скандальную "Карту российской науки" потратили 450 миллионов рублей

Государственный проект «Карта российской науки» обошелся госбюджету в 450 млн рублей. Они были потрачены на создание информационной системы со сведениями обо всех ученых, исследованиях и разработках, которые ведутся в нашей стране. Работа над проектом шла…

2.6K viewsIvan Begtin, 07:53

Ivan Begtin

В качестве напоминания. В свободное от общественных и коммерческих проектов время я немного сам программирую. В основном то что мне же самому нужно и что может пригодится другим.

Пример такого - это @FeedRetranslatorBot в телеграме которые перенаправляет новости из RSS каналов на сайте и просто страниц где есть новости в телеграм каналы. Бот был сделан для того чтобы заменить разного рода новостные читалки, а для удобства вместо категорий новостей чтобы можно было создать себе новостные каналы и в них транслировать то что интеерсно.

Особенность именно @FeedRetranslatorBot в алгоритмах внутри которые извлекают новости из сайтов у которых нет экспорта в RSS. Примеры:
- сайт ЦСР http://csr.ru/
- раздел пресс-релизов Лукойла http://www.lukoil.ru/PressCenter/Pressreleases
- отдел по церковной благотворительности РПЦ http://www.diaconia.ru/news/diaconia
и многие другие

Для того чтобы извлекать оттуда новости бот использует библиотеку newsworker https://github.com/ivbeg/newsworker которая как раз и извлекает из HTML заголовки, даты, ссылки и текст новости. Это даёт возможность охватить ещё и те источники новостей которые можно упустить при медиамониторинге.

Новости собираются в режиме от 15 до 30 минут, если не возникает проблем с первоисточником, например если он не банит внешних ботов как это иногда бывает с сайтом Роскомнадзора, например.

Бот работает на принципе forever free, создан не для монетизации, а для личного удобства (как я уже говорил он мне нужен для замены RSS читалок). Большая часть его кода открыта или будет открыта на github'е.

На основе бота уже создано множество каналов:
- Правительственный дайджест https://yangx.top/govdigest : новости администрации Президента, Правительства, ключевых министерств и мозговых центров
- Контрактная система https://yangx.top/gzcontracts : новости электронных торговых площадок, сайта госзакупок и других источников регулирования российской контрактной системы (государственной)
- Госфинансы https://yangx.top/govfin : новости Минфина, Казначейства, ФНС России и другие новости по госфинансам
- Московский патриархат https://yangx.top/mospatriarhia новости Московского патриархата и всех его синоидальных отдела (без учёта митрополий и епархий)
- Open Data Digest https://yangx.top/opendatadigest : международные новости про открытые данные
- Open Government Digeest https://yangx.top/opengovdigest : международные новости про открытость государства
- Data is Good https://yangx.top/dataisgood : международные источники про данные и алгоритмы
- Крупнейшие компании https://yangx.top/topcorpnews : новости топ 20 российских компаний по рейтингу РБК 500 (Газпром, Лукойл, Ростех и др)

Кроме того многие публичные каналы создают пользователи.
Например, Фил Кулин (канал Эшер II, https://yangx.top/usher2, https://usher2.club) создал такие каналы:
- Лента новостей с regulation.gov.ru https://yangx.top/ru_regulation : поток новостей по законопроектам для публичной реакции
- Новости Минцифры и Роскомнадзора https://yangx.top/ru_comnews : новости этих двух ведомств соответственно

Не все возможности реализованы, как я писал - вначале бот готовился для себя и лишь позже открыт для всех желающих.

Из того что запланировано:
- веб-интерфейс с документацией и каталогом общедоступных каналов (для тех кто решит их публичить)
- API и утилита командной строки для управления подписками
- монитор доступности сайтов с новостями (не заблокировали ли бота)
- упрощение горизонтального масштабирования

Вы также можете создать свои каналы с помощью этого бота. Он реагирует на команду /help, а мне можно задавать вопросы и пожелания в https://yangx.top/begtinchat.

#newsdigest #digest #feedbot

www.csr.ru

Центр стратегических разработок (ЦСР)

Центр стратегических разработок - один из старейших экспертно-аналитических центров

912 viewsIvan Begtin, edited 06:39

Ivan Begtin

Коммерческие проекты по работе с данными на которые стоит обратить внимание. Даже если не для того чтобы купить, но для того чтобы понимать как и куда движется рынок. В основном он движется в интегрируемость и в облака.

Моделирование данных
- LookML https://looker.com/platform/data-modeling
- Matillion https://www.matillion.com/etl-for-redshift/

Извлечение, загрузка и преобразование данных
- Alooma https://www.alooma.com/
- Qubole https://www.qubole.com

Записные книжки (Data notebooks)
- Nurtch https://www.nurtch.com/
- Datadog Notebooks https://www.datadoghq.com/blog/data-driven-notebooks/ (часть их большего продукта)

Аналитика
- Looker https://looker.com
- Periscope Data https://www.periscopedata.com/
- Mode https://modeanalytics.com

Интеграция (оркестрация)
- Fivetran https://fivetran.com/

#data #tools

Looker

Data Modeling Made Easy with SQL and LookML

A reusable data modeling language that harnesses the power of SQL so you don't have to write the same code ever again. Define metrics once and move on.

924 viewsIvan Begtin, edited 10:20

Ivan Begtin

Forwarded from Ах, этот Минфин (Olya Parkhimovich)

Кто заплатит за содержание стадионов и других объектов, построенных к Чемпионату мира по футболу?

СМИ очень много писали о расходах из бюджета на подготовку и строительство стадионов, но после проведения чемпионата расходы не заканчиваются. Все созданные объекты, а это 12 построенных и реконструированных стадионов, а также 95 построенных, реконструированных и подготовленных тренировочных площадок в 25 субъектах, кто-то должен содержать и поддерживать. Для этого стадионы передаются в собственность регионам, а тренировочные площадки - спортивным организациям и клубам.

Подробная информация о том, какие были созданы объекты (включая информацию об адресе объекта, вместимости, текущем и планируемом собственнике, планируемом использовании в дальнейшем) содержится в "Концепции наследия чемпионата мира по футболу FIFA 2018 года", опубликованной на сайте Правительства РФ.

Помимо указанной информации в файле есть данные о ресурсном обеспечении реализации Концепции, а именно - перечислены мероприятия и источники их финансирования, например:

- эксплуатация и содержание стадионов, переданных из собственности РФ в собственность субъектов РФ, в 2019 году на 100% будут оплачены из федерального бюджета, а в 2020-2023 годах на 95% - из федерального и на 5% - из бюджета субъекта;

- адаптация стадионов в 2019 г. на 95% будет оплачена из федерального бюджета; - помимо этого запланированы мероприятия по замене натуральных газонов на искусственное покрытие, оснащение системой подогрева и дооборудование тренировочных площадок, финансирование обучения футболу детей с 6 лет и др., которые также на 95% будут оплачены из федерального бюджета. Полная таблица с перечислением всех мероприятий и источников финансирования опубликована в Приложении 3 к Концепции. Прогнозная оценка расходов на реализацию Концепции с 2018 по 2023 год составляет 16,02 млрд руб., из них: - 11,51 млрд руб. из федерального бюджета - 813 млн руб. из бюджетов субъектов РФ - 6,5 млн руб. из бюджетов муниципальных образований - 3,69 млрд руб. из внебюджетных источников.

http://static.government.ru/media/files/OWImhFu670JwOs4OQf0BynQOuhwrJSW8.pdf

23 viewsIvan Begtin, 19:06

Ivan Begtin

Среди мировых порталов по открытым данным прибавилось, и относительно давно, GARDIAN [1], проект по консолидации открытых исследований и наборов данных [2] в области агрокультуры.

Более 93 тысяч публикаций и более 2100 наборов данных, все в открытом доступе и в самых разных форматах от HDF до Microsoft Access (MDB).

Проект создан CGIAR (Consultative Group for International Agricultural Research) [3], партнёрством в области агрокультуры и является частью их платформы для работы с большими данными [4]

У них же, кстати, немало работ ведется по онтологиям в агрокультуре таким как Crop Ontology [5] и Planteome [6]

Ссылки:
[1] http://gardian.bigdata.cgiar.org
[2] http://gardian.bigdata.cgiar.org/search.php#!/*/all/and/%7B%7D
[3] http://cgiar.org
[4] https://bigdata.cgiar.org/
[5] http://www.cropontology.org/
[6] http://planteome.org/

#opendata #opengov

CGIAR

CGIAR: Science for humanity's greatest challenges

Towards a world free of poverty, hunger and environmental degradation, CGIAR is the worlds largest global agricultural innovation network.

801 viewsIvan Begtin, 09:05

Ivan Begtin

Тем временем французы собираются запустить transport.data.gouv.fr [1], единую систему работы с транспортными данными. Проект долгосрочный, а со 2 октября откроют портал.

Основные его особенности:
- открытые данные всего собранного
- тесная работа с ре-публикаторами данных. 8 участников подтвердили и 6 участвуют в диалогею
- разработчики сервисов возвращают в data.gouv.fr очищенные и исправленные данные
- предоставление сервисам конечным пользователям через разработчиков приложений
- партнёрство со всеми регионами Франции, на предоставление данных

Подробнее в презентации [2]

Ссылки:
[1] https://transport.data.gouv.fr
[2] https://transport.data.gouv.fr/documents/TransportDataGouv-2846b8fb4cd5f07ed134a4c112e0c9e8.pdf?vsn=d

#opendata #france

1.3K viewsIvan Begtin, 10:27

Ivan Begtin

TransportDataGouv-2846b8fb4cd5f07ed134a4c112e0c9e8.pdf

1.8 MB

2.7K viewsIvan Begtin, 10:27

Ivan Begtin

Минфин, зачем-то, очень хочет не просто систематизировать данные, но и получить контроль над данными всех и вся воспользовавшись замешательством Минцифры и Минэка с созданием Национальной системы управления данными.

Прокомментировал вчера Ведомостям эту ситуацию https://www.vedomosti.ru/technology/articles/2018/08/07/777504-minfinu-bolshim-bratom

#data

www.vedomosti.ru

Минфину не дают стать Большим братом

Власти Москвы и операторы раскритиковали законопроект, дающий ему контроль над единой информационной системой

1.1K viewsIvan Begtin, 16:40

Ivan Begtin

За половину 2018 года в России было принято 250 законов, в Новой Зеландии 2 закона

В пропорции к числу жителей это:
- 1,7 закона на миллион человек в России
- 0,4 закона на миллион человек в Новой Зеландии

Разница в 4 раза. Если сравнить масштаб всего того что в России называют НПА, то разница будет в 10-20 раз

Интересно, есть ли в мире рейтинг стран по legaslation burden ?

5.7K viewsIvan Begtin, 18:34

Ivan Begtin

К вопросу о продуктах на открытых данных.
Правительство провинции Нарино в Колумбии выпускает журнал инфографики "Le tengo el data" основанный на открытых данных страны.

Уже вышло 4 выпуска которые можно скачать в PDF по ссылке https://gana.nariño.gov.co/colaboracion/letengoeldato

#dataviz #opendata

gana.nariño.gov.co

LeTengoElDato

Gobierno Abierto

784 viewsIvan Begtin, 07:22

Ivan Begtin

Инфографика из изданий 0 и 4

688 viewsIvan Begtin, 07:23

Ivan Begtin

701 viewsIvan Begtin, 07:23

Ivan Begtin

Это ещё один довод к вопросу о том почему нужна архивация онлайн проектов.

684 viewsIvan Begtin, 07:46

Ivan Begtin

Forwarded from Roskomsvoboda

Правообладатели вынуждают энтузиастов ретро-игр закрывать свои проекты

➡️ https://roskomsvoboda.org/40878

После иска компании Nintendo против ряда «пиратских» сайтов, популярный портал с 18-летней историей EmuParadise заявил, что больше не будет предлагать классические игры для скачивания.

Ранее Nintendo наехала на интернет-ресурсы LoveROMS.com и LoveRETRO.co

Роскомсвобода

Правообладатели вынуждают энтузиастов ретро-игр закрывать свои проекты

После иска компании Nintendo против ряда «пиратских» сайтов, популярный портал с 18-летней историей EmuParadise заявил, что больше не будет предлагать классические игры для скачивания. «Ретро-игры - это и времяпрепровождение, и страсть к бесчисле

18 viewsIvan Begtin, 07:46

Ivan Begtin

Не говорите, пожалуйста, что данные это новая нефть! Ну серьёзно.

А то договоритесь до того что Яндекс, Mail.ru, Ростелеком и Мегафон и прочих признают ресурсодобывающими компаниями и им по "списку Белоусова" https://yangx.top/russica2/8917 тоже подсчитают EBITDA и попросят поделиться с государством "избыточными доходами".

Всё таки их жалко. Немного.

НЕЗЫГАРЬ

869 viewsIvan Begtin, 12:53

Ivan Begtin

Один из самых простых внешне и сложных внутри общественно полезных проектов которыми я занимался - это "Простой русский язык" http://plainrussian.ru

Это сервис который проверяет текст на предмет его простоты и измеряет эту простоту в годах обучения и возрасте аудитории.

Визуально сервис простой для безобразия, просто форма в которой можно ввести ссылку или, во вкладке рядом, текст и получить измерение сложности по нескольким формулам. Самое сложное в том что в России не было формул измерения этой самой понятности текста. Они есть для английского, испанского, португальского, немецкого и ещё многих языков, но в России не проводились научные исследования, а мне очень хотелось измерять эту понятность и желательно простым образом.

Поэтому много лет назад я потратил несколько месяцев на то чтобы такие формулы адаптировать под русский язык. В статье на Хабре "Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов" [1] в 2014 году я рассказывал как это делалось. Не имея возможности проверить эти формулы на разных аудиториях, я, по сути, на базе обучающей выборки из текстов внеклассного чтения методом грубого перебора коэффициентов подобрал такие их показатели при которых среднее отклонение расчётного и предобученного значений было минимальным.

Тогда же и появился сервис plainrussian.ru и тогда же было доступно его API [2]. И тогда же я выложил исходный код формул [3], каждый желающий может реализовать это в своём приложении.

А моей изначальной идеей, как ни странно, было автоматически измерить сложность несколько сотен тысяч текстов с государственных сайтов и других источников. Потом, когда оказалось что формулы потребовали не 1-2 дней как я планировал, а нескольких месяцев, то я и не завершил создание базы сложности текстов.

Это один из тех проектов которые, на мой взгляд, могут быть исключительно некоммерческими. Многое можно ещё сделать к нему в довесок. Например, в телеграме @PlainRussianBot написан поверх этого API. Это наш внутренний бот в Инфокультуре для проверки текстов, но его можно использовать и извне. Он понимает команды /help, /url, /text и если ему переслать файл doc то он извлечет из него текст и измерит его сложность.

Ссылки:
[1] https://habr.com/company/infoculture/blog/238875/
[2] https://github.com/ivbeg/readability.io/wiki/API
[3] https://github.com/infoculture/plainrussian

#plainlanguage #plainrussian

Хабр

Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов

Так сложилось что в последние годы мне лично приходится всё больше и больше сталкиваться с различными государственными текстами, особенно законами и финансовыми...

1.0K viewsIvan Begtin, edited 17:57

About

Blog

Apps

Platform