ФНС опубликовали свежие данные, а дата журналисты моментально проверили их на корректность и аномалии [1]
Во первых ФНС спасибо что работают по модели data-first. На рынке достаточно компаний и достаточно журналистов которые умеют работать с данными и сами создадут сервисы, а ФНС делают всё правильно.
Во вторых я считаю что публикация данных с ошибками и возможностью их исправления важнее чем отказ от публикации.
Особенно приятно что многие журналисты сразу создают интерактивные публикации [2]. Мы в Госзатратах [3] (проект по мониторингу госрасходов и госконтрактов) думаем не организовать ли небольшой конкурс для тех кто на основе данных ФНС и на основе данных по госконтрактам сделает интересную визуализацию, например, на данных по госконтрактам в связке с данными о среднесписочном числе сотрудников.
Пока конкурс мы не объявили, но точно будем проводить хакатон осенью, а пока если у Вас будут интересные визуализации по связке этих данных, пишите на [email protected]
Ссылки:
[1] https://vc.ru/43074-fns-v-rossii-nashlis-dve-kompanii-so-shtatom-bolee-600-tysyach-chelovek
[2] https://www.rbc.ru/economics/02/08/2018/5b62c4659a79473c2cd07ae1?from=center_3
[3] http://clearspending.ru
#opendata #opengov
Во первых ФНС спасибо что работают по модели data-first. На рынке достаточно компаний и достаточно журналистов которые умеют работать с данными и сами создадут сервисы, а ФНС делают всё правильно.
Во вторых я считаю что публикация данных с ошибками и возможностью их исправления важнее чем отказ от публикации.
Особенно приятно что многие журналисты сразу создают интерактивные публикации [2]. Мы в Госзатратах [3] (проект по мониторингу госрасходов и госконтрактов) думаем не организовать ли небольшой конкурс для тех кто на основе данных ФНС и на основе данных по госконтрактам сделает интересную визуализацию, например, на данных по госконтрактам в связке с данными о среднесписочном числе сотрудников.
Пока конкурс мы не объявили, но точно будем проводить хакатон осенью, а пока если у Вас будут интересные визуализации по связке этих данных, пишите на [email protected]
Ссылки:
[1] https://vc.ru/43074-fns-v-rossii-nashlis-dve-kompanii-so-shtatom-bolee-600-tysyach-chelovek
[2] https://www.rbc.ru/economics/02/08/2018/5b62c4659a79473c2cd07ae1?from=center_3
[3] http://clearspending.ru
#opendata #opengov
vc.ru
ФНС: в России нашлись две компании со штатом более 600 тысяч человек
Ещё почти 400 тысяч организаций работают без сотрудников.
Microsoft (команда Bing) опубликовали данные по распознанным образам 124 миллионов зданий в США [1] специально для сообщества OpenStreetMap и для загрузки в OpenStreetMap под свободной лицензией ODbL [2]
Все данные и код они же выложили на Github [3], а вся работа - это результат работы алгоритма RefineNet [4] где, конечно же, не обошлось и без глубокого обучения и CNTK (Microsoft Cognitive Toolkit) [5]
Во первых очень круто что крупнейшие дата-корпорации всё таки делятся данными с открытыми проектами, я бы сказал что российским есть с кого брать пример, но в России только Яндекс 5 лет назад помогал Wikidata [6], а сейчас, похоже, что и им не помогает.
Ссылки:
[1] https://blogs.bing.com/maps/2018-06/microsoft-releases-125-million-building-footprints-in-the-us-as-open-data/
[2] https://opendatacommons.org/licenses/odbl/
[3] https://github.com/Microsoft/USBuildingFootprints
[4] https://arxiv.org/abs/1611.06612
[5] https://github.com/Microsoft/CNTK
[6] https://www.wikimedia.de/wiki/Pressemitteilungen/PM_06_13_Wikidata_Yandex
#opendata #microsoft #bing
Все данные и код они же выложили на Github [3], а вся работа - это результат работы алгоритма RefineNet [4] где, конечно же, не обошлось и без глубокого обучения и CNTK (Microsoft Cognitive Toolkit) [5]
Во первых очень круто что крупнейшие дата-корпорации всё таки делятся данными с открытыми проектами, я бы сказал что российским есть с кого брать пример, но в России только Яндекс 5 лет назад помогал Wikidata [6], а сейчас, похоже, что и им не помогает.
Ссылки:
[1] https://blogs.bing.com/maps/2018-06/microsoft-releases-125-million-building-footprints-in-the-us-as-open-data/
[2] https://opendatacommons.org/licenses/odbl/
[3] https://github.com/Microsoft/USBuildingFootprints
[4] https://arxiv.org/abs/1611.06612
[5] https://github.com/Microsoft/CNTK
[6] https://www.wikimedia.de/wiki/Pressemitteilungen/PM_06_13_Wikidata_Yandex
#opendata #microsoft #bing
Bing
Microsoft Releases 130 million Building Footprints in the USA as Open Data
Bing has made very significant investments in the area of deep learning, computer vision and artificial intelligence to support a number of different search scenarios. The Bing Maps team has been applying these techniques as well with the goal to increase…
Inter-American development bank (Межамериканский банк развития) [1] выпустил брошюру "Открытые данные в Латинской Америке и на Карибах" ("Los datos abiertos en América Latina y el Caribe") [2]
Много сравнений и примеров того что происходит в Латинской Америке и на Карибах, примеры проектов, сравнение позиций в индексах открытости и многое другое.
Брошюра только на испанском, но сложной испанской лексики там нет, читается довольно легко.
Ссылки:
[1] https://www.iadb.org
[2] https://publications.iadb.org/handle/11319/8983
#opendata #opengov
Много сравнений и примеров того что происходит в Латинской Америке и на Карибах, примеры проектов, сравнение позиций в индексах открытости и многое другое.
Брошюра только на испанском, но сложной испанской лексики там нет, читается довольно легко.
Ссылки:
[1] https://www.iadb.org
[2] https://publications.iadb.org/handle/11319/8983
#opendata #opengov
Inter-American Development Bank
We work to improve lives in Latin America and the Caribbean. Through financial and technical support for countries working to reduce poverty and inequality, we help improve health and education, and advance infrastructure.
Московский комсомолец с большим запозданием пишет о результатах аудиторской проверки "Карты Российской науки" [1], я писал об этом 29 июня [2] сразу после публикации сведений о результатах аудиторской проверки [3].
Самое странное что кто-то ещё и поднял страничку сайта mapofscience.ru [4] где ничего кроме главной страницы нет, а самое характерное - полное молчание со стороны руководства ГПНПБ и Прайсвотерхаус Куперс.
А вся эта история - она про чувство меры. В России есть много ИТ систем которые существуют только на бумаге и не только из-за коррупции, а ещё из-за смены законодательства или, реже, реальных проблем с внедрением. Но негласное правило в том что если стоимость системы превосходит некую планку - она должна существовать и быть в открытом доступе.
Попытаться делать систему с огромными расходами, в изначально конфликтной среде, изначально с сильным медийным вниманием и изначально со спорной архитектурой и идеей и думать что это сойдёт с рук - это в высшей степени авантюризм, в России заканчивающийся, как правило, уголовными делами.
Ссылки:
[1] https://www.mk.ru/politics/2018/08/02/na-skandalnuyu-kartu-rossiyskoy-nauki-potratili-450-millionov-rubley.html
[2] https://yangx.top/begtin/994
[3] http://audit.gov.ru/press_center/news/33645
[4] http://mapofscience.ru/
#opendata #opengov
Самое странное что кто-то ещё и поднял страничку сайта mapofscience.ru [4] где ничего кроме главной страницы нет, а самое характерное - полное молчание со стороны руководства ГПНПБ и Прайсвотерхаус Куперс.
А вся эта история - она про чувство меры. В России есть много ИТ систем которые существуют только на бумаге и не только из-за коррупции, а ещё из-за смены законодательства или, реже, реальных проблем с внедрением. Но негласное правило в том что если стоимость системы превосходит некую планку - она должна существовать и быть в открытом доступе.
Попытаться делать систему с огромными расходами, в изначально конфликтной среде, изначально с сильным медийным вниманием и изначально со спорной архитектурой и идеей и думать что это сойдёт с рук - это в высшей степени авантюризм, в России заканчивающийся, как правило, уголовными делами.
Ссылки:
[1] https://www.mk.ru/politics/2018/08/02/na-skandalnuyu-kartu-rossiyskoy-nauki-potratili-450-millionov-rubley.html
[2] https://yangx.top/begtin/994
[3] http://audit.gov.ru/press_center/news/33645
[4] http://mapofscience.ru/
#opendata #opengov
www.mk.ru
На скандальную "Карту российской науки" потратили 450 миллионов рублей
Государственный проект «Карта российской науки» обошелся госбюджету в 450 млн рублей. Они были потрачены на создание информационной системы со сведениями обо всех ученых, исследованиях и разработках, которые ведутся в нашей стране. Работа над проектом шла…
В качестве напоминания. В свободное от общественных и коммерческих проектов время я немного сам программирую. В основном то что мне же самому нужно и что может пригодится другим.
Пример такого - это @FeedRetranslatorBot в телеграме которые перенаправляет новости из RSS каналов на сайте и просто страниц где есть новости в телеграм каналы. Бот был сделан для того чтобы заменить разного рода новостные читалки, а для удобства вместо категорий новостей чтобы можно было создать себе новостные каналы и в них транслировать то что интеерсно.
Особенность именно @FeedRetranslatorBot в алгоритмах внутри которые извлекают новости из сайтов у которых нет экспорта в RSS. Примеры:
- сайт ЦСР http://csr.ru/
- раздел пресс-релизов Лукойла http://www.lukoil.ru/PressCenter/Pressreleases
- отдел по церковной благотворительности РПЦ http://www.diaconia.ru/news/diaconia
и многие другие
Для того чтобы извлекать оттуда новости бот использует библиотеку newsworker https://github.com/ivbeg/newsworker которая как раз и извлекает из HTML заголовки, даты, ссылки и текст новости. Это даёт возможность охватить ещё и те источники новостей которые можно упустить при медиамониторинге.
Новости собираются в режиме от 15 до 30 минут, если не возникает проблем с первоисточником, например если он не банит внешних ботов как это иногда бывает с сайтом Роскомнадзора, например.
Бот работает на принципе forever free, создан не для монетизации, а для личного удобства (как я уже говорил он мне нужен для замены RSS читалок). Большая часть его кода открыта или будет открыта на github'е.
На основе бота уже создано множество каналов:
- Правительственный дайджест https://yangx.top/govdigest : новости администрации Президента, Правительства, ключевых министерств и мозговых центров
- Контрактная система https://yangx.top/gzcontracts : новости электронных торговых площадок, сайта госзакупок и других источников регулирования российской контрактной системы (государственной)
- Госфинансы https://yangx.top/govfin : новости Минфина, Казначейства, ФНС России и другие новости по госфинансам
- Московский патриархат https://yangx.top/mospatriarhia новости Московского патриархата и всех его синоидальных отдела (без учёта митрополий и епархий)
- Open Data Digest https://yangx.top/opendatadigest : международные новости про открытые данные
- Open Government Digeest https://yangx.top/opengovdigest : международные новости про открытость государства
- Data is Good https://yangx.top/dataisgood : международные источники про данные и алгоритмы
- Крупнейшие компании https://yangx.top/topcorpnews : новости топ 20 российских компаний по рейтингу РБК 500 (Газпром, Лукойл, Ростех и др)
Кроме того многие публичные каналы создают пользователи.
Например, Фил Кулин (канал Эшер II, https://yangx.top/usher2, https://usher2.club) создал такие каналы:
- Лента новостей с regulation.gov.ru https://yangx.top/ru_regulation : поток новостей по законопроектам для публичной реакции
- Новости Минцифры и Роскомнадзора https://yangx.top/ru_comnews : новости этих двух ведомств соответственно
Не все возможности реализованы, как я писал - вначале бот готовился для себя и лишь позже открыт для всех желающих.
Из того что запланировано:
- веб-интерфейс с документацией и каталогом общедоступных каналов (для тех кто решит их публичить)
- API и утилита командной строки для управления подписками
- монитор доступности сайтов с новостями (не заблокировали ли бота)
- упрощение горизонтального масштабирования
Вы также можете создать свои каналы с помощью этого бота. Он реагирует на команду /help, а мне можно задавать вопросы и пожелания в https://yangx.top/begtinchat.
#newsdigest #digest #feedbot
Пример такого - это @FeedRetranslatorBot в телеграме которые перенаправляет новости из RSS каналов на сайте и просто страниц где есть новости в телеграм каналы. Бот был сделан для того чтобы заменить разного рода новостные читалки, а для удобства вместо категорий новостей чтобы можно было создать себе новостные каналы и в них транслировать то что интеерсно.
Особенность именно @FeedRetranslatorBot в алгоритмах внутри которые извлекают новости из сайтов у которых нет экспорта в RSS. Примеры:
- сайт ЦСР http://csr.ru/
- раздел пресс-релизов Лукойла http://www.lukoil.ru/PressCenter/Pressreleases
- отдел по церковной благотворительности РПЦ http://www.diaconia.ru/news/diaconia
и многие другие
Для того чтобы извлекать оттуда новости бот использует библиотеку newsworker https://github.com/ivbeg/newsworker которая как раз и извлекает из HTML заголовки, даты, ссылки и текст новости. Это даёт возможность охватить ещё и те источники новостей которые можно упустить при медиамониторинге.
Новости собираются в режиме от 15 до 30 минут, если не возникает проблем с первоисточником, например если он не банит внешних ботов как это иногда бывает с сайтом Роскомнадзора, например.
Бот работает на принципе forever free, создан не для монетизации, а для личного удобства (как я уже говорил он мне нужен для замены RSS читалок). Большая часть его кода открыта или будет открыта на github'е.
На основе бота уже создано множество каналов:
- Правительственный дайджест https://yangx.top/govdigest : новости администрации Президента, Правительства, ключевых министерств и мозговых центров
- Контрактная система https://yangx.top/gzcontracts : новости электронных торговых площадок, сайта госзакупок и других источников регулирования российской контрактной системы (государственной)
- Госфинансы https://yangx.top/govfin : новости Минфина, Казначейства, ФНС России и другие новости по госфинансам
- Московский патриархат https://yangx.top/mospatriarhia новости Московского патриархата и всех его синоидальных отдела (без учёта митрополий и епархий)
- Open Data Digest https://yangx.top/opendatadigest : международные новости про открытые данные
- Open Government Digeest https://yangx.top/opengovdigest : международные новости про открытость государства
- Data is Good https://yangx.top/dataisgood : международные источники про данные и алгоритмы
- Крупнейшие компании https://yangx.top/topcorpnews : новости топ 20 российских компаний по рейтингу РБК 500 (Газпром, Лукойл, Ростех и др)
Кроме того многие публичные каналы создают пользователи.
Например, Фил Кулин (канал Эшер II, https://yangx.top/usher2, https://usher2.club) создал такие каналы:
- Лента новостей с regulation.gov.ru https://yangx.top/ru_regulation : поток новостей по законопроектам для публичной реакции
- Новости Минцифры и Роскомнадзора https://yangx.top/ru_comnews : новости этих двух ведомств соответственно
Не все возможности реализованы, как я писал - вначале бот готовился для себя и лишь позже открыт для всех желающих.
Из того что запланировано:
- веб-интерфейс с документацией и каталогом общедоступных каналов (для тех кто решит их публичить)
- API и утилита командной строки для управления подписками
- монитор доступности сайтов с новостями (не заблокировали ли бота)
- упрощение горизонтального масштабирования
Вы также можете создать свои каналы с помощью этого бота. Он реагирует на команду /help, а мне можно задавать вопросы и пожелания в https://yangx.top/begtinchat.
#newsdigest #digest #feedbot
www.csr.ru
Центр стратегических разработок (ЦСР)
Центр стратегических разработок - один из старейших экспертно-аналитических центров
Коммерческие проекты по работе с данными на которые стоит обратить внимание. Даже если не для того чтобы купить, но для того чтобы понимать как и куда движется рынок. В основном он движется в интегрируемость и в облака.
Моделирование данных
- LookML https://looker.com/platform/data-modeling
- Matillion https://www.matillion.com/etl-for-redshift/
Извлечение, загрузка и преобразование данных
- Alooma https://www.alooma.com/
- Qubole https://www.qubole.com
Записные книжки (Data notebooks)
- Nurtch https://www.nurtch.com/
- Datadog Notebooks https://www.datadoghq.com/blog/data-driven-notebooks/ (часть их большего продукта)
Аналитика
- Looker https://looker.com
- Periscope Data https://www.periscopedata.com/
- Mode https://modeanalytics.com
Интеграция (оркестрация)
- Fivetran https://fivetran.com/
#data #tools
Моделирование данных
- LookML https://looker.com/platform/data-modeling
- Matillion https://www.matillion.com/etl-for-redshift/
Извлечение, загрузка и преобразование данных
- Alooma https://www.alooma.com/
- Qubole https://www.qubole.com
Записные книжки (Data notebooks)
- Nurtch https://www.nurtch.com/
- Datadog Notebooks https://www.datadoghq.com/blog/data-driven-notebooks/ (часть их большего продукта)
Аналитика
- Looker https://looker.com
- Periscope Data https://www.periscopedata.com/
- Mode https://modeanalytics.com
Интеграция (оркестрация)
- Fivetran https://fivetran.com/
#data #tools
Looker
Data Modeling Made Easy with SQL and LookML
A reusable data modeling language that harnesses the power of SQL so you don't have to write the same code ever again. Define metrics once and move on.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Кто заплатит за содержание стадионов и других объектов, построенных к Чемпионату мира по футболу?
СМИ очень много писали о расходах из бюджета на подготовку и строительство стадионов, но после проведения чемпионата расходы не заканчиваются. Все созданные объекты, а это 12 построенных и реконструированных стадионов, а также 95 построенных, реконструированных и подготовленных тренировочных площадок в 25 субъектах, кто-то должен содержать и поддерживать. Для этого стадионы передаются в собственность регионам, а тренировочные площадки - спортивным организациям и клубам.
Подробная информация о том, какие были созданы объекты (включая информацию об адресе объекта, вместимости, текущем и планируемом собственнике, планируемом использовании в дальнейшем) содержится в "Концепции наследия чемпионата мира по футболу FIFA 2018 года", опубликованной на сайте Правительства РФ.
Помимо указанной информации в файле есть данные о ресурсном обеспечении реализации Концепции, а именно - перечислены мероприятия и источники их финансирования, например:
- эксплуатация и содержание стадионов, переданных из собственности РФ в собственность субъектов РФ, в 2019 году на 100% будут оплачены из федерального бюджета, а в 2020-2023 годах на 95% - из федерального и на 5% - из бюджета субъекта;
- адаптация стадионов в 2019 г. на 95% будет оплачена из федерального бюджета; - помимо этого запланированы мероприятия по замене натуральных газонов на искусственное покрытие, оснащение системой подогрева и дооборудование тренировочных площадок, финансирование обучения футболу детей с 6 лет и др., которые также на 95% будут оплачены из федерального бюджета. Полная таблица с перечислением всех мероприятий и источников финансирования опубликована в Приложении 3 к Концепции. Прогнозная оценка расходов на реализацию Концепции с 2018 по 2023 год составляет 16,02 млрд руб., из них: - 11,51 млрд руб. из федерального бюджета - 813 млн руб. из бюджетов субъектов РФ - 6,5 млн руб. из бюджетов муниципальных образований - 3,69 млрд руб. из внебюджетных источников.
http://static.government.ru/media/files/OWImhFu670JwOs4OQf0BynQOuhwrJSW8.pdf
СМИ очень много писали о расходах из бюджета на подготовку и строительство стадионов, но после проведения чемпионата расходы не заканчиваются. Все созданные объекты, а это 12 построенных и реконструированных стадионов, а также 95 построенных, реконструированных и подготовленных тренировочных площадок в 25 субъектах, кто-то должен содержать и поддерживать. Для этого стадионы передаются в собственность регионам, а тренировочные площадки - спортивным организациям и клубам.
Подробная информация о том, какие были созданы объекты (включая информацию об адресе объекта, вместимости, текущем и планируемом собственнике, планируемом использовании в дальнейшем) содержится в "Концепции наследия чемпионата мира по футболу FIFA 2018 года", опубликованной на сайте Правительства РФ.
Помимо указанной информации в файле есть данные о ресурсном обеспечении реализации Концепции, а именно - перечислены мероприятия и источники их финансирования, например:
- эксплуатация и содержание стадионов, переданных из собственности РФ в собственность субъектов РФ, в 2019 году на 100% будут оплачены из федерального бюджета, а в 2020-2023 годах на 95% - из федерального и на 5% - из бюджета субъекта;
- адаптация стадионов в 2019 г. на 95% будет оплачена из федерального бюджета; - помимо этого запланированы мероприятия по замене натуральных газонов на искусственное покрытие, оснащение системой подогрева и дооборудование тренировочных площадок, финансирование обучения футболу детей с 6 лет и др., которые также на 95% будут оплачены из федерального бюджета. Полная таблица с перечислением всех мероприятий и источников финансирования опубликована в Приложении 3 к Концепции. Прогнозная оценка расходов на реализацию Концепции с 2018 по 2023 год составляет 16,02 млрд руб., из них: - 11,51 млрд руб. из федерального бюджета - 813 млн руб. из бюджетов субъектов РФ - 6,5 млн руб. из бюджетов муниципальных образований - 3,69 млрд руб. из внебюджетных источников.
http://static.government.ru/media/files/OWImhFu670JwOs4OQf0BynQOuhwrJSW8.pdf
Среди мировых порталов по открытым данным прибавилось, и относительно давно, GARDIAN [1], проект по консолидации открытых исследований и наборов данных [2] в области агрокультуры.
Более 93 тысяч публикаций и более 2100 наборов данных, все в открытом доступе и в самых разных форматах от HDF до Microsoft Access (MDB).
Проект создан CGIAR (Consultative Group for International Agricultural Research) [3], партнёрством в области агрокультуры и является частью их платформы для работы с большими данными [4]
У них же, кстати, немало работ ведется по онтологиям в агрокультуре таким как Crop Ontology [5] и Planteome [6]
Ссылки:
[1] http://gardian.bigdata.cgiar.org
[2] http://gardian.bigdata.cgiar.org/search.php#!/*/all/and/%7B%7D
[3] http://cgiar.org
[4] https://bigdata.cgiar.org/
[5] http://www.cropontology.org/
[6] http://planteome.org/
#opendata #opengov
Более 93 тысяч публикаций и более 2100 наборов данных, все в открытом доступе и в самых разных форматах от HDF до Microsoft Access (MDB).
Проект создан CGIAR (Consultative Group for International Agricultural Research) [3], партнёрством в области агрокультуры и является частью их платформы для работы с большими данными [4]
У них же, кстати, немало работ ведется по онтологиям в агрокультуре таким как Crop Ontology [5] и Planteome [6]
Ссылки:
[1] http://gardian.bigdata.cgiar.org
[2] http://gardian.bigdata.cgiar.org/search.php#!/*/all/and/%7B%7D
[3] http://cgiar.org
[4] https://bigdata.cgiar.org/
[5] http://www.cropontology.org/
[6] http://planteome.org/
#opendata #opengov
CGIAR
CGIAR: Science for humanity's greatest challenges
Towards a world free of poverty, hunger and environmental degradation, CGIAR is the worlds largest global agricultural innovation network.
Тем временем французы собираются запустить transport.data.gouv.fr [1], единую систему работы с транспортными данными. Проект долгосрочный, а со 2 октября откроют портал.
Основные его особенности:
- открытые данные всего собранного
- тесная работа с ре-публикаторами данных. 8 участников подтвердили и 6 участвуют в диалогею
- разработчики сервисов возвращают в data.gouv.fr очищенные и исправленные данные
- предоставление сервисам конечным пользователям через разработчиков приложений
- партнёрство со всеми регионами Франции, на предоставление данных
Подробнее в презентации [2]
Ссылки:
[1] https://transport.data.gouv.fr
[2] https://transport.data.gouv.fr/documents/TransportDataGouv-2846b8fb4cd5f07ed134a4c112e0c9e8.pdf?vsn=d
#opendata #france
Основные его особенности:
- открытые данные всего собранного
- тесная работа с ре-публикаторами данных. 8 участников подтвердили и 6 участвуют в диалогею
- разработчики сервисов возвращают в data.gouv.fr очищенные и исправленные данные
- предоставление сервисам конечным пользователям через разработчиков приложений
- партнёрство со всеми регионами Франции, на предоставление данных
Подробнее в презентации [2]
Ссылки:
[1] https://transport.data.gouv.fr
[2] https://transport.data.gouv.fr/documents/TransportDataGouv-2846b8fb4cd5f07ed134a4c112e0c9e8.pdf?vsn=d
#opendata #france
Минфин, зачем-то, очень хочет не просто систематизировать данные, но и получить контроль над данными всех и вся воспользовавшись замешательством Минцифры и Минэка с созданием Национальной системы управления данными.
Прокомментировал вчера Ведомостям эту ситуацию https://www.vedomosti.ru/technology/articles/2018/08/07/777504-minfinu-bolshim-bratom
#data
Прокомментировал вчера Ведомостям эту ситуацию https://www.vedomosti.ru/technology/articles/2018/08/07/777504-minfinu-bolshim-bratom
#data
www.vedomosti.ru
Минфину не дают стать Большим братом
Власти Москвы и операторы раскритиковали законопроект, дающий ему контроль над единой информационной системой
За половину 2018 года в России было принято 250 законов, в Новой Зеландии 2 закона
В пропорции к числу жителей это:
- 1,7 закона на миллион человек в России
- 0,4 закона на миллион человек в Новой Зеландии
Разница в 4 раза. Если сравнить масштаб всего того что в России называют НПА, то разница будет в 10-20 раз
Интересно, есть ли в мире рейтинг стран по legaslation burden ?
В пропорции к числу жителей это:
- 1,7 закона на миллион человек в России
- 0,4 закона на миллион человек в Новой Зеландии
Разница в 4 раза. Если сравнить масштаб всего того что в России называют НПА, то разница будет в 10-20 раз
Интересно, есть ли в мире рейтинг стран по legaslation burden ?
К вопросу о продуктах на открытых данных.
Правительство провинции Нарино в Колумбии выпускает журнал инфографики "Le tengo el data" основанный на открытых данных страны.
Уже вышло 4 выпуска которые можно скачать в PDF по ссылке https://gana.nariño.gov.co/colaboracion/letengoeldato
#dataviz #opendata
Правительство провинции Нарино в Колумбии выпускает журнал инфографики "Le tengo el data" основанный на открытых данных страны.
Уже вышло 4 выпуска которые можно скачать в PDF по ссылке https://gana.nariño.gov.co/colaboracion/letengoeldato
#dataviz #opendata
gana.nariño.gov.co
LeTengoElDato
Gobierno Abierto
Это ещё один довод к вопросу о том почему нужна архивация онлайн проектов.
Forwarded from Roskomsvoboda
Правообладатели вынуждают энтузиастов ретро-игр закрывать свои проекты
➡️ https://roskomsvoboda.org/40878
После иска компании Nintendo против ряда «пиратских» сайтов, популярный портал с 18-летней историей EmuParadise заявил, что больше не будет предлагать классические игры для скачивания.
Ранее Nintendo наехала на интернет-ресурсы LoveROMS.com и LoveRETRO.co
➡️ https://roskomsvoboda.org/40878
После иска компании Nintendo против ряда «пиратских» сайтов, популярный портал с 18-летней историей EmuParadise заявил, что больше не будет предлагать классические игры для скачивания.
Ранее Nintendo наехала на интернет-ресурсы LoveROMS.com и LoveRETRO.co
Роскомсвобода
Правообладатели вынуждают энтузиастов ретро-игр закрывать свои проекты
После иска компании Nintendo против ряда «пиратских» сайтов, популярный портал с 18-летней историей EmuParadise заявил, что больше не будет предлагать классические игры для скачивания. «Ретро-игры - это и времяпрепровождение, и страсть к бесчисле
Не говорите, пожалуйста, что данные это новая нефть! Ну серьёзно.
А то договоритесь до того что Яндекс, Mail.ru, Ростелеком и Мегафон и прочих признают ресурсодобывающими компаниями и им по "списку Белоусова" https://yangx.top/russica2/8917 тоже подсчитают EBITDA и попросят поделиться с государством "избыточными доходами".
Всё таки их жалко. Немного.
А то договоритесь до того что Яндекс, Mail.ru, Ростелеком и Мегафон и прочих признают ресурсодобывающими компаниями и им по "списку Белоусова" https://yangx.top/russica2/8917 тоже подсчитают EBITDA и попросят поделиться с государством "избыточными доходами".
Всё таки их жалко. Немного.
Telegram
НЕЗЫГАРЬ
Один из самых простых внешне и сложных внутри общественно полезных проектов которыми я занимался - это "Простой русский язык" http://plainrussian.ru
Это сервис который проверяет текст на предмет его простоты и измеряет эту простоту в годах обучения и возрасте аудитории.
Визуально сервис простой для безобразия, просто форма в которой можно ввести ссылку или, во вкладке рядом, текст и получить измерение сложности по нескольким формулам. Самое сложное в том что в России не было формул измерения этой самой понятности текста. Они есть для английского, испанского, португальского, немецкого и ещё многих языков, но в России не проводились научные исследования, а мне очень хотелось измерять эту понятность и желательно простым образом.
Поэтому много лет назад я потратил несколько месяцев на то чтобы такие формулы адаптировать под русский язык. В статье на Хабре "Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов" [1] в 2014 году я рассказывал как это делалось. Не имея возможности проверить эти формулы на разных аудиториях, я, по сути, на базе обучающей выборки из текстов внеклассного чтения методом грубого перебора коэффициентов подобрал такие их показатели при которых среднее отклонение расчётного и предобученного значений было минимальным.
Тогда же и появился сервис plainrussian.ru и тогда же было доступно его API [2]. И тогда же я выложил исходный код формул [3], каждый желающий может реализовать это в своём приложении.
А моей изначальной идеей, как ни странно, было автоматически измерить сложность несколько сотен тысяч текстов с государственных сайтов и других источников. Потом, когда оказалось что формулы потребовали не 1-2 дней как я планировал, а нескольких месяцев, то я и не завершил создание базы сложности текстов.
Это один из тех проектов которые, на мой взгляд, могут быть исключительно некоммерческими. Многое можно ещё сделать к нему в довесок. Например, в телеграме @PlainRussianBot написан поверх этого API. Это наш внутренний бот в Инфокультуре для проверки текстов, но его можно использовать и извне. Он понимает команды /help, /url, /text и если ему переслать файл doc то он извлечет из него текст и измерит его сложность.
Ссылки:
[1] https://habr.com/company/infoculture/blog/238875/
[2] https://github.com/ivbeg/readability.io/wiki/API
[3] https://github.com/infoculture/plainrussian
#plainlanguage #plainrussian
Это сервис который проверяет текст на предмет его простоты и измеряет эту простоту в годах обучения и возрасте аудитории.
Визуально сервис простой для безобразия, просто форма в которой можно ввести ссылку или, во вкладке рядом, текст и получить измерение сложности по нескольким формулам. Самое сложное в том что в России не было формул измерения этой самой понятности текста. Они есть для английского, испанского, португальского, немецкого и ещё многих языков, но в России не проводились научные исследования, а мне очень хотелось измерять эту понятность и желательно простым образом.
Поэтому много лет назад я потратил несколько месяцев на то чтобы такие формулы адаптировать под русский язык. В статье на Хабре "Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов" [1] в 2014 году я рассказывал как это делалось. Не имея возможности проверить эти формулы на разных аудиториях, я, по сути, на базе обучающей выборки из текстов внеклассного чтения методом грубого перебора коэффициентов подобрал такие их показатели при которых среднее отклонение расчётного и предобученного значений было минимальным.
Тогда же и появился сервис plainrussian.ru и тогда же было доступно его API [2]. И тогда же я выложил исходный код формул [3], каждый желающий может реализовать это в своём приложении.
А моей изначальной идеей, как ни странно, было автоматически измерить сложность несколько сотен тысяч текстов с государственных сайтов и других источников. Потом, когда оказалось что формулы потребовали не 1-2 дней как я планировал, а нескольких месяцев, то я и не завершил создание базы сложности текстов.
Это один из тех проектов которые, на мой взгляд, могут быть исключительно некоммерческими. Многое можно ещё сделать к нему в довесок. Например, в телеграме @PlainRussianBot написан поверх этого API. Это наш внутренний бот в Инфокультуре для проверки текстов, но его можно использовать и извне. Он понимает команды /help, /url, /text и если ему переслать файл doc то он извлечет из него текст и измерит его сложность.
Ссылки:
[1] https://habr.com/company/infoculture/blog/238875/
[2] https://github.com/ivbeg/readability.io/wiki/API
[3] https://github.com/infoculture/plainrussian
#plainlanguage #plainrussian
Хабр
Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов
Так сложилось что в последние годы мне лично приходится всё больше и больше сталкиваться с различными государственными текстами, особенно законами и финансовыми...