Ivan Begtin
8.1K subscribers
2.02K photos
3 videos
102 files
4.75K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Коммерческие проекты по работе с данными на которые стоит обратить внимание. Даже если не для того чтобы купить, но для того чтобы понимать как и куда движется рынок. В основном он движется в интегрируемость и в облака.

Моделирование данных
- LookML https://looker.com/platform/data-modeling
- Matillion https://www.matillion.com/etl-for-redshift/

Извлечение, загрузка и преобразование данных
- Alooma https://www.alooma.com/
- Qubole https://www.qubole.com

Записные книжки (Data notebooks)
- Nurtch https://www.nurtch.com/
- Datadog Notebooks https://www.datadoghq.com/blog/data-driven-notebooks/ (часть их большего продукта)

Аналитика
- Looker https://looker.com
- Periscope Data https://www.periscopedata.com/
- Mode https://modeanalytics.com

Интеграция (оркестрация)
- Fivetran https://fivetran.com/

#data #tools
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Кто заплатит за содержание стадионов и других объектов, построенных к Чемпионату мира по футболу?

СМИ очень много писали о расходах из бюджета на подготовку и строительство стадионов, но после проведения чемпионата расходы не заканчиваются. Все созданные объекты, а это 12 построенных и реконструированных стадионов, а также 95 построенных, реконструированных и подготовленных тренировочных площадок в 25 субъектах, кто-то должен содержать и поддерживать. Для этого стадионы передаются в собственность регионам, а тренировочные площадки - спортивным организациям и клубам.

Подробная информация о том, какие были созданы объекты (включая информацию об адресе объекта, вместимости, текущем и планируемом собственнике, планируемом использовании в дальнейшем) содержится в "Концепции наследия чемпионата мира по футболу FIFA 2018 года", опубликованной на сайте Правительства РФ.

Помимо указанной информации в файле есть данные о ресурсном обеспечении реализации Концепции, а именно - перечислены мероприятия и источники их финансирования, например:

- эксплуатация и содержание стадионов, переданных из собственности РФ в собственность субъектов РФ, в 2019 году на 100% будут оплачены из федерального бюджета, а в 2020-2023 годах на 95% - из федерального и на 5% - из бюджета субъекта;

- адаптация стадионов в 2019 г. на 95% будет оплачена из федерального бюджета; - помимо этого запланированы мероприятия по замене натуральных газонов на искусственное покрытие, оснащение системой подогрева и дооборудование тренировочных площадок, финансирование обучения футболу детей с 6 лет и др., которые также на 95% будут оплачены из федерального бюджета. Полная таблица с перечислением всех мероприятий и источников финансирования опубликована в Приложении 3 к Концепции. Прогнозная оценка расходов на реализацию Концепции с 2018 по 2023 год составляет 16,02 млрд руб., из них: - 11,51 млрд руб. из федерального бюджета - 813 млн руб. из бюджетов субъектов РФ - 6,5 млн руб. из бюджетов муниципальных образований - 3,69 млрд руб. из внебюджетных источников.

http://static.government.ru/media/files/OWImhFu670JwOs4OQf0BynQOuhwrJSW8.pdf
Среди мировых порталов по открытым данным прибавилось, и относительно давно, GARDIAN [1], проект по консолидации открытых исследований и наборов данных [2] в области агрокультуры.

Более 93 тысяч публикаций и более 2100 наборов данных, все в открытом доступе и в самых разных форматах от HDF до Microsoft Access (MDB).

Проект создан CGIAR (Consultative Group for International Agricultural Research) [3], партнёрством в области агрокультуры и является частью их платформы для работы с большими данными [4]

У них же, кстати, немало работ ведется по онтологиям в агрокультуре таким как Crop Ontology [5] и Planteome [6]

Ссылки:
[1] http://gardian.bigdata.cgiar.org
[2] http://gardian.bigdata.cgiar.org/search.php#!/*/all/and/%7B%7D
[3] http://cgiar.org
[4] https://bigdata.cgiar.org/
[5] http://www.cropontology.org/
[6] http://planteome.org/

#opendata #opengov
Тем временем французы собираются запустить transport.data.gouv.fr [1], единую систему работы с транспортными данными. Проект долгосрочный, а со 2 октября откроют портал.

Основные его особенности:
- открытые данные всего собранного
- тесная работа с ре-публикаторами данных. 8 участников подтвердили и 6 участвуют в диалогею
- разработчики сервисов возвращают в data.gouv.fr очищенные и исправленные данные
- предоставление сервисам конечным пользователям через разработчиков приложений
- партнёрство со всеми регионами Франции, на предоставление данных

Подробнее в презентации [2]

Ссылки:
[1] https://transport.data.gouv.fr
[2] https://transport.data.gouv.fr/documents/TransportDataGouv-2846b8fb4cd5f07ed134a4c112e0c9e8.pdf?vsn=d

#opendata #france
Минфин, зачем-то, очень хочет не просто систематизировать данные, но и получить контроль над данными всех и вся воспользовавшись замешательством Минцифры и Минэка с созданием Национальной системы управления данными.

Прокомментировал вчера Ведомостям эту ситуацию https://www.vedomosti.ru/technology/articles/2018/08/07/777504-minfinu-bolshim-bratom

#data
За половину 2018 года в России было принято 250 законов, в Новой Зеландии 2 закона

В пропорции к числу жителей это:
- 1,7 закона на миллион человек в России
- 0,4 закона на миллион человек в Новой Зеландии

Разница в 4 раза. Если сравнить масштаб всего того что в России называют НПА, то разница будет в 10-20 раз

Интересно, есть ли в мире рейтинг стран по legaslation burden ?
К вопросу о продуктах на открытых данных.
Правительство провинции Нарино в Колумбии выпускает журнал инфографики "Le tengo el data" основанный на открытых данных страны.

Уже вышло 4 выпуска которые можно скачать в PDF по ссылке https://gana.nariño.gov.co/colaboracion/letengoeldato

#dataviz #opendata
Инфографика из изданий 0 и 4
Это ещё один довод к вопросу о том почему нужна архивация онлайн проектов.
Forwarded from Roskomsvoboda
Правообладатели вынуждают энтузиастов ретро-игр закрывать свои проекты

➡️ https://roskomsvoboda.org/40878

После иска компании Nintendo против ряда «пиратских» сайтов, популярный портал с 18-летней историей EmuParadise заявил, что больше не будет предлагать классические игры для скачивания.

Ранее Nintendo наехала на интернет-ресурсы LoveROMS.com и LoveRETRO.co
Не говорите, пожалуйста, что данные это новая нефть! Ну серьёзно.

А то договоритесь до того что Яндекс, Mail.ru, Ростелеком и Мегафон и прочих признают ресурсодобывающими компаниями и им по "списку Белоусова" https://yangx.top/russica2/8917 тоже подсчитают EBITDA и попросят поделиться с государством "избыточными доходами".

Всё таки их жалко. Немного.
Один из самых простых внешне и сложных внутри общественно полезных проектов которыми я занимался - это "Простой русский язык" http://plainrussian.ru

Это сервис который проверяет текст на предмет его простоты и измеряет эту простоту в годах обучения и возрасте аудитории.

Визуально сервис простой для безобразия, просто форма в которой можно ввести ссылку или, во вкладке рядом, текст и получить измерение сложности по нескольким формулам. Самое сложное в том что в России не было формул измерения этой самой понятности текста. Они есть для английского, испанского, португальского, немецкого и ещё многих языков, но в России не проводились научные исследования, а мне очень хотелось измерять эту понятность и желательно простым образом.

Поэтому много лет назад я потратил несколько месяцев на то чтобы такие формулы адаптировать под русский язык. В статье на Хабре "Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов" [1] в 2014 году я рассказывал как это делалось. Не имея возможности проверить эти формулы на разных аудиториях, я, по сути, на базе обучающей выборки из текстов внеклассного чтения методом грубого перебора коэффициентов подобрал такие их показатели при которых среднее отклонение расчётного и предобученного значений было минимальным.

Тогда же и появился сервис plainrussian.ru и тогда же было доступно его API [2]. И тогда же я выложил исходный код формул [3], каждый желающий может реализовать это в своём приложении.

А моей изначальной идеей, как ни странно, было автоматически измерить сложность несколько сотен тысяч текстов с государственных сайтов и других источников. Потом, когда оказалось что формулы потребовали не 1-2 дней как я планировал, а нескольких месяцев, то я и не завершил создание базы сложности текстов.

Это один из тех проектов которые, на мой взгляд, могут быть исключительно некоммерческими. Многое можно ещё сделать к нему в довесок. Например, в телеграме @PlainRussianBot написан поверх этого API. Это наш внутренний бот в Инфокультуре для проверки текстов, но его можно использовать и извне. Он понимает команды /help, /url, /text и если ему переслать файл doc то он извлечет из него текст и измерит его сложность.

Ссылки:
[1] https://habr.com/company/infoculture/blog/238875/
[2] https://github.com/ivbeg/readability.io/wiki/API
[3] https://github.com/infoculture/plainrussian

#plainlanguage #plainrussian
Вчера, 10 августа, в эфире на ОТР [1] я обозначил некоторые тезисы насчёт принимаемых госпрограмм, в первую очередь по цифровизации государства, а сейчас повторюсь в том о чём много лет говорю в том что происходит в российском окологосударственном ИТ в связке с тем что вообще происходит.

Фрагментированность. Все программы: Электронная Россия, Информационное общество и сейчас Цифровая экономика состоят из огромного числа несвязанных мероприятий, с тяжело прослеживаемой логикой между мероприятиями и показателями, а также между показателями и декларируемыми целями.

Отсутствие общей инфраструктуры. Хуже всего идет с разработкой общих компонентов инфраструктуры, интеграцией системы и тд. Каждое ведомство старается строить свой насколько возможно изолированный от других сегмент. Это не только в России такое происходит. В Великобритании это явление называют "it-mandarin" или "data-mandarin", когда CIO/CDO занимают оборонительную позицию и ориентированы на защиту их бюджетов, а не общее дело.

Импортозамещение вместо открытого кода. Вместо поддержки и использования проектов на открытом коде декларируется импортозамещение в довольно экзотической форме когда всё равно продаются тяжелые корпоративные решения, вместо поддержки разработки собственных.

Импортозамещение вместо защиты приватности. Разговоры российских чиновников и бизнеса о защите данных граждан сводятся не к тому что данные граждан не надо собирать, а к тому что вместо зарубежных компаний это должны делать российские компанию. Интересы граждан практически никто не защищает, кроме, обять же, немногочисленных людей внутри того-же государства. Общественные организации или бизнес ориентирующийся на приватность представлены очень слабо.

Технологический унитаризм. В России всё большее число государственных информационных систем создаются на федеральном уровне, и минуя уровни ниже напрямую стыкуют пользователей системы минуя их региональных регуляторов. Я писал об этом ещё в 2012 году

Отсутствие гибкой разработки. То что называют agile, по факту, в России сейчас невозможно из-за процедур торгов и процедур изменения госконтрактов. Фактически и в России сейчас гибкая разработка в гос ИТ возможна только in-house. О необходимости глубокой реформы закупок разработки ПО я писал неоднократно.

Отсутствие общих актуальных стандартов и руководств. Все по прежнему живут в мире ГОСТов 19 и 34 и в куче разрозненных методических рекомендаций. Такого чтобы более-менее унифицированно в одном месте было бы сведены все руководства на развитие систем - такого мало.

Это всё не полный список того что в России происходит минимум последние лет 15. И, к сожалению, именно по этим пунктам сдвига в госполитике нет.

Изначально в моём блоге: https://begtin.tech/it-government/

Ссылки:
[1] https://otr-online.ru/programmy/segodnya-v-rossii/ivan-begtin-33218.html

#digital #privacy
Data discovery - это одна из важнейших тем в работе с данными которой мало учат и мало объясняют. Её смысл в поиске источников данных для Вашего проекта на основанного на данных. Это могут быть данные коммерческие, государственные, общественные и любые иные, главное знать где их находить.

Ещё в прошлом году я занимался таким структурированием по данным государственных финансов, именно по открытым данным, обозначая их хотя бы на верхнем уровне. В результате родилась карта из вопросов и ответов которую я стараюсь поддерживать в актуальном состоянии.

Визуальные карты есть приложением к этому посту и можно также скачать PDF для печати:

- на русском языке http://files.begtin.tech/f/4d1b7fbe9be84304810b/
- на английском языке http://files.begtin.tech/f/30c5e9bcf22844199e84/

Каждое подобное картирование - это очень дорогое удовольствие. Оно занимает очень много времени и требует компетенций не только и не столько в данных, сколько в понимании устройства самой отрасли. И даже в этой карте я охватываю не всё, а только открытую часть, полная карта всех государственных информационных систем куда больше.

По другим областям: здравоохранение, образование, транспорт или банковская система, эти карты окажутся не менее сложными. Когда-нибудь руки дойдут и до них.

Оригинальный текст на: https://begtin.tech/govfinances-map/

#opendata #govfinances