Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Вышел Apache Superset 1.0 [1] важная веха в развитии этого одного из лучших продуктов открытым кодом по Business Intelligence.

В релиз вошли:
- значительное ускорение производительности
- личные лендинговые страницы
- улучшенные дашборды
- графики через Apache eCharts
- удобное REST API

и ещё многое другое.

Из недостатков Superset остался тот что он плохо из коробки работает с NoSQL базами данных вроде MongoDB или ArangoDB, но для этого существует множество коннекторов через инструменты вроде Panoply, Stitch, Presto

Участникам хакатонов и конкурсов на заметку, Superset - это хороший конструктор для быстрой сборки визуальных продуктов. Не стоит стесняться его использовать и его стоит изучать.

Ссылки:
[1] https://github.com/apache/superset

#opensource #bi #data
Алгоритмы во благо это, например, предсказание поломок у жестких дисков с помощью машинного обучения в блоге Datto Engineering [1]. Хороший технический текст, с пониманием возможностей и ограничений.

В нём же ссылка на ещё один важный, но очень специальный набор открытых данных. С 2013 года компания Backblaze публикует очень подробные данные по своим жестким дискам [2]. несколько гигабайт в сжатом виде - это данные собираемые по показателям SMART по каждому диску, бесценны для их производителей и эксплуатантов этих дисков.

Ссылки:
[1] https://datto.engineering/post/predicting-hard-drive-failure-with-machine-learning
[2] https://www.backblaze.com/b2/hard-drive-test-data.html#helpful-hints-and-caveats

#opendata #data #ml
Слов нет. Вернее есть, но все матерные. Тут важно помнить что pravo.gov.ru ведёт ФСО России, охраняющее первых лиц и ещё много чего обеспечивающее. По моему скромному мнению высокий профессионализм службы незаслуженно остаётся без внимания.
Forwarded from Generative (real) Times
Защищайте свои пароли!!!

Есть такой анекдот:

-как же он узнал мой пароль?
-а какой у тебя был пароль?
-год в который Эрик XI Эрикссон вернул себе трон шведского короля после смерти Кнута II.
-а какой это был год?
-тысяча двести тридцать четвёртый.

==========

Специалист по кибербезопасности смог войти в «админку» сайта для публикации российских законов по логину и паролю «admin/admin». Видео того, как он это сделал, опубликовал в своем твиттере.
Статья в Govering "5 Domains of Government That Are Ripe for Transformation" [1] от William D. Eggers из Делойт, как видно из заголовка о 5 направлениях в которых государство созрело для трансформации.

Написано под рынок США/Великобритании и других развитых стран, но актуально для многих.

Какие эти 5 направлений?
- Предоставление услуг (Service delivery)
- Операционное управление (Operations)
- Госполитика и принятие решений (Policy- and decision-making)
- Регуляторика и правоприменение (Regulation and enforcement)
- Таланты и рабочая сила (Talent/workforce)

В статье достаточное число примеров и, если дочитать её до конца, то можно убедиться что многое из написанного там внедряется и у нас в стране. Госуслуги всё более омниканальные (госпортал, мобильное приложение, офисы "Мои документы"), попытки реформировать найм рабочей силы и талантов тоже идут, скорее тяжело, но понемногу.

Ссылки:
[1] https://www.governing.com/next/5-Domains-of-Government-That-Are-Ripe-for-Transformation.html

#government #policy
Научная статья A Taxonomy for Data Ecosystems [1] о том как устроены экосистемы данных с научной точки зрения. Для меня это одна из самых интересных тем, с точки зрения того как экономика данных развивается, как устроены большие общественные и научные проекты экосистем данных.

Авторы пишут об этом не в первый раз, простой поиск в Research Gate даёт ссылки на множественные их публикации и немало других по теме Data Ecosystems можно сейчас найти.

Всё больше идёт к тому что экосистемы данных станут не только объектом научного интереса, но и предметом регулирования

Ссылки:
[1] https://www.researchgate.net/publication/348035570_A_Taxonomy_for_Data_Ecosystems

#data
Не украли, а потеряли (с) так можно описать ситуацию с удалением 400 тысяч записей о преступлениях, преступниках и их идентификационных данных в системе регистрации преступлений Великобритании [1] [2].

Данные о более чем 26 тысячах записях ДНК о 21,7 тысячах персон, 30 тысячах отпечатков и ещё многие иные записи были удалены из-за технической ошибки. Несмотря на то что техники пытаются восстановить эти данные, ситуация уже вылилась в публичный скандал.

Что характерно, всё произошло из-за человеческой ошибки, а восстановить данные оказалось не так то просто.

Остаётся вопрос - бывают ли подобные ситуации в других странах, например, в России?

Ссылки:
[1] https://www.theguardian.com/politics/2021/jan/16/priti-patel-faces-increasing-pressure-over-deletion-of-police-records
[2] https://www.theguardian.com/politics/2021/jan/15/priti-patel-under-fire-as-150000-police-records-accidentally-lost

#privacy #errors #data
Обзор рынка компаний в кремниевой долине от фонда Initialized [1] о том что пост-пандемическая долина - это не место. Упала стоимость аренды на 24% [2] и налог с продаж на 40% [3]. До пандемии только 20% компаний фонда были преимущественно дистанционными, сейчас около 36% процентов.

А большая часть основателей говорят что лучшее место для стартапа сейчас - это облако.

И, что характерно, большинство компаний не собираются адаптировать выплаты сотрудникам под стоимость жизни в их регионе.

Ссылки:
[1] https://blog.initialized.com/2021/01/data-post-pandemic-silicon-valley-isnt-a-place/
[2] https://twitter.com/anthemos/status/1346629061150347265
[3] https://www.sfchronicle.com/business/article/Yes-people-are-leaving-San-Francisco-After-15635160.php

#it #market #startups
Вышел ещё один большой релиз продукта - Prefect [1], ранее существовавший как облачный сервис, выпустили в открытый код сервера Prefect Server [2] и панели управления Prefect UI [3]

Prefect - это продукт по созданию data pipelines, цепочек обработки и проверки данных. Такие продукты используются для создания корпоративных озёр данных, аналитических хранилищ и так далее.

То что код проекта открывается в итоге меня не удивляет. Обработка данных через data pipelines сейчас - это высококонкурентная среда с большим числом продуктов с открытым кодом таких как Argo, KubeFlow, MLFlow, Luigi, Airflow, Apache Nifi, Dagster, Reflow и многих других.

Правда Prefect один из наиболее интересных инструментов и его релиз - это хорошая новость.

Ссылки:
[1] https://cloud.prefect.io
[2] https://github.com/PrefectHQ/server
[3] https://github.com/PrefectHQ/ui

#prefect
Относительно свежее направление в открытости геонаук (open geoscience) - это принципы ICON-FAIR [1] и открытость науки ещё на стадии её планирования (дизайна) [2]

При этом принципы FAIR известны ещё с 2016 года [3] - это findability, accessibility, interoperability, and reusability (находимость, доступность, интегрируемость и повторное использование)

А ICON это расширение FAIR через Integrated, Coordinated, Open, and Networked (Интегрированность, Скоординированность, Открытость и Сеть)

Ссылки:
[1] https://www.pnnl.gov/projects/WHONDRS/icon-fair-framework
[2] https://eos.org/editors-vox/special-collection-on-open-collaboration-across-geosciences
[3] https://en.wikipedia.org/wiki/FAIR_data

#opendata #openaccess #openscience
Я как-то ранее писал о том как устроена публикация открытых данных в других странах, обновлю этот обзор, просто для понимания отличий.

Геоданные
- во Франции более половины данных на госпортале data.gouv.fr - это SHP и GeoJSON файлы с объектами на территории муниципальных образований и департаментов страны. Это чуть менее 20 тысяч наборов данных из 36 тысяч
- в Канаде 69 тысяч из 87 тысяч наборов данных на open.canada.ca - это данные Natural Resources Canada
аналога российских Росреестра и Роснедр. Это как если бы Росреестр выложил данные по каждому муниципалитету как открытые данные
- в США на портале Data.gov геоданные составляют 169 тысяч наборов данных из 217 тысяч наборов данных всего

Порталы раскрытия
- во многих странах и территориях создаются не просто порталы открытых данных, а порталы раскрытия информации о деятельности власти. Например портал прозрачности Гамбурга transparenz.hamburg.de/open-data/ включает раздел не только с данными, но и с документами о деятельности. Это даёт искажение по числу наборов данных, если индексировать портал бездумно, но концентрирует раскрытие информации что неплохо

Статистика и финансы
- чуть менее половины наборов данных на портале открытых данных Ирландии data.gov.ie это данные статистической службы (Central Statistics Office). Это 4414 наборов данных стат. показателей из 10 392 наборов данных на сайте. Ещё около 2 тысяч наборов данных - это данные метеорологической службы
- в Австрии на портале открытых data.gv.at данных из 25 тысяч наборов данных из 29 тысяч (86%) - это сведения о финансах муниципальных образований: расходах, доходах, бюджетах с портала offenerhaushalt.at. Это как если бы российские данные с порталов zakupki.gov.ru разрезать на десятки тысяч кусочков, по каждому муниципалитету.
- в Японии на портале www.data.go.jp из 28 тысяч наборов данных 10 тысяч - это статистические показатели и 5 тысяч - это сведения о бюджетах муниципалитетов

Научные данные
- в США на портале data.gov помимо приоритета на геоданные, также приоритет на научные данные наблюдений. Около половины всех наборов данных поставляют метеорологическая служба NOAA и NASA и это данные исследования земли, как правило с геопривязкой, поэтому геоданные.

Особенности российских данных
1. Геоданных практически нет совсем, они не публикуются на всех уровнях власти.
2. Научные данные органов власти которые их собирают в наибольшем объёме не публикуются.
3. Централизованных порталов раскрытия данных в России немного, вместе этого создаются государственные специализированные информационные системы для публикации документов
4. Данные по госфинансам и по статистике сконцентрированы в специальных ГИСах Минфина РФ, Федерального казначейства и Росстата. На порталы данных они не попадают

Источники:
[1] Порталы стран и территорий перечисленные в тексте
[2] Проект Open Portal Data Watch https://data.wu.ac.at/portalwatch/

#opendata #data
Forwarded from Roskomsvoboda
Подготовка к Privacy Day 2021 идёт полным ходом, а пока предлагаем вспомнить выступление директора АНО «Информационная культура» @infoculture Ивана Бегтина на прошлой конференции об исследовании приватности мобильных приложений:

➡️ https://youtu.be/c79CuWPevMs

28 января Иван Бегтин @begtin вместе с другими экспертами обсудит, зачем госорганам все больше информации о нас, как они ее аккумулируют, какие системы используют и насколько эффективно их защищают.

📹Онлайн-трансляция Privacy Day 2021 будет доступна на сайте и в YouTube-канале РосКомСвободы.

🔔Подписывайтесь и жмите «колокольчик», чтобы не пропустить начало.
Не прошло и года как у АНО "Диалог" (региональные Центры управления регионами) появился официальный сайт [1], но, как и у многих госНКО с полным отсутствием информации о сфере деятельности. Ни годовых отчетов, ни сведений о правлении, ни сведений о наб. совете, в общем и целом ничего.

Кстати, если судить по данным их отчета в Минюст за 2019 год, то там и наб. совета и правления нет, а гендир просто назначается распоряжением Мэра Москвы.

Впрочем все публикации про данное АНО дают ему политическую окраску, а меня лично более интересует форма этого явления. ГосНКО превратились в массовое явление по выводу госпроектов из под 44-ФЗ и 223-ФЗ и бюджетного финансирования с последующим бюджетным контролем. С последующей полной непрозрачностью, неподотчетностью, я бы сказал что непостижимостью, но как раз с постижимостью тут всё хорошо. Хотя и очень некрасиво.

Ссылки:
[1] https://anodialog.ru/

#gosngo #govngo
Я много раз писал о том что у многих российских государственных информационных систем есть недокументированное API, иногда выступал об этом с презентациями на наших днях открытых данных и иных мероприятиях. Дошли руки просистематизировать если не все, то некоторые из этих рассказов.

В сервисе Postman опубликовано описание 37 точек подключения к API 6 государственных информационных систем [1] таких как:
mos.ru, budget.gov.ru, bus.gov.ru, zakupki.gov.ru, gosuslugi.ru, paravo.gov.ru

Список не исчерпывающий, но работа за сами органы власти трудоёмкая, по хорошему сами разработчики этих API должны были готовить документацию и тесты, но только в паре случаев она существует.

Документирование API - это важная задача и наша команда давно занимается её автоматизацией. Постепенно дойдут руки и до улучшения качества и документации собственных API и до полноценного реестра государственных API.

Важно отметить что все представленные API являются открытыми, используются при отображении веб страниц в этих информационных систем и доступ к ним не регламентирован. Нет никаких заявленных ограничений к их использованию и использованию отдаваемых ими данных.

P.S. Если Вы знаете какие-либо ещё общедоступные API государственных информационных систем, документированные или нет, пишите о них в @begtinchat.

Ссылки:
[1] https://www.postman.com/infoculture/workspace/infoculture-public/collection/1428203-a769e0a6-0cc9-4de4-bdcc-5f8a0fa06e36

#government #api #opendata