Ivan Begtin
9.13K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В мире всё больше проектов мониторинга государственных мер в ситуации с COVID-19. Некоторые из них государственные и многие общественные.

Вот некоторые из них:
- Citizen Budget Tracker [1] проект группы волонтеров на Филлипинах
- COVID-19 Africa Public Finance Response Monitor [2] мониторинг того как реагируют министры финансов африканских стран [3]
- Сведения о бюджетных расходах на борьбу с COVID-19 публикуют власти Бразилии на портале прозрачности [4]
- В Аргентине правительство публикует сведения о мерах на портале открытых данных [5]
- В Мексике финансовые данные о реакции на COVID-19 публикуются на портале Padrón de Beneficiarios (PUB) [6]
- На Украине мониторингом занимаются Transparency Int. Ukraine через проект DoZorro [7]

Необходим ли мониторинг расходов на COVID-19 в России? Есть ли хоть одна инициатива в этой области?

Ссылки:
[1] https://www.covidbudget.ph/
[2] https://www.cabri-sbo.org/en/blog/2020/covid-19-africa-public-finance-response-monitor-how-african-governments-particularly-ministries-of-finance-are-tackling-covid-19
[3] https://www.cabri-sbo.org/en/pages/covid-19-public-finance-monitor
[4] http://www.portaltransparencia.gov.br/programas-e-acoes/acao/21C0-enfrentamento-da-emergencia-de-saude-publica-de-importancia-internacional-decorrente-do-coronavirus
[5] https://www.buenosaires.gob.ar/coronavirus/medidas-de-gobierno
[6] https://pub.bienestar.gob.mx/#:~:text=El%20Padr%C3%B3n%20%C3%9Anico%20de%20Beneficiarios,de%20Geoestad%C3%ADstica%20y%20Padrones%20de
[7] https://dozorro.org/

#budgets #spending #covid19
Необходим ли общедоступный мониторинг, реестр проектов, бюджетов и контрактов и открытые данные по всем расходам и государственным инициативам вокруг COVID-19?
anonymous poll

Да, нужен как независимый общественный проект – 91
👍👍👍👍👍👍👍 55%

Да, нужен от Счетной палаты – 64
👍👍👍👍👍 39%

Да, нужен, но только чтобы от Прокуратуры (и с открытыми данными по посадкам) – 7
👍 4%

Да, нужен от Правительства РФ – 3
▫️ 2%

Нет необходимости, имеющейся информации достаточно – 1
▫️ 1%

👥 166 people voted so far.
Дайджест новостей по открытым данным:
- Microsoft вместе с ODI запускают инициативу по Data Collaboration https://blogs.microsoft.com/on-the-issues/2020/10/22/peer-learning-network-for-data-collaborations/
- в Австралии началась вторая фаза сбора предложений для третьего национального плана по открытости https://ogpau.pmc.gov.au/consultations/phase-2c-final-consultation-draft-commitments
- в блоге проекта Qri о том как архивировать данные из Airtable https://medium.com/qri-io/archiving-your-airtable-data-with-qri-12dbda8783c3
- научная статья о барьерах в обмене данными о гидрометеорологии в Европе https://www.sciencedirect.com/science/article/abs/pii/S0022169410001496
- обзор инструментов для обзора Земли, какие инструменты мониторинга Земли лучше использовать https://towardsdatascience.com/the-best-earth-observation-data-science-toolkits-a51d867343a0
- Aura Network, совместная исследовательская инициатива Великобритании и Ирландии по исследованию применения искусственного интеллекта к архивам рожденных-в-цифре документов https://www.aura-network.net/

#opendata
Сегодня было большое онлайн мероприятие по простоте и понятности законов «О языке законов, их понятности и сложности» с презентациями и выступлениями коллег из нескольких университетов и, в том числе, моим выступлением.

Если была запись, я потом выложу на него ссылку. А пока небольшая презентация про то как простота НПА устроена в мире и в России и о нашем проекте Простой русский язык

Ссылки:
[1] https://www.beautiful.ai/player/-MKtlUfFd3FAkgQyXZca
[2] http://plainrussian.ru

#plainrussian
Сегодня у меня день мероприятий и второе мероприятие на котором я выступал - это всероссийская конференция «Информация и коммуникация в цифровую эпоху: явные и неявные воздействия» [1]

С темой "Цифровая слежка во время COVID-19. На время или навсегда" [2]. Презентации обычно у меня короткие, многое я говорю только с голоса, но думаю что надо будет записать вебинар на эту тему и саму тему расширить набором действий.

Ссылки:
[1] http://ifapcom.ru/news/1696/?returnto=0&n=1
[2] https://www.beautiful.ai/player/-MKuzvlv7fdrA06kDs97

#privacy #covid19
Помните в мае 2019 года я публиковал доклад об утечках персональных данных из государственных информационных систем? [1] Хотите знать что изменилось за эти годы? А ничего не изменилось.

1. Официальной реакции Роскомнадзора не было да и диалога с ними тоже.
2. Официального технологического аудита информационных систем не было
3. Кое-что происходило кулуарно и непублично, об этом эхом мне потом рассказывали коллеги из разных органов власти.
4. Во многих случаях никакие изменения в информационных системах не вносились и данные по прежнему публикуются.

В качестве примера сайт http://xn--80akibckndbdsx1ezg.xn--p1ai/ от Роструда где собираются жалобы граждан. И, конечно же, они публикуются.

Мне очень не хотелось возвращаться к этой теме, потому что у неё есть сопутствующих ущерб, больше людей узнают об утечках и знают где их найти.

Ссылки:
[1] https://begtin.tech/pdleaks-p3-govsys/
#privacy #PersonalData #leaks
Но вернуться к этой теме всё равно придется несмотря на её "подвешенное состояние", с её регулятором Роскомнадзором, взаимодействовать бессмысленно, по моему опыту, у Минцифры тема не на повестке, у Счетной палаты у неё нет полномочий, а говорить об этом с людьми в Прокуратуре - это сразу жесткий вариант и неизвестно работающий ли.

Поэтому те несколько примеров что я привожу это то, что есть на сайте онлайнинспекция.рф в открытом доступе и очень легко находимое. А есть много других примеров также в открытом доступе, но не находимые самыми очевидными способами.

#privacy #leaks
Если Вы ещё не читали, то очень рекомендую почитать свежий документ Third wave of Open Data [1] от Open Data Policy Lab [2] о том как развивается тема открытых данных.

Документ интересный с одной стороны, с описанием многих трендов в мире, а с другой стороны, конечно, не полный и всё более похожий на профессиональный консалтерский, продукт. Даже беглым чтением я там насчитал более 70 терминов сочетающихся с "data ...": data holders, data subjects, data hoarding, data provenance, data capacity, data liquidity, data gaps и ещё бесконечное множество как ранее использовавшихся, так и свежих. Я так и не понял причин такого терминологического разнообразия.

В то же время, например, в документе нет ни слова про Open Knowledge Foundation, ничего нет про Open Data Barometer и Global Data Barometer. Впрочем возможно это как подчеркивание что у третьей волны другие лидеры и Open Data Policy Lab и упоминаемые ими в докладе одни из них?


Ссылки:
[1] https://opendatapolicylab.org/third-wave-of-open-data/
[2] https://opendatapolicylab.org

#opendata #reports
Минприроды вывело из эксплуатации/закрыло/случайно уничтожило/(свой вариант?) сайты в заповедников в домене zapoved.ru [1], они ещё есть в кеше Гугла, но в остальном они закрыты. Архивные копии Минприроды не делало, анонсов о закрытии тоже.

Ссылки:
[1] http://zapoved.ru
[2] https://www.google.com/search?q=site:zapoved.ru+-oldsite

#archives #digitalpreservation
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
2 новости об открытых данных Минфина России:

1. Реестр субсидий сегодня снова стал доступным на портале Электронного бюджета (реестр был отключен примерно на две недели). Мы уже восстановили разделы о субсидиях и в «Госзатратах», и в «Госрасходах».

2. Исторические бюджеты больше недоступны на сайте Минфина России. Пока неизвестно, как давно и техническая это ошибка или политическое решение. Через месяц узнаем (https://minfin.gov.ru/ru/historylib/)
Для тех кто работает с открытыми данными (и просто с данными) напоминание про инструменты полезные для сбора и извлечения данных из самых разнообразных источников

- Tabula [1] инструмент с открытым кодом для извлечения таблиц из PDF файлов.
- Scrapy [2] фреймворк сбора данных из веб страниц.
- Docx2csv [3] утилита и библиотека извлечения таблиц из файлов docx
- Lazyscraper [4] утилита для извлечения таблиц и иных объектов из HTML файлов
- APIBackuper [5] утилита выгрузки данных из API, делает резевную копию данных и сохраняет их в формате JSON lines

Большая коллекция инструментов для сбора данных в Awesome Web Scraping [6].

А также существует несколько десятков онлайн сервисов и компаний которые дают возможность наладить сбор данных на их инфраструктуре или собрать данные на заказ. Это не самая большая, но вполне состоявшаяся индустрий охватывающая от сбора госданных, до сбора информации с сайтов интернет-магазинов и не только.

Лично я могу сказать что собрать или обработать один набор данных не требует много людей или очень много сил. Это можно делать очень быстро и чаще важнее наличие одного понимающего человека раздающего задачи внешней команде или работающего с внешним сервисом.

Лично я много лет, можно сказать, увлекался темой автоматизации извлечения данных. Не просто собрать и извлечь, а сделать это самым ленивым способом, без перетаскиваний и GUI, и без программирования непосредственно сбора данных. Утилиты вроде APIBackuper или Lazyscraper - это плод моих экспериментов.

Я как-то очень давно писал что много лет назад я "убил много времени" на задачи автоматизации сбора данных. Идея фикс была в том что большая часть разработчиков веб-сайтов думают шаблонами, разрабатывают фреймворки по шаблонам и шаблонами же делают сайты. Есть ограниченно число паттернов по описания объекта, описания коллекции объектов, способов их отображения и так далее, основные отличия скорее языковые, чем какие-либо иные.

Впрочем и имеющиеся инструменты сильно облегчают жизнь тем кто собирает данные.

Ссылки:
[1] https://tabula.technology/
[2] https://scrapy.org/
[3] https://github.com/ivbeg/docx2csv
[4] https://github.com/ivbeg/lazyscraper
[5] https://github.com/ruarxive/apibackuper
[6] https://github.com/lorien/awesome-web-scraping

#scraping #data #extraction
Forrester провели анализ по 39 критериям 10 крупнейших продуктов каталогов для машинного обучения и опубликовали отчет [1].

Лидеры: Alation, Collibra, Alex Solutions и IBM
Сильные исполнители: data.world, Informatica, Io-Tahoe и Hitachi Vantara
Претенденты: Infogix и erwin

У них же в отчете можно обратить внимание на такой критерий оценки как data activation (активация данных). Термин больше похож на маркетинговый жаргон, с несколькими разными определениями тут [2], тут [3] и тут [4] и ближе всего он к тому чтобы собираемые данные собирались в реальном времени и на их основе можно было бы принимать быстрые решения в отношении клиентов, в основном, решения в области маркетинга.

Впрочем тут важный акцент именно на том что это каталоги для машинного обучения, потому что решений для каталогов данных, в принципе, довольно много. Особенность машинного обучения в интеграции с ML продуктами, в том насколько подключение к каталогу данных просто именно для data scientist'ов и так далее.

Я ранее писал про каталоги данных [5] и их классификации на каталоги открытых данных, корпоративные каталоги данных и на каталоги данных исследователей. Классификацию это можно расширять на каталоги для машинного обучения, которые по сути своей подвид корпоративных каталогов данных. С той важной разницей что их уже не совсем корректно называть именно каталогами данных, потому что реестр метаданных формирующий каталог - это не более чем одна из функций такого продукта, а по сути он является скорее подвидом платформ управления данными. Не случайно что многие из каталогов выше включают в себя атрибуты платформы управления аудиторными данными, data management platform (DMP).

Ссылки:
[1] https://reprints2.forrester.com/#/assets/2/1946/RES157467/report
[2] https://www.dynamicyield.com/glossary/data-activation/
[3] https://www.oracle.com/cx/marketing/data-activation/
[4] https://blueshift.com/blog/what-is-data-activation/
[5] https://yangx.top/begtin/2175

#dmp #data #opendata #datacatalogs
Я бы сказал удивительно, но на самом деле не очень то что на сайте Открытого бюджета Москвы есть новость о том что проект бюджета на 2021-2023 годы внесен в Московскую городскую думу [1] а ссылки на сам текст внесенного проекта бюджета или данные отсутствуют.

В виде текста в формате DOCX он есть на сайте МГД [2], для тех кому очень лень извлекать таблицы из этого файла вручную рекомендую утилиту docx2csv [3] с её помощью можно извлечь все таблицы в CSV формате или в виде Excel файлов.

Ссылки:
[1] https://budget.mos.ru/news05112020
[2] https://duma.mos.ru/ru/0/regulation_projects/corebofs002080000nb3mf7d2btjvc48
[3] https://github.com/ivbeg/docx2csv

#opendata #moscow #budget
Forwarded from Инфокультура
Счетная палата РФ запускает Конкурс исследовательских проектов в госуправлении — DataContest. Инфокультура — информационный партнер конкурса.

Приглашаем принять участие профессионалов в области аналитики данных, которые знают, как сделать систему госуправления эффективнее.

Для участия необходимо предложить решение одной из задач по аудиту в ключевых направлениях: закупки в энергетическом комплексе, господдержка предпринимательства и резервных фондов, промышленность и технологическое развитие, образование и инновации и др.

Конкурс исследовательских проектов по аналитике данных DataContest проходит cо 2 ноября по 11 декабря. Сбор заявок продлится до 27 ноября. Лучшие проекты будут использованы в работе Счетной палаты.

Изучить список задач DataContest и подать заявку на участие: https://data-contest.ru/
Как обрабатывать данные? Какие бесплатные и платные инструменты существуют? И, особенно, как работать с данными изначально не в самом лучшем качестве.

Наиболее правильный термин data wrangling, плохо переводится на русский, но по сути - это "преобразование данных" и в этой области есть много инструментов. Другой часто используемый термин - data preparation или data prep (подготовка данных) за которым скрывается обработка и трансформация данных для последующей загрузки (ETL) или постобработки после загрузки (ELT).

Инструментов существует огромное количество. Есть много что можно собрать из маленьких компонентов, в академической среде, чаще это инструменты завязанные на executive papers такие как Jupyter Notebook, в open source среде - это многочисленные инструменты преобразования данных через командную строку и в корпоративной среде - это, чаще, дорогие коммерческие продукты сочетающие в себе множество возможностей.


- OpenRefine [1] бесплатный инструмент, некогда вышедший из проекта Google Refine который опубликовали в Google после поглощения команды Metaweb (проект Freebase). Один из лучших бесплатных инструментов в этой области.
- Trifacta [2] де-факто лидеры рынка, изначально делали акцент на обработке данных, сейчас это комплексный продукт по подготовке данных, их преобразованию и построение дата труб (data pipelines). Одно из самых дорогих решений на рынке, от $419 в месяц за пользователя.
- Microsoft Excel один из мощнейших инструментов о возможностях применения которого в обработке данных знают не все. Но с расширениями вроде ReshapeXL [3] позволяет добиваться многого.
- Microsoft PowerBI [4] включает многочисленные возможности обработки данных для последующей визуализации
- Tableau Prep [5] позволяет делать пред-обработку данных для последующей визуализации в продуктах Tableau.
- Datameer X [6] подготовка данных специально для озёр Hadoop
- Easy Morph [7] ETL инструмент подготовки данных без программирования
- Meltano [8] инструмент обработки данных через Python и с открытым кодом с интеграцией с разными источниками

Также большой список инструментов в коллекциях:
- Awesome ETL [9] подборка Extract, Transform and Load инструментов
- Gartner Data Preparation tools [10] список от Gartner

Основной тренд сейчас - это то что подготовка данных уходит в облака, я ранее писал о переходе от подхода ETL к ELT и обработке данных уже в облачном хранилище. Таких продуктов всё больше и, похоже, будущее за ними.

Ссылки:
[1] https://openrefine.org/
[2] https://www.trifacta.com/
[3] http://reshapexl.com/
[4] https://powerbi.microsoft.com/en-us/
[5] https://www.tableau.com/products/prep
[6] https://www.datameer.com/datameer-x/
[7] https://easymorph.com/
[8] https://meltano.com
[9] https://github.com/pawl/awesome-etl
[10] https://www.gartner.com/reviews/market/data-preparation-tools

#dataprep #datawrangling #data
Весьма симпатичный и простой проект Open Infrastructure Map [1] основанный на данных по энергетической и телеком инфраструктуре в Open Street Map (OSM).

Даже с поправкой на неполноту данных, очень нагляден для осознания обитаемой зоны человечества.

Ссылки:
[1] https://openinframap.org

#opensource #osm #data
7-я еженедельная рассылка "#7. Рождённые в цифре (digital born). Цифровые архивы новейшей истории" [1].

Всю эту рассылку я решил посвятить незаслуженно забываемой в России теме сохранения новейшего культурного и исторического наследия. Тема цифровых архивов незаслуженно игнорируется, хотя, уже сейчас наступило время когда она как никогда актуальна.

Ссылки:
[1] https://begtin.substack.com/p/7-digital-born-

#opendata #digitalpreservation
АНО Цифровая экономика открыли сайт CDO2Day [1].

Мне лично непонятно чему он посвящен и вообще о чём. Выходных данных нет, статуса СМИ нет, инсайтов нет, контент в целом мало отличается от моего канала тут. В общем, сделали конкурента моему каналу (шутка) или CNews (наверное тоже шутка).

Но производство контента - это дорогое удовольствие, либо тебя "прёт" от этого, например, я пишу в своём канале в телеграм и в фэйсбуке только по этой причине или ты нанимаешь журналистов писать статьи и рерайтеров перепечатывать новости. А если ты нанимаешь их то, надо и приличия соблюдать, и как СМИ зарегистрироваться и главного редактора определить и редакционную политику сформировать и выходные данные публиковать. В общем, не партизанить, а честно делать то что делаешь.

Пока попытка так себе. Для профессионального издания слишком поверхностно, для массового недостаточно глубоко и не скандально.

Я по прежнему недоумеваю. Если кто-то знает концепцию этого проекта, расскажите плз.

Ссылки:
[1] https://cdo2day.ru

#data #digital #media