Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
October 10, 2021
October 11, 2021
Gizmodo пишут что Microsoft стала первой крупной компанией согласившейся упростить потребителям независимый ремонт их устройств [1]. Произошло это на фоне давления владельцев акций компании [2] и законопроекта о Right-to-repair [3] в Палате представителей США .

Новость хорошая, хочется надеяться что только Microsoft дело не ограничится, почти все крупные компании уже много лет играют в игру "покупайте новое модное устройство которое потом замените на наше же, новое". Microsoft, в этом смысле, были ещё не худшими производителями устройств, если мы вспомним про устройста Apple или, например, ограничения навязываемые на многие современные умные тракторы, станки и многое другое.

Ссылки:
[1] https://gizmodo.com/microsoft-just-became-the-first-big-company-to-commit-t-1847820524
[2] https://www.asyousow.org/press-releases/2021/10/7/microsoft-agrees-expand-consumers-repair-options
[3] https://morelle.house.gov/media/press-releases/congressman-joe-morelle-introduces-fair-repair-act

#tech #righttorepair
October 11, 2021
October 12, 2021
Вчера комментировал Comnews [1] инициативу партии "Справедливой России" по справедливизации защиты персональных данных [2]. Хотя мои комментарии приведены журналистами довольно точно, я дополню ранее сказанное.

1. Каждый гражданин должен иметь право знать сведения о себе. Главный владелец персональных данных в нашей стране - это государство. Всё начинается с качественной работы информационных систем где данные хранятся и в реализации права на изменение/исправление этих данных и в реализации "права знать", поэтому Каждый гражданин должен иметь право знать сведения о себе в первую очередь в государственных информационных системах и далее в системах частных операторов даннх.
2. Отношения компания-потребитель/покупатель не заканчиваются покупкой/договором. Есть требования по документообороту, архивному делу, предоставления данных регуляторам, аудиторам, правоохранительным органам которые компании должны соблюдать. А ещё есть гражданский и уголовный кодексы со сроками давности по уголовным делам для которых данных в базах данных являются одним из доказательств.
3. Без реформы правоприменения остальные меры будут недостаточны. Конечно компании должны требовать только те данные которые нужны для оказания услуги, это и так присутствует уже в законодательстве. Проблема сейчас не в законодательстве, а в эффективном правоприменении. Давайте будем честными, защита персональных данных и прав граждан - это не самая сильная сторона Роскомнадзора.

Поэтому моё отношение к инициативам Миронова скептическое. Это не странно что партии вносят инициативы без предварительной профессиональной подготовки, но, всё же, хотелось бы чтобы такого было поменьше и поменьше спекуляций в итак уже проблемной области.

Ссылки:
[1] https://www.comnews.ru/content/216858/2021-10-12/2021-w41/personalnym-dannym-khotyat-dobavit-spravedlivosti
[2] https://spravedlivo.ru/11555710

#privacy #personaldata
October 12, 2021
October 12, 2021
Forwarded from APICrafter
Большое обновление в данных DataCrafter'а. В каталог загружены 1514 наборов данных о климате и погоде из Единой государственной системы информации об обстановке в Мировом океане (ЕСИМО). Все данные были преобразованы в унифицированные форматы и доступны в каталоге как открытые данные через API или в виде сборок/слепков данных.

Данные загружены вместе с описанием каждого поля, сведения доступны в разделе "Документация" к каждой таблице. Например, документация к набору данных Оперативные данные о сопутствующих метеонаблюдениях, передаваемых по коду FM-18 X BUOY. Период хранения в БД.

Несмотря на то что многие данные в системе ЕСИМО являются архивными, они могут пригодиться исследователям работающим с данными о мировом океане, климатологам, специалистам по работе с погодными данными и данными экономики моря.

Для нас загрузка такого числа наборов данных оказалась вызовом по причине числа наборов данных, всё таки 1514 наборов из системы ЕСИМО - это почти в 4 раза больше 393 наборов данных которые ранее к нам были загружены и сейчас интерфейс уже недостаточно удобен для работы с таким числом наборов данных, но мы уже работаем над его доработкой.

Второй вызов был в том что данные имеют свою специфику и текущие алгоритмы распознавания типов данных определяют типы данных наборов данных из ЕСИМО достаточно ограниченно. В ближайшее время начнётся работа по классификации этих полей и доработке алгоритмов под эту задачу.

#datasets #esimo #climate #weather #datacrafter #data
October 13, 2021
Я сейчас гружу в APICrafter кучу данных с сайта Росстата [1] в раздел "Статистика" [2] и чуть позже сделаем официальный пост от проекта с тем сколько новых наборов данных появилось, а пока скажу вам друзья что всё что мы слышали или слышим про качество работы с открытыми данными у Росстата - это сказки.

Чтобы было понятно:

- с сайта Росстата скачано 1547 наборов данных
- у 742 наборов однотипная структура из CSV файлов с полями: area,gender,urban,value (все их можно было опубликовать как один набор данных)
- ещё 617 наборов данных это однотипные показатели в формате SDMX без документации, также их можно было опубликовать как один набор данных
- надо ли объяснять что это получается куча мелких файлов, эдакое "необоснованное дробление данных" (c) ради числа наборов данных
- половина данных опубликовано как CSV, другая половина как XML. Файлы CSV имеют ту особенность что половина с разделителем запятой (,), половина с разделителем (;).
- у 20 наборов данных у файлов CSV отсутствуют заголовки
- итого, если делать всё по уму, то у Росстата на сайте было бы всего 188 наборов данных. А если ещё объединить в один датасет вакансии всех террорганов Росстата то и всего то около 103-105 наборов данных. Чувствуете разницу?
- некоторые из наборов данных имеют расширение csv, а внутри это zip файлы. А иногда это zip файлы внутри которых файлы csv которые... на самом деле не csv, а тоже zip файлы
- около 30% опубликованных CSV файлов в кодировке windows-1251, остальные в UTF-8, нигде при этом не указано что в каком виде.
- несколько наборов данных XML - это дампы показателей из внутренней BI системы. Без документации.


В итоге пришлось дорабатывать код подготовки пакетов данных для автоматического распознавания кодировки, разделителей и выявления CSV файлов без заголовков. Это не так уж сложно, но окунаться в ад работы с плохоформатированными CSV файлами - это то ещё удовольствие.

А в качестве послесловия я добавлю что это ещё далеко не самый худший ФОИВ по опубликованию данных. Да, много где ситуация сильно хуже, но Росстат тоже, умеет удивлять отсутствием управления данными и таким вот дроблением датасетов на кучу мелких наборов данных.

Как бы то ни было, все они будут у нас в каталоге сегодня уже к концу дня. И, похоже, вводить критерии качества каталогов данных важно не меньше качества содержания наборов данных.

Ссылки:
[1] https://rosstat.gov.ru/opendata
[2] https://data.apicrafter.ru/topics/statistics

#opendata #datasets
October 14, 2021
Закончилась конференция SmartData, я выступал на ней с докладом "Каталог и озеро данных на базе MongoDB, собираем технологический стек по кусочкам". Мою презентацию можно посмотреть онлайн [1] или скачать по ссылке [2].

Я рассказывал о том:
- какие каталоги данных бывают
- для чего мы создаём наш каталог
- какие проблемы с этим есть
- какая архитектура решения в итоге
- какие эксперименты проводились и какие инструменты с открытым кодом существуют
- какие планы развития

Про инструменты я рассказывал о таких утилитах как:
- mongo2md [3] - автодокументирование таблиц в MongoDB
- undatum [4] - утилита командной строки для обработки BSON и JSONl
- apiready [5] - утилита автосоздания API на основе датасета
- apibackuper [6] - утилита архивации данных из API
- qddate [7] - библиотека автоматической идентификации дат в любом написании

В целом же скажу так что несмотря на то что я много лет как организую проекты, выступаю, пишу статьи, доклады, что-то организую и в целом, в основе моего заработка не программирование, я стараюсь не терять технические навыки и программировать всегда когда только могу. И всегда приятно делать что-то полезное когда это удаётся!

Ссылки:
[1] https://www.beautiful.ai/player/-MlzucmDRg7kkp2Ax2yy
[2] https://smartdataconf.ru/talks/data-catalog-and-data-lake-based-on-mongodb-building-tech-stack-from-scratch/
[3] https://github.com/datacoon/mongo2md
[4] https://github.com/datacoon/undatum
[5] https://github.com/ivbeg/apiready
[6] https://github.com/ruarxive/apibackuper
[7] https://github.com/ivbeg/qddate

#opensource #opendata #data #tools
October 14, 2021
О том как работает публикация нормативных документов на анти-примере. 11 октября ТАСС пишет [1] что Правительство РФ утвердило Единый план по достижению национальных целей развития России и ссылается официальный портал правовой информации где такое распоряжение, действительно, есть [2]... в виде одностраничного распоряжения к которому должен был быть приложен этот документ. Что в распоряжении и написано, "Утвердить представленный Минэкономразвития России ...".

Но вот маленький нюанс, сам документ в открытом доступе появился только, барабанная дробь, 14 октября в 18 часов и только на сайте Минэкономразвития, а это, на минуточку, самый главный ключевой документ определяющий жизнь страны на 9 лет вперед. Ну, как бы определяющий, на самом деле до следующего кабинета министров, если будет его ротация в очередной электоральный цикл.

По поводу распоряжения, вначале я думал что это в pravo.gov.ru такой "косяк", всё таки ненормально когда публикуется распоряжение с такой странной, неформальной, ссылкой без указания где, кем, в какой редакции и как подготовлен документ, где он размещен и, в целом, российская нормотворческая практика всегда предполагала публикацию всего НПА целиком. Чего только стоит публикация законов о бюджете в виде документов.

Поэтому я заглянул в систему регистрации НПА Минюста. Там этот документ тоже есть, тоже на одну страницу.
Почему всё выглядит так странно если не подозрительно?

Тут надо напомнить что документ готовился по поручению [4] Президента РФ и должен был быть закончен к 1 октября, но, хотя, в распоряжении Правительства РФ от 1 октября и говорится об утверждении документа Минэкономразвития, сам документ появился не раньше 8 октября, а финальная версия 14 октября. Хотя и на сайте Минэка указана дата 1 октября, это неправда. Внутри документа [5] в свойствах указаны 8 октября 2021 г. 15:36 как дата и время создания и 14 октября 2021 г. 14:30 как дата последней редакции.

Какой может быть причина почему единый план не был приложен к распоряжению Пр-ва РФ? Единственная причина которую я вижу - это то что он не был готов к 1 октября. Но так важно было формально "закрыть" поручение Президента РФ вовремя что в ТАСС вышла заметка, в pravo.gov.ru разместили распоряжение, а то что сам план был опубликован только 14 октября, так кто бы об этом вспомнил через много месяцев. Может ли быть какая-либо другая причина таких "казусов"? Не могу ничего такого представить.

Я даже не знаю как это всё комментировать.

Ссылки:
[1] https://tass.ru/ekonomika/12632805
[2] http://publication.pravo.gov.ru/Document/View/0001202110110015
[3] https://www.economy.gov.ru/material/dokumenty/edinyy_plan_po_dostizheniyu_nacionalnyh_celey_razvitiya_rossiyskoy_federacii_na_period_do_2024_goda_i_na_planovyy_period_do_2030_goda.html
[4] https://www.rbc.ru/rbcfreenews/610d379e9a79472f804922fc
[5] https://www.economy.gov.ru/material/file/ffccd6ed40dbd803eedd11bc8c9f7571/Plan_po_dostizheniyu_nacionalnyh_celey_razvitiya_do_2024g.pdf

#lawmaking #laws #legislation #documents #government
October 14, 2021
This media is not supported in your browser
VIEW IN TELEGRAM
October 15, 2021
October 18, 2021
October 19, 2021
October 19, 2021