Ivan Begtin
8.09K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Немного рефлексии после выступления на Smart Data 2023:
1. Многие говорят что надо делать поисковик по данным общедоступным даже при его текущем несовершенном виде, а там всего 3.3 миллиона датасетов в демо версии, неоптимизированный фронт, косяки с отображением описаний датасетов в HTML и тд. в общем-то всё сравнительно легко исправляется, но на всё нужно время:) Я пока затягиваю публичный анонс, но, наверное, можно будет его сделать раньше.

Пока демо версию я впервые публично показывал на Smart Data и её видело максимум пару десятков человек.

2. К выступлению в реестре каталогов данных Common Data Index уже почти 10 тысяч каталогов данных. Всё больше и больше геодкаталогов, геосерверов, геоданных. С оговоркой что количество каталогов данных - это не число самих наборов данных и не их объём.

3. По моим ощущениям аудитории моё выступление зашло, некоторые вопросы были о том можно ли оптимизировать большой пласт ручной работы. Как бы я сам хотел бы это оптимизировать! Например, как было бы круто уметь определять название организации и её тип (госструктура, университет, нко) по сайту её каталога данных и как было бы круто определять автоматически город/регион/страну для каталогов данных у которых невозможно сразу определить их по gtld.
4, Важный вопрос о том что некоторые ссылки в поисковой системе ведут в пустоту потому что каталоги меняются и отваливаются и что с этим делать. Самое правильное решение - архивировать, иметь локальную копию, предоставлять её по запросу.

Мой доклад слегка выбивался из общего списка корпоративных дата-инженерных выступлений, кстати, весьма интересных, но слушателей было немало и у меня:)

А в качестве завершения могу сказать что Smart Data, однозначно, одна из наиболее полезных конференций по данным идущих в России, ради неё стоит приезжать в Москву послушать и пообщаться вживую. Собственно и не секрет что многие дата-инженеры, программисты и аналитики приезжают на такие конференции не из России, давно уже перебравшись в близлежащие страны.

#opendata #events #thoughts
После моего выступления на SmartData чуть ли не большая часть вопросов, во всяком случае существенная, была про семантические типы данных. Я много писал про них ранее. Для тех кто не читал или подзабыл, семантические типы данных - это когда полям таблицы или дата-файла добавляется идентификатор характеризующий содержание этой колонки/полня с данными.
Например, не просто колонка со строкой, а колонка с полными ФИО человека, или колонка с названием страны, или города, или кодом организации и так далее. Это нужно для многих задач, самая распространённая из которых - выявление персональных данных в базах данных.

И напомню про инструмент metacrafter [1] который ещё 2 года назад я выкладывал в открытый код и в котором реализована идентификация семантических типов.

Инструмент работает через набор правил описываемых в YAML файлах и ссылающихся на реестр семантических типов [2].

Правила отличаются от очень простых, до довольно сложных. Простые сводятся к соответствие 1 к 1, сложные к комплексным регулярным выражениям и описанию правил скриптами или кодом для pyparsing [3].

pyparsing - это, кстати, реальная находка для таких задач поскольку конечные автоматы описанные этой библиотекой работают гораздо быстрее регулярных выражений в Python и выглядит более читабельно через регулярные выражения, хотя и длиннее.

Пример: Word(nums, exact=3) + Literal('-').suppress() + Word(nums, exact=1) + Literal('-').suppress() + Word(nums, exact=2) + Literal('-').suppress() + Word(nums, exact=6) + Literal('-').suppress() + Word(nums, exact=1)

Этот код для идентификации кодов для ISBN13, а сами правила можно посмотреть в репозитории [4].

Инструмент работает как библиотека для Python и как утилита командной строки. Поддерживает файлы в форматах CSV, JSON, NDJSON, Parquet, XML, и базы SQL и MongoDB.


Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://registry.apicrafter.io
[3] https://github.com/pyparsing/pyparsing/
[4] https://github.com/apicrafter/metacrafter/tree/main/rules

#opensource #datatools #metacrafter
Поскольку в России, вот уже в который раз, запускают госинициативу по работе с данными, на сей раз нац. проект "Экономика данных", то я сделаю краткий экскурс текущего состояния открытых данных:
1. С момента ликвидации Открытого пр-ва в 2018 году полномочия по открытости данных остались у Минэкономразвития как министерства и аппарата Пр-ва как вышестоящей структуры. В аппарате правительства эти полномочия были у вице-премьера Григоренко, который за 5 лет ничего не предпринял в этом направлении, также как и Минэкономразвития ничего не делало, ни в регуляторике, ни в практическом применении.
2. Ключевое не сделанное - это, фактически, полностью заброшенный план по открытости данных в органах власти. Его тихо замели под ковер, по нему ничего не делали, а потом он просто перестал быть актуальным и его не обновляли.
3. Из активно сделанного в минус - это то что национальный портал data.gov.ru сначала "превратился в руины" в свалку данных, а потом просто был закрыт Минэкономразвития. Сейчас декларируется его перенос на платформу Гостех, но, как бы и Гостех это не плюс, а ещё более жирный минус. Учитывая что публичной работы над ТТ и ТЗ на портал не велось, то ожидания от потенциального нового портала не лучше чем от предыдущего.
4. Минэкономразвития России, которое отвечает формально за открытые данные, потеряло последние компетенции по работе с данными внутри себя. Их портал data.economy.gov.ru год от года уменьшался по объёму публикуемого, а также многие собственные наборы данных министерства публиковались на data.gov.ru который, внимание, они же и снесли. Это не говоря уже о том что в ведении министерства было и есть более десятка государственных информационных систем.
5. В отдельных российских ведомствах и регионах всё ещё публикуются новые и обновляются существующие наборы данных. В основном в тех где всё ещё понимают необходимость коммуникации с профессиональным сообществом, бизнесом и гражданами. В большинстве же данные не обновляются, порталы (региональные) с открытыми данными закрываются.
6. Есть отдельные положительные примеры, порталы с данными университетов, учреждений, порталы API субъектов федерации, но они лишь редко выбиваются из общей безрадостной картины.
7. Отдельная тема что работа с государством сейчас стала сверхтоксична. Многие эксперты более не взаимодействуют с любыми органами власти или нигде не афишируют это поскольку, и качество госуправления, скажем так, невысокое, и с тем что берегут свою репутацию
8. Думаю что причины сверхтоксичности государства вполне очевидны - это не только полностью провальная внешняя политика с военным конфликтом на Украине, "сливом" Арцаха, заигрыванием с наиболее одиозными диктаторами и талибаном, это ещё и нарастающая репрессивная внутренняя политика и ужесточающаяся пропаганда делающая жизнь в России всё менее комфортной. Многие из тех кто остаются делают это не благодаря, а вопреки действиям государства. А многие из тех кто уезжают, делают это не от недостатка патриотизма, а от глубокого разочарования в будущем. Впрочем это относится ко всем областям требующим осмысленных дейстий.
9. Ещё одна особенность происходящего и следствие плохого госуправления - это неспособность регуляторов услышать большую часть стейкхолдеров и то что почти всё регулирование сводится к ограниченной собственными интересами группе крупных лоббистов. У них дела, тоже, не то чтобы хорошо идут. Технологические компании в большинстве до сих пор не понимают что в России модели "мягкого лоббизма" давным давно померли и работают только модели "жёсткого лоббизма" коррупции через внедрения собственных акторов на руководящие посты.

(часть 1/2)

#opendata #russia #regulation
10. Из массовых потребностей о которых никто почти публично не говорит - это полная закрытость и торговля государства геоданными. В большинстве развитых стран сейчас наоборот геоданные максимально общедоступны. Государства не монетизируют их, а раздают в удобных форматах потому что от их доступности есть прямой и очевидный экономический эффект для всех. Может ли государство Российское сделать общедоступными Фонды пространственных данных? Могло бы, если бы было способно.
11. Аналогичная ситуация с сотнями крупнейших государственных информационных систем по которым нет внятной госполитики кроме "никому ничего не давать, а то как бы чего не случилось чего мы даже не знаем".
12. Впрочем, в текущих реалиях см пункт 8. Попытки пр-ва собирать госпроекты развития в ситуации де-факто военной экономики выглядят заведомо провально.

(часть 2/2)

#opendata #russia #regulation
Алексей Радченко в своём канале разбирает условия использования данных в транспортном комплексе Москвы, рекомендую почитать, это полезный пример того что даже на самом старте юридического, а ещё даже не технического анализа сбора данных, всплывает много косяков. В данном случае ключевые проблемы в том что условия использования... отсутствуют. В России с этим большая проблема, при запуске многочисленных государственных и полугосударственных систем про условия использования часто забывают. Не только в области транспорта, а просто повсеместно. И ведь исправить это несложно, но видимо мало жалоб. А с другой стороны, куда жаловаться, в Роскомнадзор?

#privacy #russia #transport
Меня тут зацепил пост Ивана Бегтина про то, какие данные собирают производители автомобилей (советую читать статью, а не пост, она более взвешенная). Общий смысл, что данных собирается очень много, включая данные про про все перемещения и даже сексуальную жизнь. И хотя сначала я был разочарован что вся аналитика там строиться лишь по пользовательским соглашениям, мне стало любопытно что в пользовательских соглашениях в России, причем именно в сфере общественного транспорта. Вот что получилось:

1. Московский транспорт - ссылка на лицензионное соглашение ведет на https://api.mosgorpass.ru/license_agreement - у меня не открылось. Посмотреть не смог.
2. Помощник Москвы - тоже не открылось. Ведет на https://pakpm.mos.ru/api/help/privacy_policy.
3. Метро Москвы - Ссылка ведет на https://www.mosmetro.ru/app/oferta/new_oferta.pdf. Сайт выдает ошибку 404.
4. Моя Тройка - приложение Сбера по управлению картой тройка. Пишет что данных не собирается совсем - но описания снова нет - ошибка 404.
5. Приложение ЦППК (официальное?) - тут документ есть, но датирован аж 2018 годом и ведется от лица неизвестной компании Айтифорс, сайт которой уже не работает. Из еще более странного - это соглашение об обработке пользовательских данных, которое лежит в самом приложении - это явно внутренний документ описывающий взаимоотношения работодателя и его сотрудников, но никак не пользователей приложения.
6. Транспорт Подмосковья - соглашение с ООО ДатаПакс есть, но довольно формальное. Передача третьим лицам есть.
7. Яндекс Такси - самое подробное и детальное соглашение, нормально описывающее что именно будет собрано, с уточнением юрисдикций.
8. Социальное такси - тоже от московского дептранса. Тут соглашение есть, но максимально формальное и обезличенное. Документ в гуглдоке не имеет даже имени компании или адреса от лица кого это соглашение.
9. Транспорт Перми - приложения о персданных нет, ссылка на сайт разработчика.
10. Парковки Краснодара - ссылка битая - документа нет. Как впрочем и у 99% других приложений из регионов.

Вывод по общественному транспорту в итоге еще страшнее, чем с автомобилями. В случае тех, приложений, что вам предлагаю государственные органы власти и аффилированные компании вы даже не сможете узнать что и как делают с вашими персональными данными. Чем дальше от государства тем лучше и честнее представлена информация и тем прозрачнее политика работы с персональными данными.
В качестве регулярного напоминания, хотя портал data.gov.ru недоступен и нет признаков что даже если его перезапустят там будут те же данные что были и ранее и хотя есть большие сомнения что ранее опубликованные там данные были актуальны и полезны, но мы сделали полную архивную копию. Это ZIP файл на 14 GB в который сохранено всё что можно было сохранить, на 2 февраля 2022 года. Соответственно после распаковки размер будет несколько больше. Сразу скажу что основной объём там создают несколько больших наборов данных вроде слепка базы ФИАС (не самого актуального, кстати), а всё остальное представлено в виде бесконечного числа мелких CSV файлов из регионов и муниципалитетов.

Прямую ссылку не даю чтобы совсем не забить трафик на сервер, но если кому-либо понадобится этот архив - пишите в личку в телеграм, пришлю ссылку. Есть желание, также, загрузить эти данные в Интернет-архив, но всё это время просто не доходили руки.

#opendata #archive #russia #datasets
Любопытное про стартапы на данных:
- Collibbra приобрели стартап по созданию SQL тетрадок Huspray [1] учитывая что основной бизнес Collibra это корпоративные каталоги данных, причём изначально с сильным акцентом на выявление персональных данных, то эта покупка про сдвиг приоритетов на дата аналитиков.
- Treefera подняли pre-seed $2.2 миллиона инвестиций на дата-платформу по мониторингу лесного покрова [2], внутри обещают ИИ и создание data продуктов
- DataBricks получили ещё $500 миллионов инвестиций в рамках Series I [3], пишут что это скорее всего раунд перед IPO и на IPO оценка может достигнуть $43 миллиардов.
- Gable получил $7 миллионов на seed стадии [4] - Gable это стартап по повышению качества данных через применение data contracts. Тут так и хочется спросить "а что так можно было?!", стартап явно под экосистему работы с данными в Modern data stack и под последующую покупку одним из крупных платформенных игроков.

Ссылки:
[1] https://www.collibra.com/us/en/company/newsroom/press-releases/collibra-acquires-sql-data-notebook-vendor-husprey
[2] https://www.treefera.com/blog/treefera-pre-seed-funding-round
[3] https://techcrunch.com/2023/09/14/databricks-raises-500m-more-boosting-valuation-to-43b-despite-late-stage-gloom/
[4] https://www.linkedin.com/feed/update/urn:li:activity:7107413267072917504/

#startups #data #dataquality
Я редко пишу здесь о чем то кроме гос-ва, технологий и данных, но это важная тема которую невозможно проигнорировать любому кто связан с Арменией.
Свежая статья [1] о Data Commons [2] от исследователей в Google с обзором текущего состояния проекта и потенциала его развития. Вообще этот проект называется Google’s Public Data Commons (GPDC) и он является открытой корпоративной альтернативой Wikidata и идее Linked Data. Главная цель проекта в том чтобы облегчить интеграцию открытых / общедоступных данных в единый граф знаний. При этом акцент у проекта явным образом на США и статистике в США, это именно те данные которых там более всего, но по другим территориям данные тоже есть, хотя их и меньше.

Собственно статья хотя и научная, но обзорная, о том как этот проект устроен внутри и такие идеи как подключение к нему языковых моделей для структурированных ответов на вопросы на естественном языке.

Ссылки:
[1] https://docs.datacommons.org/papers/dc_overview.pdf
[2] https://www.datacommons.org

#opendata #datasets #statistics
Please open Telegram to view this post
VIEW IN TELEGRAM
Сразу две интересных новости про данные от Яндекса.

Первое - это открытие кода Datalens [1] и это вот просто таки прекрасно, очень-очень интересно попробовать уже в open source исполнении и хочется чтобы такой проект активно развивался. Больше BI инструментов хороших и разных. Инфа и документация продукта на отдельном сайте [2]

Вторая новость в публикации Geo Reviews Dataset 2023 [3] где собраны 500 000 уникальных отзывов на организации по России с января по июль 2023 года. Очень интересно и под MIT лицензией. Для исследовательских целей подходит очень хорошо.

Ссылки:
[1] https://github.com/datalens-tech/datalens
[2] https://datalens.tech
[3] https://github.com/yandex/geo-reviews-dataset-2023

#opendata #opensource #yandex
Рубрика "Циничная открытость"
Счетная палата выпустила юбилейный, 5-ый по счету доклад "Открытость государства в России".
Если вам казалось, что год от года открытость государства в России снижается, то вам казалось.
Потому что год от года открытость государства остается на высоком уровне, хотя <цитата из пресс-релиза СП> по некоторым направлениям наметилась тенденция к снижению.
Я циник, и я не участвовал в подготовке доклада СП, поэтому у меня искаженная точка зрения на открытость государства:
1. С 2020 года Минфин и Казначейство закрыли реестр соглашений о субсидиях федерального бюджета. То, что "открыли" через год с лишним, иначе как издёвкой не назвать.
2. С весны 2022 года Казначейство перестало публиковать отчеты о кассовом исполнении федерального бюджета. Чтобы - сами понимаете...
3. Паспорта национальных и федеральных проектов не публикуются с 2020 года.
4. Из постановлений Правительства РФ об утверждении госпрограмм с 2022 года исчезли паспорта с финансовыми данными.
5. С осени 2022 года Минцифры закрыло (сделало вид, что поломался) раздел открытых данных на портале ФГИС КИ, где можно было увидеть хоть и кривой, но хоть какой-то перечень федеральных ГИС.
6. С начала 2023 года Минэк закрыл Портал открытых данных "на реконструкцию и перевод на платформу Гостех". Впрочем, пользы от этой инфопомойки и в пору ее открытости было ноль.
7. Из всей движухи вокруг Гостеха открытым является только пиар. Все содержательные решения по Гостеху принимаются президиумом Правкомиссии по цифровому развитию в закрытом режиме.
8. Рейтинги "цифровых спецназовцев" (замруководителей ведомств по цифровой трансформации) федерального и регионального уровней ни разу не публиковались в полном виде - только в виде пиар-цитат. Не говоря уже о методике рейтингования.
9. Не менее четверти (с тенденцией к постоянному повышению) расходов на госИТ федерального уровня идет в форме субсидий из федерального бюджета, сведения о которых (см. пункт 1) не публикуются уже почти 3 года.
10. Летом 2023 года закрылся проект Счетной палаты "Госрасходы", агрегировавший и публиковавший открытые данные о расходах федерального бюджета (госконтракты, субсидии, госпрограммы, нацпроекты, исполнение бюджета) из официальных источников. Видимо, за ненадобностью. Ведь открытость государства и так на высоком уровне.
А в остальном, прекрасная маркиза, всё хорошо, всё хорошо...
Честно говоря у меня в сегодняшних планах не было ничего связанного со Счетной палатой, но сегодня публично вышел их доклад по открытости гос-ва. Я ещё несколько месяцев назад думал что у оставшихся там коллег хватит ума и совести такой доклад не выпускать, но думал зря. Ссылку специально не даю, его несложно найти, впрочем и интерес к нему уже исключительно искусствоведческий по предмету "Искусство манипуляции".

Говоря коротко - всё плохо, особенно плохо что там засветились ребята из Если быть точным которых я ещё недавно хвалил. Зря хвалил похоже, очень зря(

Большую часть того что происходит на самом деле Вы и так читали в моём телеграм канале все эти годы. А самое главное, идущее вне категорий, что открытость невозможна без тех кто открытостью пользуется - журналистов и НКО, в первую очередь. В ситуации массовых репрессий против них и отсутствие их упоминаний весь доклад, как бы помягче, ну в общем вы меня поняли.

Я сегодня позже разберу подробнее что там не так.

#opendata #russia #opengov
Ребята из Если быть точным своё участие прокомментировали, что ж, это хорошо, ко крайней мере я могу извиниться за часть грубых слов в их адрес. Хотя я и по прежнему считаю что никакой методикой оценки ФОИВ ситуацию не исправить и в 2021 году это было также бесполезно. Как обещал, свой разбор этого доклада я также напишу. Придётся, правда, писать не о том что там есть, а о том чего там нет.
Счетная Палата представила рейтинг открытости российских органов власти. «Если быть точным» участвовал в разработке дизайна исследования, но мы не согласны с выводами – вот почему

Сегодня Счетная палата опубликовала ежегодный рейтинг открытости государственных органов исполнительной власти. В разработке методологии рейтинга этого года участвовала команда «Если быть точным».

Важно: мы не занимались оценкой открытости данных и не имеем отношения к итоговым баллам, которые получили ведомства. Мы давали внешний комментарий по методологии, который не был учтен в основном докладе, а самой оценкой занимались другие эксперты.

Более того, мы считаем, что открытость данных в России радикально ухудшилась, о чем регулярно пишем. Всего с начала 2022 года, по нашим оценкам, данные засекретили как минимум 20 органов власти.

В чем состоял наш вклад в рейтинг

В конце 2021 года мы начали готовить для СП аналитическую записку, в которой описали один из недостатков текущей методологии исследования – формальный критерий открытости. Он заключается в том, что оценивается в первую очередь само наличие в открытом доступе наборов данных, но не их качество и востребованность.

Яркий пример такого подхода — Минздрав. На его сайте выложены перечни лекарств, списки медицинских учреждений, актуальные на 2014–2017 год. При этом министерство не дает доступа к важной информации по заболеваемости и охвату лечением разных групп болезней.

Расширенная методология предполагает более глубокую оценку того, насколько востребованы и актуальны опубликованные наборы данных, но не решает многих других проблем, связанных с открытостью государства. К тому же основной доклад СП построен по старой методике. Альтернативные результаты представлены в конце как приложение.

Мы считаем важной экспертную дискуссию про методологии оценки открытости, но не можем согласиться с выводами из рейтинга СП. Подробнее про это можно почитать в нашем материале, а здесь – полный текст доклада.
О том что не так с докладом СП РФ по открытости государства. Часть 1. Предистория

Как обещал пишу про смысл/отсутствие смыслов в докладе Счетной палаты по открытости. Чтобы не расписывать простыню текста постараюсь сжато и разделю на несколько постов.

Итак, что не так с докладом СП и вообще откуда он появился, для чего был нужен изначально и во что превратился в итоге.

Изначально, когда доклад по открытости Счетной палаты затевался в 2019 году в РФ была ситуация когда Открытое Правительство было закрыто ещё в 2018 году и формально полномочия по регулированию/развитию открытых данных были нечётким образом разделены между Аппаратом Правительства РФ и Минэкономразвития РФ. Почему нечётко? Потому что никаких НПА по поводу этого разделения принято не было, совет по открытым данным при правительственной комиссии закрыли, а экспертный совет при Пр-ве также закрыли и сейчас, кстати, его тоже нет, то что пришло ему на смену называется несколько иначе, но об этом отдельно.

В этом "вакууме открытости" в Счетную палату приходит Алексей Кудрин и в документе стратегии развития Счетной палаты вписываются задачи обеспечения и мониторинга открытости со стороны СП. С вполне логичной амбицией контролю за открытостью ФОИВов раз Правительство де-факто отказалось от этой функции. В рамках этой позиции по открытости создавался, например, такой портал как Госрасходы (spending.gov.ru) совсем недавно закрытый руководством СП. В рамках этого раскрывался код связанный с частью проектов СП, в рамках этого же создавался первый доклад Счетной палаты и в рамках этого я участвовал в подготовке первых 2-х докладов и прекратил участвовать в начиная с 3-го поскольку лично мне стало очевидность тупика в создании подобных докладов.

В чём особенность этого доклада? С самого начала он создавался как медийный, а не как аналитический продукт. Его условными KPI были массовость публикаций в СМИ, особенно в деловой прессе, реакция органов власти. Конечно, с некоторой надеждой на последующий конструктивный диалог со стороны правительственных структур, но без большой надежды. Отход от открытости у органов власти в РФ начался задолго до военного конфликта февраля 2022 года и был результатом окончательного политического сдвига в патерналистическую модель коммуникации с обществом и параллельными репрессиями в отношении наиболее активных потребителей открытости государства - это журналисты расследователи и некоммерческие организации в первую очередь.

#opendata #russia