Ivan Begtin
9.13K subscribers
2.04K photos
3 videos
102 files
4.77K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
"Когда алгоритм твой босс" [1] - это свежий подкаст от Mozilla с большим числом фактов, графиков в виде лонгрида [2] о экономике, влиянии, подотчетности ИИ и деятельности BigTech компаний.

Вот факты из этого лонгрида:
- $15.7 триллионов ожидаемый вклад ИИ в экономику мира к 2030 году
- $52.88 миллиарда - это частные инвестиции в ИИ в США, лидере инвестиций в этой области
- 0 из 100 баллов уровень прозрачности алгоритмов Apple, и 55 и 100 у Microsoft по оценке Ranking Digital Rights, 2022
- 71% просмотренных видео на YouTube о просмотре которых пользователи жалеют они смотрят через рекомендации сервиса
- 3-х кратной может быть разница за одинаковую услугу в дэйтинговых сервисах в США через персонифицированное ценообразование
- около 40% работников онлайн платформ, курьеров, водителей и т.д. (gig workers), получают ежемесячный доход ниже минимальной оплаты труда
- около 1 миллиарда камер видеонаблюдения установлено в мире
- в 3.8 раза выросло число учёных аффилированных с компаниями BigTech, с 12.77% в 2008 г. до 47.17% в 2018 г.
- лишь 3% исследований машинного обучения связаны с правами человека и этическими принципами

И там же рекомендации по регулированию ИИ и этическим принципам.

Практически весь материал - это факты со ссылками на другие исследования и публикации, он хорош именно как систематизированная постановка проблемы.

И, хотя многие материалы, звучат как призывы к цифровому социализму, например, про минимальную оплату работникам, это всё про то как мир меняется и BigTech компании довольно быстро становятся корпорациями зла в восприятии общества.

Всё это о том что компании BigTech уже сейчас находятся на развилке саморегулирования с существенными самоограничениями или гораздо более жесткого государственного регулирования.

Ссылки:
[1] https://2022.internethealthreport.org/episodes/when-an-algorithm-is-your-boss/
[2] https://2022.internethealthreport.org/facts/

#privacy #ai #regulation
Ещё находки про аккредитованные ИТ компании, как можно было догадаться самые интересные находки я не публиковал.

1. Мини-отель (хостел) Старый город (ООО Старый город) в Перми. ИНН 5902993839, аккредитованы как ИТ решением АО-20220310-3784246043-3 от 2022-03-11

Сайта нет, только отзывы в сервисах
- https://yandex.ru/maps/org/stary_gorod/174934420361/?ll=56.251450%2C58.016896&z=15
- https://www.tripadvisor.ru/Hotel_Review-g298516-d8655713-Reviews-Stary_Gorod-Perm_Perm_Krai_Volga_District.html

По ЕГРЮЛ основной ОКВЭД у них ИТшный, но никакого подтверждения этой деятельности нет.

2. Общество с ограниченной ответственностью Микрокредитная компания «Рубикон».

Это микрофинансовая организация с сайтом https://denginadom.ru, аккредитована в мае этого года АО-20220506-4449719929-3.
Страница на сайте ЦБ РФ https://cbr.ru/finorg/foinfo/?ogrn=1152468038568

Достаточно очевидно что занимается она не ИТ деятельности, а просто выдает микрозаймы. Даже к цифровым/технологическим компаниям отнести её сложно, ну а к ИТ рынку не имеет отношения.

3. Общество с ограниченной ответственностью Микрокредитная компания «БАСС»

Была аккредитована в марте 2022 г., решение АО-20220311-3795855648-3 сайт организации http://vzaim1.ru/ , страница в реестре ЦБ РФ https://cbr.ru/finorg/foinfo/?ogrn=1176820001621

В создании ИТ продуктов и иной ИТ деятельности не замечена.

Я могу продолжать такое публиковать бесконечно, потому что реестр аккредитованных ИТ компаний превратился в помойку.
И необходимо проверить каждую компанию в этом реестре, а не заниматься ситуативной чисткой.

Пока ещё аккредитация без ИТ льгот (подтверждения ФНС) давала лишь отсрочку от армии, но если она будет давать хоть какие-то преференции, то следователи могут, с легкостью, трактовать её как мошенничество по предварительному сговору.

И не могу не добавить что нахожу очень странным что аккредитацию у Ростелекома аннулировали, а у сотен других телеком компаний нет. В чём правда критерии, брат (с) ?

Я продолжу время от времени публиковать апдейты и данные по этому реестру под хэштегом #itmarket
В качестве регулярных напоминаний, если Вы изучаете открытые данные и хотите больше погрузиться в эту тему:
1. Работа с открытыми данными: особенности публикации и использования в российском правовом поле [1] аналитический доклад 2020 года про возможности и проблемы работы с открытыми данными.
2. Карты данных [2] по многим отраслям составленные нами 3.5 года назад в виде инфографики. Изначально это было куча майндмапов в виде вопросов и ответов. Для наглядности пришлось их переработать. То что получилось делалось, в первую очередь для печати и раздачи на хакатонах.
3. Хаб открытых данных [3] наш негосударственный портал открытых данных. Создавался как независимый от гос-ва портал для публикации данных. Мы его поддерживаем вот уже много лет.

Если хотите помочь Инфокультуре то сделать можно это на странице https://www.infoculture.ru/donation/ пожертвованием однократно или ежемесячно (лучше ежемесячно, конечно!).

Лично я считаю после всей той помощи что я оказал Минцифре РФ по чистке реестра аккредитованных ИТ компаний, сотрудники министерства, не могут пройти мимо и не пожертвовать кто сколько может на благое дело приведения наборов данных в порядок 😜

Ну а если серьёзно, то пандемийные годы были непростыми, а этот год - это ещё больший вызов многократно. До сих пор непонятно как продолжать развивать открытость данных, всё ещё понятно что можно делать в части цифровой архивации и всегда понятно что делать по теме приватности, хотя, это тоже стало сложнее.

А я не могу не напомнить что был и остаюсь в России, и пока рассматриваю варианты отъезда, только по состоянию здоровья (если аллергия на березы начнёт зашкаливать).

Ссылки:
[1] https://opendatareview.infoculture.ru/
[2] https://www.infoculture.ru/2018/12/10/datamaps/
[3] https://hubofdata.ru

#opendata #infoculture #donate
В The Markup очередная хорошая статья про приватность [1], на сей раз о компаниях которые собирают данные из автомобилей и о автомобилях.

В общей сложности это 37 компаний связанных с индустрией подключений к автомобилям, в оригинале - connected vehicle data industry. При том что этот рынок считают относительно молодым, его оценивают от 300 до 800 миллиардов долларов США к 2030 году [2].

Из автомобиля собирается самая разная информация: местонахождение, скорость, когда нажат тормоз, какая музыка играет, была ли открыта дверь, внутренняя температура и так далее. Всё это собирается, обрабатывается локально и передаётся, например, производителю автомобиля.

В статье немало примеров, особенно компаний создающих хабы данных перепродаваемых, например, страховым компаниям.

Выводы там оптимистичные, в том что производители автомобилей начинают идти по пути Apple и предлагать приватность как часть услуги, давая возможность ограничивать передачу данными другим компаниям. Например, так делает Porshe, в этой индустрии.

Лично я не столь оптимистичен, потому что целью Apple было перестроить рынок под себя и не только повысить приватность, но снизить возможности её нарушения для конкурентов и сохранить такую возможность для себя.

Тем не менее я бы зафиксировал следующее именно в отношении автомобилей:
1. Тренд на усиление сбора данных с автомобилей сохраняется и усиливается. Данных собирается всё больше и с большей частотой и гранулярностью.
2. Технологии позволяют собирать данные хоть со всех машин в мире, ограничения скорее в количестве машин выпускаемых основными вендорами и наличию чипов для них.
3. Учитывая значимость этих данных национальные регуляторы точно будут требовать их локализацию, а полиция захочет иметь к ним доступ.

Ссылки:
[1] https://themarkup.org/the-breakdown/2022/07/27/who-is-collecting-data-from-your-car
[2] https://www.documentcloud.org/documents/22120767-capgeminiinvent_vehicledatamonetization_pov_sep2020#document/p5/a2130948

#privacy #data
В рубрике интересных больших наборов данных OpenAlex [1], полностью открытая база о глобальной системе исследований включающая данных о исследователях, журналах, работах, институтах. Основано на Microsoft Academic Graph [2], далее поддерживается и развивается НКО OurResearch [3], создающими многие инструменты для исследователей.

Кроме того что данные доступны в виде API, также они выложены как наборы данных на Amazon AWS [4] в рамках проекта AWS Open Data Sponsorship Program [5], это когда Amazon спонсирует раскрытие больших наборов открытых данных на их инфраструктуре через покрытие стоимости их передачи и хранения.

Для всех кто исследует то устроена система исследований в мире - этот набор данных определенно будет очень интересен.

И, вдогонку к этому интереснейшему набору данных, один из крупнейших по объёму, а не количеству данных, источник - это Academic Torrents [6], сервисы раздачи датасетов для исследователей. Включает датасеты до 4.8ТБ, в основном для машинного обучения и число наборов данных там только растёт. Уже более 127ТБ в 867 наборах данных. Скажу что ни один государственный портал открытых данных в мире по объёмам с ним не сравнится. Кроме, может быть, data.gov в США где основной объём данных, также, составляют исследовательские данные крупнейших государственных научных центров.

Ссылки:
[1] https://docs.openalex.org/
[2] https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
[3] https://ourresearch.org/
[4] https://registry.opendata.aws/openalex/
[5] https://aws.amazon.com/opendata/open-data-sponsorship-program/
[6] https://academictorrents.com/

#opendata #academy #openscience #machinelearning #datasets
В OECD.ai, проекте ОЭСР по мониторингу инициатив внедрения ИИ в мире, на странице Российской Федерации [1] пропали все ссылки и упоминания инициатив по ИИ. Остались только новости которые, как я понимаю, собираются и отображаются автоматически.

По прямым ссылкам они ещё доступны [2], но по факту их более нет, даже при том что OECD.ai включает сведения не только по членам и кандидатам в ОЭСР.

Аналогично, теперь, недоступна страница страны в OECD Going Digital [3] где были профили стран по метрикам цифровой трансформации.

Хотя по России данных там теперь нет, проекты ОЭСР всё ещё хороший источник информации о госполитике в ИИ, цифровой трансформации и инноваций в госуправлении (OPSI) [4]

Ссылки:
[1] https://oecd.ai/en/dashboards/countries/RussianFederation
[2] https://oecd.ai/en/dashboards/policy-initiatives/2019-data-policyInitiatives-24901
[3] https://goingdigital.oecd.org/countries/rus
[4] https://oecd-opsi.org/

#opengov #government #oecd #ai
Global Data Governance - это свежий рейтинг/индекс стран по уровню/качеству управления данными [1]․ Публикуется институтом Джорджа Вашингтона, включает интерактивную карту [2] и профили отдельных стран, например, России [3].

Оценивается по 6 направлениям:
- Strategic. У правительства есть видение или план для разных типов данных в экономике и госполитике
- Regulatory. Правительство выстроило юридический режим вокруг типов данных и/или их использования
- Responsible. Правительство думает о этике, доверии и том как затронуты права человека при использовании и переиспользовании данных
- Structural. Правительство меняет институциональные структуры в ответ на трансформацию основанную на данных
- Participatory. Государство информирует граждан и бизнес о его активности и запрашивает публичные комментарии с целью применения обратной связи.
- International. Государство присоединяется к другим нациям в общих международных усилиях для установления общих правил и норм управления данными.

Если кратко, то у России всего 27 баллов из 100.

По нулям в направлениях Responsible, Participatory и International.

По направлению Strategic всего 25 баллов, в направлении Regulatory 60 и в направлении Structural 75.

В целом новость то неплохая, к примеру, у Нигерии, всего 21 балл, а у Ирана вообще их всего 3, но всё же, поменьше чем у Вьетнама, там всего 29 баллов.

Выглядит всё это куда менее политически ангажировано чем многие другие рейтинги, он даже не про открытость, а про системной работы правительств стран. О том что у нас с системностью в стране всё не очень я пишу давно( А вот и очередное подтверждение этого.

Ссылки:
[1] https://datagovhub.elliott.gwu.edu/
[2] https://datagovhub.letsnod.com
[3] https://datagovhub.letsnod.com/country-level-data/europe-central-asia/russia

#data #datagovernance #government #russia
В рубрике интересных инструментов по работе с данными.

PipeRider [1] - движок с открытым кодом по автоматизации оценки качества данных. Позволяет писать простые правила оценки типов данных, количества, максимальных и минимальных значений и многое другое. Поддерживает пока только три SQL СУБД: Postgres, Sqlite и Snowflake. Делается тайваньской компанией InfuseAI [2] с прицелом на облачную монетизацию в сервисе PipeRider Cloud, который они обещают вскоре выпустить. В целом выглядит как конкурент Soda, стоит потратить время для дополнительного изучения.

ByteBase [3] система управления изменениями в СУБД и версиями с открытым кодом. Существует в виде открытого кода и облачного сервиса, в облачном сервисе предлагают поддержку с SLA. Главное что позволяет - это подходы Database-as-Code и GitOps.
Поддерживает MySQL, Postgres, Clickhouse, TiDB и Snowflake. Они уже несколько месяцев стремительно набирают звёзды на Github'е [4]. Основатели выходцы из Google, часть команды находится в Шанхае. По данным в Crunchbase привлекли инвестиций на $3M, основной инвестор китайцы в Matrix China Partners. Для компаний внутри которых базы данных имеют клиентов/потребителей такой инструмент будет полезен.

QuestDB [5] быстрая база для временных рядов с открытым кодом, сами они пишут что быстрейшая, но это ещё надо проверять/доказать. Есть те кто сомневаются что QuestDB быстрее Clickhouse [6], тем не менее конкуренция присутствует. Создается одноименной компанией получившей $14.3M инвестиций из которых $12M в прошлом году. Самая очевидная применимость в сборе логов, данных сенсоров и разного рода телеметрии.

Ссылки:
[1] https://www.piperider.io/
[2] https://www.infuseai.io/
[3] https://www.bytebase.com/
[4] https://star-history.com/#bytebase/bytebase&Date
[5] https://questdb.io/
[6] https://telegra.ph/No-QuestDB-is-not-Faster-than-ClickHouse-06-15

#opensource #dbms #dbtools #data #startups
Многие разработчики возмущены появлением Github Copilot [1] и использованием их кода ИИ для написания нового кода. А, тем временем, Brendan Dolan-Gavitt из NYU Tandon School of Engineering создал его аналог с открытым кодом и который можно использовать локально. Встречаем FauxPilot [2] в основе которого модели Salesforce CodeGet [3] и NVIDIA Triton Inference Server [4].

Для работы требуется процессор NVIDIA с объёмом видеопамяти от 2ГБ и где-то до 32ГБ для самых больших языковых моделей, выбор из нескольких моделей предусмотрен.

Для тех кто хочет поработать продуктами по кодогенерации локально и сделать что-то своё и уникальное, это хороший пример того с чего можно начать и что доступно с открытым кодом.

Ссылки:
[1] https://yangx.top/begtin/4020
[2] https://github.com/moyix/fauxpilot
[3] https://github.com/salesforce/CodeGen
[4] https://developer.nvidia.com/nvidia-triton-inference-server

#opensource #github #copilot #datatools #programming #fauxpilot
Вжух и данные, вжух и продукт на данных (с)

В качестве небольшого отступления от новостей про продукты и стартапы на данных, я сформирую мысли вокруг трендов которые я вижу. Есть некоторый, не на поверхности, но, достаточно хорошо ощутимый тренд, это запрос на автоматизацию/ИИзацию работы с данными. Причём на всех уровнях от хранения данных до их визуализации и продукт-изации.

Во многом это не только про появление no-code инструментов для конечных пользователей, но и усилением этих инструментов инструментами понимания неструктурированных пользовательских запросов.

Например, пока нет инструментов которые могли бы принимать запросы вроде: "Возьми данные оттуда и оттуда, слинкуй их и подбери наилучшую визуализацию по показателям прошлого месяца".

При этом, есть системы ответов на вопросы пользователей, есть системы со-написания исходного кода, но нет, пока нет, аналогичных инструментов для аналитиков/маркетологов/руководителей, иначе говоря конечных потребителей внутренних дата-продуктов.

И бы не сказал что это феноменально сложно, это решаемо, но как и многие продукты такого типа будет вызывать неоднозначную реакцию у тех кто в индустрии работы с данными существует уже сейчас. Подобные инструменты не могут её не менять, причём непонятно, в сторону усиления специалистов среднего уровня или наоборот в сторону снижения их числа на тех же задачах.

Сейчас работа аналитиков - это, часто, очень много ручной работы. Работа дата сайентистов тоже, включает множество экспериментов и чистки данных. В этой области частично всё сдвигается в Automated ML (AutoML), в задачах поддающихся автоматизации. А вот Automated analytics и Automated dashboard в том виде как они существуют сейчас - это лишь преднастроенные отчеты и панели в которых автоматизируют потоки данных. Реальной автоматизации с анализом источников и природы данных пока не наблюдается. Есть на это спрос уже прямо сейчас? Я склоняюсь что он появится вместе с первыми продуктами в этой области.

В итоге я вижу достаточно четкий тренд на усиление конечных пользователей без обучения их дополнительным техническим навыкам. Причём, похоже, он будет только усиливаться в ближайшие годы и туда явно продолжат развитие существующие и новые продукты.

#thoughts #data #datatools
В RSpectr свежая статья про реестр аккредитованных ИТ компаниям, в том числе с моими комментариями [1].

Я ещё раз зафиксирую мою позицию что реестр ИТ компаний получающих льготы (ведёт ФНС) и реестр аккредитованных ИТ компаний (ведёт Минцифры) должны быть одним реестром с правилом двух ключей. Аккредитация должна давать ИТ льготы и подтверждение их должны давать Минцифра и ФНС.

Все остальные "сложные схемы" формирования реестра аккредитованных ИТ компаний можно придумывать сколько угодно, но эта самая простая и понятная.

Ссылки:
[1] https://rspectr.com/articles/svet-moj-reestr-skazhi

#itmarket #digital
Написал сегодня очередной текст в рассылку, на сей раз чуть подробнее рассказал о том как применяется и для чего делается утилита metacrafter [1] выявляющая семантические типы данных.

Если кратко, то это:
- выявление персональных данных
- улучшение data discovery
- автоматическое документирование

Тем временем могу сказать что утилита пополнилась новыми правилами и этой работы там ещё много, а также в базовом варианте она теперь позволяет анализировать XML файлы. В базовом, потому что у ей надо передавать название тега в который вложен объект, а автоматическое определение таких тегов где-то на следующем шаге.

Ссылки:
[1] https://begtin.substack.com/p/28

#metadata #metacrafter #datatools #data #opensource
В рубрике как это работает у них, небольшой обзор проектов по работе с данными в биоинформатике. Небольшой потому что сама эта тема огромна, а публикуемые данные значительно превосходят любой портал открытых государственных данных.

Я сделаю акцент не на обработки больших наборов данных, а на проектах по повышению понимания данных и их систематизации.

Bioschemas

Многие знают про существование Schema.org как совместной инициативы поисковиков Google, Microsoft, Yahoo и Yandex для создания реестра для разметки именованных объектов. Bioschemas [1] - это расширение Schema.org объектами относящимся к химическим веществам, генам, таксонам, молекулам и другим данным важным для исследователей. Создание проекта финансируется Евросоюзом в рамках программы ELIXIR [2]. Проект идет уже более 5 лет [3] и его основная цель в том чтобы метаданные в каталогах и репозиториях данных связанных с науками о жизни были бы стандартизированы и удобны для работы.

Data Discovery Engine

Помимо структурированного описания объектов и понятий в каталогах данных важна ещё и возможность поиска по этому структурированному описанию. Data Discovery Engine [4] - это проект с руководствами по описанию метаданных и по их сбору из существующих каталогов данных таких как CD2H, N3C, Outbreak.info и NIAID Data Portal. Сейчас там агрегируются наборы данных (Datasets) и программные инструменты (Computational Tools), а в основе профили объектов определённые в Schema.org

FAIRSharing

Помимо Bioschemas в мире существуют сотни других стандартов публикации метаданных, как в науках о жизни, так и в других науках. FAIRSharing [5] - это один из крупнейших в мире каталогов таких стандартов в реестре которого собраны руководства, схемы, описания идентификаторов, рекомендации и тд. для данных публикуемых исследователями.


Ссылки:
[1] https://bioschemas.org
[2] https://www.elixir-europe.org/about-us/how-funded/eu-projects/excelerate
[3] https://docs.google.com/document/d/1vfRIT7Jk-RixpA7-_8vWLpXgFuYi2rjecx2wn04E2x0/edit#heading=h.7p6phpp9ttsf
[4] https://discovery.biothings.io/
[5] https://fairsharing.org

#opendata #openscience #openaccess #standards #data
Свежий европейский отчет eGovernment Benchmark 2022 [1] о зрелости электронного правительства в Евросоюзе со сравнению EU27+ стран членов и кандидатов в ЕС.

К нему же презентация с фактами по каждой стране [2].

Акцент в отчете сделан на то что в России называют госуслугами, но включает такой блок как прозрачность действий государства при отборе услуг для цифровизации и прозрачность их создания.

Ссылки:
[1] https://ec.europa.eu/newsroom/dae/redirection/document/88517
[2] https://ec.europa.eu/newsroom/dae/redirection/document/88733

#opengovernment #opengov #eu #policy #government
Одна из тем на которые я регулярно пишу здесь, в телеграм канале, это регулирование цифры и, в первую очередь, данных в ЕС, США и других развитых странах. Пишу я об этом всём уже чёрт знает сколько лет, минимум лет 12, на разных площадках и читать об этом регулировании регулярно у меня уже вошло в привычку.

Но вот в свежих дискуссиях с коллегами/экспертами/лоббистами, в последние месяцы постоянно всплывает одна и та же тема что приводить в России сейчас малорезультативно приводить в пример ЕС или США. Как минимум в части GR, как максимум в части большей части публичных коммуникаций. Например, не поможет в разговоре с Роскомнадзором говорить про GDPR, а в разговоре с Минцифрой про европейские экосистемы обмена данными или американский опыт публикации данных. Это касается не только этих регуляторов, а уже практически любых.

Но, как минимум, русскоязычный мир Россией не ограничивается и нельзя сказать что в России настолько всё хорошо с работой с данными чтобы чужой опыт можно было бы не учитывать.

Поэтому я подумывал сократить число публикаций про регулирование и госполитику в своём канале, но останавливает пока то что:
a) Есть и другие постсоветские страны и русскоязычные читатели по всему миру
б) "Вся эта хрень" не навсегда и думать про то как мир устроен надо.

А что вы думаете про нерелеватность мирового опыта для GR в России? Предлагаю поговорить об этом в комментариях и сейчас я размещу опрос для тех кто готов только проголосовать.

#thoughts #gr #government #regulation
Полезные материалы по управлению метаданными и каталогами данных

Open source продукты
-
Amundsen [1] создан внутри Lyft
- OpenMetadata [2] пытаются создавать стандарт
- Datahub [3] создан в LinkedIn, передан в Acryl Data
- Metacat [4] создан в Netflix
- Apache Atlas [5] передан в Apache Foundation
- Marquez [6] передан в Linux Foundation
- Whale [7] не обновлялся около года

Обзоры
- Top 7 Data Catalog Tools in 2022 [8] обзор от Hevo Data облачных, открытых и корпоративных каталогов

Видео и выступления на русском языке
- Data-docs — как найти данные о данных — Олег Харатов, Авито [9]
- Как мы строим Metadata Managemen — Юлия Кошелева и Энрика Матвейчук, Тинькофф [10]
- Под капотом каталога данных — Анастасия Ожигина, Тинькофф [11]

Видео на английском языке
- Data Catalog for data discovery and metadata management [12] от Google и про Google Data Catalog
- Amundsen: A Data Discovery Platform From Lyft | Lyft [13] видео 2019 года, про раннюю стадию создания Amunsen

Ссылки:
[1] https://www.amundsen.io/
[2] https://open-metadata.org/
[3] https://datahubproject.io/
[4] https://github.com/Netflix/metacat
[5] https://atlas.apache.org
[6] https://marquezproject.ai/
[7] https://github.com/hyperqueryhq/whale
[8] https://hevodata.com/learn/data-catalog-tools/
[9] https://www.youtube.com/watch?v=Cr1DDmhoLKI
[10] https://www.youtube.com/watch?v=3xuNp5L_ikU
[11] https://www.youtube.com/watch?v=puH3uBNoDXk
[12] https://www.youtube.com/watch?v=eUKqXZDXj78
[13] https://www.youtube.com/watch?v=EOCYw0yf63k

#datacatalogs #data #metadata #datatools
В Евросоюзе, очень похоже, начался сезон индексов и рейтингов и вышел рейтинг Digital Economy and Society Index (DESI) 2022 [1] о состоянии цифровой экономики и общества.

Индекс по 4-м направлениям:
- человеческий капитал
- цифровая инфраструктура
- интеграция цифровых технологий
- цифровые государственные услуги

Он почти полностью основан на статистике Евростата, данных опросов Еврокомиссии, данных по участию стран ЕС в общих проектах и данные о стартапах из Startup Genome.

Сравнение стран - это, конечно, важно, но самое интересное в таких публикациях это материалы о многочисленных страновых проектах перечисленные в документах профилей стран. Среди этих проектов немало национальных порталов открытых данных и иных проектов по обмену данными.

Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/library/digital-economy-and-society-index-desi-2022

#opendata #government #eu #opengov #digital #economy
XML файлы бывают разными, мы практически все сталкиваемся с ними когда надо работать с данными и API по ранее разработанным стандартам или когда работа идёт с унаследованными системами.

Но, в целом, XML как семейство стандартов - это, обычно, хорошо структурированные данные. Обычное применение XML стандарта - это обмен данными, конфигурационные файлы, хранение данных и тому подобное. Но, не все знают, но XML как стандарт часто используется и как язык разметки. Например, в MS Office есть возможность сохранить документ как XML-документ Word или XML-документ Excel. Расширение у него будет XML, но содержание будет в виде специального языка разметки.

Почему я это рассказываю? Одна из причин низкой востребованности порталов открытых данных, в особенности федерального data.gov.ru - это полное отсутствие контроля качества, мониторинга качества и тд. И это касается не только частоты обновления данных, но и того что по факту публикуется. Про качество данных там я писал неоднократно, и вот дополню.

Примеры таких файлов [1] [2], а всего их более 48.

Это не так много количественно, но важнее что качественно - такие "данные" это подлог, отсутствие контроля данных и на уровне тех кто их публикует и на уровне тех кто ведёт портал.

Таких примеров много, я в последние годы перестал приводить их в пример в виду общей мёртвости федерального портала data.gov.ru, но это всё к разговору о том что одна из главных претензий к порталам открытых данных. Минэкономразвития не может справится даже с загрузкой собственных данных, публикуя пустышки вроде проектов государственных программ с пустым XML документом [3].

Поэтому я повторю свой тезис что федеральный портал открытых данных в России в текущей форме малопригоден для осмысленного использования, кроме очень редких кейсов.

Ссылки:
[1] https://data.gov.ru/opendata/0274034308-infoobrash
[2] https://data.gov.ru/opendata/0274034308-zakdohodigod
[3] https://data.gov.ru/opendata/7710349494-project71

#opendata #data #government #opengov
Закрываю опрос и по его итогам большинство читателей, всё же, считает что зарубежный опыт развитых стран в цифре в России нужен и актуален. Пока такое настроение сохраняется продолжу писать на эту тему на регулярной основе.