Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике интересные наборы данных, Table Union Search on Open Data, научная статья [1] и база данных [2] с фокусом на автоматизацию объединения табличных данных. Исследование о том можно ли и насколько эффективно можно объединять разные табличные данные по полям которые кажутся идентичными, совпадающими.

Задача эта, во многом про автоматизацию выявления метаданных, задача, безусловно интересная и очень про качество публикации данных и дальнейшее использование. Типовой пример, нужно собрать все данные по российскому региону из всех опубликованных открытых данных. При том что могут отличаться наименования полей.

Несмотря на то что статье более 3-х лет и результаты анализа на основе таблиц из порталов открытых данных 3-х летней давности, актуальности задачи не теряет. Отчасти жаль лишь что опубликовано маловато кода, может быть авторы делают коммерческий продукт, правда 3 года прошло.

Ссылки:
[1] http://www.vldb.org/pvldb/vol11/p813-nargesian.pdf
[2] https://github.com/RJMillerLab/table-union-search-benchmark

#opendata #dataquality #data
Для тех кто любит визуализировать данные и получать за это призы, премии, уважуху и признание коллег, до 21 мая идёт приём заявок [1] на EU DataViz 2021, конференцию в рамках дней открытых данных Евросоюза которая пройдет 23-24 ноября 2021 года.
Ограничений по стране подачи нет, можно подаваться из России, тем более что в России визуализация данных и журналистика представлены очень даже неплохо (как бы нам не казалось иное иногда). Не стесняйтесь, не бойтесь показаться неумелыми, международное признание штука хорошая, не только для самолюбия, но и для портфолио.

Прошлый EU DataViz проходил в 2019 году, там немало полезных презентаций и иных материалов [2]

Ссылки:
[1] https://op.europa.eu/en/web/eudataviz
[2] https://op.europa.eu/en/web/eudataviz2019

#opendata #dataviz
Завтра семинар по реформе регуляторике в канале @smart_regulation. Для тех кто интересуется этой темой, заодно, рекомендую подписаться. Тема кажется узкой, но для всех кто сталкивается с отечественным нормотворчеством она совсем не узка.
Программа 23.04.21 final.pdf
135.5 KB
Итоговая программа семинара по регуляторной реформе 23 апреля (голосовой чат Телеграм, 10.00-12.30 МСК).

👉 Импульсные доклады:
1) Александр Литвак (Минэкономразвития России),
2) Михаил Прядильников (АЦ при Правительстве РФ),
3) Иван Бегтин (Инфокультура @begtin),
4) Даниил Цыганков (Департамент политики и управления НИУ ВШЭ).

👉 Панель дискуссантов:
1) Алексей Ефремов (РАНХиГС),
2) Филипп Кулин (@usher2),
3) Антон Гопка (itmotech),
4) Илья Чертков (Россия без ерунды).

В случае возникновения в ходе чата вопросов / технических проблем можно обращаться к одному из модераторов, Виктории Захаровой: @vctory_z
Инструкция по голосовому чату👇
Максут Шадаев в интервью Коммерсанту 20 апреля весьма разумно изложил почему не надо тратить бюджетные деньги на локализацию SAP [1]. Я также считаю что если у продукции есть крупные корпоративные потребители, то и тратить средства на локализацию должны именно они.

Есть за что Минцифры можно ругать (предустановка ПО), а есть за что можно хвалить (отсечение заведомо неразумных инициатив).

Было бы больше про открытость данных, так вообще цены бы министерству не было.

Ссылки:
[1] https://www.kommersant.ru/doc/4781615

#opendata #digital #импортозамещение
Где-то дипфэйки, а где-то новое место для рекламы (с) Британский AdTech стартап Mirriad применяет технологию [1] внедрения рекламы в видеоконтент. Эдакая "нативочка" выглядящая естественно и она уже применяется для одного из китайских стриминговых вебсайтов. Сама компания Mirriad получила более 67 миллионов долларов венчурного финансирования, с последним раундом в $23 миллиона долларов в декабре 2020 года [2], стала публичной ещё в 2017 году.

В каком-то смысле технология пугающая, потому что может позволить перерисовать огромное число исторических фильмов, а в будущем ещё и в реальном времени внедрять нативную рекламу в стриминг, трансляции и видео загружаемые на популярные сайты и многое другое.

Признаться я слышал об этой технологии, но раньше не задумывался кто и как её применяет и возможно ли, а тут похоже что всё более чем активно развивается.

Интересно появятся ли аналогичные отечественные стартапы и работает ли хоть кто-то в этом направлении?

Ссылки:
[1] https://www.bbc.com/news/business-56758376
[2] https://www.crunchbase.com/organization/mirriad/company_financials

#tech #startups #adtech
К вопросу об интересных наборах данных и их сохранности. После обновления системы ЕГИСУ НИОКТР (Единая государственная информационная система учета результатов научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения) [1] из раздела открытые данные исчезла возможность выгрузки данных до 2016 года, а также изменился сам формат выгрузки данных. Если ранее это были XML дампы (без схем и документации), то сейчас это JSON дампы, также, без схем и документации.

Масштаб изменений пока измерить сложно потому что в новых выгрузках данных в ЕГИСУ много ошибок. Но старые данные, до 2016 года в них не находятся.

Архив этих данных у нас, конечно, есть, но это ещё один сигнал о необходимости архивации открытых данных.

Ссылки:
[1] https://rosrid.ru

#opendata #data #dataquality
Sony вместе с Университетом Кореи опубликовали результаты исследования по построению FlavourGraph [1] базы сочетания вкусов. Очень интересная наработка, надеюсь что авторы выложат когда-нибудь не только схемы, но и данные.

А в основе этой работы алгоритмы и базы данных вкусов и рецептов.

Ссылки:
[1] https://www.nature.com/articles/s41598-020-79422-8

#data #ai
11-13 мая пройдёт большая международная конференция Access for All. Plain Language is a Civil Right [1]. Там большая насыщенная программа [2] со спикерами из десятков стран о практике простоты языка.

Конференция платная, не очень дешёвая, но есть скидки по тому к странам с какими доходами вы относитесь. Россия страна со средними доходами и код скидки ZONE2. Вместе с ним стоимость участия: $49.00 для студентов, $109 для членов ассоциаций, $139.00 для тех кто в ассоциации не входит.

Организует конференцию Clarity International, Center for Plain Language и Plain Language Association International. Я лично вхожу в ассоциацию Clarity International уже много лет, плачу членские взносы и получаю по подписке их журнал и поэтому получу небольшую скидку. Много лет я также представляю Россию в Clarity International и ещё 4 человека из России входят в Plain Language Association [3] и вот и всё. Практически никто от России не выступает на международных конференциях, честно говоря я вот тоже этого не делаю. Рассказываю только на российских конференциях или вот последняя моя презентация с российско-германского форума [4], но вот к этой международной конференции, увы, я не успел подготовиться, но с удовольствием послушаю участников.

Напомню что у Информационной культуры есть проект по простоте и понятности русского языка [5] где можно измерить сложность языка в годах обучения. У проекта есть открытое API с помощью которого можно анализировать тексты автоматически/автоматизировано.

Ссылки:
[1] https://www.accessforallconference.com/
[2] https://www.accessforallconference.com/may-program
[3] https://plainlanguagenetwork.org/membership/member-directory/
[4] https://www.beautiful.ai/player/-MZCRhasvASjRmvzWl7c
[5] https://plainrussian.ru

#plainlanguage #plainrussian
В Евросоюзе окончательно объединили портал данных стран ЕС и портал данных структур Евросоюза в единый портал data.europa.eu [1] с более чем 1.1 миллионами наборов данных.

На что стоит обратить внимание:
1. Наличие измерение качества данных как минимум на уровне оценки достаточности метаданных к наборам данных.
2. Подавляющее число данных - это геоданные. Их там под 90% от всех наборов данных.
3. Данные агрегируются из 81 каталога, национальных каталогов стран, регионов стран и организационных структур и проектов ЕС.
4. Только у одного каталога всё отлично с метаданными, у 16 хорошо и у всех остальных достаточно или плохо [2]
5. Все порталы ЕС отдают списки наборов данных по стандарту DCAT-AP [3] и это позволяет агрегировать данные на центральном портале.

Также любопытно свежее исследование об устойчивости инфраструктуры открытых данных и модели Community Data Spaces [4], там пока только прототип из скриншотов, но логика про построение Github'а для данных


Ссылки:
[1] https://data.europa.eu
[2] https://data.europa.eu/mqa?locale=en
[3] https://op.europa.eu/en/web/eu-vocabularies/dcat-ap
[4] https://data.europa.eu/sites/default/files/sustainability-data-portal-infrastructure_6_distributed-version-control.pdf

#opendata #eu #data
Sandeep Uttamchandani

Sandeep Uttamchandani автор весьма неплохой книги "The Self-Service Data Roadmap: Democratize Data and Reduce Time to Insight" о работе с платформами управления данными в статье Why is reliable metadata becoming important? [1] пишет о изменении подхода к работе с метаданными и переход от "схема-при-записи" к "схема-при-чтении" когда вместо подготовки описания метаданных при их загрузке в хранилище, они загружаются как есть, а уже после загрузки метаданные добавляются. Подход близкий к замене классической стратегии обработки данных ETL на ELT, когда большая вместо обработки данных до загрузки работа с данными, включая их преобразования, происходят уже внутри облака/озера данных и тд.

Иначе говоря вначале получаем данные в любом виде и только после того как их загрузили в хранилище начинаем их преобразовывать, документировать и описывать метаданные.

Мои мысли во многом коррелируют с тем что автор пишет, работа с метаданными должна адаптироваться под задачи для которых они собираются. Самая популярная/актуальная тема каталогизации данных сейчас - это машинное обучение и вокруг неё сейчас и массово открываются проекты корпоративных каталогов данных.

Ссылки:
[1] https://towardsdatascience.com/why-reliable-metadata-is-becoming-important-f29e01b01d4d

#data #metadata
Эту рассылку [1] я решил посвятить такой специфической теме как государственные реестры, регистры, справочники и иные, как правило, общедоступные базы данных. Как правило их появление - это отражение какой-либо деятельности регулируемой государственными органами области деятельности.

Ссылки:
[1] https://begtin.substack.com/p/16

#data #opendata #api
Случилось неприятное, но ожидаемое. Портал graduate.edu.ru с данными по трудоустройству и доходам выпускников ВУЗов закрылся [1]. Никакого публичного анонса не было, просто по ссылкам теперь выдаются ошибки.

Очень жаль, несмотря на устаревшие данные альтернатив у него небыло. Открытые данные из этого портала, конечно же, Минобрнауки не публикует и никогда ранее не публиковало.

Ссылки:
[1] http://graduate.edu.ru/

#opendata #edu
Все уже прошлись по рейтингу цифровой трансформации ФОИВов [1], только я пишу последним (с).
Мне много что есть сказать, но пока я сформулирую ключевую мысль как то что рейтинг - это оружие слабых или не встроенных в иерархию, не имеющих прямого руководящего воздействия. Рейтинг придумывают чтобы воздействовать косвенно, а при прямом влиянии осуществляют мониторинг. А при мониторинге непонятно зачем ему медийность и кого вообще волнуют места в рейтинге.

Рейтинг должен иметь прозрачную методику, составляться независимо и точно не в целях сравнения подчинённых структур. Я сам как составитель рейтингов вижу их большую ограниченность. И самая главная ограниченность в том что текущая структура ФОИВов и распределение полномочий - это политическая, а не функциональная конструкция. У нас ФОИВами являются одновременно Минфин и Фельдъегерская служба, а с недавних пор ещё и Пробирная палата. Можно ли их вообще сравнивать?
И даже если их сравнить, то сравнивать надо и социальный эффект от, прости Господи, цифровой трансформации Минздрава или Минобрнауки и от цифровой трансформации Фельдегерской службы.

Признавать такие рейтинги - это признавать удачной и допустимой текущую структуру полномочий и статусы ФОИВов, а я вот не готов подобное признавать. Есть много разных критериев оценки и мониторинга внедрения современных технологий в органы власти и рейтингами системных изменений не достичь.

Ссылки:
[1] https://tass.ru/ekonomika/11248119

#digital #government
2 года назад я писал о том как органы власти используются пиратскую версию MS Office [1]. Это анализ который я проделывал прошерстив сайты несколько десятков крупных ФОИВов и проверив файлы в форматах .doc, .docx, .xls, .xlsx, .ppt, .pptx на предмет их метаданных. По умолчанию пиратское ПО оставляет метки в метаданных файлов о том какая пиратская группа разместила сборку MS Office. Неопытные пользователи на этом попадаются.

Спасибо читателю моего канала в телеграм, обнаружившему что в материалах по "регулированию просвещения" [2] все те же метки пиратского ПО.

Я бы сказал что смешно, не будь это так грустно. Когда-то я не стал продолжать копать в этой теме исходя из того что все давно или избавились от пиратского ПО, или перешли на облачную версию MS Office или на "импортозамещённые продукты".

Цифровая трансформация говорите ... ? Ну, вы меня понимаете.
Надо повторять этот анализ.

Ссылки:
[1] https://begtin.tech/government-piracy/
[2] https://regulation.gov.ru/projects#npa=115396

#piracy #government
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Смотрю на "Бюджет для граждан Санкт-Петербурга 1993 г." и удивляюсь, как он почти 30 лет назад мог быть более открытым, понятным и структурированным, чем большинство современных бюджетов для граждан (БДГ) регионов и муниципалитетов (до сих пор БДГ часто представлены в виде презентаций, перегруженных терминологией и содержащих только общие суммы расходов/доходов, неинформативный для граждан).

В БДГ Санкт-Петербурга 1993 г. можно узнать:

- об увеличившейся в 14 раз сумме на содержание госорганов по сравнению с 1992 г.;
- об увеличившихся с 572 млн до 16,2 млрд руб. расходах на содержание правоохранительных органов;
- о соотношении закрепленных доходов и дотаций для каждого района города, абсолютных суммах доходов и доходов на 1 жителя района;
- о поставках и недопоставках каждого вида общественного транспорта, дотациях на проезд одного пассажира наземным транспортом и метрополитеном и о доходах предприятий городского транспорта.

И не могу в очередной раз не отметить, что я до сих пор удивлена тому, что 4 года назад Минфин России и Комитет финансов Санкт-Петербурга на запрос с просьбой помочь найти "некий документ 90-х годов, похожий на бюджет для граждан Санкт-Петербурга", не просто идентифицировали его, но и нашли в архиве, отсканировали и прислали.

Традиционно делюсь ссылкой на файл с бюджетом для граждан, а заодно и спойлерю "Цифровой архив госфинансов", который мы планируем запустить в рамках проекта ГосЗатраты: https://www.dropbox.com/s/xwamnhxki3oy8f1/БДГ%20Санкт-Петербург.1993.pdf
В рубрике интересные наборы данных.

Для тех кто интересуется почтовой статистикой, на сайте международного почтового союза доступна статистика почтовых служб [1] с 1980 по 2019 годы по всем странам мира. Интересных цифр там много, есть с чем сравнивать, а если выбрать формат для экспорта то можно получить их в машиночитаемом виде.

Коллекция скандалов вокруг конгрессменов США с 1980 по 2018 годы, всего 316 скандалов сексуального, денежного, политического и иного характера [2]. Ух, как жаль что в российских политических реалиях никто такую базу не рискнёт собрать и соблюсти подчёркнутый нейтралитет.

Ссылки:
[1] https://www.upu.int/en/Universal-Postal-Union/Activities/Research-Publications/Postal-Statistics
[2] https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/BID3QM

#opendata #post #politics
Свежий доклад ОЭСР "Good Practice Principles for Data Ethics in the Public Sector" [1] о принципах этики данных в госсекторе. Документ, в основном, из благопожеланий и именно принципов, без разбора конкретных кейсов и практики. Но и в таком виде он полезен для отсылки в документах конкретных исследований.

Ссылки:
[1] https://www.oecd.org/gov/digital-government/good-practice-principles-for-data-ethics-in-the-public-sector.pdf

#opendata #dataethics #oecd