Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Ребята из Digital Rights Center и Privacy Accelerator проводят международную конференцию Privacy Day [1]. Она пройдет 27 января этого года, буквально через неделю в пятницу. Пометьте себе в календаре, конференция интересная, выступления там живые и по делу.

Я также буду там участвовать в секции Приватность во время военных действий и глобальных катастроф. Пока не знаю с презентацией или в дискуссии, но постараюсь рассказать что-то интересное.

И напомню что после очень долгих размышлений и сомнений, мы всё таки проведем день открытых данных в Москве, в сокращённом, формате - в виде онлайн, а не большой оффлайн конференции. Тем не менее там тоже будут интересные доклады, примеры и кейсы работы с данными и инструментами. Подробности будут на сайте Opendataday.ru [2] и в телеграм канале Инфокультуры [3]. День открытых данных по всему миру будет проходить 5 марта.

Ссылки։
[1] https://2023.privacyday.net/
[2] https://opendataday.ru
[3] https://yangx.top/infoculture

#privacy #opendata #events
В рубрике открытых научных данных в России система ЕСИМО (Единая государственная система информации об обстановке в Мировом океане) [1].

Систему создавали начиная, как минимум, с 1999 года и в неё включены данные собираемые различными подведомственными структурами Росгидромета. Система финансировалась из Федеральной целевой программы Мировой океан. Только на основном портале упомянуто 2305 наборов данных.

Далеко не все данные в этой системе являются открытыми, часто они являются коллекциями ресурсов со ссылками на закрытые порталы входящие в ЕСИМО, но часть данных опубликованы и являются полностью общедоступными.

В мире во многих странах есть похожие информационные системы. Например, Portail des données marines [2] во Франции и многочисленные международные проекты и порталы.

Конкретно ЕСИМО создано на довольно старых технологиях, с одной стороны, а с другой весьма детально проработано с точки зрения управления данными. Включает метаданные, связь типов данных с конкретными наборами данных.

Ссылки:
[1] http://portal.esimo.ru
[2] http://data.ifremer.fr/

#opendata #openaccess #russia
Я сегодня потратил несколько часов смотря брифинг Чернышенко и Шадаева по поводу цифровой трансформации государства в РФ в 2022 году. И, конечно же, как и всегда важно не то что говорят, а то о чём _не говорят_. Пока слушал я делал пометки, постараюсь изложить их тут в сжатом виде.

1. Практически окончательный переход от открытости государства к цифровому патернализму. Запомните этот термин и вспоминайте его слушая про проекты государства в цифре. Развитые госуслуги - это ровно про повышение качества патернализма, государства взаимодействие с которым происходит по строго проложенным рельсам. Всё что за пределами этого оказывается далеко в не столь прекрасно поданном состоянии.
2. Единственная форма открытости которая сейчас упоминается - это присутствие госорганов с соцсетях, что можно перевести как лоббирование VK гарантированным наполнением контентом их проектов, а пиарщиков контрактами на ведение этих пабликов. Всё это никак не отражает реальную открытость. Присутствие органа власти в соцсети не означает вменяемости того что там будут писать, гарантию ответа и вообще не имеет значимого юридического эффекта.
3. Слыша про упоминание Гостеха надо задавать себе лишь один вопрос а существует ли Гостех? Если бы брифинг был настоящие, а у журналистов была бы возможность/готовность/интерес задавать реальные вопросы то ключевые вопросы очень простые։
- почему Правительство Москвы отказалось от Гостеха?
- почему Правительство Казахстана отказалось от Гостеха?
- почему до сих пор нет стратегии, концепции, архитектуры Гостеха?
Ответы отчасти риторические, хотя было бы любопытно услышать Собянина о том почему Гостех "не взлетел в Москве".
4. При этом реклама/маркетинг которым продвигают Гостеха весьма агрессивны интенсивны. Фактически, Гостех продвигают так словно он в совсем хреновом состоянии. Потому что на хороший продукт столько маркетинга, с привлечением вице-премьера, не нужно. Хороший продукт "продаёт" себя сам. А вот такое административное давление на госорганы федеральные и региональные - это демонстрация давления на сомневающихся, потому что ответственные за ИТ люди в госорганах, помимо того что просто не хотят терять контроля за ИТ системами, но ещё и понимают что потеряют контроль за их разработкой, развитием, гарантией результата и тд.
5. Меры про удержание ИТшников в России я даже не комментирую.

В качестве резюме։ выглядит это всё весьма печально. Я более 10 лет изучаю того как устроены подходы государства к цифровой трансформации и внедрении технологий и чем дальше тем больше убеждаюсь что
наблюдать за происходящим в России довольно бессмысленно. Ну или полезно только для примеров того как делать не надо.

#government #policies
Forwarded from Инфокультура
В каталог каталогов открытых данных Datacatalogs.ru добавлены новые 9 новых каталогов. Из них 8 - это геопорталы региональных правительств, городов и научных центров, а один - это пропущенный ранее портал открытых данных Амурской области.


- Геопортал Республики Саха-Якутия https://sakhagis.ru/
- Геопортал МГИС г. Череповец МАУ "ЦМИРиТ" https://map.cmirit.ru/portal-gorod/
- Геопортал ИВМ СО РАН http://gis.krasn.ru/
- Геопортал Челябинской области https://gis.inf74.ru
- Геопортал города Выборг https://map.vbglenobl.ru/
- Геопортал города Калининграда https://geoportal.klgd.ru
- Геоинформационный портал города Владивостока https://gorod.vlc.ru
- ГИСОГД Нижегородской области https://gisogdno.ru/
- Открытые данные Амурской области https://opendata.amurobl.ru

Если Вы знаете порталы открытых данных, а также каталоги данных и геопорталы с публикацией слоёв геоданных, добавляйте их в форме на сайте или пишите нам в чате.

#opendata #datacatalogs #datasets
В рубрике интересных наборов данных данные World Values Survey [1] глобального опроса о ценностях проводимого среди жителей десятков стран. Опросы проводятся 5 летними периодами и последняя 7я волна проходила с 2017 по 2022 года. Например, опрос в России проводился в 2017 году, а в Нидерландах в 2022 году. Это делает такой анализ довольно необычным по сравнению с ежегодными исследованиями и рейтингами, а с другой стороны измеряются же фундаментальные ценности, поэтому такие периоды вполне оправданы.

Что не менее интересно и важно, все данные публикуются в машиночитаемых форматах [2] которые включают данные в CSV, SPSS, STATA и пакетами для языка R. Причём за все волны исследований, начиная с 1981 года.

Фактически основной результат исследований - это данные, их хорошо знают социологи работающие с подобными данными во многих странах.

Последнее обновление с актуальными временными рядами были опубликованы в декабре 2022 года и теперь можно визуализировать изменения в ценностях с 1981 по 2022 годы.

Ссылки:
[1] https://www.worldvaluessurvey.org
[2] https://www.worldvaluessurvey.org/WVSContents.jsp

#opendata #datasets #data
Полезное чтение про данные, технологии и не только։

Why I moved my dbt workloads to GitHub and saved over $65,000 [1] автор пишет о том что заменил облако dbt (продукт dbt cloud) на Github Actions и сэкономил много денег. Правда в комментариях ему пишут что мол автор, это же очевидно. Но про несколько важных выводом можно вспомнить։
1) Github - это теперь в первую очередь система управления разработкой и автоматизации задач и лишь во вторую хранилище кода. Как минимум с точки зрения бизнес модели.
2) Крупные инфраструктурные игроки могут достаточно легко подорвать бизнес open source сервисов вроде dbt, просто предлагая то же сильно дешевле. Кстати, пример с конфликтом лицензий Elastic тоже был из той же природы, когда Amazon давали аналогичный сервис значительно дешевле

The State of Data Testing [2] обзор состояния задач и подходов к тестированию данных. Автор сотрудник компании Datafold и текст в их блоге. Поскольку компания как раз на тестировании данных специализируется, то и акценты на их компетенциях. С другой стороны все перечисленные подходы действительно есть, а их data-diff [3] полезный продукт с открытым кодом для сравнения таблиц. Почему подходы не полны? Это всё та же ситуация с управляемыми и неуправляемыми источниками данных. Задачи корпоративной дата-инженерии чаще всего сводятся к работе с управляемыми источниками или в возможности воздействия на них в случаях ошибок в данных. Работа с общедоступными данными слишком часто означает ненадёжность источника, невозможность повлиять на качество данных привычными методами.

Ссылки:
[1] https://medium.com/@datajuls/why-i-moved-my-dbt-workloads-to-github-and-saved-over-65-000-759b37486001
[2] https://www.datafold.com/blog/the-state-of-data-testing
[3] https://github.com/datafold/data-diff

#data #readings #dataengineering #dataquality
В начале 2007 года пропала посылка, отправленная с севера Англии в Национальное контрольно-ревизионное управление (NAO) в Лондоне. В нем находились два диска с личными записями двадцати пяти миллионов человек, включая их адреса, дни рождения и номера национальной страховки, необходимые для работы в Соединенном Королевстве, которые NAO намеревалась использовать для «независимого исследования» база данных детских пособий для проверки на предполагаемое мошенничество. Вместо этого эта информация так и не была восстановлена, последовал национальный скандал, а младший чиновник, отправивший посылку, был уволен...

Познавательная статья Database States от Sanjana Varghese вышла в Baffler [1] и автор пишет о том как Великобритания превратилась в страну баз данных где собирается неимоверное число баз данных. Автор там же ссылается на доклад 2009 года с похожим названием Database State [2] подготовленную группой исследователей из Joseph Rowntree Reform Trust Ltd.

Ключевая тема в статье Sanjana Varghese о том что работа с базами данных все эти годы только нарастала, данных становится больше, они лучшего качества и они не нейтральны, иначе говоря их владельцы могут применять и специальные службы их не только по прямому назначению и этот тренд только нарастает.

Здесь я не могу не оговориться что такая ситуация не только в Великобритании, обзор нарушения приватности с помощью государственных баз данных будет актуален и для России и для многих других не только постсоветских стран.

Ссылки:
[1] https://thebaffler.com/latest/database-states-varghese
[2] https://www.cl.cam.ac.uk/~rja14/Papers/database-state.pdf

#privacy #data #government
Минцифры РФ через Гостех разродили документ МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ОРГАНИЗАЦИИ ПРОИЗВОДСТВЕННОГО ПРОЦЕССА РАЗРАБОТКИ ГОСУДАРСТВЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ С УЧЕТОМ ПРИМЕНЕНИЯ ИТЕРАЦИОННОГО ПОДХОДА К РАЗРАБОТКЕ

Он легко гуглится на Tadviser'е и других ресурсах [1].

Я о нём подробно напишу позже, чтобы бить в одну воронку надо долго прицеливаться (с). А пока вопрос с ходу - не превышает ли Минцифры свои полномочия распространяя методические рекомендации на все госконтракты и уровни государственной власти, напоминаю, они могут быть федеральные и субъектов федерации. Муниципальная власть, пока, отдельно.

Ссылки։
[1] https://www.tadviser.ru/images/1/1c/%D0%9C%D0%A0_%D0%98%D1%82%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B8%D0%B7%D0%B2%D0%BE%D0%B4%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81_%D0%93%D0%98%D0%A1.pdf

#government #tech #readings
Методические рекомендации по организации Agile/Scrum в госпроектах от команды ГосТеха и с привязкой к платформе ГосТеха — это значит что ... (можно несколько вариантов ответа)
Anonymous Poll
13%
Отличная штука! Больше эджайла и ГосТеха в жизнь госслужащих
22%
Бессмыленна, эджайл и скрум невозможны в госухе
16%
Коррупционно. Ну, мы же понимаем, там весь Гостех это лишь один вендор и мы его знаем...
6%
Хорошо бы больше, но без Гостеха, само по себе
2%
Гостех - хорошо, а методические рекомендации так себе.
12%
Минцифры много на себя берёт распространяя на других пусть с себя и начнут
16%
Нет никакого ГосТеха кроме как на бумаге и в презентациях отдельных людей
7%
Прочитал. Людей с записью "Гостех" в резюме на работу брать не буду. Поделитесь списком, кстати
11%
Да ладно Вам. Люди профессионально саботирует госинформатизацию. Молодцы же! Работают с огоньком
43%
У меня тут пиво и попкорн, так что я ничего не знаю, хочу посмотреть что другие думают
The State of Open Data Policy Repository [1] коллекция регуляторных документов в отношении открытых данных в мире собираемая Open Data Policy Lab. Плюс - мало где такие коллекции есть, я припоминаю разве что коллекции ОЭСР и OGP, минус - пока документов мало, в виде набора данных не публикуют. Совсем нет уровней Sub-national и Local, по-русски - региональные и муниципальные уровни власти. Совсем нет про открытый доступ. Но полезно даже то что там есть, а это 60 документов в общей сложности.

Ссылки։
[1] https://repository.opendatapolicylab.org/

#opendata #policies #regulation
Для тех кто находится в развивающихся странах и интересуется открытыми данными Global Data Barometer раздаёт мини гранты до $5000 [1] для проектов в странах Глобального Юга (Global South). Для тех кто не знает - это модель разделения развитых и развивающихся стран по критерию их местонахождения [2]. Термин довольно давний, часто используемый для разделения развитых и развивающихся стран. При том что есть исключения в виде Австралии которая находится в Южном Полушарии, но относится к Глобальному Северу из-за высокого уровня жизни. А также сейчас сложно относить Китай к развивающимся странам.

Тем не менее термин существует, кооперация между этими странами есть, глобальная международная помощь также присутствует, а GDB раздаёт гранты на проекты в этих странах. Из постсоветских стран к Глобальному Югу относятся։ Узбекистан, Таджикистан, Киргизия, Туркменистан. Все остальные включая Россию, Казахстан, Армению, Азербайджан, Беларусь, Украину и балтийские республики к ним отнести уже давно нельзя.

Гранты небольшие, скорее под личные просветительские проекты. Требуют знания английского языка и даются на 3 месяца с февраля по май 2023 г.


Ссылки։
[1] https://globaldatabarometer.org/2023/01/call-for-proposals-supporting-uses-of-gdb-data-to-advance-the-knowledge-on-data-for-public-good/
[2] https://en.wikipedia.org/wiki/Global_North_and_Global_South

#opendata #grants #opengov
У CitizenLab, канадской лаборатории при Университете Торонто специализирующейся на приватности вышло большое исследование-лонгрид You Move, They Follow Uncovering Iran’s Mobile Legal Intercept System [1] на основе документов электронной переписки которые им передал источник связанный с Иранским телеком-регулятором Communications Regulatory Authority of Iran (CRA).

Исследование/расследование длинное, с большим числом ссылок и подробностей, с важным акцентом на их канадского вендора PortaOne и с упоминанием ещё и британского Telinsor и российского Protei (догадаться несложно оригинальное название в кириллице).

Применительно к вендорам одна из ключевых тем исследования что "все врут", а то есть нигде не указывают сотрудничество с Иранскими компаниями, хотя, как утверждается, его осуществляют.

Другая интересная часть там - это про то как в Иране регулятор буквально встраивает своё API в системы операторов и знает о всех учётных действиях пользователя, а некоторые даже согласуются только через него, например, смена мобильного оператора.

Российской системе слежки за абонентами есть куда стремиться, хотя, может мы просто о ней недостаточно знаем.

Ссылки։
[1] https://citizenlab.ca/2023/01/uncovering-irans-mobile-legal-intercept-system/

#privacy #security #iran #surveillance
⚡️Новый сервис «Поиск по архивам» от Яндекса

Сервис помогает находить рукописные документы по ключевым словам, используя имена, фамилии, названия населённых пунктов и любые другие слова.

Сейчас в базе более 2,5 миллионов архивных документов XVIII — начала XX века из хранилищ Москвы, Оренбурга и Великого Новгорода. Чаще всего это метрические книги с записями актов гражданского состояния (рождений, браков, смертей), исповедные ведомости со списками прихожан церквей и ревизские сказки с результатами переписей населения.

В основе сервиса используются нейросети, способные расшифровывать архивные записи с дореволюционной орфографией.

Попробовать поиск по архивам: https://yandex.ru/archive
The State of European Tech 2022 [1] большой обзор венчурного рынка в Евросоюзе от Atomico. Тем кто интересуется привлечением и раздачей инвестиций там много интересного, тем что следит за отраслями и регулированием тоже. Например, полезно будет узнать что большинство респондентов этого обзора из числа инвесторов негативно оценивают европейские законы о защите данных и приватности, а представители академических структур и наёмные работники позитивно. Это всё к тому что европейские регуляторы явно действуют в интересах электората, а не рынка.

Но в целом там ещё много интересного, особенно про различия в восприятии инвесторов и фаундеров компаний и том как фаундеры и инвесторы меняют стратегии в ситуации сжимания объёма доступных инвестиционных средств.

Ссылки:
[1] https://stateofeuropeantech.com/

#startups
Напоминаю что в пятницу будет проходить Privacy Day 2023, на сайте доступен перечень спикеров и программа. А само мероприятие будет транслироваться на Youtube.
Мероприятие ранее проходило ежегодно в Москве, теперь организаторы сделали его международным и проходящим полностью онлайн. Так что будет интересно всем для погружения в повестку приватности не только в России.

#events #privacy
В 1 февраля 2023 года должен начаться большой глобальный проект Open Global Data Citation Corpus [1]. Это большой корпус по данным научного цитирования включающий публикации с DOI и без DOI и реализуемый в партнерстве Wellcome Trust, Chan Zuckerberg Initiative и DataCite. А также я так понимаю что туда вовлечены участники из проектов EMBL-EBI, COKI, OpenAIRE, and OpenCitations․ Это может быть весьма большим и интересным набором данных поскольку до сих пор никто такую глобальную базу не собирал. Лично мне правда интересно почему не взяли за основу OpenCitations [2], а может как раз и взяли и просто ещё не рассказали нам об этом до анонса. Главным недостатком OpenCitations как раз и было то что их база охватывала только документы с DOI, которых много, но они не все.

Ссылки։
[1] https://blog.datacite.org/data-citation-corpus-announcement-2023/
[2] https://opencitations.net/

#opendata #datasets #openaccess #openscience
У ОЭСР вышла свежая публикация по теме регионального развития Using private sector geospatial data to inform policy [1] с обзором государственно-частных партнерств по созданию продуктов на основе геоданных поставляемых и государственной геоинфраструктуры и частных поставщиков и партнеров. Документ любопытный большим числом ссылок, форматов партнерства и конкретных рассмотренных примеров из Евросоюза, Южной Кореи, Индии, Канады и других стран.

Впрочем главное в документе это не только примеры, но и институциональная рамка таких партнерств, а это Data Partnership [2], а это сотрудничество между международными организациями и технологическими компаниями, способствующее эффективному и ответственному использованию данных третьих лиц в международном развитии.

Организованное под эгидой Мирового Банка и в партнерстве со всем крупным биг тех сектором и крупнейшими "игроками рынка" международного развития.

Я об этих партнерствах писал довольно мало, хотя это важное изменение с политике крупных межгосударственных структур и по масштабам оно гораздо больше чем политика работы с открытыми данными.

Однако, возвращаясь к конкретно этому документу, геоданные являются одним из наиболее приоритетных источников партнерств потому как органы власти слишком часто не обладают ресурсами условных Google или Meta по сбору данных о каждом жителе. А для бигтеха - это возможность иметь про запасы аргументы в разговорах с регуляторами почему они не такие плохие и что слежка за всеми оправдана.

Ссылки:
[1] https://www.oecd-ilibrary.org/urban-rural-and-regional-development/using-private-sector-geospatial-data-to-inform-policy_242f51b8-en
[2] https://datapartnership.org/

#data #regulation #policies #oecd #datapartnership
В рубрике как это работает у них, шведский портал данных о COVID-19 The Swedish COVID-19 & Pandemic Preparedness Data Portal [1]. Создан командой проекта SciLifeLab [2] который, в свою очередь, создан консорциумом 4-х государственных университетов, как проект по работе с данными о науках о жизни.

На сайте одновременно есть наборы данных, результаты исследований, публикации, научные статьи и информация о идущих исследованиях и их планировании. В итоге это не только геномные данные, но и все остальные данные связанные с пандемией прямо или косвенно.

Ссылки։
[1] https://covid19dataportal.se/
[2] https://www.scilifelab.se/

#opendata #covid19 #datasets