Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Руфус Поллок, основатель Open Knowledge Foundation и многолетний создатель портала CKAN используемого для открытых данных пишет в блоге проекта о том не пришло ли время для headless DMS [1] как безголовой системы управления данными по аналогии с headless CMS, безголовыми системами управления контентом.

Для тех кто мог пропустить такое явление как headless CMS - это такой вид системы управления контентом у которой нет интерфейса для пользователя. Да, звучит странно, но тем не менее. Идея headless CMS в том чтобы отделить создание контента от его отображения. Идея не новая, но получившая сильное развитие с появлением мобильных приложений. В headless CMS редаторы контента вносят тексты/медиа/иные материалы, система раздаёт этот контент через API, а для его отображения делаются мобильные приложения работающие с API напрямую и веб-приложения также работающие через API. Примеры таких продуктов - Contentful, GraphCMS, Strapi и ещё многие другие. Многие из них существуют только как веб-сервис, другие имеют форму открытого кода, но главное в том что они постепенно становятся мэйнстримом. Airtable который я использую для ведения многих таблиц и баз данных - это тоже подвид headless CMS, во всяком случае это одно из частых если не основных областей применения такого продукта.

Возвращаясь к данным, системы управления данными, Data Management Systems, тоже бывают headless. Например, корпоративные каталоги данных код которых открывали LinkedIn, Uber, Facebook и другие, как раз построены по модульному принципу с веб интерфейсов отделенным от системы управления метаданными, а регистрация данных почти вся происходит через API. Это не совсем headless DMS, поскольку headless предполагает, всё же, наличие интерфейса администратора, но близко к тому. А вот CKAN - это всегда был цельный продукт включающий API, сервисы, веб интерфейс отображения и администрирования. Иначе говоря очень похоже на классическую CMS, но со специализацией на данных.

Об этом и пишет Руфус Поллок, плюс за кадром остаётся то что довольно много стартапов в последнее время появляется вокруг похожих задач и целей. Например, Qri [2], совершенно замечательнейший набор инструментов в виде командной строки, десктопного приложения и облака реестра данных qri.cloud с открытым кодом всего кроме реестра данных и облака. Если бы они пошли по пути открытия кода облачной/серверной части то довольно было поубивали бы множество проектов каталогов открытых данных, потому что продукт сделан хорошо. Но скорее всего они так поступить не могут, потому что инвестиции, стартап и что-то им надо монетизировать и они пытаются монетизировать центральный репозиторий, а это ровно то от чего никто не хочет зависеть, ключевой компонент под контролем одной коммерческой компании.

Есть и другие похожие инициативы, я регулярно о них пишу и их всё больше. Поэтому headless DMS это вполне актуальная тема и уже есть много надстроек над CKAN где веб интерфейс CKAN'а не использовался, а только и исключительно API. К примеру, поисковик по данныи в Австралии Magda.io построен через агрегацию данных в DCAT формате (API CKAN и др.)

Ну а если создавать новые каталоги данных, то, по хорошему, конечно их надо создавать headless или, хотя бы, многокомпонентными по аналогии с Qri.

Ссылки:
[1] https://ckan.org/2021/03/17/is-it-time-for-headless-dms/
[2] http://qri.io

#opendata #data #datacatalogs
Я всё искал живые примеры того как хорошо/плохо построена работа с данными и сколько иллюзий у граждан/бизнеса/пользователей. Многие, например, думают что госорганизации публикуют плохие данные специально, а где-то внутри и тайно хранят и используют хорошие. Такое бывает очень редко, а чаще миром правит худоумие, а не хитроумие. О многих историях об этом написать нельзя по разным причинам, но о каких-то публичных и общедоступных более чем необходимо.

Рассмотрим пример, Центр по лицензированию, сертификации и защите государственной тайны ФСБ России [1] в открытом доступе публикует 4 реестра [2], все в формате .docx файлов:
- Реестр лицензий на деятельность, связанную с шифровальными (криптографическими) средствами
- Реестр лицензий на деятельность по разработке и производству средств защиты конфиденциальной информации
- Реестр лицензий на деятельность по выявлению электронных устройств
- Реестр лицензий на деятельность, связанную с оборотом СТС

Среди них, первый реестр, лицензий на деятельность, связанную с шифровальными (криптографическими) средствами - это файл MS Word (.docx) состоящий из одной таблицы в 1985 страниц и 4880 записи. Алексей Лукацкий ранее писал что этот файл с коллосальным трудом открывается, действительно, это аномально вести реестр таким образом. Для тех у кого не получится его открыть, я когда-то делал специальную утилиту docx2csv [4], она умеет вытаскивать таблицы из .docx файлов и сохранять их как серию файлов CSV или один XLSX.

Поэтому то что этот и остальные реестры публикуются в docx формате - это проблема, но проблема скорее культурная. Если бы в центре реально хотели делать это максимально вредным способом то публиковали бы реестр в виде отсканированного PDF файла с утверждающей подписью руководителя и аргументами что "только так можно дать ему юридическую значимость". Но, слава Богу, это не наш случай. Наш случай - это культура ведения реестра.

Сравнительно недавно я делал другую утилиту для командной строки, undatum [5] специально для разного рода операций преобразования и проверки данных и с её помощью регулярно проверяю разного рода официальные реестры на достоверность самых базовых реквизитов ИНН и ОГРН. Причём на уровне самой-самой простой проверки на валидность, даже без поиска по ЕГРЮЛ, проверки соответствия наименованию, кросс-валидации и так далее.

Так вот из 4880 записей у 191 (3,9%) недостоверные сведения в поле ОГРН и у 120 (2.4%) недостоверные сведения в поле ИНН. Чаще это отсутствие кода, реже это неверно введённые коды. Всего есть 16 организаций в сведениях о которых нет указаний на их коды ИНН и ОГРН одновременно. Причём все они не секретны, у многих, например, АО КБ "Хлынов", есть другие лицензии в этом же реестре и при этом заполненные реквизитами.

Являются ли эти данные достоверными? Где совершена ошибка: при их внесении, при подаче заявки на лицензию заявителем или, быть может, логичнее предположить ещё на этапе организации ведения реестра. Если он ведётся даже не в Excel и уж точно для него нет даже самой простой системы ведения реестров, если у него нет синхронизации и проверки с ЕГРЮЛ, если у него нет регламента ведения и так далее, то в нём как и в сотнях других реестров государства и опубликованных данных - будут ошибки. Эти ошибки накапливаются и итоговые системы принятия решений основанные на этих данных дают значительные искажения.

Напомню что я писал о подобных случаях с реестрами Минюста, Минцифры, Минэкономразвития, Федерального Казначейства и других органов власти. Качество данных государства - это общая проблема, пока мало кем решённая.

Ссылки:
[1] http://clsz.fsb.ru
[2] http://clsz.fsb.ru/clsz/license.htm
[3] https://yangx.top/alukatsky/3880
[4] https://github.com/ivbeg/docx2csv
[5] https://github.com/datacoon/undatum

#opendata #dataquality #registries
Ну что друзья, я таки удостоился отдельного пресс релиза от Минцифры РФ [1], правда без упоминания меня лично или Инфокультуры, но я и на такое не рассчитывал. А из пресс-релиза мы можем узнать две мысли:
- ПО можно удалить (а как же Самсунг;))
- "Вам никто ничего не навязывает, Вы со всем можете ознакомиться при установке" (с)

На это я повторяю ещё раз ещё один ключевой тезис. С момента обязательности предустановки ПО на телефоны граждан России ответственность за передачу данных из приложений в рамках этой предустановки лежит полностью на регуляторе и законодателях - Минцифре и Правительстве РФ. Лезть в регулирование рынка AdTech не разобравшись в нём было глупо, а если разобравшись то совсем цинично.

Ссылки:
[1] https://digital.gov.ru/ru/events/40734/

#privacy #digital
Поскольку с сегодняшнего утра невероятный бум публикаций, вначале со ссылкой на исследование о трекерах, потом с опровержениями со стороны Яндекса, Mail.ru и Минцифры и все пишут и комментируют что никаких данных не передаётся, всё это техническая информация просто для удобства разработчиков. Ребята, я не понимаю зачем Вы это делаете и вот так подставляетесь, честно. Я ведь всегда пишу по простому сценарию:
- вбрось достаточно информации, чтобы все обсуждали, но не всё
- подожди пока не начнут оправдываться
- предъяви дополнительные доказательства
- подожди пока не начнут оправдываться
- предъяви дополнительные доказательства

Я могу, безусловно, указать на конкретные условия использования конкретных сервисов, могу показать записи трафика со структурой передаваемых данных, могу показать на вполне конкретные результаты находок европейских и других регуляторов которые проводили анализ приложений включающих эти или аналогичные трекеры в рамках регулирования AdTech рынка.

Конечно же всё это есть и конечно же я не буду сразу это предъявлять, для всего нужен хороший момент. Вот к 1 апреля был хороший повод, я о нём предупреждал за 2 месяца. Я вообще веду себя даже чересчур предупредительно, не делаю ничего неожиданного, предупреждаю обо всё очень заранее. Даже непривычно как-то;)

Вот и тут ситуация такая же, будет свежий повод в течение ближайших месяцев, а я думаю он появится к июлю-августу, то и будет продолжение темы.

Только журналисты уже будут писать об этом в риторике: "Ранее Яндекс и Mail.ru отрицали передачу персональных данных" или "Ранее Минцифры отрицали передачу персональных данных россиян предустановленным ПО".

И снова я повторю одну и ту же мысль. Пока рынок AdTech существовал сам по себе - каждый гражданин сам нёс ответственность. Когда туда пришёл регулятор в лице Минцифры, то не надо увиливать, несите ответственность за то что вы требуете ставить на телефоны граждан. Не к Яндексу и не к Mail.ru и к другим претензии, а к тем кто обязал ставить их ПО на смартфоны в обязательном порядке.

#privacy #mobileapps
Британская международная НКО Centre for Agriculture and Bioscience International [1] и Институт открытых данных [2] опубликовали Data Sharing Toolkit [3] о том как публиковать данные и обмениваться данными в программах поддержки сельского хозяйства в развивающихся странах. Основная идея в том что если поддерживать сельское хозяйство, то надо и поддерживать равный доступ к информации необходимой фермерам.

Это не первый проект про данные в сельском хозяйстве, например, проект GODAN [4], где CABI выступали в роли секретариата, был также посвящён практикам обмена данными, с акцентом на развивающиеся страны и программы ООН.

Проект Data Sharing Toolkit финансируется Фондом Билла и Мелинды Гэйтс [5] и в чём-то пересекается с проектом Farmstack [6] где фермеры могут узнавать свежую информацию и обмениваться ей между собой.

Ссылки:
[1] http://www.cabi.org/
[2] https://theodi.org
[3] https://www.datasharingtoolkit.org
[4] https://www.cabi.org/projects/godan-making-agriculture-and-nutrition-data-open-and-searchable/
[5] https://www.gatesfoundation.org/
[6] https://farmstack.digitalgreen.org

#opendata #data #agriculture
Pinterest выложили в открытый доступ и с открытым кодом QueryBook [1], IDE для управления запросами к СУБД, их обменом, аналитике и тд. Выглядит весьма привлекательно, мне чем-то напомнило Trevor.io, только там ещё и визуальный запросо-построитель.

Полезное пополнение списка инструментов.

Ссылки:
[1] https://github.com/pinterest/querybook

#data #opensource #datatools #pinterest
Симпатичная, хотя и не полная, картинка о современных инфраструктурах данных от Indicative, стартапа по продуктовой аналитике. К ней же публикация у них на сайте [1]

Конечно, надо делать оговорку на то что они рисуют инфраструктуру только по тому рынку в котором существуют, а это рынок облачных решений в работе с данными. С другой стороны, корпоративный рынок данных за пределами России и вокруг корпораций/стартапов примерно такой. Во всяком случае в какой-то его части. Это полезно помнить в поиске собственной ниши в этих экосистемах.

Ссылки:
[1] https://www.indicative.com/data-warehouse/modern-data-infrastructure/

#data #clouddatamarket
Несмотря на скепсис в реализуемости этой концепции, конечно, движение в этом направлении - это скорее хорошо и правильно. Машиночитаемость права/правил/регулирования, а также автоматизация проверки реализуемости правил и многое другое вокруг этого - всё это очень важно.
🔹В «Сколково» подготовили концепцию машиночитаемого, то есть понятного для алгоритмов, права. Концепция посвящена анализу возможных сфер и способов применения технологий искусственного интеллекта, создания и использования формальных языков и работы с логическими языковыми моделями для работы с правом. Ее внедрение позволит снизить затраты граждан на юристов, а также трансформировать сферу контрольно-надзорной деятельности государства. Рабочая группа «Нормативное регулирование» организации «Цифровая экономика» одобрила документ и направила ее в Минэкономразвития для подготовки к принятию.

🔹Сферы применения технологий машиночитаемого права:
• Стандартизация и сертификация;
• Заключение и исполнение сделок в машиночитаемом формате;
• Контрольная (надзорная) деятельность;
• Отчетность и обмен данными;
• Административное производство и судопроизводство;
• Нормотворчество и управление изменениями в целях создания благоприятной юрисдикции для развития новых технологий;
• Возможности для применения машиночитаемого права при взаимодействии государственных информационных систем с цифровыми платформами.

💬«Развитие технологий машиночитаемого права крайне актуально для экономики страны и правовой сферы сегодня. Обсуждение проекта данной концепции на площадке рабочей группы “Нормативное регулирование” позволило вовлечь в ее подготовку ведущих экспертов из области права и науки, руководителей компаний цифрового бизнеса, представителей государства. Следующим шагом будет ее обсуждение с широким кругом органов власти на площадке Минэкономразвития России в ходе межведомственного согласования», — прокомментировал Дмитрий Тер-Степанов, заместитель генерального директора — директор по направлению «Нормативное регулирование» организации «Цифровая экономика».

#цифроваяэкономика
#нормативноерегулирование
#искусственныйинтеллект

https://bit.ly/3rLZQwZ
Zoom запретили продавать свои лицензии российским госорганами и госучреждениям [1], а это не только министерства, но и ВУЗы, школы и госкомпании. Так или иначе, но много альтернатив, не лучших, но каких-то существует. Гораздо важнее понять с чем связан этот запрет. Является ли это политикой конкретно Zoom или это первая ласточка во введении экспортных ограничений которые США, например, применяли к Ирану. Поэтому вот меня лично более всего тревожит отсутствие публично анонсированных причин ограничений.



Ссылки:
[1] https://secretmag.ru/news/zoom-zapretil-rossiiskim-chinovnikam-polzovatsya-videosvyazyu.htm

#government #it
Google выиграли суд против Oracle в Верховном суде США [1] [2] и суд признал что то что Google копировали 11 тысяч строк кода Java API - это было fair use и Google не должны ничего платить Oracle. В Oracle с этим, конечно же, не согласны [3], но что будут делать далее непонятно поскольку Верховный суд финальная судебная инстанция в США.

Ссылки:
[1] https://edition.cnn.com/2021/04/05/tech/google-oracle-supreme-court-ruling/index.html
[2] https://blog.archive.org/2021/04/06/a-good-day-for-the-open-web/
[3] https://www.oracle.com/news/announcement/oracle-statement-regarding-oracle-v-google-040521.html

#oracle #google #java #api
Регулярные напоминания

Я время от времени, по мере роста числа подписчиков, напоминаю о проектах которые я и моя команда ведём. Это не исчерпывающий список, а самое что ни на есть основное.

В телеграм
- @begtin - мой канал в телеграм где я пишу про данные, госданные, иногда про госфинансы и госуправление, ИТ в гос-ве и около, технологии и про госзакупки.
- @infoculture - телеграм канал АНО "Инфокультура" которое я возглавляю
- @ahminfin - телеграм канал моей коллеги, Ольги Пархимович, она ведёт разработку проекта Госрасходы (spending.gov.ru) и руководит проектом Госзатраты (clearspending.ru) и регулярно пишет о разных проблемах и достижениях профильных органов власти в этой области и про открытые данные, не только в госфинансах.

Проекты (активные)

По госфинансам
- Госрасходы (spending.gov.ru) - аналитический портал Счетной палаты РФ с анализом данных о госрасходах включая полную базу госконтрактов, субсидий (до ноября 2020 года), иных данных. С открытыми данными, API и так далее. А также с аналитикой по нацпроектам и госпрограммам.
- Госзатраты (clearspending.ru) - изначальный общественный негосударственный проект по анализу госконтрактов созданный для Комитета Гражданских Инициатив. Сейчас поддерживается и развивается Инфокультурой. Также с открытыми данными и API.

По НКО
- Открытые НКО - портал по всем некоммерческим организациям которые существуют в России, включая данные по их контрактам, субсидиям, полученным грантам, идущим арбитражным делам и сдаваемых ими отчетам. С открытыми данными и API.
- Данные НКО - портал открытых данных созданных специально для НКО для раскрытия данных о их деятельности. На базе CKAN с открытыми данными и API.

По открытым данным
- Хаб открытых данных - общественный портал открытых данных, включает многие данные которые мы собирали параллельно официальным порталам открытых данных. В последнее время обновляется сильно реже, давно думаем о его реорганизации. На базе CKAN с открытыми данными и API.

Другое
- Простой русский язык - простой инструмент измерения сложности текстов, выдает показатель в годах обучения. С открытым API и открытым кодом
- Национальный цифровой архив - проект по архивации веб-сайтов Рунета и иных цифровых объектов/артефактов. На практике совокупность проектов под одним брендом. С большими данными в виде дампов архивов сайтов.
- День открытых данных - ежегодное мероприятие по открытым данным в России/Москве.

Исследования
-
Приватность государственных мобильных приложений в России - о том какие трекеры в каких госприложениях.
- Open Data Review - Открытые данные в российском правовом поле: обзор лучших практик, рекомендаций и барьеров
- Оценка открытости государственных информационных систем в России - о том какие ГИС есть в России и насколько они открыты
- Открытость государства в России - ежегодный доклад Счетной палаты и ряда НКО
- Утечки данных из государственных информационных систем - о том как персональные данные утекают из государственных и регулируемых государством информационных систем

Блоги и медиа
- Блог Инфокультуры на Хабре - тексты большого формата, пишем туда нечасто, не писали много лет, но начали снова.
- Рассылка Инфокультуры - регулярные новости про открытые данные и события, и иную деятельность как нашу Инфокультуры так и партнёров. 7,5 тысяч подписчиков.
- Моя личная рассылка на Substack - я стараюсь писать туда 2-4 раза в месяц. Темы шире чем у рассылки Инфокультуры и веду я её лично, с середины прошлого года специально для лонгридов.
- Блог begtin.tech - мой блог для публикаций "среднего размера", регулярно возвращаюсь к нему, хотя пишу даже реже чем в рассылку.

Дополнительные ресурсы
- открытый код на Github infoculture, datacoon, ruarxive, ivbeg
- открытые данные на data.world infoculture, ibegtin
- документированные госAPI на Postman infoculture-public
- профили на международном портале данных гуманитарных кризисов infoculture

#opendata #opengov
Кстати, не могу не напомнить что сайт Открытого правительства open.gov.ru [1] окончательно выродился и не обновлялся ни в какой форме уже более года. Его вначале переименовали в сайт Экспертного совета, хотя это и было странно потому что у Экспертного совета при Пр-ве был другой сайт ec.ac.gov.ru [2], за него отвечал аналитический центр при Пр-ве, сейчас сайт не живой.

За open.gov.ru также стал отвечать аналит. центр при Пр-ве, а ранее его вели в АЦ Форум [3], у которых остался только один ресурс/артефакт в виде Вики по деятельности Открытого пр-ва [3]

Сейчас ни Экспертного совета, ни Открытого правительства, ни какой-либо структуры на их смену в федеральном пр-ве не возникло. Артефакты их деятельности постепенно исчезают. На всякий случай, конечно, у нас есть архивы, но это не отменяет ситуации в том что за открытость гос-ва в России давно уже ни одно ведомство не отвечает.

Ссылки:
[1] https://open.gov.ru
[2] https://ec.ac.gov.ru/
[3] http://wiki.ac-forum.ru

#opendata #opengov #webarchive #archive
Весьма разумные слова, лично я всё более и более убеждаюсь что вся эта затея и "хайп" с CDTO очень сильно обесценили само направление развития что госорганов что госкомпаний. Когда в организации нет CIO, то о каком CDTO может идти речь? CDTO необходимы в тех редких случаях когда у компаний уже хорошо выстроены процессы, хорошо развито ИТ и нужен "рывок" в переходе от классической бизнес модели к цифре и тогда возникает временная роль в виде CDTO на период этого перехода.

#cdto #cdo #cio
Forwarded from TAdviser
Перестаньте строить маркетплейсы и увольте директоров, которые нуждаются в CDTO - выступление основателя «220 Вольт» Алексея Федорова на конференции TAdviser https://www.tadviser.ru/a/590219