Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.73K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Коммерсантъ пишет о появлении [1] Концепции обеспечения защиты прав и свобод человека и гражданина в цифровом пространстве РФ разработанной СПЧ.

Я внимательно прочитал эту концепцию и по её содержанию мои комментарии есть в статье Коммерсанта. Но есть и не менее важные "стилистические" замечания. Вся концепция написана по шаблону "риски-противодействие", а переводя с русского-на-русский язык - это шаблон "угрозы-противодействие", по такому шаблону у нас пишут многочисленные стратегии информационной безопасности и тд.

В концепции нет отсылок к фундаментальным принципам прав человека, аналогичным международным документам и тд. Есть отсылка только к российской Конституции.

В концепции нет ничего про международное регулирование и защиту прав граждан и потребителей в части защиты их данных (в Китае, в Евросоюзе, в Германии, в США) и ещё в десятках стран. Во многих странах есть государственные стратегии цифрового суверенитета и госрегулирования big tech.

При этом, в концепции довольно много всего про безальтернативные ограничения на использование данных в госсекторе и в бизнесе, запретительную модель регулирования и совсем удивительных требований вроде:
- установление запрета на присвоение единого номера-идентификатора человеку в общенациональном цифровом пространстве
...
- сохранение бумажного документооборота в критически значимых сферах защиты интересов государства, гражданского общества, коммерческих и некоммерческих организаций, общественных объединений, человека и гражданина
...
- введение моратория на формирование и использование интегральных баз данных о гражданах, создаваемых путем объединения баз персональных данных, обработка которых осуществляется в целях, несовместимых между собой

И там ещё довольно много всего такого. К сожалению не могу дать ссылку на сам документ, он ещё в открытом доступе вроде как не опубликован, могу лишь цитировать ту версию с которой я успел ознакомиться.

Поэтому, конечно, документ это, в первую очередь, политический. В форме "манифеста цифрового консерватизма" очень недалёкому от "аналогового консерватизма" с большим числом утверждений напрямую противоречащих современной цифровой экономике и цифровому госуправлению.

Лично я, несмотря на критику в адрес big tech компаний и государства, считаю что единственно возможный путь регулирования - это не запретительно-консервативная, а гибкая регуляторная модель с чётким взвешиванием рисков и возможностей, а также последствий регулирования.

Несмотря на то что у концепций нет нормативно-правового статуса, они являются основной для других документов, на их основе в дальнейшем пишутся и изменяются законы. Поэтому эта концепция, в случае рассмотрения её как основы госполитики, на мой взгляд, требует существенной переработки и снижения градуса политического популизма.

Лично я, и многие эксперты в области работы с данными, считаю необходимым появление Национальной стратегии управления данными, определяющей принципы развития экосистемы и рынков данных в нашей стране. Защита прав потребителей и граждан, права на доступ к их данным должны быть частью этой стратегии.

Ссылки:
[1] https://www.kommersant.ru/doc/5140980

#data #regulation
Я регулярно пишу об открытых данных и для тех кто мог забыть или не знал что это такое я напомню.
Определение открытых данных дано в Open Definition [1] и звучит как

“Open data and content can be freely used, modified, and shared by anyone for any purpose”

или по русски

"Открытые данные и открытый контент могут быть свободно используемы, изменены, и предоставлены кем угодно для любой цели"

В 2015 году правительствами стран, гражданским обществом и экспертами были разработаны 6 принципов открытых данных [2] таких как:
1. Открытость по умолчанию
2. Своевременность и полнота
3. Доступность и пригожность
4. Сравнимость и переносимость
5. Для улучшения управления и вовлечения граждан
6. Для инклюзивного развития и инноваций

Свобода использования данных предполагает позволяющий делать это юридический статус и публикацию данных под такими лицензиями как ODbL, Creative Commons и ряда других. По этой же причине часто термин открытые данные смешивают с открытые государственные данные, по тому как на данных коммерческих компаний, как правило, есть ограничения интеллектуальной собственности, а на данных граждан ограничения персональных данных.

Но многие данные изначально создавались не государством. Крупнейшие некоммерческие проекты с открытыми данными - это OpenStreetMap и Wikipedia предоставляющие дампы собранных в них данных.

Важно помнить что открытость данных - это просветительская функция. Например, собрать материалы с сайтов органов власти и опубликовать их в виде открытых данных - это легально и допустимо, это пример того что госорганы могут делать и сами и это работа с данными на которых нет запретительных юридических ограничений.

А, к примеру, собрать набор данных с сайтов интернет-магазина или социальной сети можно рассматривать как открытые данные только при наличии соответствующего согласия владельца данных, компании оператора сайта.

Это не значит что открытых корпоративных данных нет, это означает что открытыми данными они становятся при соблюдении юридических условий их публикации.

Важно помнить что открытых данных много, становится всё больше, а порталы открытых данных создаются, в том числе для указания того на каких условиях эти данные распространяются.

Ссылки:
[1] https://opendefinition.org/
[2] https://opendatacharter.net/principles/

#opendata #opendefinition #data
Ай-яй-яй-яй, как интересно.

Коллеги из Счетная палата Российской Федерации опубликовали видеоролик о том как писать отчеты [1]

Что, безусловно, очень правильно и полезно. Вообще всем бы органам власти следовать тем же путём.
Я на всякий случай напомню что где-то с 5-й минуты в ролике приводится пример сравнения сложности текста. Для этого сравнения используется сервис Простым языком plainrussian.ru [2] созданным в Информационная культура и автором которого я являюсь.

Этот сервис специально создавался максимально простым и понятным, с оценкой сложности текста в годах обучения.
Сервис некоммерческий, использовать его может каждый, не стесняйтесь. А если будут вопросы/предложения/идеи то пишите на [email protected] или в чате @begtinchat

В ролике Счетной палаты и в аннотации к нему коллеги, почему-то не упомянули ни меня ни сервис, но уверен что они это исправят.

Ссылки:
[1] https://www.youtube.com/watch?v=HvqerB5Bb2A
[2] https://plainrussian.ru

#plainrussian #services #lingustics #russian
Регулярная подборка ссылок и материалов по работе с данными:
- napari [1] инструмент просмотра изображений на Python со множеством расширений для просмотра научных данных [2] созданных в рамках инициативы Чан-Цукерберка по поддержки открытого кода в науке. Об этом же в статье в Nature [3]
- о стандартизации работы с метаданными внутри стартапа KeepTruckIn [4]. Более 3000+ первичных таблиц, 700+ порожденных таблиц и 100ТБ данных. Интересно про их внутренний продукт TableAPI для описания таблиц и инфраструктуры мониторинга всех труб данных
- подборка полезных библиотек на Python [5] о которых многие не знают.
- статья "Демократизация данных" [6] о том как менять корпоративную стратегию в работе с данными, полезна и для многих начинающих органов власти на стартовом их уровне.
- Kaggle и Google объявили конкурс на использование инструментов от Гугла с открытым кодом [7]. Максимальный приз $1000
- команда AirByte, создателей ETL системы с открытым кодом, привлекли $150 миллионов инвестиций [8] [9]. Большие деньги в этом сегменте рынка!
- не менее интересно что Sigma, BI аналитика на таблицах (workbooks), привлекли только что $300 миллионов инвестиций под свой облачный продукт [10]

Ссылки:
[1] https://napari.org/
[2] https://www.napari-hub.org
[3] https://www.nature.com/articles/d41586-021-03628-7
[4] https://medium.com/keeptruckin-eng/how-metadata-saved-our-data-organization-cab3335eb4ae
[5] https://tryolabs.com/blog/2021/12/21/top-python-libraries-2021
[6] https://thedatawall.medium.com/data-democratization-d042855e05e1
[7] https://www.kaggle.com/google-oss-expert-prize
[8] https://airbyte.io/blog/a-150m-series-b-to-power-the-movement-of-data
[9] https://www.forbes.com/sites/kenrickcai/2021/12/17/data-startup-airbyte-is-set-to-become-a-unicorn-intensifying-showdown-with-rival-company-fivetran/
[10] https://www.sigmacomputing.com/press-releases/sigma-series-c-announcement/

#data #tools #links #reading
Появились в открытом доступе предложения о мерах повышения доступности данных и эффективности их использования для целей развития цифровой экономики в РФ [1] прозвучавшие на заседании комиссии РСПП 30 ноября этого года.

Кроме всего прочего там есть предложения:
- по открытию данных органами власти
- по созданию экспертной группы по доступу к госданным при экспертном совете при Пр-ве РФ
- по развитию практики data sharing

И иногое другое. Напомню что от Ассоциации участников рынка данных (АУРД) мы помогали РСПП в организации этого заседания и формировании его повестки. Важно помнить что открытые данные - это не только открытость государства, но и бесплатное топливо для современных цифровых продуктов создаваемых бизнесом.

Ссылки:
[1] https://rspp.ru/events/news/predlozheniya-o-merakh-povysheniya-dostupnosti-dannykh-i-effektivnosti-ikh-ispolzovaniya-dlya-tseley-61c1af5cbe064/

#opendata #datasharing #aurd #rspp
Я готовлю большое обновление материалов по открытому государственному коду в мире который мониторю уже 7 лет и вот сейчас запустил пересчёт статистики которая почти готова. Через какое-то время опубликую лонгрид и наборы данных по этой теме, а пока просто в цифрах и оценка, пока без какой-либо инфографики и визуальной подачи. Просто текстом.

Есть два рейтинга стран по открытости кода на Github по числу форков и по числу звезд поставленных репозиториям относящихся к госорганизациям из этой страны.

Топ стран по числу форков госкода
1. США - 56541
2. Великобритания - 29339
3. Франция - 7932
4. Канада - 7794
5. Италия - 5368
6. Австралия - 3452
7. Япония - 2941
8. Германия - 2794
9. ООН - 1970 (не страна, но добавлены в сравнение)
10. Норвегия - 1948

Топ стран по числу звезд
1. США - 120246
2. Великобритания - 46536
3. Франция - 22317
4. Германия - 12429
5. Канада - 10475
6. Италия - 8996
7. Япония - 7434
8. Австралия - 5014
9. Норвегия - 3232
10. ООН - 2735

Применительно к США и Великобритании заниженные оценки поскольку учитывались только репозитории центральных органов власти и не учитывались репозитории государственных исследовательских центров.

Топ 5 наиболее популярных госрепозиториев по числу звезд
- gchq/CyberChef от британского киберагентства GCHQ (UK) - 13685 звезд (российскому ФСТЭК на заметку). ПО для инфобеза
- nasa/openmct от космического агентства NASA (США) - 10093 звезд. ПО для контроля миссий
- nasa/fprime от космического агентства NASA (США) - 8653 звезд. ПО обеспечения полетов
- tokyo-metropolitan-gov/covid19 от городских властей Токио (Япония) - 6265. ПО для визуализации данных и сами данные о COVID-19
- uswds/uswds от агентства GSA (США) - 5912. Дизайн система федерального правительства США.
Открытые данные об открытом исходном коде

Органы власти не просто используют открытый код, они публикуют код который используют десятки тысяч пользователей разработчиков.

Продолжение следует
А в лонгриде я добавлю больше сравнений стран, рейтинги репозиториев по разным критериям и сравнение развития репозиториев органов власти и так называемых civil hackers, представителей НКО и неформальных групп помогающих создавать код для повышения качества работы государства.

#opensource #opendata #ratings
Вчера прошла конференция представителей Гостех о текущем состоянии платформы, её запись доступна на YouTube, рекомендую посмотреть тем кто работает с информационными системами государства и их разрабатывает [1]. При том что лично я занимаю нейтрально-выжидательную позицию в отношении Гостеха, но не могу не добавить своих комментариев и цинизма в описании происходящего.

Если вкратце, то спикеры демонстрируют нулевой и даже отрицательный энтузиазм. В какой-то момент круглый стол выглядел как заседание ГКЧП по мрачности участников.

Ключевая проблема в том что, будем называть всё своими именами, слишком многие внутри государства желают Гостеху всего самого плохого, но, конечно, открытым текстом это не скажут. Почему? Потому что при внедрении Гостеха идёт не только технологическая замена ПО/сервисов/хостинга, но и снижение капитальных расходов ведомств на закупку оборудования под ГИС/ФГИС(ы). Это, скажем так, наиболее прагматичная причина, как раз оправдывающая внедрение Гостеха для тех кто считает деньги.

Не столь приземлённая причина, но столь же значимая, в том что продукт Platform V Сбербанка как Гостех был продан Грефом правительству, но продал не безальтернативно, без жёсткого императива на внедрение от председателя Правительства. Как результат создатели Гостеха сейчас пытаются продать его ФОИВам и властям субъектов федерации. Но если в отношении субъектов федерации действует финансовая дубинка которая сейчас подаётся как субсидии на внедрение, то на ФОИВы эта дубинка действует хуже (хотя должно было быть наоборот). Связано это, как с внутренним лобби, которое сильнее у ФОИВов, так и с тем что миграция действующих ФГИС на Гостех - это даже не то что дорого, это иногда просто физически невозможно. Только переделка с нуля.

Это та тема которая сейчас обходится в выступлениях представителей Гостех'а. Обходится потому что перенос каждой ФГИС будет политическим решением.

Я не могу не напомнить что чуть ли не главная задача любой платформы для разработки - быть привлекательной для разработчиков. Если Вы посмотрите на то как устроен портал для разработчиков GovTech в Сингапуре [2], то разница будет ощутима. В Сингапуре ГосТех объединяет десятки государственных проектов, это большая амбициозная инициатива с продуктами которые активно разрабатываются командами in-house разработчиков.

И, наконец, важно не путать реальные потребности органов власти и коммерческие интересы, которые, конечно явно или неявно присутствуют. Реальные задачи не имеют отношения к субсидиям, они заключаются в решении наиболее насущных вопросов у властей регионов, ИТ подразделений ФОИВов и разработчиков решений для гос-ва.
Например:
1. Формопостроитель - быстрое создание форм с авторизацией через ЕСИА для приёма обращений граждан, опрсов, оказания услуг и тд. Такой сделали в Сингапуре, такие есть на коммерческом рынке и это точно востребовано.
2. Быстрое создание статических и интерактивных сайтов. Во многих странах (Сингапур, США, Австралия и тд.) есть свои GovCMS с открытым кодом и заодно и генераторы статических страниц. Это позволяет избежать долгих процедур контрактации при разработки сайтов. Сейчас госорганы часто пользуются бесплатными сервисами вроде Tilda.
3. Быстрое развертывание необходимых мощностей. У очень многих в госухе есть прямая потребность в сервисах вроде Яндекс.Облака или Mail.Cloud. Вот просто очень хотят, особенно за меньшие деньги. Главное что мешает - необходимости сертификации (вернее невозможность сертификации) и возможность гибкой оплаты не по конкурентным процедурам 44-ФЗ.

Я тут ещё много чего могу добавить, но скажу главное. Полноценное внедрение ГосТех - это равносильно масштабной реформе госуправления. Если оно не будет максимально жестко закреплено законодательно, в поручениях Президента, Правительства и тд, и не в режиме "поставить эксперимент", а "внедрить или расстрелять", то шансов на успех не очень много

Потому что без этого всего слишком много возможностей для внутренней интриги и пассивного саботажа. Особенно когда начнётся внедрение и реальные попытки Гостеха заменить работу интеграторов.
Я бы сказал что у меня скепсиса прибавилось, но посмотрим. По прежнему считаю что концепция здравая, а реализацию ещё не поздно корректировать.

Ссылки:
[1] https://www.youtube.com/watch?v=NddaKbSqa94
[2] https://www.developer.tech.gov.sg/

#govtech #government #tech
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Молодежная политика.pdf
188.8 KB
В Бюллетене СП РФ вышла статья Альберта Бертякова - специалиста в области госИТ, госфинансов и, конечно, аналитика проекта «Госрасходы» - о расходах на молодежную политику. Из статьи можно узнать объемы расходов, на что они идут и кто распоряжается деньгами.

Приведу пару примеров из статьи утвержденных сумм расходов на те мероприятия, которые у каждого на слуху:

- Всероссийская олимпиада студентов «Я - профессионал» - 403 млн руб. в 2020 г. и 359 млн руб. в 2021;
- «Лидеры России» - 400 млн рб. в 2020 и 500 млн руб. в 2021
- Фестиваль «Таврида - ArtRussia», Образовательные программы в рамках Форума молодых деятелей культуры и искусства «Таврида» и образовательный центр «Арт-резиденция «Таврида» - 2,4 млрд руб. в 2020 и 2,8 млрд руб. в 2021
- Создание и распространение контента в сети Интернет, направленного на укрепление гражданской идентичности и духовно-нравственных ценностей среди молодежи - 3 млрд руб. в 2020 и 10 млрд руб. в 2021
Печальная новость в том что похоже что данным переписи 2021 года доверять нельзя [1]. По опросу Левада-центра только 46% опрошенных приняли участие в переписи и основная причина неучастия в том что не пришёл переписчик.

Хуже всех от этой ситуации будет всем тем кто анализирует данные по стране, оценивает качество жизни, изучает то как устроены наши территории и как они могут развиваться. И раньше то было ощущение что "линзы сбиты", но сейчас они просто неверны.

Ссылки:
[1] https://www.levada.ru/2021/12/21/uchastie-rossiyan-v-perepisi/

#data #statistics #failure
Все уже написали по поводу огромных оборотных штрафов наложенных на Google и Meta российскими судами [1]. Google (Alphabet) оштрафованы на 7.2 миллиарда рублей, а Facebook (Meta) на 2 миллиарда рублей.

Конечно, вся эта история про то "кто здесь власть". Big tech компании нарастили политического и социального влияния до того уровня который уже нельзя игнорировать. Давят на них не только российские власти, но и власти Китая, Индии, Турции да и многих других стран. И штрафы - это ещё не худший вариант подобного давления.

Например, в Индии, во время протестов фермеров власти угрожали арестом сотрудникам Facebook [2] если те не выдадут информацию о протестующих.

Но и оборотные штрафы - это жесткая форма переговоров с big tech. Важно лишь помнить что выкладывая карты на стол надо быть готовыми что корпорации могут на это не согласится. Если Meta уйдет, вернее не придёт (у них нет своего представительства) в Россию, то катастрофы не случится. А вот про Google важно помнить что это не только поиск, но и почта, экосистема Android, Google Cloud и ещё много чего.

Почтой на Google пользуются многочисленные российские университеты, госорганизации и просто коммерческие компании. Приложения для Android'а являются инструментом заработка многих компаний в России, не говоря уже о пользователях этой платформы и так далее.

Иначе говоря риски у Google (Alphabet) сейчас будет патовая ситуация где, с одной стороны, если они пойдут на требования российских властей, то их обвинят в цензуре, в том числе политической. А если не пойдут, то получат ещё несколько штрафов, усиление давления и возможно уйдут из России.

Лично я считаю что давление властей стран на big tech неизбежно, но неприятно что это происходит через задачи цензуры, а не защиты местного бизнеса и прав граждан. Конфликт властей Австралии с Google закончился тем что Google сдались на их условия. Но австралийские власти добивались компенсации местным новостным агентствам и добились этой цели. А в Турции штрафовали Гугл на 296 лир (36.6 миллионов долларов США) за доминирующее положение в поиске [3]

Ссылки:
[1] https://www.reuters.com/technology/russian-court-fines-alphabets-google-72-bln-roubles-2021-12-24/
[2] https://www.businessinsider.com/india-threatens-to-jail-facebook-twitter-workers-over-farmer-protests-2021-3
[3] https://www.reuters.com/technology/turkey-fines-google-abusing-dominant-position-2021-04-14/

#google #facebook #fines
На днях прошла встреча Михаила Мишустина с новым составом экспертного совета при Пр-ве РФ [1]. Содержание встречи не так важно, куда интереснее изменение состава экспертного совета [2]. На этой встрече было 22 человека, можно ещё предположить что несколько человек не могли принять участие физически и то что ещё нет опубликованного финального состава совета.

Но выводы уже можно сделать:
- единственная женщина в составе - Елена Бунина из Яндекс'а, она же единственная глава частной компании
- она же единственный представитель ИТ компании
- вообще никого нет моложе 40 лет (поправьте меня если я неправ)
- почти все участники - опытные бюрократы-лоббисты
- сложно назвать экспертным совет из управленцев, даже весьма уважаемыми, даже если они управленцы от науки. В лучшем случае его участники обладают ресурсами для организации экспертной работы.

Я не берусь сказать стал ли новый совет лучше или хуже предыдущего. Предыдущий экспертный совет был большим, около 400 человек. Я также входил в их число и могу сказать что по узким задачам он работал, но не целиком, а отдельными группами экспертов.

Непонятно пока как новый совет будет работать, так что будем наблюдать.

Ссылки:
[1] http://government.ru/news/44189/
[2] http://static.government.ru/media/files/DZHYK7Z6uoSdyAUcsIsi68oLWCDZGfMW.pdf

#councils #government
Писать о том как журналисты искажают смысл оригинальных новостей уже стало чем-то обыденным. Кризис ли это журналистики в принципе или в отдельных изданиях, но не могу не обратить внимание на публикации с хлёсткими заголовками:
- ЕС потребовал от России многомиллиардную компенсацию за импортозамещение (РИА Новости) [1]
- За нормы ВТО: Евросоюз потребовал от России €290 млрд (Известия) [2]

При этом самая адекватная публикация была в РБК
- Евросоюз оценил потери из-за политики импортозамещения России в €290 млрд (РБК) [3]

Потому что в оригинальной новости на сайте ВТО [4] ничего нет про сумму которую Евросоюз требует, там речь идет о требовании отмены российской политики импортозамещения и оценки средств на которую эта политика распространялась, это те самые 290 миллиардов евро или 20% российского ВВП.

Собственно Блумберг писал об этом ещё 20 декабря [5], когда вышла новость на сайте ВТО.

Всё это не значит что на Россию не могут быть наложены штрафы, но это точно произойдет не в следующем году и точно не на сумму указанную Евросоюзом как объем средств дискриминируемых товаров. Но на политику импортозамещения в России может повлиять и пока нельзя предсказать как именно потому что это вопрос, в первую очередь, макрополитический и того что российские власти пошли по пути прописывания импортозамещения в нормативных документах, а это и есть предмет претензий Евросоюза.

P.S. Самое забавное в том что в России очень многие относятся к стратегии импортозамещения с большим скепсисом, особенно в ИТ, а вот в Евросоюзе, судя по претензиям переданным в ВТО, относятся очень серьёзно.

Ссылки:
[1] https://ria.ru/20211226/es-1765519939.html
[2] https://iz.ru/1269467/oksana-belkina/za-normy-vto-evrosoiuz-potreboval-ot-rossii-eu290-mlrd
[3] https://www.rbc.ru/rbcfreenews/61c7ec9a9a7947f012162062
[4] https://www.wto.org/english/news_e/news21_e/dsb_29nov21_e.htm
[5] https://www.bloomberg.com/news/articles/2021-12-20/wto-to-review-eu-dispute-over-russian-procurement-discrimination

#government #procurement #russia #eu #importsubstitution
Как меняется повестка открытости в мире? Начиная с открытых данных и продолжая открытыми знаниями и другими движениями открытости. Когда то в основе многих из этих движений было Open Knowledge Foundation (OKF), сейчас мир довольно сильно меняется. OKF решили провести более чем 100 дискуссий [1] с визионерами, инженерами, активистами, учёными и тд. о том как какие вызовы наиболее значимы и как видение и стратегия открытости должны измениться.

Хорошая цель и если Вам есть кого им порекомендовать, то это можно сделать с помощью специальной веб-формы [2].

А я не могу не напомнить что повестка открытости меняется не только в внутри Open Knowledge Foundation. Одно из важных изменений, например, в открытых данных - это то что называют 3-й волной открытых данных. Переход от Open Data by Default к Publish with the purpose [3] в стратегиях публикации данных органами власти.

Поэтому вопросы актуальные и желание OKF изменить стратегию к новой реальности тоже очень интересно.

Ссылки:
[1] https://blog.okfn.org/2022/01/10/100-conversations-to-inspire-our-new-direction/
[2] https://okfn.typeform.com/conversations
[3] https://opendatapolicylab.org/third-wave-of-open-data/

#opendata #opengov #openknowledge
В рубрике много интересного чтения о данных. Практически все по практике работы с данными и технологических стартапах:
- 30 startups that show how open source ate the world in 2021 [1] обзор 30 стартапов продуктов с открытым кодом привлекших значительное финансирование. Многие стартапы исключительно про работу с данными и про инфраструктурные аспекты работы с данными, например, MindsDB [2] про машинное обучение внутри СУБД или Airbyte [3] про преобразование и интеграцию данных. Там же упоминается весьма интересный проект Hoppscotch [4] про проектирование API с открытым кодом, фактически открытый аналог Postman. А модель многих open source продуктов часто похожа на "давайте посмотрим на лучший продукт на рынке и сделаем такой-же только с открытым кодом. А зарабатывать будем на облачной версии", иногда это работает;)
- One Year of dbt [5] статья автора о более чем годе практике использования Dbt (data build tool) [6], теперь уже популярном инструменте преобразования данных, с открытым кодом и интеграцией практически со всеми современными корпоративными инструментами и современным стеком данных.
- Announcing preview of BigQuery’s native support for semi-structured data [7] в Google BigQuery анонсируют поддержку полу-структурированных данных, с обращением к JSON данным внутри запросов. Много времени прошло с тех пор как она ожидалась и вот появилась.

Ссылки:
[1] https://venturebeat.com/2022/01/03/30-startups-that-show-how-open-source-ate-the-world-in-2021/
[2] https://mindsdb.com/
[3] https://airbyte.com/
[4] https://hoppscotch.io
[5] https://tech.devoted.com/one-year-of-dbt-b2e8474841ca
[6] https://www.getdbt.com/
[7] https://cloud.google.com/blog/products/data-analytics/bigquery-now-natively-supports-semi-structured-data

#reading #data #tech
Для тех кто ищет вдохновения и красивую инфографику, большая коллекция из 100 красивых и иноформативных визуализаций [1] от Observable

Визуализаций там много и многие из них очень даже неплохи. Например, World Grids [2] с разными формами отображения мира.

А мне лично нравится сама модель Observable в виде открытой воспроизводимой визуализации, единственный недостаток для пользователя это неотделимость от самой платформы, но с точки зрения создателей платформы - это, конечно, её преимущество.

Ссылки:
[1] https://observablehq.com/@tomlarkworthy/notebooks2021
[2] https://observablehq.com/@neocartocnrs/world-grids

#infographics #dataviz #vizualization
Оказывается в декабре у ОЭСР вышли два интересных доклада.

Первый Development Co-operation Report 2021 [1] со страновыми кейсами цифровой трансформации с акцентом на кооперации между странами. Как и во многих других их отчетах именно кейсы самое интересное. Например, разбор кейсов "Digital Citizenship or Digital Authoritarianism?" [2] о цифровой трансформации в африканских странах и о том, что действующие законы и иное регулирование не спасает от нарушения фундаментальных прав. Там есть и другие примеры, конечно же и всё, что описывается про африканские страны, справедливо и для других развивающихся и переходных стран.

Второй доклад Mapping data portability initiatives, opportunities and challenges [3] о регулировании прав доступа граждан к их данным. Множество примеров реализации этого права, причём с явными акцентами на финансовые услуги и права потребителей.

Здесь интересно описание регулирования с точки зрения подходов от самого базового с переносимостью данных через экспорт/импорт, до отраслевых протоколов передачи данных в реальном времени.

Ссылки:
[1] https://www.oecd-ilibrary.org/development/development-co-operation-report-2021_ce08832f-en
[2] https://www.oecd-ilibrary.org/sites/1b3dc767-en/index.html?itemId=/content/component/1b3dc767-en
[3] https://www.oecd.org/publications/mapping-data-portability-initiatives-opportunities-and-challenges-a6edfab2-en.htm

#data #digital #dataportability #regulation
Буквально пару недель назад мне выпала редкая возможность ненадолго отключиться от мирских дел и провести пару недель в госпитале с COVID-19. К счастью - эта жизненная передышка была непродолжительной, но дала время подумать и порефлексировать над происходящим с цифрой, данными, ну и многим другим что происходит в госинформатизации в России (Гостех, обучение чиновников цифре и многое другое). Даже несколько дней размышлений существенно обновляет картину поэтому я разбавлю и мои новостные публикации личными соображениями.

Поэтому я набросал в формате, скорее полукороткого текста [1] свои мысли по поводу госполитики работы с данными. А заодно и подумать дальше потому что кроме описанных проблем есть ещё немало других выпавших из почти всех публичных обсуждений.

Ссылки:
[1] https://begtin.substack.com/p/21

#opendata #data #government #policy
ФНС России обновили и, я бы сказал, "поломали" свой аналитический портал analytic.nalog.ru [1].

Раньше на нём публиковались региональные налоговые паспорта, Excel файлы с подробной региональной ведомственной статистикой (у меня есть архив на руках) и немного цифр с визуализацией. Теперь много визуализации в стиле BI, но какого-то недоделанного BI без возможности выгрузки индикаторов, информации об актуализации и тд. А файлы налоговых паспортов регионов с сайта исчезли.

Если старый сайт был неудобен, то новый выглядит даже не недоделанным, а как-то совсем тяп-ляп, сделанным на коленках. В лучших традициях старая версия сайта исчезла, а до исчезновения в поисковиках не индексировалась, поскольку специально делалась неиндексируемой.

Для тех кому нужны архивы налоговых паспортов они есть в DataCrafter'е в открытом доступе [2]. Похоже надо усилить функцию DataCrafter'а по архивации данных.

Ссылки:
[1] https://analytic.nalog.ru
[2] https://data.apicrafter.ru/packages/regtaxpassports

#nalog #data #opendata
Среди современного стека с данными отдельная тема, о которой я регулярно пишу, это продукты по data discovery, каталоги данных в современном стеке данных. О них было исследование Forrester Wave [1] в середине прошлого года и это такие продукты как Atlan, Alation, Collibra из коммерческих и продукты вроде Amundsen, Datahub и др. из недавно превращённых в открытые продукты с открытым кодом.

Так вот эти продукты переживают сейчас бум развития, инвестиций и пользовательского внимания, потому что уже многие крупные и средние компании накопили команды, наработки, данные и тд. а наведение в этом всём порядка оказывается большой задачей. Вернее задач там много, аналитические, задачи complience и тд.

Полезно посмотреть на два обзора и "каталога каталогов". Один от одного из сотрудников Atlan [2] со списком основных продуктов их конкурентов и кратким описанием каждого.

Другой от CastorDoc [3] с куда более детальным списком и сравнением по областям применения, стоимости и возможностям.

Сейчас это всё довольно сложные платформы, с разными акцентами на управлении метаданными. Лично приглядываюсь к ним потому что многие возможности такой платформы, но в формате открытого каталога, мы реализуем в DataCrafter'е. Например, автоматическая идентификация типов данных есть в Collibra, но пока мало где в других каталогах.

И я, конечно, не могу не обратить внимание насколько технологии Modern Data Stack оторваны от работы с открытыми данными и с исследовательскими данными. Чем больше я изучаю инструментарий технологический, логический и др. тем больше видна разница, между каталогами открытых данных и каталогами корпоративных метаданных. Я бы даже сказал что это разные миры которые практически не пересекаются по форматам данных, способам агрегации данных, способам доступа и так далее.

Ссылки:
[1] https://yangx.top/begtin/2978
[2] https://www.notion.so/atlanhq/The-Ultimate-Repository-of-Data-Discovery-Solutions-149b0ea2a2ed401d84f2b71681c5a369
[3] https://notion.castordoc.com/catalog-of-catalogs

#datadiscovery #metadata #metadatamanagement #datacatalogs
Чтение плана законопроектной деятельности Правительства иногда приводит к весьма интересным находкам. Собственно сегодня он был опубликован [1] и там, например:
* пункт 21 - это создание специального регистратора доменных имён для органов власти и новые полномочия у Роскомнадзора по определению таких доменных имен. Отвечает за это Минцифра и как мне тут не напомнить что на общественных началах мы уже в @infoculture ведем реестр госдоменов.
* пункт 33 - создание ФГИС по племенному животноводству Минсельхозом РФ
* пункт 64 - предоставление полномочий Росфинмониторингу к данным о ЕГРЗ (системы регистрации браков, смерти, рождений и тд).
* пункт 75 - передача бухгалтерских данных в систему Электронный бюджет. Интересна какая их часть будет открыта?
* пункт 103 - реорганизация/изменения в ФИС ОКО (Федеральная информационная система оценки качества образования) Рособрнадзором. Опять же интересно что меняется

На что ещё стоит обратить внимание:
1. По сравнению с 2021 годом [2] число запланированных законопроектов сократилось со 153 до 127. А на 2020 год вообще в плане было 230 законопроектов [3], так что сокращение почти в 2 раза за 2 года.
2. С другой стороны это куда достовернее цифр в 49 законопроектов которые были запланированы ещё в 2019 году Пр-вом при Медведеве [4]
3. Сам документ очередной пример того как неудобно публикуются официальные документы. Это совершенно точно табличный документ размещённый как PDF файл, но это мелочи.

Самое интересное - создание регистратора имен для госсайтов и что же Минцифры России планируют подготовить в этом законопроекте и кого он охватит.

Ссылки:
[1] http://government.ru/news/44321/
[2] http://government.ru/news/41289/
[3] http://government.ru/activities/selection/302/38737/
[4] http://government.ru/activities/selection/676/35282/

#regulation #government #it #laws