Ivan Begtin
8.1K subscribers
2.03K photos
3 videos
102 files
4.75K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
О ведении реестров и их качестве, вот, например, федеральный информационный реестр гарантирующих поставщиков и зон их деятельности [1] который ведёт ФАС России. Как оценить его качество? Как убедиться что он доверителен?

Это маленький реестр, не такой "жирный" как реестр СОНКО, в нём всего 675 организаций, а не десятки тысяч, но этот реестр также ведётся в электронном виде и только в Excel, где и публикуется на сайте ФАС России.

Критерии проверки качества ведения любого более-менее осмысленного реестра прорастают из критериев качества его проектирования и целей.
В общем случае реестр должен быть:
1. Достоверным - информация в реестре должна соответствовать действительности
2. Полным - включать все необходимые сведения и все необходимые объекты учёта (в зависимости от того что это за реестр)
3. Актуальным - сведения в реестр должны быть актуальны, идеально, на момент просмотра, допустимо на срок установленный его регламентом.
4. Доступным/Открытым - если иное не предусмотрено законодательством (что для реестров редко, обычно они открыты)
5. Учётным - записи реестра должны иметь сроки давности, уникальные номера, должны хранится сведения о исключённых записях, о изменениях и причинах изменений.

Каждый из этих критериев можно декомпозировать когда мы начинаем проверять конкретный реестр:
1. Достоверность
Внесённые сведения должны быть достоверны, а это означает что, например, для реестра организаций проверка достоверности начинается с кросс-сопоставления с эталонными справочниками, в базовом виде с ЕГРЮЛ, в расширенном, это когда известны другие справочники содержащие актуальные сведения.
Самые базовые проверки: валидность ИНН и ОГРН, например, в случае реестра ФАС, только 2 значения ОГРН невалидны, валидны все значения ИНН, но и там и там, далеко не все значения в колонках ИНН и ОГРН заполнены. Из 675 записей у 132 нет значений ОРГН и у 277 нет кода ОГРН. Это относится частично к достоверности данных и частично к проверке на полноту.
Проверка на достоверность также предполагает сверку сведений того что ИНН и ОГРН приведены именно той организации, а не ИНН одной и ОГРН другой, на соответствие названия организации её названию в ЕГРЮЛ, точности указания адреса и так далее. Это всё ещё базовый набор правил проверки достоверности сведений. Более расширенные проверки включают проверку достоверности внесенных адресов, контактов и тд.

2. Полнота
Полнота данных включает как полноту заполнения сведений, так и полноту самого реестра. В первом случае это пример приведенный выше когда не все записи в колонках ОГРН и ИНН, но и колонки с телефонами организаций заполнены лишь на 54%, а email адресов на 45%.
И так далее по каждому пункту.
Сам реестр формируется на основании поступивших в ФАС распоряжений регуляторов в субъектах федерации, проверка полноты здесь, возможна только вручную проверкой региональных НПА. К счастью, реквизиты этих НПА указаны, к несчастью, не всегда корректно и без ссылок на опубликованные документы.

3. Доступность/Открытость
Это, в первую очередь, проверка формата публикации. В данном случае - это Excel файл, но в основном он нужен органу власти для понимания области его регулирования. В случаях когда ведение реестра создаёт какую-либо финансовую ответственность или, например, используется банками как реестр СО НКО, то он нужен в XML или CSV формате для загрузки во внутренние системы того же банка и требуется API для работы с этими данными для получения актуальных сведений. Например, так устроен реестр ФИАС [2] и многочисленные общедоступные реестры ФНС России

4. Учетность
Проверка реестра на то насколько он является учётной системой - это, проверка регламента и интерфейса системы. Большая часть госорганов с публичными реестрами не заморачиваются и ведут их как Бог на душу положит. Плохо ведут в общем. Исключение ФНС России, и те органы власти для которых публикация реестра - это лишь продолжение внутренней системы где он ведётся.
Во всех более менее серьёзных органах власти и компаниях принципы ведения реестров, на самом деле, понимают. И понимают даже в куда более широком смысле чем то что я тут описываю, поскольку ещё есть разного рода системы НСИ, вопросы миграции с унаследованных систем, технологические особенности и не только. Некоторые из таких органов сознательно забивают на малозначащее для них и делают акцент на более значащее. Например, в реестр участников и неучастников бюджетного процесса [3] в Федеральном казначействе полно нерелевантных сведений в виде email адресов и веб-сайтов организаций, но почти идеально вычищены все реквизиты, особенно лицевые счета. Потому что реестр нужен Казначейству именно для учета и согласованной работы со всеми лицевыми счетами.

В качестве завершения, качество сведений в информационных системах и реестрах вполне поддаётся оценке, а измерение качества вполне может быть сформулировано в руководство и даже, частично, автоматизировано. Ну а то насколько полон, актуален, доступен и учётен каждый конкретный реестр - это на совести исключительно людей ответственных за него.

Ссылки:
[1] http://fas.gov.ru/pages/activity/tariffregulation/federalnyij-informaczionnyij-reestr-garantiruyushhix-postavshhikov-i-zon-ix-deyatelnosti.html
[2] http://fias.nalog.ru
[2] http://fias.nalog.ru
[3] http://budget.gov.ru

#data #registry #quality #dataquality #dqm
Весьма любопытный обзор/мини-анализ инструментов машинного обучения [1] (на английском). Автор просмотрел более 200 ML инструментов и делает вывод что инструментарий для AI неразвит, несмотря на весь пузырь в этой области. Многие проблемы не решены, многие задачи требуют инструментов которые пока ещё никто не разрабатывает. И, в качестве резюме, то что хайп вокруг AI угасает и если Вы хотите заниматься данными, то выбирайте инженерию, а не машинное обучение. Машинное обучение всегда сможете наверстать, а без инженерных навыков в жизни никуда.

Ссылки:
[1] https://huyenchip.com/2020/06/22/mlops.html

#data #ai #ml
Для тех кто мог упустить, напоминаю о дискуссии через час.
Forwarded from Инфокультура
Сегодня в 15:00 пройдет дискуссия «Человек и корпорации: что происходит с нашей приватностью?».

📌 YouTube: https://youtu.be/iZ5vR2otr3I

Спикеры: Екатерина Калугина (Double Data), Артур Хачуян (Tazeros Global Systems), Иван Бегтин (Инфокультура). Модератор Василий Буров.

Подключайтесь к эфиру, подписывайтесь на страницу, жмите на колокольчик и следите за нашими обновлениями 🙂
У компании JetBrains (разработчика языка программирования Kotlin и множества отличных инструментов для программистов) с корнями в Санкт-Петербурге вышел ежегодный обзор интересов программистов за 2019 год [1] проведённый на основе опроса 19 696 человек, а также, не менее интересный анализ сравнения среды разработчиков в мире и в России [2].

И там и там столько всего интересного что надо выбирать о чём рассказать, я сосредоточусь на нескольких фактах сравнения:
1. В мире PHP выпал из пятёрки самых популярных языков, в России он пока ещё на 4-м месте.
2. Основной язык программирования для тех кто начинает - это Java, но уже большее число программистов владеют Python
3. В России в 10 раз больше используют базу данных ClickHouse (удачное импортозамещение)
4. Вовлечение разработчиков в открытый код в России на 41%, в мире 51%
5. В России используют облачные сервисы в 2 раза реже чем в мире - 27%, а в мире - 53%

И некоторые общие тренды:
1. Javascript, Python, Go, Kotlin - наиболее востребованные языки программирования.
2. Java - по прежнему "базовый язык", но тут надо оговориться что у JetBrains изначально были качественные продукты для Java и н увидительно что среди их аудитории много Java программистов
3. Разработчиков под андроид и популярность этой платформы в 4 раза выше чем у iOS
4. Самые популярные инструменты для технологий больших данных - это стек Apache: Apache Kafka, Apache Spark, Hadoop, Hive, Flink, Pig, Beam и др.
5. Самые популярные инструменты визуализации, всё ещё, это разные табличные процессоры - это 50% всех опрошенных. На втором месте Tableau - 18%
6. 3-8 часов в неделю посвящают своим проектам 38% разработчиков, а в целом более 60% разработчиков на свои проекты тратят более 3 часов в неделю
7. У большинства хобби - программирование, 58% опрошенных:)

Очень рекомендую прочитать публикации на сайте Jetbrains, там немало других интересных фактов.

Ссылки:
[1] https://www.jetbrains.com/ru-ru/lp/devecosystem-2020/
[2] https://blog.jetbrains.com/ru/2020/06/22/the-state-of-developer-ecosystem-2020/

#developers #survey
Amazon анонсировали свою no-code платформу Honeycode [1]. Саму платформу уже сейчас можно попробовать [2]. В самой платформе более 11 видов шаблонов [3] и весьма либеральные цены.

Больше всего от появления Honeycode пострадают стартапы вроде Airtable (эдакий облачный аналог MS Access), а также разного рода headless CMS вроде Directus или Strapi.io и ещё многих других.

Но с другой стороны если у Amazon эта платформа хорошо разовьётся, то Google и Microsoft могут захотеть не создавать, а поглотить один из стартапов в свои экосистемы, GCCS и Azure соответственно.

У Honeycode уже неплохая документация, курсы и сообщество [4] и вес Amazon'а как игрока на рынке что снимает один из ключевых рисков no-code платформ - это даёт гарантию что платформа никуда не денется.

И к вопросу об импортозамещении в России, мир уходит в облака, а мы пытаемся замещать ПО продаваемое как лицензии.
Нет ощущения что мы отстаём ?

Ссылки:
[1] https://aws.amazon.com/ru/blogs/aws/introducing-amazon-honeycode-build-web-mobile-apps-without-writing-code/
[2] https://www.honeycode.aws
[3] https://www.honeycode.aws/templates/templates-all
[4] https://honeycodecommunity.aws/

#amazon #aws #nocode
Свежая некоммерческая организация получатель субсидий федерального бюджета в скором времени - Автономная Некоммерческая организация "Управляющая Компания НОЦ" упомянута в свежем распоряжении Правительства РФ [1].

Организация была создана в конце 2018 года решением правительства Нижегородской области однако найти её сайт, устав, признаки деятельности за 2019 год мне не удалось.

Можно только предполагать что не по критерию прозрачности проходил отбор.

Последний раз об этом НОЦ писал коммерсант в августе 2019 года [2], однако больше никаких новостей не было.

Как я упоминал, госАНО - одна из наиболее непрозрачных форм получения господдержки. Если нет нормативно-правового акта регламентирующего раскрытия информации, нет сайта и описания содержания деятельности - то начисто отсутствует контроль за их деятельностью

Ссылки:
[1] http://government.ru/news/39940/
[2] https://www.kommersant.ru/doc/4073020


#ngo #govngo
The Bell [1] пока первыми из российских (ориентированных на Россию) СМИ подробно разобрали ситуацию с налоговым манёвром в ИТ [1]. Пожалуй, пока наиболее тщательный разбор того что с ним не так, насколько повредит и кому возврат НДС и так далее.

Я вот лишь могу повторить что ИТ рынок в России всё углублённее разделяется на ту часть которая взаимодействует с государством и часть которая старается держаться от него как можно дальше.

ИТ, а вернее, цифровой бизнес ориентированный на клиентов за пределами России давно уже, или создавал головную компанию не в России, или сменил юрисдикцию, или планирует это сделать. Дело, конечно, не только в налогах, но и в валютном контроле, в ужесточении регулирования и, в целом, недоверия потенциальных инвесторов и клиентов к российской юрисдикции.


Ссылки:
[1] https://thebell.io/vyshlo-ochen-nekrasivo-kto-pridumal-nalogovyj-manevr-dlya-it-i-chto-o-nem-dumaet-biznes

#it
Классическая модель работы с данными предполагает использование ETL инструментов где ETL - это Extract, Transform, Load [1], комплексный процесс описанный ещё в 70-е годы 20-го столетия исходящий из данные последовательно извлекаются, преобразуются и далее уже только загружаются в очищенном/преобразованном виде в базу данных, как правило, являющуюся часть хранилища данных (Data Warehouse) и используемую для аналитических расчётов, систем BI и так далее.

ETL инструментов существует бессчетное количество, как в поставке вместе с движками баз данных крупнейшими вендорами, так и как самостоятельные продукты. Главным достоинством ETL всегда было то же что является его же главным недостатком - необходимость тщательного проектирования, понимания итогового результата что требовало, зачастую, довольно кропотливой подготовительной работы. Другой недостаток в том что в случае ETL из-за стадии преобразования время загрузки данных всегда было значительным. Это затрудняло работу с потоками данных.

Важное изменение в последние годы - это появление нового подхода, ELT. ELT - это Extract, Load and Transform [2], модель построенная на потоковой обработке данных и замену стадий L и T. При ELT данные вначале извлекаются, но ещё до их обработки они загружаются в финальное хранилище и уже инструментами предоставляемыми этим хранилищем они обрабатываются и превращаются очищенные/обработанные данные. Преобразование может производится самыми разными способами, от процедур в SQL, до внешних инструментов по преобразованию данных (data wrangling) и специализированных платформ.

Такой подход резко сокращает время загрузки данных и даёт возможность создавать на базе собранных первичных данных разные итоговые продукты, это могут быть:
- базы для аналитической работы и BI
- базы эталонных (золотых) записей
- срезы данных для использования в data science
и иные продукты.

При этом, для ELT хранилище данных - это не обязательно data warehouse с тщательно прописанными метаданными и тд. Зачастую это озёра данных с куда как менее тщательными требованиями по интеграции данных между собой.

Это не значит что у ELT нет недостатков.
Как минимум можно говорить о том ELT:
1. Требует хранения большего объёма первичных данных.
2. Требует значительных процессорных мощностей в хранилище необходимых для обработки данных.
3. Требует значительного более внимательного отношения к персональным и чувствительным данным, потому что в ETL процессе они, как правило, вычищаются на стадии трансформации и не попадают в целевую систему. А в ELT данные уже в системе и на неё накладываются ограничения связанные с обработкой данных и их хранением в определённой юрисдикции.


Подход ELT активно пропагандируется и продвигается облачными сервисами, что и понятно, они обеспечивают практически неограниченные аппаратные возможности, для хранения и обработки данных, зависящие только от бюджета тех кто обрабатывает на них свои данные.

ELT неразрывно связано с концепцией data pipelines и его отличия подробно разобраны во многих источниках компаний создающие свои продукты по этой концепции:
- блог XPlenty [3]
- блог Panoply [4]
- блог Talend [5]
- блог OpenBridge [6]
- блог DataForm [7]

Спросить чем отличаются ELT от ETL или попросить привести в пример несколько продуктов обоего типа - это хорошие вопросы на собеседовании инженера по работе с данными (дата инженера). ELT применимо не для всех задач, но уже настолько распространено, что нельзя не знать о том что это такое и как устроено.

Ссылки:
[1] https://ru.wikipedia.org/wiki/ETL
[2] https://en.wikipedia.org/wiki/Extract,_load,_transform
[3] https://www.xplenty.com/blog/etl-vs-elt/
[4] https://blog.panoply.io/etl-vs-elt-the-difference-is-in-the-how
[5] https://www.talend.com/resources/elt-vs-etl/
[6] https://blog.openbridge.com/etl-tools-elt-vs-etl-process-89bb1f71c7b3
[7] https://dataform.co/blog/etl-vs-elt

#etl #elt #data #datalakes #datawarehouse
Коммерсант пишет про то что портал Госуслуг хотят сделать единой системой (фронэндом) для работы с обращениями граждан [1].

Природа этой задумки понятна - сделать так чтобы у каждого гражданина был аккаунт ан госуслугах. Я прогнозирую что лет через 5 аккаунт на госуслугах будут создавать автоматически в роддоме и активировать с выдачей паспорта, если не раньше.

У меня много вопросов по поводу конкретно этой инициативы:
1. Будут ли охвачены обращения по 59-ФЗ или по 59 и по 8-ФЗ?
2. Что делать с обращениями от юридических лиц?
3. Как будут принимать обращения от уязвимых групп граждан (заключённые, не имеющие телефона, не граждане) и тд?

Ссылки:
[1] https://www.kommersant.ru/doc/4396978

#gosuslugi
И снова приходится упоминать Коммерсант, который пишет про то что Правительство РФ не дало монополии Сбербанку на платформу Гостех [1].

Я могу тут лишь добавить что до сих пор никто внятно не сформулировал что такое Гостех, зачем он нужен и какие задачи необходимо решать в первую очередь. Сформулировать задачи - это ведь означает и сформулировать проблемы, а в наличии проблем что-то признаваться никто не хочет.


Ссылки:
[1] https://www.kommersant.ru/doc/4396914

#digital #it #government
Посыпаю голову пеплом за поздний анонс, но сегодня с 16:00 по 18:00 Инфокультура проводит вебинар о публикации открытых данных с большим числом коллег отрасли работающих в этой тема довольно давно.

Описание есть в Facebook [1] и регистрация на Timepad [2].

Ссылки:
[1] https://www.facebook.com/events/310008623500991/
[2] https://infoculture.timepad.ru/event/1346090/

#opendata #opengov #infoculture
В свежий реестр НКО получателей поддержки включили:

11 крупнейших получателей госсредств ("миллиардники")
8 крупнейших частных (корпоративных) университетов
Российский научный фонд
5 образовательных корпоративных организаций учреждённых Сбербанком
62 "НКО" РЖД
193 организации учрежденных органами власти
7 частных учреждений Газпрома

Давайте блиц опрос устроим.
Корпоративные и госорганизации в реестре НКО получателей поддержки - это
anonymous poll

Я забыл огнемёт дома поэтому мне нечего сказать – 81
👍👍👍👍👍👍👍 69%

Ненормально, Минэкономразвития ошиблись в методологии – 24
👍👍 20%

Нормально, так и должно быть – 5
▫️ 4%

Ненормально, органы власти предоставившие сведения ошиблись – 4
▫️ 3%

Правительство ошиблось в критериях отбора – 4
▫️ 3%

👥 118 people voted so far.
Forwarded from Госзатраты
Без малого 9 млрд рублей потратят на техническое оснащение трех филиалов автоматизированной информационной системы (АИС) «Налог-3». Соответствующий госконтракт заключили от лица казенного учреждения подведомственного Федеральной налоговой службе. Исполнителем по контракту выступает ООО «ИБС Консалтинг».

Как следует из соглашения, за счет средств федерального бюджета до 5 февраля 2021 года программным обеспечением оснастят филиалы АИС в Москве, Дубне и в Городце Нижегородской области. В перечне объектов закупки: машины баз данных, сетевые коммутаторы, межсетевые экраны, система мониторинга и управления, ПО для хранения баз данных и управления ими.

Отметим, что АИС «Налог-3» — это единая информационная систему ФНС России, которая обеспечивает автоматизацию деятельности службы. В том числе прием, обработку, предоставление данных и анализ информации, формирование информационных ресурсов налоговых органов, статистических данных, сведений, для принятия управленческих решений и предоставления информации внешним потребителям.

Подробности о многомиллиардном соглашении — на сайте проекта «Госзатраты»: http://amp.gs/2FBV
О качестве данных и контроле качества:

Хороший обзор стандартов, подходов и инструментов работы с качеством данных в блоге DataInvestor (англ.) [1] в том числе с указанием стандартов таких как Data Quality Assessment Framework (DQAF) [2] используемого в Международном валютном фонде для анализа данных, и процессов их создания, от предоставляющих данные стран.

А также:
- Раздел обзоров на сайте Gartner посвящённый теме качества данных [3]
- О том как отличаются подходы к контролю качества данных при ETL и при ELT [4] подходах
- Подход и практики качества данных в канадском статистическом агентстве [5]

Одна из проблем в обеспечении качества данных в России в том что российских инструментов в этой области совсем нет и невозможно что-то "импортозамещать". В лучшем случае можно найти комбинацию инструментов с открытым кодом, в худшем делать всё с нуля и самостоятельно.

Ссылки:
[1] https://medium.com/datadriveninvestor/data-quality-management-roles-processes-tools-3c912e8e1db6
[2] https://dsbb.imf.org/dqrs/DQAF
[3] https://www.gartner.com/reviews/market/data-quality-tools
[4] https://www.talend.com/resources/best-practices-for-managing-data-quality-etl-vs-elt/
[5] https://www.statcan.gc.ca/eng/data-quality-toolkit

#opendata #dataquality #datamanagement
Кстати, в мае этого года Департамент строительства Москвы создал ещё одну АНОшку: Автономная Некоммерческая организация "Развитие Спортивных и Инфраструктурных Объектов". Причём само распоряжение о его создании найти не удаётся, только проект документа для антикоррупционной экспертизы [1]
Но про доступность и публикацию НПА на федеральном уровне и на уровне субъектов федерации - это отдельная большая тема.
А в качестве домашнего задания, попробуйте:

1. Найти в системах pravo.gov.ru и pravo.minjust.ru распоряжения Правительства Москвы и его департаментов начиная с 2018 года
2. Найти место любого официального опубликования распоряжения о создании АНО "Развитие Спортивных и Инфраструктурных Объектов" .
3. Найти (где угодно) соглашения о информационном обмене/сотрудничестве/взаимопомощи Правительства Москвы (или иных органов) с технологическими компаниями (читай Яндекс).

P.S. Может уже бренд и онлайн медиа зарегистрировать "Кстати", чуть ли не каждый пост уже так начинаю.

Ссылки:
[1] https://www.mos.ru/ds/anticorruption/antikorruptcionnaia-ekspertiza/view/10783221/

#moscow #москва #anoism #transparency
Пока кратко, вышла стратегия работы с данными ООН [1]. Разбор её я напишу позже, пока это, как минимум, полезный документ чтобы на него ссылаться.


Ссылки:
[1] https://www.un.org/en/content/datastrategy/index.shtml

#opendata #data #datastrategy
По поводу дистанционного электронного голосования, я как мог сдерживался, но не могу, рвётся, не все ещё ощущают "перспективу" этой темы.

Давайте я сделаю предсказание:

1) Через 5 лет приложение госуслуг или иное мобильное приложение для голосований будет стоять на мобильном телефоне каждого гражданина начиная с 14 лет как минимум.

2) Голосования будут идти от 3 до 10 дней и только через мобильные устройства или на дому. Никаких избирательных участков более не будет.

3) Уклониться от голосования станет невозможно. Приложение будет напоминать о нём регулярно гудками/всплывающими окнами и тд. Чем ближе к окончанию срока тем больше напоминаний.

4) Голос не будет храниться в системе, но факт участия в голосовании будет и будет использовать при расчет социального рейтинга.

5) На первых порах соц рейтинг будет только про позитив. Не про наказание тех кто социально неактивен, а про лотереи, розыгрыши и поощрение тех кто социально активен.

6) Голосования будут происходить ежемесячно (один человек будет участвовать до 10-20 голосований в год). Сюда интегрирует все проекты типа "народный бюджет", "активный гражданин" и др.

Готов об заклад биться что так и будет

#digital #elections