Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Как и многие имевшие отношение к госИТ я читаю телеграм канал ГосТех'а и их последние тексты про мировой опыт ИТ в государстве.

Как бы при этом сказать, уровень этих текстов удручающий, ещё лет 7-8 назад я видел куда более детальный анализ того что делается в мире и сам составлял с несколько десятков презентаций, текстов, докладов и иной аналитике обо всём вот этом.

Чтобы не томить, я кратко опишу в чём сейчас мировой опыт заключается и как он отличается от российского. Оговорюсь что мировой опыт - это не только развитые страны, но и все более менее крупные.

1. Стратегии и долгосрочные планы
В мире - до реализации, реже, в процессе принимают национальные стратегии развития ИТ, облачных технологий, данных и ИИ. При необходимости их корректируют, их наличие мониторят, например, ОЭСР и ООН.
В России - стратегии скорее редкость, если они и есть то вторичны реальным процессам, а чаще их нет.

2. Открытый код госпроектов
В мире - происходит массовое раскрытие кода госпроектов, проектов финансируемых госорганами и госучреждениями и компонентов этих проектов. В основном на Github, но и на других платформах. Сотни организаций, тысячи репозиториев кода.
В России - раскрытие кода госорганами и госучреждениями не практикуется, повторное использование кода почти нулевое.

3. Облачная инфраструктура
В мире - сертификация и унификация требований к облачным провайдерам для обеспечения работы госсистем. Цель в том чтобы разработчики умеющие работать с коммерческими облаками могли бы без переподготовки работать над госпроектами и в экономии средств на обслуживании оборудования и инфраструктуры.
В России - вместо сертификации коммерческих облачных провайдеров, несколько безуспешных попыток запустить гособлака.

4. Работа с данными
В мире - в основе работы с данными работа с потребителями, бизнесом и гражданам, а лишь потом решение задач самих госорганов. Работа с данными строится вокруг порталов открытых данных созданных для публикации данных государства. Эти порталы активно развиваются.
В России - усиление работы с данными для потребностей госорганов, патерналистичный подход к доступности данных для пользователей, вместо данных, предоставляются госсервисы. Общее снижение открытости государства для независимого анализа и гражданского контроля

5. Стандарты
В мире - принятие национальных и международных стандартов работы с данными, спецификаций обмена сведениями, использование стандартов для интеграции информационных систем.
В России - минимизация международных стандартов, медленное создание национальных стандартов. Внедрение общих технологий через централизацию информационных систем.

6. Интеграция информационных систем
В мире - большая работа по интеграции унаследованных систем, систем в разных юрисдикциях и у разных уровней и ветвей власти, тщательная проработка юридических аспектов интеграции и обработки данных.
В России - сверхцентрализация информационных систем, вместо интеграции замена информационных систем регионов на единые федеральные. Политизация процесса интеграции, де-факто, перевод всех ветвей власти в зависимость от федеральной исполнительной власти.

Это, конечно, не всё, я таких пунктов могу написать ещё несколько десятков страниц, но хочу сделать акцент на другом. Информатизацию уже давно нельзя отделять от внутренней политики, в первую очередь контроля центральной/федеральной исполнительной власти, не только за гражданами, но и за всеми остальными ветвями и видами власти. Это сохраняющийся тренд вот уже почти два десятилетия и он никуда не делся.

Поэтому, наглой рекламы добавлю, если хотите узнать как устроено госИТ в мире и в России, читайте меня, а не телеграм канал ГосТеха😜

#russia #it #digital #government
Тем временем, буквально недавно, в июле, появилось предложение по изменению в стандарт HTTP добавлением типа запроса QUERY для запросов в базы данных [1] [2] нечто что имеет самое непосредственное отношение к современным базам данных, индексированию веб сайтов и работе большого числа веб ресурсов.

По сути идея в том чтобы иметь тип запросов который, с одной стороны, должен нести нагрузку при передаче от клиента, а с другой поддерживать кеширование, то что сейчас не обеспечивается для POST запросов ну или вернее обеспечивается путем настройки кеширующих веб-серверов, на уровне кеш серверов ключ-значение и так далее.

У меня лично нет уверенности в строгой необходимости такого изменения. Запросы в HTTP ещё давно проектировались по модели CRUD (GET, POST, DELETE, PUT и PATCH), а аналога SELECT никогда небыло. Большая часть REST API и запросов Ajax работают на базе GET или POST запросов.

Будет ли эффективен запрос QUERY? Хочется увидеть референсную реализацию и тестирование производительности.

Ссылки:
[1] https://datatracker.ietf.org/doc/draft-ietf-httpbis-safe-method-w-body/
[2] https://horovits.medium.com/http-s-new-method-for-data-apis-http-query-1ff71e6f73f3

#data #standards
Полезная статья [1] о применении машинного обучения и глубокого обучения для задач VDU (Visual document understanding), распознавания текстов (и образов) в документах. Автор пишет о том как на базе библиотеки transformers [2] от HuggingFaces, модели Donut [3] (Document understanding transformer) и базы сканированных чеков она настроила их автоматическое распознавание в структурированный формат в JSON так что на выходе получается не текст неким свободным образом написанный, а структура объекта чтобы сразу класть в базу данных.

Скорее всего если сравнивать с промышленными платными OCR движками, то качество их распознавание должно быть лучше, но тут автор сравнивает с открытым движком Tesseract который, по её утверждению, справляется хуже.

Donut выглядит интересным открытым продуктом, его определённо стоит попробовать на каких-то живых сканах структурированный сведений чтобы понять границы его применимости.

Ссылки:
[1] https://towardsdatascience.com/ocr-free-document-understanding-with-donut-1acfbdf099be
[2] https://huggingface.co/docs/transformers/index
[3] https://github.com/clovaai/donut
[4] https://github.com/zzzDavid/ICDAR-2019-SROIE

#data #opensource #ml #datascience
Milvus [1] векторная база NoSQL данных позволяющая быстро реализовывать поиск по подобиям, например, поиск по похожим изображениям или поиск похожих химических структур. Является одним из проектов The Linux Foundation [2].

Из особенностей, интерфейс работы в виде коллекций чем-то похожий на MongoDB, но с преднастроенной схемой данных.

Для веб интерфейса к нему идёт отдельно надстройка Attu [3]․
А также есть много примеров построения разных видов поиска [4].


Ссылки:
[1] https://milvus.io/
[2] https://lfaidata.foundation/projects/
[3] https://github.com/zilliztech/attu
[4] https://milvus.io/docs/v2.1.x/image_similarity_search.md

#datatools #databases #opensource
Когда много пишешь всегда наступает момент когда надо систематизировать написанное.

Я собрал мои тексты про информатизацию государства, открытые государственные данные, качество госданных, государственные финансы, государственную политику и т.д. в одну большую подборку в рассылке [1].

Там только большие тексты, без учёта опубликованного в этом телеграм канале, в фэйсбуке и тд. Тексты вышедшие колонками в Ведомостях, Forbes, РБК и в моих блоге и в рассылке. Я мог упустить колонки в других изданиях, но большую часть материалов должен быть охватить.

Полезного чтения!

Ссылки:
[1] https://begtin.substack.com/p/29

#opendata #government #policy #dataquality #govfinances
В рубрике как это работает у них проект Nueva Economía de la Lengua [1], Новая языковая экономика в Испании.

В его основе инвестиции в размере 1.1 миллиарда евро в изучение испанского языка из которых:
- 475 миллионов евро идёт на создание цифровой платформы изучение языка и оцифровку материалов Института Сервантеса
- 330 миллионов евро идёт на создание языковых моделей для работы искусственного интеллекта.

Эти модели уже активно создаются. Из последних можно привести в пример ESCORPUS [2] языковая модель высокого качества на 50 миллионов слов, а также исходный код и многочисленные другие модели языков и публикации научные и популярные [3] создаваемые в суперкомпьютерном центре в Барселоне.

Обо всём этом, проектах и результатах, на сайте Министерства экономики Испании [4], результатов там немало.

Всё это делает испанский язык наиболее вероятным языком после английского языка по появлению новых продуктов на базе языковых моделей. Может быть ещё китайский язык составляет конкуренцию, разве что.

С точки зрения работы с данными можно рассматривать этот план как создание огромных качественных открытых наборов данных с чётко сформулированными целями в рамках долгосрочной государственной политики.

Испанский язык один из наиболее распространённых в мире и его распространение явно продолжится.

А есть ли на постсоветском пространстве похожие инициативы? Есть ли государственные инвестиции и открытые модели для русского, казахского, армянского, узбекского и других языков? Можно ли сохранять свои языки популярными и востребованными не вкладываясь в технологии их применения?

Ссылки:
[1] https://planderecuperacion.gob.es/como-acceder-a-los-fondos/pertes/perte-nueva-economia-de-la-lengua
[2] https://huggingface.co/datasets/LHF/escorpius
[3] https://github.com/PlanTL-GOB-ES
[4] https://plantl.mineco.gob.es/Paginas/index.aspx

#opendata #datasets #spain #languages #government #policy #eu
Интересные базы данных созданные на территории пост-СССР. В случае некоторых продуктов их авторы могли в последние годы переехать, но можно говорить что создавать их они начинали до переезда:
- Unum [1] облачная СУБД и её вариант с открытым кодом, создана в Ереване (Армения), одноименной компанией. Про инвестиции ничего неизвестно, в бенчмарках утверждают [2] что производительность выше чем у RocksDb, LevelsDb и др. լավ արված !
- OrioleDb [3] как я понимаю происхождение у проекта из Республики Беларусь, это движок для PostgreSQL повышающий эффективность использования в облаках (cloud-native).
- Akumuli [4] база для временных рядов с открытым кодом. Как я понимаю автор перестал ей заниматься примерно 2 года назад.
- SednaXML [5] некогда известная российская XML СУБД, поначалу интересная, но что-то случилось и материалы не обновлялись более 11 лет
- Datascript [6] СУБД с открытым кодом с поддержкой Datalog'а для Clojure и JavaScript
- Tarantool [7] хорошо известная СУБД от команды из Mail.ru (VK). С корпоративными и частными внедрениями и подробной документацией.
- YDB [8] распределенная отказоустойчивая СУБД от Яндекса используемая во многих внутренних продуктах
- EJDB [9] внедряемая NoSQL система управления базами данных, похожая на NoSQL. В основном под мобильные устройства.

Какие-то мог пропустить, основатели каких-то проектов могли переехать. Если есть что добавить, обязательно напишите!

Ссылки:
[1] https://unum.cloud/
[2] https://unum.cloud/post/2021-11-25-ycsb/
[3] https://github.com/orioledb/orioledb/
[4] https://akumuli.org
[5] https://www.sedna.org/
[6] https://github.com/tonsky/datascript
[7] https://www.tarantool.io/ru/
[8] https://ydb.tech/
[9] https://ejdb.org/

#dbms #russia #postussr #datatools #data
В рубрике как это работает у них, в Канаде проект FRDR (Federated Research Data Repository) [1] централизованный репозиторий всех научных данных создаваемыми исследовательскими центрами в Канаде.

Появился он давно, ещё в 2016 году, но только в 2021 году перешёл в промышленное использование и поэтому объёмы его относительно невелики, около 77 тысяч наборов данных из 103 научных репозиториев [2]. По сравнению с европейскими проектами Zenodo и OpenAIRE - это немного, но для Канады с её 38 миллионным населением, вполне немало.

Из особенностей:
- по сути, выступает поисковиком данных для исследователей
- кроме научных репозиториев агрегируют данные с порталов открытых данных
- собирают данные канадских исследовательских центров из глобальных репозиториев вроде Dryad
- как и большая часть других публичных ресурсов в Канаде - двуязычен на английском и французском языках
- является частью большого проекта Цифровой научной инфраструктуры [3]

Всё это не так масштабно как европейские, китайские или австралийские проекты по открытому доступу именно к данным, но показательно с точки зрения рассмотрения открытых государственных данных с точки зрения повышения их находимости и использования исследователями.

Ссылки:
[1] https://www.frdr-dfdr.ca
[2] https://www.frdr-dfdr.ca/stats/en/
[3] https://ised-isde.canada.ca/site/digital-research-infrastructure/en

#opendata #canada #openaccess #casestudies #government #science
Самые полезные инструменты те которые делаешь сам и пользуешься ими каждый день (с)

Много лет назад я сталкивался с тем что я читаю и делаю обзоры материалов из сотни источников, но в половине из них отсутствовали RSS/ATOM ленты и агрегаторы новостей с ними не работали. Сейчас это всё стало проще, почти у каждого значимого или оперативного источника информации есть какая-то социальная сеть или рассылка, но, как ни странно, до сих пор в 2022 году есть новости публикуемые на сайтах без экспорта в RSS или ATOM.

Примерно 14 лет назад я сделал специальную программу автоматического (!) создания новостных лент из сайтов. Не автоматизированного, а именно автоматического. Получающего на вход ссылку и на выход выдающего RSS или JSON с данными.

А в 2018 году я выложил её в открытый код под названием newsworker и с тех пор почти не обновлял.

Но, как ни странно, до сих пор существуют ситуации когда такие инструменты нужны. Например, новости UNFPA публикуются без RSS аналогично с новостями венчурного фонда Runa Capital.

На скриншотах примеры JSON данных извлекаемых из этих страниц, на основе которых быстро воссоздаётся RSS или ATOM.

Тогда, 14 лет назад, это была реально сложная задача. Решая её пришлось написать автоматическое распознавание дат в виде библиотеки qddate, и достаточно сложную, на тот момент, логику анализа структуры веб-страниц.

Оснастку инструмента и библиотеки сейчас я бы написал по другому, а основа, похоже, останется актуальной ещё надолго, даже при распространении социальных сетей.

#opensource #datatools
Коммерсант пишет про то что Реестр российских IT-компаний ждет еще одна чистка, там и мои комментарии есть.

Лично мне довольно безразлично что критиковать, Минцифры или создаваемый совет. Важно не путать глав ассоциаций и экспертов - глава ассоциации, это, как правило менеджер, лоббист и говорящая голова, а эксперт это человек погруженный в проблемную область. Совмещение, обычно, приводит к душевным травмам, посмотрите на меня, я живой пример;) и радости и результата не приносит.

А вот благодарность мне Максут Шадаев за помощь в чистке реестра так и не выдал. Наверное бумага в министерстве закончилась;)

Ну а если серьёзно, я повторю ещё раз всё ту же ключевую идею. Не надо "танцевать вокруг реестра", есть решение проще. Реестр аккредитованных = реестру ИТ льготников. Нет подтверждения ФНС - нет аккредитации. Все остальные модели сложнее объяснить, сложнее реализовать и так далее.

#government #digital #itmarket
Все ещё не наигрались с искусственными изображениями создаваемыми ИИ MidJourney, а уже появился движок Stable Diffusion от стартапа Stability AI умеющие генерировать изображения людей, например, знаменитостей. В TechCrunch большая статья про потенциальные последствия и возможности этой системы [1].

Опуская технические подробности её реализации, как вы думаете какие последствия для человечества может принести развитие этой технологии?

Ссылки:
[1] https://techcrunch.com/2022/08/12/a-startup-wants-to-democratize-the-tech-behind-dall-e-2-consequences-be-damned/

#ai #ethics
Языковые модели могут учить себя программировать лучше

"Пугающее" название научной статьи по весьма актуальной теме Language Models Can Teach Themselves to Program Better [1] о том что языковые модели, в данном случае модель Codex, умеют не только решать программные задачи, но и улучшать код этих решений.

Тема интересная и я считаю что её категорически нельзя недооценивать. Программная инженерия всё более стремится к автоматизации. Как это поменяет рынок труда сейчас говорить рано, но определённо поменяет.

Ссылки:
[1] https://arxiv.org/abs/2207.14502

#ai #languagemodels #programming
Для тех кто пользуется MongoDB и постоянно ищет альтернативы, OxideDB [1] эмуляция MongoDB поверх PostgreSQL. Внутри движок которые запихивает объёкты документов в тип JSON для PostgreSQL и умеет конвертировать запросы MongօDB (язык MQL) в сложные SELECT.

Это не первая попытка проделать такое, эмулировать интерфейсы MongoDB в других СУБД и определенно эта попытка внимания заслуживает.

Зачем это нужно?
Две важнейшие причины:
1. Недооткрытый код MongoDB под SSPL лицензией. Для открытых сообществ - это как красная тряпка, для инфраструктурного бизнеса это ограничитель к облачному применению.
2. MongoDB далеко не оптимально по производительности, а тут возможность использовать наработки других СУБД.
3. Многим хочется иметь SQL и NoSQL сразу из коробки и давать удобные инструменты для каждой команды.

Ссылки:
[1] https://github.com/fcoury/oxide

#opensource #dbms #datatools #nosql #mongodb
Я недавно критиковал ГосТех [1] за плохое описание международного опыта, но реальная критика будет в том что про международный опыт они вообще никак и ни в какой форме не должны были и не должны писать. Они могут и, я считаю, что должны писать про российский опыт. Про то почему технологии выбираются, применяются, используются и почему вообще всё это нужно. Потому что, в отличие от текстов про других, тексты про себя не проСММить.

У меня есть заготовка для большого лонгрида почему в России всё катастрофически плохо с публичным технологическим евангелизмом для госпроектов, но, пока, покидаю Вам ссылок на то как рассказывают о технологиях в гос-ве в других странах и органах власти.

В Великобритании существует большой портал blog.gov.uk в котором очень много технологических блогов и тем из которых я бы выделил Inside GOV.UK [2] где, например, рассказывают как отказались от JQuery для портала gov.uk, как проектировали его веб-интерфейсы, как портал улучшается. Казалось бы ничего сложного, но это сделано системно и публикации там регулярные.

Другой их блог Data in Government [3] про то как работают с данными аналитики и разработчики. Там много всего интересного, мне было любопытно читать их тексты про Reproducible Analytical Pipelines (RAP) [4] о системном подходе к госаналитике данных. Кроме этих блогов есть ещё многие другие, про цифру, про технологии, про данные.

В США про госИТ пишет лучше всего команда 18F [5] про переделку госпорталов на новых технологиях и многое другое. Про данные там меньше, про документирование, фронтэнд, архитектуру и пользователей немало. В США куда хуже с централизованным блоггингом, блоги рассеяны по сайтам ведомств, но их много, просто очень много.

Сингапурский Гостех ведёт около десятка публичных блогов, например, вот такой основной Government Digital Services, Singapore [6], а вот ещё Open Government Products [7].

Новая Зеландия относительно небольшая страна, но там тоже есть блог у местного цифрового ведомства с кучей технических подробностей [8]․

В России культура государственных блогов, в том числе технологических, пропала где-то 5 лет назад. Она выродилась в ограниченное число блогов в твиттере и инстаграм политических персон, значительно меньшее число телеграм каналов некоторых госинициатив и почти тотальный запрет на публичные блоги госслужащих/чиновников.

Ну а блоги многих госинициатив как и их сайты слишком часто превращаются в бесконечный непрофильный СММ, пресс релизы, "новости отрасли" и прочий шлак.

Даже не знаю что рекомендовать читать на русском языке.

Ссылки:
[1] https://yangx.top/begtin/4152
[2] https://insidegovuk.blog.gov.uk/
[3] https://dataingovernment.blog.gov.uk/
[4] https://analysisfunction.civilservice.gov.uk/policy-store/reproducible-analytical-pipelines-strategy/
[5] https://18f.gsa.gov/blog/
[6] https://medium.com/singapore-gds
[7] https://opengovsg.medium.com/
[8] https://www.digital.govt.nz/blog/

#government #digital #blogging
В рубрике как это работает у них, порталы открытых данных латиноамериканских стран.

Портал открытых данных Перу [1] создан на базе движка CKAN в 2020 году согласно декрету цифровой трансформации страны. Содержит 7363 набора данных включая 56 наборов данных про COVID-19

Портал открытых данных Мексики [3] включает 9.8 тысяч наборов данных (40.7 тысяч файлов) от 280 органов власти. Также создан на базе движка CKAN. Большая часть данных опубликованы по темам качества жизни, инфраструктуры и образования.

Портал открытых данных Парагвая [4]. Данных пока немного, всего 251 набор данных. Также на базе CKAN.

Аналогично порталы открытых данных есть у всех стран Латинской Америки. Как правило на базе открытого кода, обновляющиеся, чаще всего с данными в форматах CSV.

В испаноязычном мире открытые данные (datos abiertos) - это одна из актуальных тем и таких порталов появляется всё больше.

Ссылки:
[1] https://www.datosabiertos.gob.pe/
[2] https://www.gob.pe/institucion/pcm/normas-legales/395320-006-2020
[3] https://datos.gob.mx/
[4] https://www.datos.gov.py

#opendata #spanish #government #opengov
Свежая и полезная книжка Fundamentals of Data Observability от Andy Petrella из стартапа Kensu в виде первых двух глав. Можно скачать через форму на сайте Kensu, а можно и сразу по этой прямой ссылке. По прямой ссылке не надо оставлять свои контакты;)

Книга полезная тем что хотя и автор из стартапа профильного в теме наблюдаемости данных (data observability) в книге не самореклама, а реальное объяснение компонентной структуры и концепций наблюдения за данными и процессами.

#data #books #review