Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Свежее исследование ОЭСР The Strategic and Responsible Use of Artificial Intelligence in the Public Sector of Latin America and the Caribbean [1]
о том как ИИ используются в Южной Америке и на Карибах и о том какая реакция на такое использование возникает.

Много кейсов и сравнений, в соответствии с принципами ОЭСР для ИИ, принципами ИИ для G20 и ещё много чего. Множество примеров и, забегая вперед, в лидерах там Колумбия, Мексика, Уругвай и кое-где Аргентина.

От наших реалий это кажется далёким, но не стоит забывать что внедрение ИИ никуда не делось, и социальное неравенство от несправедливого его применения тоже никуда не исчезает.

Ссылки:
[1] https://www.oecd-ilibrary.org/governance/the-strategic-and-responsible-use-of-artificial-intelligence-in-the-public-sector-of-latin-america-and-the-caribbean_1f334543-en

#ai #oecd #reports
Полезное чтение про данные
- о том как FloSQL использует dbt [1] ещё один стартап помогающий управлять потоками данных для труб данных на SQL с интеграцией с dbt внутри. По сути такие продукты - это, в каком-то смысле, продукты по организации SQL кода. Жду когда придумают аналог git'а для SQL или git over SQL (шутка).
- заметка о будущем доверенных сред для исследователей Trusted Data Environment [2] - полезно скорее как развитие мыслей о том как развивается это направление и акценты на data stewardship, data trusts и так далее. Очень далеко от российских реалий, но важно
- Firebolt выпустили Big Data Game [3] забавную онлайн игру о том каково это быть инженером данных.
- у Cube хороший обзор о том что такое Headless BI [4], полезно для всех кто ещё не разобрался
- Data lake vs Data warehouse [5] для сравнения о том что строить, озеро данных или хранилище данных. Главное не строить data swamp;)

Ссылки:
[1] https://www.flosql.com/
[2] https://medium.com/data-policy/trusted-research-environments-require-strong-community-involvement-heres-why-4abe8034a15d
[3] https://www.firebolt.io/big-data-game
[4] https://cube.dev/blog/headless-bi/
[5] https://luminousmen.com/post/data-lake-vs-data-warehouse

#reading #data
Автор который всегда радует рассуждениями - это Ben Stancil с его последним текстом о прошлом и будущем OLAP кубов: "The ghosts in the data stack" [1]

Не буду всё пересказывать, общий смысл в том что концепция OLAP кубов устарела когда появились возможности быстро считать метрики поверх больших таблиц в облачных и корпоративных базах данных, а также идея в том что OLAP кубы избыточны и сложны для работы аналитика. В качестве примеров он хороших приводит сайты МВФ и ФРС в Сэнт-Луисе, а в качестве плохого примера сайт переписи США.

Как и во многих случаях хороших рассуждений, с автором есть о чём поспорить, но рассуждения его вполне справедливы. OLAP кубы и отчетопостроители на их основе зачастую построены негуманно для пользователей. Работа с ними требует дополнительных знаний и обучения, неинтуитивна и сильно зависит от природы данных на которых эти OLAP кубы построены.

Стартапы вроде Mode, который Ben Stancil представляет, как раз и создают альтернативы таким OLAP кубам. Но нельзя говорить что OLAP мертв, базы вроде Apache Druid или Clickhouse - это тоже OLAP, модернизированный, но MOLAP, ROLAP и HOLAP и тд. Впрочем в Modern data stack всё более вместо OLAP упоминают headless BI и другие BI продукты поверх хранилищ метрик.

Ссылки:
[1] https://benn.substack.com/p/ghosts-in-the-data-stack

#olap #analytics #data #reading
В рубрике интересных инструментов по работе с данными DeepHaven [1], компания и одноименный продукт по потоковой обработке данных, поддерживают потоки Kafka, фиды, Solace и тд. Всё это оформлено в цельную платформу полгода назад переведенной в открытый код [2] там всё на Java, а примеры кода на Python и Groovy.

У всего этого есть два любопытных факта:
1. Компания является частной, у неё нет публично известного венчурного финансирования
2. Продукт является цельным, в нём практически полностью отсутствует какая-либо тесная интеграция с венчурными продуктами на данных (modern data stack)

Сами создатели делают явные акценты на том что DeepHaven умеет хорошо делать дельты данных и делает это быстрее и качественнее других [3].

Ссылки:
[1] https://deephaven.io
[2] https://github.com/deephaven/deephaven-core
[3] https://medium.com/@deephavendatalabs/why-deltas-give-deephaven-materialize-their-super-powers-8c64aced3674

#data #datatools #opensource #realtime
Вышла обновление к публикации Emerging Architectures for Modern Data Infrastructure [1] к оригинальной публикации Matt Bornstein, Jennifer Li, Martin Casado вышедшей в 2020 году.

Структура и описания стали ещё четче, контур Modern Data Stack понятнее. Полезное для всех кто хочет понять свою текущую или будущую нишу на рынке данных. Как объяснить инвесторам где твой проект? Открыть эту схему и ткнуть в прямоугольник.

Ссылки:
[1] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/

#moderndatastack #data #dataarchitecture
This media is not supported in your browser
VIEW IN TELEGRAM
Новости открытости[закрытости] данных в России

❗️уже несколько недель не работает Государственный информационный ресурс бухгалтерской (финансовой) отчетности bo.nalog.ru, на сайте обещают что он заработает сегодня, 28 марта 2022 г. Никто не знает какая информация из него будет удалена, какая останется
❗️в выписках в ЕГРЮЛ по некоммерческим организациям окончательно пропали сведения о их учредителях, это легко проверить введя, например, 1157700000655 в форму на сайте egrul.nalog.ru или реквизиты любой другой НКО. Я писал об этом в январе 2022 [1] и в декабре 2021 г. [2]
❗️с начала 2022 года в ЕГР ЗАГС исчезла статистика за 2021 г. и теперь доступна только за 2022 г., совершенно непонятно за какой период времени. В принципе ЕГР ЗАГС содержит уникальные данные по демографии которые ни в какой форме ФНС России не публикуются кроме как в виде такой непонятной статистики которая ещё и убирается за прошлые годы.
❗️федеральный портал открытых данных data.gov.ru по прежнему недоступен, это длится уже месяц

Ссылки:
[1] https://yangx.top/begtin/3450
[2] https://yangx.top/begtin/3314

#opendata #russia #opengov
Закончена архивация Instagram аккаунтов официальных лиц и политиков РФ. Сохранён 171 аккаунт. Код архивации и список инстаграм аккаунтов выложены в репозитории на Github [1], а итоговые данные собраны в архиве в 1.4GB [2]

Успешно были заархивированы все сообщения и метаданные, но лишь ограниченно изображения и видео. Если у Вас есть время и возможно Вы можете помочь с архивацией сохранив все или выделенные аккаунты вместе с изображением. Для архивации использовался инструмент instaloader.

Также пишите если Вы знаете аккаунты не вошедшие в список заархивированных.

Этот архив полезен ещё и тем кто может захотеть сделать над ним UI для навигации по архивам Instagram, по аналогии с UI для архивов Telegram каналов. Здесь также нужна помощь волонтеров-разработчиков.

P.S. За помощь в сборе списка аккаунтов спасибо коллегам из Трансперенси.

Ссылки:
[1] https://github.com/ruarxive/rugovinstagrams
[2] https://cdn.ruarxive.org/public/webcollect2022/govinst2022/_govinstagrams_20220325.zip
[3] https://github.com/ruarxive/rugovinstagrams/blob/main/instagram.csv

#instagram #government #archives #socialnetworks
Вообще ничего хорошего в этой новости нет и худшее то что нет бэкапов. Все отмазки про отсутствие денег на бэкапы - это профнепригодность. А я не устаю повторять - архивы и бэкапы, вот два друга не только сисадмина, но и всех кто хочет чтобы после них хоть что-то осталось.

В каком-то смысле последние события - это стресс-тестирование на профпригодность государственных подрядчиков и госзаказчиков в области ИТ. Пока результаты неутешительные
Forwarded from Авиаторщина
В субботу утром произошла сильнейшая атака на IT-инфраструктуру российских авиавластей.

В Росавиации обрушена вся сеть, стёрт весь документооборот, почта, файлы на серверах, пропали все документы. Суммарно стёрто примерно 65 терабайтов данных.

«Пропал весь документооборот, электронные письма, файлы на серверах, сейчас идёт поиск реестра воздушных судов и авиационного персонала, удалена система государственных услуг. Потеряны все входящие и исходящие письма за 1,5 года. Как работать, не знаем», — говорит источник.

По его словам, бэкапов нет, так как деньги Минфином на это не выделялись.

Атака произошла из-за некачественного исполнения договорных обязательств со стороны предприятия ООО «ИнфАвиа», которое осуществляет эксплутацию ИТ-инфраструктуры Росавиации. С субботы в Росавиации сидят прокуратура и ФСБ.
Data50 [1] обзор крупнейших 50 компаний поставщиков ПО и сервисов по обработке данных формирующих modern data stack.
В лидерах Databricks, Fivetran, Scale и OneTrust с оценкой от $5 млрд. каждый, впрочем в списке нет компаний с минимальной оценкой меньше $100 млн.
Список полезный для понимания структуры рынка и структуры инвестиций, отчасти для понимания направлений развития и инноваций в этой области.

Ссылки:
[1] https://future.a16z.com/data50/

#data #datatools #startups
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Открывается ли у вас сайт проекта «Госрасходы» (spending.gov.ru) без VPN?
Anonymous Poll
66%
Да, я в России
18%
Нет, я в России
0%
Да, я не в России
16%
Нет, я не в России
Начата параллельная загрузка медиа архива Эха Москвы в Интернет архив, список загруженных аудиозаписей можно посмотреть в аккаунте ruarxive [1], параллельно идет загрузка в облачное хранилище, загружено 11 тысяч файлов, остальные в процессе загрузки. В файле archived_list.zip приложены ссылки на файлы уже загруженные и те что ещё загружаются. Ссылки могут работать не все пока, но скоро будут.

Для описания всего сохраненного нехватает разметки файлов по программам. Сейчас коды программ извлекались из имён файлов и могут иметь названия такие как 12tango, albac, almamater и другие. Нужна помощь в их разметке и указанием названия на русском языке. Полный список кодов программ в приложенном файле programlist.csv

Без названия на русском и на английском языке не получается хорошо заполнить метаданные в интернет архиве.

Ссылки:
[1] https://archive.org/details/@ruarxive

#echomskru #echoofmoscow #archives #media #internetarchive
Полезное чтение про данные:
- обзор использования SQLPad для расследований на данных [1]. Простой и полезный инструмент, для дата журналистов и дата аналитиков полезный в первую очередь.
- построения простого data pipeline на Python [2], реально простой пример с хорошим объяснением для начинающих.
- современные модели архитектур работы с данными [3]
- очередное рассуждение о том какой формат файлов выбрать для труб данных [4] со сравнением Parquet, Avro и Orc. Вообще-то есть и много других вариантов.
- Jupyter Notebooks теперь можно интегрировать в любой веб сайт используя Jupyter Lite [5], весьма полезно для наглядности

Ссылки:
[1] https://medium.com/codex/introduction-to-a-tool-for-data-investigation-sqlpad-3d20c127556c
[2] https://blog.devgenius.io/python-etl-pipeline-the-incremental-data-load-techniques-20bdedaae8f
[3] https://preetihemant.medium.com/modern-data-architecture-models-69e90b725a05
[4] https://medium.com/@montadhar/how-to-choose-an-appropriate-file-format-for-your-data-pipeline-69bbfa911414
[5] https://medium.com/jupyter-blog/jupyter-everywhere-f8151c2cc6e8

#reading #datatools #data
В рубрике интересных наборов данных Research Organization Registry (ROR) [1] некоммерческий проект по созданию сводного полного реестра всех исследовательских организаций в мире. В общей сложности включает более 100 тысяч организаций для которых собраны сведения о их сайтах, названиях, идентификаторах в других реестрах таких как GRID, WikiData, ISNI и многих других. И присвоен свой идентификатор ROR.

У проекта есть описание хранимых данных и REST API [2], а все данные в виде дампа на регулярной основе публикуются в каталоге научных данных Zenodo [3], около 200MB в распакованном виде.

А также весь код проекта и его компонентов раскрывается [4], также как и планы его развития [5] также в виде проекта на Github

Ссылки:
[1] https://ror.org
[2] https://ror.readme.io/docs/ror-data-structure
[3] https://zenodo.org/record/6347575
[4] https://github.com/ror-community
[5] https://github.com/ror-community/ror-roadmap

#opendata #dataset #research
Новости проекта на 31 марта 2022 г.

- загружены все сохранённые медиа файлы с сайта Эха Москвы на облачный хостинг, прямые ссылки доступны в файле https://yangx.top/ruarxive/29
- продолжается загрузка программ медиа архива Эха Москвы в Internet Archive https://archive.org/details/@ruarxive
- спасибо всем кто помогает в заполнении списка программ Эха Москвы. Это приближает нас к возможности создания базы данных всех сохранённых передач и возможности воссоздания сайта или создания настольного приложения
- завершена архивация сайта социолога Сергея Белановского sbelan.ru в связи с его анонсом закрытия сайта в ближайшие дни
- продолжается архивация сайта издания Троицкий вариант trv-science.ru
- запущена архивация сайта Росавиации favt.gov.ru в связи с сообщениями СМИ о потере органом власти данных документооборота
- идёт архивация нескольких сотен сайтов относящихся к культурным учреждениям/культурным проектам
- перезапущена архивация сайта Новой газеты novayagazeta.ru в связи с приостановкой деятельности издания. Ранее сайт Новой газеты и сайты всех её спецпроектов были заархивированы 3 марта 2022 г, но с архивацией именно сайта издания были сложности в связи с защитой от DDoS которую использовали его создатели. Сейчас архивация сайта перезапущена.
- завершается подготовка обновленного сайта проекта Ruarxive, в ближайшие дни анонсируем его доступность.

Перечень сайтов и иных цифровых ресурсов заархивированных в 2021-2022 года доступны по прямой ссылке https://airtable.com/shrO1hise7WgURXg5/tblhdXAwIv5AVtN7Y

#digitalpreservation #archives #webarchives