Ivan Begtin

Свежее исследование ОЭСР The Strategic and Responsible Use of Artificial Intelligence in the Public Sector of Latin America and the Caribbean [1]
о том как ИИ используются в Южной Америке и на Карибах и о том какая реакция на такое использование возникает.

Много кейсов и сравнений, в соответствии с принципами ОЭСР для ИИ, принципами ИИ для G20 и ещё много чего. Множество примеров и, забегая вперед, в лидерах там Колумбия, Мексика, Уругвай и кое-где Аргентина.

От наших реалий это кажется далёким, но не стоит забывать что внедрение ИИ никуда не делось, и социальное неравенство от несправедливого его применения тоже никуда не исчезает.

Ссылки:
[1] https://www.oecd-ilibrary.org/governance/the-strategic-and-responsible-use-of-artificial-intelligence-in-the-public-sector-of-latin-america-and-the-caribbean_1f334543-en

#ai #oecd #reports

www.oecd-ilibrary.org

The Strategic and Responsible Use of Artificial Intelligence in the Public Sector of Latin America and the Caribbean

Governments can use artificial intelligence (AI) to design better policies and make better and more targeted decisions, enhance communication and engagement with citizens, and improve the speed and quality of public services. The Latin America and...

2.7K viewsIvan Begtin, 04:59

Ivan Begtin

Полезное чтение про данные
- о том как FloSQL использует dbt [1] ещё один стартап помогающий управлять потоками данных для труб данных на SQL с интеграцией с dbt внутри. По сути такие продукты - это, в каком-то смысле, продукты по организации SQL кода. Жду когда придумают аналог git'а для SQL или git over SQL (шутка).
- заметка о будущем доверенных сред для исследователей Trusted Data Environment [2] - полезно скорее как развитие мыслей о том как развивается это направление и акценты на data stewardship, data trusts и так далее. Очень далеко от российских реалий, но важно
- Firebolt выпустили Big Data Game [3] забавную онлайн игру о том каково это быть инженером данных.
- у Cube хороший обзор о том что такое Headless BI [4], полезно для всех кто ещё не разобрался
- Data lake vs Data warehouse [5] для сравнения о том что строить, озеро данных или хранилище данных. Главное не строить data swamp;)

Ссылки:
[1] https://www.flosql.com/
[2] https://medium.com/data-policy/trusted-research-environments-require-strong-community-involvement-heres-why-4abe8034a15d
[3] https://www.firebolt.io/big-data-game
[4] https://cube.dev/blog/headless-bi/
[5] https://luminousmen.com/post/data-lake-vs-data-warehouse

#reading #data

Flosql

Build and deploy dbt models fast. Easily schedule and manage dependent data models for your SQL pipelines.

2.5K viewsIvan Begtin, 05:29

Ivan Begtin

Автор который всегда радует рассуждениями - это Ben Stancil с его последним текстом о прошлом и будущем OLAP кубов: "The ghosts in the data stack" [1]

Не буду всё пересказывать, общий смысл в том что концепция OLAP кубов устарела когда появились возможности быстро считать метрики поверх больших таблиц в облачных и корпоративных базах данных, а также идея в том что OLAP кубы избыточны и сложны для работы аналитика. В качестве примеров он хороших приводит сайты МВФ и ФРС в Сэнт-Луисе, а в качестве плохого примера сайт переписи США.

Как и во многих случаях хороших рассуждений, с автором есть о чём поспорить, но рассуждения его вполне справедливы. OLAP кубы и отчетопостроители на их основе зачастую построены негуманно для пользователей. Работа с ними требует дополнительных знаний и обучения, неинтуитивна и сильно зависит от природы данных на которых эти OLAP кубы построены.

Стартапы вроде Mode, который Ben Stancil представляет, как раз и создают альтернативы таким OLAP кубам. Но нельзя говорить что OLAP мертв, базы вроде Apache Druid или Clickhouse - это тоже OLAP, модернизированный, но MOLAP, ROLAP и HOLAP и тд. Впрочем в Modern data stack всё более вместо OLAP упоминают headless BI и другие BI продукты поверх хранилищ метрик.

Ссылки:
[1] https://benn.substack.com/p/ghosts-in-the-data-stack

#olap #analytics #data #reading

benn.substack

The ghosts in the data stack

An OLAP cube exorcism.

2.7K viewsIvan Begtin, 06:56

Ivan Begtin

В рубрике интересных инструментов по работе с данными DeepHaven [1], компания и одноименный продукт по потоковой обработке данных, поддерживают потоки Kafka, фиды, Solace и тд. Всё это оформлено в цельную платформу полгода назад переведенной в открытый код [2] там всё на Java, а примеры кода на Python и Groovy.

У всего этого есть два любопытных факта:
1. Компания является частной, у неё нет публично известного венчурного финансирования
2. Продукт является цельным, в нём практически полностью отсутствует какая-либо тесная интеграция с венчурными продуктами на данных (modern data stack)

Сами создатели делают явные акценты на том что DeepHaven умеет хорошо делать дельты данных и делает это быстрее и качественнее других [3].

Ссылки:
[1] https://deephaven.io
[2] https://github.com/deephaven/deephaven-core
[3] https://medium.com/@deephavendatalabs/why-deltas-give-deephaven-materialize-their-super-powers-8c64aced3674

#data #datatools #opensource #realtime

deephaven.io

Real-time query engine | Deephaven

Open-core query engine for building apps and analytics with real-time streams and batch data

2.5K viewsIvan Begtin, 05:12

Ivan Begtin

Вышла обновление к публикации Emerging Architectures for Modern Data Infrastructure [1] к оригинальной публикации Matt Bornstein, Jennifer Li, Martin Casado вышедшей в 2020 году.

Структура и описания стали ещё четче, контур Modern Data Stack понятнее. Полезное для всех кто хочет понять свою текущую или будущую нишу на рынке данных. Как объяснить инвесторам где твой проект? Открыть эту схему и ткнуть в прямоугольник.

Ссылки:
[1] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/

#moderndatastack #data #dataarchitecture

Andreessen Horowitz

Emerging Architectures for Modern Data Infrastructure

This is an updated version of a post we originally published in 2020. You can read the original version here. The growth of the data infrastructure industry has continued unabated since we published a set of reference architectures in …

4.0K viewsIvan Begtin, edited 05:58

Ivan Begtin

2.2K viewsIvan Begtin, 05:58

Ivan Begtin

2.2K viewsIvan Begtin, 05:58

Ivan Begtin

2.3K viewsIvan Begtin, 05:58

Ivan Begtin

This media is not supported in your browser

VIEW IN TELEGRAM

2.3K viewsIvan Begtin, 05:58

Ivan Begtin

Новости открытости[закрытости] данных в России

❗️уже несколько недель не работает Государственный информационный ресурс бухгалтерской (финансовой) отчетности bo.nalog.ru, на сайте обещают что он заработает сегодня, 28 марта 2022 г. Никто не знает какая информация из него будет удалена, какая останется
❗️в выписках в ЕГРЮЛ по некоммерческим организациям окончательно пропали сведения о их учредителях, это легко проверить введя, например, 1157700000655 в форму на сайте egrul.nalog.ru или реквизиты любой другой НКО. Я писал об этом в январе 2022 [1] и в декабре 2021 г. [2]
❗️с начала 2022 года в ЕГР ЗАГС исчезла статистика за 2021 г. и теперь доступна только за 2022 г., совершенно непонятно за какой период времени. В принципе ЕГР ЗАГС содержит уникальные данные по демографии которые ни в какой форме ФНС России не публикуются кроме как в виде такой непонятной статистики которая ещё и убирается за прошлые годы.
❗️федеральный портал открытых данных data.gov.ru по прежнему недоступен, это длится уже месяц

Ссылки:
[1] https://yangx.top/begtin/3450
[2] https://yangx.top/begtin/3314

#opendata #russia #opengov

4.3K viewsIvan Begtin, 09:36

Ivan Begtin

Forwarded from Национальный цифровой архив

Закончена архивация Instagram аккаунтов официальных лиц и политиков РФ. Сохранён 171 аккаунт. Код архивации и список инстаграм аккаунтов выложены в репозитории на Github [1], а итоговые данные собраны в архиве в 1.4GB [2]

Успешно были заархивированы все сообщения и метаданные, но лишь ограниченно изображения и видео. Если у Вас есть время и возможно Вы можете помочь с архивацией сохранив все или выделенные аккаунты вместе с изображением. Для архивации использовался инструмент instaloader.

Также пишите если Вы знаете аккаунты не вошедшие в список заархивированных.

Этот архив полезен ещё и тем кто может захотеть сделать над ним UI для навигации по архивам Instagram, по аналогии с UI для архивов Telegram каналов. Здесь также нужна помощь волонтеров-разработчиков.

P.S. За помощь в сборе списка аккаунтов спасибо коллегам из Трансперенси.

Ссылки:
[1] https://github.com/ruarxive/rugovinstagrams
[2] https://cdn.ruarxive.org/public/webcollect2022/govinst2022/_govinstagrams_20220325.zip
[3] https://github.com/ruarxive/rugovinstagrams/blob/main/instagram.csv

#instagram #government #archives #socialnetworks

Трансперенси

Группа независимых зарубежных экспертов, продолжающих работу ликвидированного российского юридического лица «Трансперенси Интернешнл – Россия». Связаться с нами: [email protected]

Наш сайт: ti-russia.org
Наш Facebook: facebook.com/tirussia

2.2K viewsIvan Begtin, 10:59

Ivan Begtin

Вообще ничего хорошего в этой новости нет и худшее то что нет бэкапов. Все отмазки про отсутствие денег на бэкапы - это профнепригодность. А я не устаю повторять - архивы и бэкапы, вот два друга не только сисадмина, но и всех кто хочет чтобы после них хоть что-то осталось.

В каком-то смысле последние события - это стресс-тестирование на профпригодность государственных подрядчиков и госзаказчиков в области ИТ. Пока результаты неутешительные

2.3K viewsIvan Begtin, 14:51

Ivan Begtin

Forwarded from Авиаторщина

В субботу утром произошла сильнейшая атака на IT-инфраструктуру российских авиавластей.

В Росавиации обрушена вся сеть, стёрт весь документооборот, почта, файлы на серверах, пропали все документы. Суммарно стёрто примерно 65 терабайтов данных.

«Пропал весь документооборот, электронные письма, файлы на серверах, сейчас идёт поиск реестра воздушных судов и авиационного персонала, удалена система государственных услуг. Потеряны все входящие и исходящие письма за 1,5 года. Как работать, не знаем», — говорит источник.

По его словам, бэкапов нет, так как деньги Минфином на это не выделялись.

Атака произошла из-за некачественного исполнения договорных обязательств со стороны предприятия ООО «ИнфАвиа», которое осуществляет эксплутацию ИТ-инфраструктуры Росавиации. С субботы в Росавиации сидят прокуратура и ФСБ.

Авиаторщина

Российские авиавласти остались без интернета и вынуждены перейти на бумажный документооборот, прибегнув к фельдъегерской почте и «Почте России», следует из телеграммы пока ещё руководителя Росавиации Александра Нерадько

2.0K viewsIvan Begtin, 14:51

Ivan Begtin

Data50 [1] обзор крупнейших 50 компаний поставщиков ПО и сервисов по обработке данных формирующих modern data stack.
В лидерах Databricks, Fivetran, Scale и OneTrust с оценкой от $5 млрд. каждый, впрочем в списке нет компаний с минимальной оценкой меньше $100 млн.
Список полезный для понимания структуры рынка и структуры инвестиций, отчасти для понимания направлений развития и инноваций в этой области.

Ссылки:
[1] https://future.a16z.com/data50/

#data #datatools #startups

Future

Data50: The World’s Top 50 Data Startups

The Data50 are the 50 bellwether data startups across the most exciting categories in data, such as AI/ML, ELT and orchestration, and data observability.

2.5K viewsIvan Begtin, 15:37

Ivan Begtin

Forwarded from Ах, этот Минфин (Olya Parkhimovich)

Открывается ли у вас сайт проекта «Госрасходы» (spending.gov.ru) без VPN?

Anonymous Poll

297 voters2.3K viewsIvan Begtin, 08:33

Ivan Begtin

Forwarded from Национальный цифровой архив

Начата параллельная загрузка медиа архива Эха Москвы в Интернет архив, список загруженных аудиозаписей можно посмотреть в аккаунте ruarxive [1], параллельно идет загрузка в облачное хранилище, загружено 11 тысяч файлов, остальные в процессе загрузки. В файле archived_list.zip приложены ссылки на файлы уже загруженные и те что ещё загружаются. Ссылки могут работать не все пока, но скоро будут.

Для описания всего сохраненного нехватает разметки файлов по программам. Сейчас коды программ извлекались из имён файлов и могут иметь названия такие как 12tango, albac, almamater и другие. Нужна помощь в их разметке и указанием названия на русском языке. Полный список кодов программ в приложенном файле programlist.csv

Без названия на русском и на английском языке не получается хорошо заполнить метаданные в интернет архиве.

Ссылки:
[1] https://archive.org/details/@ruarxive

#echomskru #echoofmoscow #archives #media #internetarchive

2.3K viewsIvan Begtin, 09:08

Ivan Begtin

Forwarded from Национальный цифровой архив

2.3K viewsIvan Begtin, 09:08

Ivan Begtin

Полезное чтение про данные:
- обзор использования SQLPad для расследований на данных [1]. Простой и полезный инструмент, для дата журналистов и дата аналитиков полезный в первую очередь.
- построения простого data pipeline на Python [2], реально простой пример с хорошим объяснением для начинающих.
- современные модели архитектур работы с данными [3]
- очередное рассуждение о том какой формат файлов выбрать для труб данных [4] со сравнением Parquet, Avro и Orc. Вообще-то есть и много других вариантов.
- Jupyter Notebooks теперь можно интегрировать в любой веб сайт используя Jupyter Lite [5], весьма полезно для наглядности

Ссылки:
[1] https://medium.com/codex/introduction-to-a-tool-for-data-investigation-sqlpad-3d20c127556c
[2] https://blog.devgenius.io/python-etl-pipeline-the-incremental-data-load-techniques-20bdedaae8f
[3] https://preetihemant.medium.com/modern-data-architecture-models-69e90b725a05
[4] https://medium.com/@montadhar/how-to-choose-an-appropriate-file-format-for-your-data-pipeline-69bbfa911414
[5] https://medium.com/jupyter-blog/jupyter-everywhere-f8151c2cc6e8

#reading #datatools #data

Medium

Introduction To A Tool for Data Investigation: SQLPad

Setup on Your Local Machine with Docker, Creating a Dummy DB, Create SQLPad Connections, Bind SQLite With Docker Volumes, Run Some Queries

2.6K viewsIvan Begtin, 08:48

Ivan Begtin

В рубрике интересных наборов данных Research Organization Registry (ROR) [1] некоммерческий проект по созданию сводного полного реестра всех исследовательских организаций в мире. В общей сложности включает более 100 тысяч организаций для которых собраны сведения о их сайтах, названиях, идентификаторах в других реестрах таких как GRID, WikiData, ISNI и многих других. И присвоен свой идентификатор ROR.

У проекта есть описание хранимых данных и REST API [2], а все данные в виде дампа на регулярной основе публикуются в каталоге научных данных Zenodo [3], около 200MB в распакованном виде.

А также весь код проекта и его компонентов раскрывается [4], также как и планы его развития [5] также в виде проекта на Github

Ссылки:
[1] https://ror.org
[2] https://ror.readme.io/docs/ror-data-structure
[3] https://zenodo.org/record/6347575
[4] https://github.com/ror-community
[5] https://github.com/ror-community/ror-roadmap

#opendata #dataset #research

ROR

ROR data structure

ROR's current data structure is based on Digital Science's GRID, which provided the original seed data for the registry. GRID has retired its public releases as of 16 Sep 2021, and the ROR data structure will evolve over time and based on community feedback…

2.1K viewsIvan Begtin, 05:43

Ivan Begtin

Forwarded from Национальный цифровой архив

Новости проекта на 31 марта 2022 г.

- загружены все сохранённые медиа файлы с сайта Эха Москвы на облачный хостинг, прямые ссылки доступны в файле https://yangx.top/ruarxive/29
- продолжается загрузка программ медиа архива Эха Москвы в Internet Archive https://archive.org/details/@ruarxive
- спасибо всем кто помогает в заполнении списка программ Эха Москвы. Это приближает нас к возможности создания базы данных всех сохранённых передач и возможности воссоздания сайта или создания настольного приложения
- завершена архивация сайта социолога Сергея Белановского sbelan.ru в связи с его анонсом закрытия сайта в ближайшие дни
- продолжается архивация сайта издания Троицкий вариант trv-science.ru
- запущена архивация сайта Росавиации favt.gov.ru в связи с сообщениями СМИ о потере органом власти данных документооборота
- идёт архивация нескольких сотен сайтов относящихся к культурным учреждениям/культурным проектам
- перезапущена архивация сайта Новой газеты novayagazeta.ru в связи с приостановкой деятельности издания. Ранее сайт Новой газеты и сайты всех её спецпроектов были заархивированы 3 марта 2022 г, но с архивацией именно сайта издания были сложности в связи с защитой от DDoS которую использовали его создатели. Сейчас архивация сайта перезапущена.
- завершается подготовка обновленного сайта проекта Ruarxive, в ближайшие дни анонсируем его доступность.

Перечень сайтов и иных цифровых ресурсов заархивированных в 2021-2022 года доступны по прямой ссылке https://airtable.com/shrO1hise7WgURXg5/tblhdXAwIv5AVtN7Y

#digitalpreservation #archives #webarchives

1.9K viewsIvan Begtin, 05:47

About

Blog

Apps

Platform