Ivan Begtin
8.09K subscribers
1.97K photos
3 videos
102 files
4.68K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
При любом историческом событии крайне важно сохранять архивы, как минимум для себя лично, как максимум для всего общества.

Поэтому, специально для тех кто понимает что необходимо всегда сохранять архивы происходящего и думают как это делать, я подготовил и отправил в рассылку Гайд по быстрой архивации цифрового контента [1] с охватом того как архивировать отдельные веб страницы, сайты, социальные сети.

Некоторые инструменты совсем простые, для некоторых нужны базовые навыки работы с командной строкой. Если Вы знаете какие-либо дополнительные инструменты или есть проблемы с архивацией контента который в гайде не представлен - пишите мне лично на почту [email protected] или в чат @begtinchat.

Ссылки:
[1] https://begtin.substack.com/p/24

#digitalpreservation #guides #webarchival #socialnetworks
Чтение на сегодня

В DP.ru [1] и на сайте Роскомсвободы [2] о вероятности отключения Интернета в России.

В Github'е обсуждение блокировки/заморозки пользователей из России [3]

На всякий случай для тех кто хочет успеть сохранить свои данные из облачных сервисов, список Awesome Data Takeout [4]

Ссылки:
[1] https://www.dp.ru/a/2022/02/25/Ten_shatdauna
[2] https://roskomsvoboda.org/post/war-and-it/
[3] https://github.com/github/feedback/discussions/12042
[4] https://github.com/ivbeg/awesome-data-takeout

#readings
Там речь шла про подсети принадлежащие органам власти, но сути это не меняет. Комментировать происходящее, честно говоря сложно. Мы пожинаем плоды чужих решений. Даже если этот сценарий не состоится, сам факт его обсуждения уже весьма и весьма чреват долгосрочными последствиями.
Российские IP адреса предложили отменить

В обсуждениях регионального интернет-регистратора RIPE NCC предложено рассмотреть вопрос об отзыве IP адресов, используемых российским правительством.

Hello All,
let's think about sanctions against Russia. What do you think about revoking all IPs/ASNs used by Russian government?

https://www.ripe.net/ripe/mail/archives/address-policy-wg/2022-February/013471.html
Честно говоря уже хочется вернуться к нормальным новостям и говорить про технологии, а не про последствия происходящего.

В качестве интересной новости - новой большой тренд в виде инвестиций в платформы обработки данных в реальном времени. Decodable [1] и Red Panda [2], стартапы в этой области, привлекли $20M и $50M соответственно. Большие инвестиции и интересные проекты.

Red Panda - это заменитель Kafka, позиционируют себя как более быстрый и продвинутый продукт, к тому же с открытым кодом и не связанный с JVM, но с Kafka совместимый.

Decodable - это движок по созданию труб данных программируемых как SQL запросы. Лично по мне так это весьма экзотичный подход, но, видимо, он работает. Kafka он не заменяет, но интегрируется.

Ссылки:
[1] https://www.decodable.co/blog/decodable-closes-20m-round
[2] https://redpanda.com/blog/redpanda-series-b-funding-future-of-streaming-data/

#datatools #datapipelines #realtimedata #startups #opensource
Моя основная некоммерческая аффилиация связана с АНО "Информационная культура" (@infoculture), я являюсь её соучредителем и руководителем вот уже много лет. От лица АНО я присоединяюсь к обращению российских НКО. Война - это гуманитарная катастрофа, она должна быть остановлена.

#nowar
Forwarded from Инфокультура
АНО "Инфокультура" присоединяется к заявлению российских НКО.

Мы выступаем против военных действий, которые наша страна осуществляет на территории Украины.

Вся наша работа – это борьба за достоинство человека, спасение жизней. Война несовместима ни с жизнью, ни с достоинством, ни с базовыми принципами человечности. Война – это гуманитарная катастрофа, которая множит боль и страдания. Её последствия сводят на нет наши многолетние усилия.

Мы считаем бесчеловечными силовые методы решения политических конфликтов и призываем вас к прекращению огня и началу переговоров.

#nowar
Ещё один инструмент по оркестрации (всё никак не могу подобрать более точное и благозвучное название) данных Kestra [1], у них в блоге история кейса использования в Leroy Merlin [2]. Точнее всего было бы его сравнить с Meltano, Dagster и Airflow. Поддерживает несколько десятков источников данных, написан на Java и доступен с открытым кодом [3].

Официальный анонс продукта был 3 недели назад [4], хотя разработка началась ещё в 2019 году.

На что стоит обратить внимание:
- внутри всё работает на Kafka
- интеграция с Terraform
- для хранения данных используется Minio или GCS Storage

Не вполне очевидно как там происходит обработка данных, видимо через разного рода программируемые задачи которые описаны в документации.

Ссылки:
[1] https://kestra.io/
[2] https://medium.com/@kestra-io/how-leroy-merlin-managed-their-cloud-data-pipelines-with-kestra-9932ea66b517
[3] https://github.com/kestra-io/kestra
[4] https://kestra.io/blogs/2022-02-01-kestra-opensource.html

#opensource #datapipelines #dataorchestration
Каков объём инвестиций в компании создающие продукты по работе с данными? За 2021 год - это около $7 миллиардов долларов США. В обзоре Fundraising by data companies in 2021 [1] компании приведены по категориям:
- Data Platform & Infra
- Database & SQL
- ETL & Reverse ETL
- Data quality & observability
- Metadata & data governance
- BI & Dataviz
- AI & ML

Более всего средств привлекли:
- Databricks универсальная платформа по сбору и обработке и хранению данных, в общей сложности $2.6 миллиарда [2]
- Fivetran [3] онлайн сервис сбора данных и их доставки привлекли $565 миллионов
- Collibra [4] корпоративный каталог данных привлекли $250 миллионов
- Dataiku [5] продукт по совместной работе дата сайентистов привлекли $400 миллионов
- Neo4J [6] графовая NoSQL база данных, $325 миллионов

В обзоре только относительно крупные инвестиции, видно что значительная их часть идет на стартапы связанные с ИИ и с облачной инфраструктурой.

Ссылки:
[1] https://adat.blog/2022/02/fundraising-by-data-companies-in-2021/
[2] https://databricks.com/
[3] https://www.fivetran.com/
[4] https://www.collibra.com/us/en
[5] https://www.dataiku.com/
[6] https://neo4j.com/

#startups #data #investments #dataproducts #cloud
О том как собирать и загружать данные, я хочу напомнить про один из важнейших проектов в этой области - Singer [1]. Singer - это open source стандарт по перемещению данных и работающий с командной строки.
Основными концепциями в Singer являются tap (на русский язык можно перевести как вентиль) и target (по-русски это будет цель).

Основная идея в том что процессы извлечения данных (extraction) и загрузки (load) являются довольно типовыми и укладываются стандартные файловые потоки. А то есть можно перенаправлять ввод вывод как между приложениями командной строки и получать результат.

Пример вызова команд в Singer выглядят примерно так: tap-exchangeratesapi | target-csv

Все цели и вентили пишутся на Python, всего их довольно много уже создано, а у проекта есть коммерческий интересант Stitch [2] которые и выложили его как открытый код. А сами Stitch предоставляют облачный сервис для работы с потоками данных.

Но используют Singer не только Stitch, его используют многие другие коммерческие и open source решения. Например, Singer лежит в основе Meltano [3] и ещё ряда инструментов. Хотя вот в случае Airbyte, другого инструмент для ETL, его создатели пишут что у Singer много недостатков и поэтому они его не используют [4].

Конечное решение можно принять самостоятельно. Лично я вижу пока ключевым недостатком Singer - в разном качестве вентилей и уровне их поддержки. А также почти полным отсутствием российские сервисов - Яндекс.Метрики, к примеру. Впрочем не факт что эти недостатки затмевают возможности.

Ссылки:
[1] https://www.singer.io/
[2] https://www.stitchdata.com
[3] https://hub.meltano.com/singer/taps/
[4] https://airbyte.com/blog/why-you-should-not-build-your-data-pipeline-on-top-of-singer

#datatools #opensource #datapipelines
Пишут что Минцифры предложили перечень мер для поддержки ИТ отрасли [1]:
- распространить действующие налоговые льготы также на IT-компании, получающие доходы от размещения рекламы или оказания допуслуг в своих приложениях и онлайн-сервисах, а также от реализации, установки, тестирования и сопровождения партнёрских отечественных IT-продуктов;
- освободить на следующие 3 года всех сотрудников IТ-компаний от уплаты НДФЛ, а сами компании от уплаты налога на прибыль, а также освободить эти компании от проверок;
- предоставить всем сотрудникам IT-компаний льготную ипотеку со ставкой 5% на время работы;
- предоставить отсрочку от призыва на военную службу для сотрудников IT-компаний на время их работы в этих компаниях;
- ввести процедуры упрощённого получения разрешения на работу и вида на жительство для иностранных граждан, привлекаемых для работы в российских компаниях;
- предоставить компаниям гранты на разработку и развитие IT-продуктов;
- обеспечить ускоренное импортозамещение ПО на объектах критической информационной инфраструктуры;
- также обеспечить целевое финансирование на создание в России «зеркала» репозитория открытого ПО GitHub.

Будем честными, поможет это не всем. То есть ничего плохого в этих предложениях нет, просто радикально ситуацию они не исправят. Главная проблема сейчас в том происходит одновременно кадровый дефицит, резкое сжатие рынков, резкое ограничение кредитования и проблемы с ликвидностью.

У меня то есть пара предложений порадикальнее, но боюсь я что их ни Минцифра, ни правительство никогда не пойдут. Не криптовалюты надо легализовывать, не криптовалюты. Взгляд совсем не туда.

Ссылки:
[1] https://kod.ru/mintsifry-podderzhka-it-rus/

#russia #digital #it #government #policies
Возвращаясь к мерам Минцифры России у меня целых два пакета мер, серьёзных и не очень серьёзных. Не буду вдаваться в подробности почему на них никогда не пойдут и какие сопутствующие риски у этого есть, просто зафиксирую.

Начну с серьёзных:
1. Обнуление отчислений в социальные фонды. Даже при сокращённых ставках для ИТ компаний, ФОТ - это основная статья расходов и отчисления с ФОТ - это основные налоги.

2. Значительное сокращение или обнуление НДФЛ для нерезидентов. Сейчас если брать на работу или по договору гражданина Казахстана или Армении и платить 30% - это очень много.

3. Легализация самозанятости в ИТ. Оно сейчас и так происходит, но все кто применяют схему с самозанятыми рискуют попасть под проверки УБЭПа, ФНС и тд. И многие уже нарываются.

4. Снижение давления правоохраны. Главные "страхи" ИТ бизнеса похожи на страхи всех остальных предпринимателей. Это не регуляторы и даже не контролёры, а правоохрана. Сюда же можно отнести Росфинмониторинг который сейчас особо внимательно следит за вновь созданными ИТ компаниями.

5. Упростить регистрацию ИТ компаний и дать возможность создавать юр. лица без помещений. Если кратко, то если нет проверок, то зачем юридическому лицу помещение когда все работают удалённо? С практикой покупки и оформления юридических адресов можно бороться, а можно узаконить. Пойти по пути разрешения регистрации юридических лиц дистанционно и без офиса и работающих только на экспорт. (Скорее всего невозможно из-за требований FATF)

6. Инфраструктурные и образовательные субсидии. После ФОТа вторые третьи по объёму расходы у ИТ бизнеса - это ИТ инфраструктура и доп. образование для сотрудников. Для первого все массово используют(-овали) зарубежные сервисы, для второго были попытки запуска обучения с господдержкой (очень неудачные). Нужны нормальные механизмы субсидирования использования ИТ инфраструктуры и обучения сотрудников.

А теперь с несерьёзных:
- легализация. Ну вы меня поняли, всего того что позволяет не сойти с ума и пропаганда легализации чего запрещена. Можно начать со стен Минцифры, технопарков, инновационных городков и тд. Сами придумайте что такого можно легализовать, чтобы все тут не посходили с ума. Продажу нарезного оружия например или частных реактивных самолётов или что-то чего-то здесь не перечисленного.
- ввести звание "заслуженного труженника" и "народного артиста" технологической отрасли. А то столько артефактов советской эпохи осталось со времен Советского союза со всеми этими заслуженными учеными и артистами, а в ИТ ничего такого нет. Так надо ввести, и медаль какую-нибудь отраслевую. А то ведь в качестве обстоятельства, смягчающего наказание выступает наличие государственных и ведомственных наград... Поэтому каждый министр и замминистра и руководитель департамента знает что госнаграда - это не только ценный мех снижение срока отсидки, возможность домашнего ареста и тд.

Если честно, даже это всё поможет нам не очень, но хоть что-то и где-то.

#policies #it #russia #digital
В Firefox выдаётся теперь сообщение что у сайта Банка России отозвали cbr.ru сертификат. Аналогично при заходе на online.vtb.ru

В остальных браузерах пока такого нет, а вот SSLTest [1] показывает что сертификат действительно отозван.

Оба сертификата были выданы Thawte, официальных заявлений компании пока не было.

При этом даже у других сайтов Банка России, вроде сайта их университета, отзыва сертификата произошло [2].

Возможно отзывы сертификатов ограничатся только организациями под санкциями.

Ссылки:
[1] https://www.ssllabs.com/ssltest/analyze.html?d=cbr.ru
[2] https://university.cbr.ru/

#tsl #ssl #bankofrussia #security
Онлайн сервис поиска по данным/сайтам Algolia позволял указывать регион при создании проекта. Например, я создавал там текстовый поисковый индекс в российском регионе. Теперь они рекомендуют перенести его в регион Германия потому что есть риски потери связи с российским сегментом.

Вот такие дела. Какой-то Цифровой обитаемый остров получается.

#sanctions #networks #networkneutrality #russia
Я накопил уже больше 20 внутренних заметок про данные и технологии но писать о них кажется сейчас несвоевременным. Хотя мой канал всегда был коллекцией личных технологических заметок. Приходится говорить и думать о тех событиях которые относятся к отрасли и затрагивают её.

1. Администрация Github'а отказалась блокировать сервис для россиян. 9 часов назад они закрыли дискуссию на эту тему [1] упомянув что следуют требованиям правительства в части санкций и эмбарго, но считают что Github должен быть открытым для всех разработчиков.

2. Структурированные открытые данные по последним санкциям есть в проекте OpenSanctions [2]. Там данные не только в отношении России или Республики Беларусь.

3. Apple приостанавливает работу в России [3]. В каком-то смысле ожидаемо.

Ссылки:
[1] https://github.com/github/feedback/discussions/12042
[2] https://www.opensanctions.org/recent/sanctions/
[3] https://www.macrumors.com/2022/03/01/apple-stops-product-sales-in-russia/

#sanctions #russia #situation #it
В сообществе Let's Encrypt обсуждают возможно ли применение санкций в отношении российских органов власти к сертификатам выданным для доменов *.gov.ru[1] [2].

Let's Encrypt - это не коммерческий провайдер, но они имеют институционализацию как проект некоммерческой организации Internet Security Research Group (ISRG) которые оформлены как юридическое лицо и которые могут быть обязаны санкции применять. Вопрос будут ли и если да то в какой форме. Пока можно предполагать что в "зоне риска" , в первую очередь, организации попавшие под санкции.

Но важно и то что на 3634 домена в зоне .gov.ru выданы сертификаты Let's Encrypt [3]. Это где-то в 25 раз больше чем все остальные удостоверяющие центры (примерно 96% всех сертификатов домены зоны .gov.ru).

Отдельный вопрос почему в России за все эти годы не появилось удостоверяющего центра включенного в доверенные на уровне операционных систем MacOSX, Windows, Android, IOS и др. В первую очередь такой сертификат позволял бы спецслужбам перехватывать трафик осуществляя атаку man-in-the-middle на HTTPS соединения.

Если массовые отзывы сертификатов у госдоменов начнутся, то в России могут попытаться распространить такой корневой сертификат с рекомендацией пользователям по его установке. Но пользователи, знающие о том что его можно использовать для перехвата трафика, могут категорически не хотеть его устанавливать.

Лично я бы точно постарался бы от этого воздержаться.

Ссылки:
[1] https://community.letsencrypt.org/t/how-will-us-eu-sanctions-on-russia-restrict-certificate-issuance/172835/4
[2] https://community.letsencrypt.org/t/help-ukrainians/172836/12
[3] https://crt.sh/?q=.gov.ru&dir=^&sort=4&group=icaid

#security #privacy #sanctions #tls #russia #https
Последние 14 лет я занимался некоммерческими проектами, в основном, в трех направлениях: открытые данные (как часть открытости гос-ва и компаний), простой язык и цифровая архивация.

Сейчас та ситуация когда открытость данных понадобиться в России уже очень нескоро. Как бы не закрыли всё что ранее открывалось. Простота языка - это важная тема для мирного времени, но мирного времени сейчас нет

Архивация

Поэтому актуальное сейчас- это сохранение новейшей истории. У Инфокультуры есть проект Национальный цифровой архив (ruarxive.org). В рамках которого идёт архивация сайтов, в первую очередь органов власти и проектов находящихся под риском исчезновения. Не всё, но многое сохранённое в рамках ruarxive.org хранится в Хабе открытых данных в разделе Архивы сайтов. Не всё потому что архивировать можно быстро, каталогизировать архивы потом долго и очень трудоёмко.

Похоже что в ближайшие месяцы - это станет основной задачей, заархивировать то что очень скоро может быть уничтожено, удалено, отключено, заблокировано. Наибольшие риски у отключения которое происходит при ликвидации организации. Например, ликвидация Мемориала или сейчас ликвидация Эха Москвы.

Мы будем архивировать всё что возможно и в ближайшее время разрабатывать инструменты которые позволяют делать эту архивации быстрее, эффективнее и лучше систематизировать собираемое.

Приоритетные задачи

Первоочередная задача сейчас - это архивация сайта Эхо Москвы (echo.msk.ru). Она уже запущена, но я не знаю есть ли у Эха Москвы другие онлайн ресурсы которые также могут быть закрыты. Если Вы знаете такие, напишите мне лично или в чате @begtinchat .

Вторая задача - составление списка и архивация иных информационных ресурсов которые могут исчезнуть в любой момент. Будь то сайты или телеграм каналы или что-либо ещё. Присылайте если Вы такие знаете. Политическая / идеологическая направленность не имеет значения, значение имеет лишь общественная ценность и риск исчезновения.

И прошу, пишите, если есть любые предложения по тому как исчезающие ресурсы лучше отслеживать, узнавать что они в зоне риска, какие критерии значимости можно использовать и всё остальное по критериям по которым можно признавать сайты и иные цифровые ресурсы значимыми.

Лично я планирую создать в ближайшее время отдельный телеграм канал для цифрового архива и перезапустить его присутствие в Интернете, как минимум в части поиска того что сохранено.

Почему это важно

Почему нельзя положится, например, на Интернет-архив archive.org ? Главная причина в том что archive.org работает как поисковая система, архивируя по критериям цитируемости. Если какая-то страница нигде не упоминается, то и вероятность что она окажется в Интернет архиве невелика. Кроме того Интернет-архив почти не сохраняет не-HTML документы. Он сохраняет часть картинок, не всегда, и совсем не сохраняет mp3, mp4 и другие мультимедиа файлы и очень ограниченно сохраняет файлы doc, xls и т.д., никогда не сохраняет архивы zip, gz и других.

В отличие от Интернет-архива мы делаем полный слепок _всего_ что есть на сайте. Это делается реже, но значительно полнее. А также архивируем каналы в Twitter, Instagram и Telegram.

И, конечно, поддержать проекты по архивации можно прямым донатом на Инфокультуру. Нас пока не признали инагентом или ещё чем-то и сколь долго сколь возможно наши проекты просуществуют. Пока это будет возможно - будем архивировать всё что важно и нужно.

#archive #ruarxive #webarchives #digitalpreservation
Темы связанные с цифровой архивацией сайтов, соц сетей и остального, я переношу в свежесозданный канал @ruarxive и обсуждение в чат @ruarxivechat. Подписывайтесь и подключайтесь к дискуссиям.

Напомню что я веду и соучаствую в нескольких телеграм каналах:
- мой личный телеграм канал @begtin он посвящён темам работы с данными, технологиями, открытостью и тд. Сейчас я в нём больше пишу про технологии в связи с последними событиями.
- телеграм Инфокультуры @infoculture нашей НКО со специализацией на технологических некоммерческих проектах
- APICrafter @apicrafter - телеграм канал коммерческого каталога данных, нашего стартапа с технологиями сбора, обработки и классификации данных data.apicrafter.ru

Теперь расширяю этот список каналом по цифровой архивации, которая будет во многом пересекаться с темой открытых данных, поскольку где это возможно там архивация будет включать создание наборов данных.

#digitalpreservation #webarchives #opendata #archives
Мы начали активную архивацию онлайн сайтов исчезающих в самое ближайшее время. Это включает перезапуск нашего сайта Национального цифрового архива (ruarxive.org), запуск этого телеграм канала ruarxive и переход к архивации наиболее уязвимых и значимых сайтов.

Какие риски возникают и почему архивация важна?

Существует много рисков: технические сбои, взломы хакеров, санкции, ошибка администраторов, изъятие серверов и ликвидация организаций/проектов. Ключевые риски сейчас в ликвидации проектов и организаций. Например, ликвидируется Эхо Москвы, а Znak.com одномоментно закрыл сайт.

Наша позиция в том что должны сохранятся все цифровые ресурсы, вне зависимости от их политической, идеологической и иной направленности, подпадающие одновременно под два критерия: общественная значимость и высокая вероятность исчезновения.

Как происходит архивация?

Как только выясняется какой сайт/цифровой ресурс может исчезнуть, он вносится в план архивации, мы определяем как его можно архивировать, максимально оперативно запускаем архивацию техническими инструментами и заполняем его карточку. Сейчас мы умеем архивировать сайты, телеграм каналы, аккаунты в инстаграм и твиттер и, ограниченно в других социальных сетях.

После окончания выгрузки файлы загружаются в наше онлайн хранилище, в облако Backblaze и оффлайн хранилище на случай их недоступности.
Итоговые файлы могут достигать сотен гигабайт, в случае веб архивов они представлены в форматах warc.gz, специальном формате созданном для веб-архивации.

Где можно увидеть что уже заархивировано?

Списки сайтов последних архивационных кампаний можно увидеть в специальной таблице на сервисе Airtable. Там же приведены ссылки на сохранённые сайты в рамках предыдущих двух архивационных кампаний сайтов Роснано и сайтов Мемориала. Также доступны архивы за прошлые годы, общий список можно скачать в CSV формате.

Файлы в формате WARC можно открыть с помощью программы ReplayWeb.page оффлайн, остальные архивы можно открыть любым архиватором поддерживающим ZIP и GZ файлы.

Сайт уже исчез, что делать?

Связаться с его владельцами и попросить поделиться архивом или написать нам в @ruarxivechat и мы постараемся это сделать.
Иногда сайт частично можно восстановить из других источников, таких как Интернет-архив если он имеет большую значимость мы попробуем это сделать.

Какие ещё есть проекты в этой области?

В нашем архиве далеко не всё, мы стараемся максимально полно сохранять то что исчезает, но широта его охвата ограничена. Мы не можем сделать полную копию всех каналов в Телеграм или всех сайтов. Если Вы ищите архивы цифровых материалов то обратите внимание на такие ресурсы как Archive.org, Common Crawl и проекты ArchiveTeam.

Как помочь?

1. Финансовое пожертвование Инфокультуре - https://www.infoculture.ru/donation/. Средства идут на сервера и оплату облачного хранения.
2. Сообщить о том что сайт/ресурс может исчезнуть чтобы мы успели его сохранить. Можно написать в чат @ruarxivechat или заполнить форму
3. Передать архивы сайта/ресурса в случае если он ранее исчез.
4. Помочь с разработкой инструментов для архивации сложных ресурсов - VK, Facebook, каналы и чаты в WhatsApp, Viber и других. Есть много других технических задач, мы их собираем
5. Пожертвовав диски/системы хранения/компьютеры для оффлайн хранения и сбора данных.
6. Присоединяйтесь к обсуждениям в чате @ruarxivechat

#webarchives #digitalpreservation #archives