Ivan Begtin
8.09K subscribers
1.98K photos
3 videos
102 files
4.69K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В Румынии приняли закон об открытии данных [1] в котором реализуют директиву Евросоюза (EU) 2019/1024. При том что в стране уже публикуется более 2600+ наборов данных на национальном портале открытых данных [2], теперь можно ожидать что данных будет больше.

Напомню что открытые данные Евросоюза агрегируются на портале data.europa.eu [3] и там уже почти 1.4 миллиона наборов данных, из которых не менее 3/4 - это геоданные в форматах WFS и WMS.

Ссылки:
[1] https://www.thediplomat.ro/2022/01/27/romanian-government-approved-the-law-on-open-data-and-reuse-of-public-sector-information-initiated-by-adr-and-mcid/
[2] https://data.gov.ro
[3] https://data.europa.eu/en

#opendata #datasets #eu #romania
Полезная подборка чтения про данные на ближайшие дни, про разное:
- 10 Hot 🔥 Data & Analytics Trends to Watch in 2022 [1] в блоге Count, о том какие тренды идут в аналитической инженерии.
- Open Archaeo [2] проект открытая археология включая открытые данные, открытый код, стандарты, руководства и протоколы работы
- The Battle for Data Engineer’s Favorite Programming Language Is Not Over Yet [3] дискуссионная статья о будущем языка программирования Rust как языка для инженеров данных
- Data diffs: Algorithms for explaining what changed in a dataset [4] статья об алгоритмах отслеживания изменений в наборах данных
- Building Python Microservices with Apache Kafka: All Gain, No Pain [5] глубоко технологическая заметка о том как делать API с помощью Python и Kafka.
- Easy data processing at scale with Optimus [6] ещё одна очень технологическая заметка о движке Optimus для Python, заменяющий Pandas и включающие многие доп возможности, например, всё то же определение семантических типов данных. В упрощённом варианте, конечно, но есть такое.
- Inside Pornhub [7] нетехническое и познавательное чтение о внутреннем устройстве PornHub'а. Побольше бы таких о крупных/интересных компаниях

Ссылки:
[1] https://blog.count.co/how-data-analytics-will-change-in-2022/
[2] https://open-archaeo.info
[3] https://betterprogramming.pub/the-battle-for-data-engineers-favorite-programming-language-is-not-over-yet-bb3cd07b14a0
[4] https://blog.marcua.net/2022/02/20/data-diffs-algorithms-for-explaining-what-changed-in-a-dataset.html
[5] https://medium.com/towards-data-science/building-python-microservices-with-apache-kafka-all-gain-no-pain-1435836a3054
[6] https://medium.com/@argenisleon/easy-data-processing-at-scale-with-optimus-f467f867d756
[7] https://www.theverge.com/c/22925906/pornhub-mindgeek-content-moderation

#data #datascience #readings #opendata
В блоге Meta пишут о том что компания строит свой переводчик реального времени с использованием ИИ [1] и обещают поддерживать много языков и хорошее качество перевода, но не указывают сроки. Тут сложно не вспомнить что похожие технологии появляются и у других компаний, например, в Microsoft Skype уже довольно давно умеет переводить между 40 языками.

Это как раз из тех задач для которых нужны огромные объёмы данных и тем важнее оцифровка и доступность языковых данных. Системы перевода могут спасти вымирающие языки от полного исчезновения.


Ссылки:
[1] https://ai.facebook.com/blog/teaching-ai-to-translate-100s-of-spoken-and-written-languages-in-real-time

#ai #translation #data
Forwarded from Инфокультура
Дорогие друзья,

В этом году мы традиционно планировали провести День открытых данных. Начавшееся с митапов в 2012 году, это мероприятие выросло в важную площадку для диалога между сообществом пользователей открытых данных, НКО, представителями бизнеса и органами государственной власти, а также стало частью международного движения открытости.

В этом году мы планировали проведение мероприятия на 4-5 марта, но начавшиеся с 24 февраля военные действия на территории Украины, инициированные властями России, привели нас к решению об отмене мероприятия. В сложившейся обстановке обсуждение вопросов развития открытости в запланированном конференционно-фестивальном формате мы сочли неуместным.

Мы откладываем проведение этого мероприятия на неопределенный срок, но остаемся приверженцами открытости, и постараемся предложить сообществу другие возможности для общения и обсуждения важных вопросов в дальнейшем.

Спасибо всем, кто поддерживает нас, и до будущих встреч!

Оргкомитет «Дня открытых данных»
dbt Labs привлекли рекордные $222M инвестиций [1] при общей оценке в $4.2B (миллиардов долларов США) на свой продукт dbt Cloud. Сумма очень большая, но совершенно не удивительно что это произошло. Я ранее писал о том что dbt в каком-то смысле уникальный продукт давший второе рождение SQL. Если ранее каждый продукт по сбору или оркестрации данных обеспечивал самостоятельные механизмы их преобразования, то сейчас многие заменяют или подключают dbt под эти задачи. Фактически dbt становится индустриальным стандартом де-факто, действительно не так много альтернатив пригодных к немедленной промышленной эксплуатации.

Главный же недостаток dbt в "убийстве NoSQL". Многие продукты которые подчеркивали свои NoSQL языки запросов сейчас оказываются периферийными, находящимися за пределами Modern Data Stack или же определяемые как унаследованные базы данных, за пределами основных операционных процессов.

В любом случае, тем кто изучает SQL и работает с базами хотя бы от сотен таблиц, знание dbt есть и будет крайне полезным для профессионального развития и позиционирования себя на рынке труда.

Ссылки:
[1] https://blog.getdbt.com/next-layer-of-the-modern-data-stack/

#moderndatastack #startups #data #dbt
При любом историческом событии крайне важно сохранять архивы, как минимум для себя лично, как максимум для всего общества.

Поэтому, специально для тех кто понимает что необходимо всегда сохранять архивы происходящего и думают как это делать, я подготовил и отправил в рассылку Гайд по быстрой архивации цифрового контента [1] с охватом того как архивировать отдельные веб страницы, сайты, социальные сети.

Некоторые инструменты совсем простые, для некоторых нужны базовые навыки работы с командной строкой. Если Вы знаете какие-либо дополнительные инструменты или есть проблемы с архивацией контента который в гайде не представлен - пишите мне лично на почту [email protected] или в чат @begtinchat.

Ссылки:
[1] https://begtin.substack.com/p/24

#digitalpreservation #guides #webarchival #socialnetworks
Чтение на сегодня

В DP.ru [1] и на сайте Роскомсвободы [2] о вероятности отключения Интернета в России.

В Github'е обсуждение блокировки/заморозки пользователей из России [3]

На всякий случай для тех кто хочет успеть сохранить свои данные из облачных сервисов, список Awesome Data Takeout [4]

Ссылки:
[1] https://www.dp.ru/a/2022/02/25/Ten_shatdauna
[2] https://roskomsvoboda.org/post/war-and-it/
[3] https://github.com/github/feedback/discussions/12042
[4] https://github.com/ivbeg/awesome-data-takeout

#readings
Там речь шла про подсети принадлежащие органам власти, но сути это не меняет. Комментировать происходящее, честно говоря сложно. Мы пожинаем плоды чужих решений. Даже если этот сценарий не состоится, сам факт его обсуждения уже весьма и весьма чреват долгосрочными последствиями.
Российские IP адреса предложили отменить

В обсуждениях регионального интернет-регистратора RIPE NCC предложено рассмотреть вопрос об отзыве IP адресов, используемых российским правительством.

Hello All,
let's think about sanctions against Russia. What do you think about revoking all IPs/ASNs used by Russian government?

https://www.ripe.net/ripe/mail/archives/address-policy-wg/2022-February/013471.html
Честно говоря уже хочется вернуться к нормальным новостям и говорить про технологии, а не про последствия происходящего.

В качестве интересной новости - новой большой тренд в виде инвестиций в платформы обработки данных в реальном времени. Decodable [1] и Red Panda [2], стартапы в этой области, привлекли $20M и $50M соответственно. Большие инвестиции и интересные проекты.

Red Panda - это заменитель Kafka, позиционируют себя как более быстрый и продвинутый продукт, к тому же с открытым кодом и не связанный с JVM, но с Kafka совместимый.

Decodable - это движок по созданию труб данных программируемых как SQL запросы. Лично по мне так это весьма экзотичный подход, но, видимо, он работает. Kafka он не заменяет, но интегрируется.

Ссылки:
[1] https://www.decodable.co/blog/decodable-closes-20m-round
[2] https://redpanda.com/blog/redpanda-series-b-funding-future-of-streaming-data/

#datatools #datapipelines #realtimedata #startups #opensource
Моя основная некоммерческая аффилиация связана с АНО "Информационная культура" (@infoculture), я являюсь её соучредителем и руководителем вот уже много лет. От лица АНО я присоединяюсь к обращению российских НКО. Война - это гуманитарная катастрофа, она должна быть остановлена.

#nowar
Forwarded from Инфокультура
АНО "Инфокультура" присоединяется к заявлению российских НКО.

Мы выступаем против военных действий, которые наша страна осуществляет на территории Украины.

Вся наша работа – это борьба за достоинство человека, спасение жизней. Война несовместима ни с жизнью, ни с достоинством, ни с базовыми принципами человечности. Война – это гуманитарная катастрофа, которая множит боль и страдания. Её последствия сводят на нет наши многолетние усилия.

Мы считаем бесчеловечными силовые методы решения политических конфликтов и призываем вас к прекращению огня и началу переговоров.

#nowar
Ещё один инструмент по оркестрации (всё никак не могу подобрать более точное и благозвучное название) данных Kestra [1], у них в блоге история кейса использования в Leroy Merlin [2]. Точнее всего было бы его сравнить с Meltano, Dagster и Airflow. Поддерживает несколько десятков источников данных, написан на Java и доступен с открытым кодом [3].

Официальный анонс продукта был 3 недели назад [4], хотя разработка началась ещё в 2019 году.

На что стоит обратить внимание:
- внутри всё работает на Kafka
- интеграция с Terraform
- для хранения данных используется Minio или GCS Storage

Не вполне очевидно как там происходит обработка данных, видимо через разного рода программируемые задачи которые описаны в документации.

Ссылки:
[1] https://kestra.io/
[2] https://medium.com/@kestra-io/how-leroy-merlin-managed-their-cloud-data-pipelines-with-kestra-9932ea66b517
[3] https://github.com/kestra-io/kestra
[4] https://kestra.io/blogs/2022-02-01-kestra-opensource.html

#opensource #datapipelines #dataorchestration
Каков объём инвестиций в компании создающие продукты по работе с данными? За 2021 год - это около $7 миллиардов долларов США. В обзоре Fundraising by data companies in 2021 [1] компании приведены по категориям:
- Data Platform & Infra
- Database & SQL
- ETL & Reverse ETL
- Data quality & observability
- Metadata & data governance
- BI & Dataviz
- AI & ML

Более всего средств привлекли:
- Databricks универсальная платформа по сбору и обработке и хранению данных, в общей сложности $2.6 миллиарда [2]
- Fivetran [3] онлайн сервис сбора данных и их доставки привлекли $565 миллионов
- Collibra [4] корпоративный каталог данных привлекли $250 миллионов
- Dataiku [5] продукт по совместной работе дата сайентистов привлекли $400 миллионов
- Neo4J [6] графовая NoSQL база данных, $325 миллионов

В обзоре только относительно крупные инвестиции, видно что значительная их часть идет на стартапы связанные с ИИ и с облачной инфраструктурой.

Ссылки:
[1] https://adat.blog/2022/02/fundraising-by-data-companies-in-2021/
[2] https://databricks.com/
[3] https://www.fivetran.com/
[4] https://www.collibra.com/us/en
[5] https://www.dataiku.com/
[6] https://neo4j.com/

#startups #data #investments #dataproducts #cloud
О том как собирать и загружать данные, я хочу напомнить про один из важнейших проектов в этой области - Singer [1]. Singer - это open source стандарт по перемещению данных и работающий с командной строки.
Основными концепциями в Singer являются tap (на русский язык можно перевести как вентиль) и target (по-русски это будет цель).

Основная идея в том что процессы извлечения данных (extraction) и загрузки (load) являются довольно типовыми и укладываются стандартные файловые потоки. А то есть можно перенаправлять ввод вывод как между приложениями командной строки и получать результат.

Пример вызова команд в Singer выглядят примерно так: tap-exchangeratesapi | target-csv

Все цели и вентили пишутся на Python, всего их довольно много уже создано, а у проекта есть коммерческий интересант Stitch [2] которые и выложили его как открытый код. А сами Stitch предоставляют облачный сервис для работы с потоками данных.

Но используют Singer не только Stitch, его используют многие другие коммерческие и open source решения. Например, Singer лежит в основе Meltano [3] и ещё ряда инструментов. Хотя вот в случае Airbyte, другого инструмент для ETL, его создатели пишут что у Singer много недостатков и поэтому они его не используют [4].

Конечное решение можно принять самостоятельно. Лично я вижу пока ключевым недостатком Singer - в разном качестве вентилей и уровне их поддержки. А также почти полным отсутствием российские сервисов - Яндекс.Метрики, к примеру. Впрочем не факт что эти недостатки затмевают возможности.

Ссылки:
[1] https://www.singer.io/
[2] https://www.stitchdata.com
[3] https://hub.meltano.com/singer/taps/
[4] https://airbyte.com/blog/why-you-should-not-build-your-data-pipeline-on-top-of-singer

#datatools #opensource #datapipelines
Пишут что Минцифры предложили перечень мер для поддержки ИТ отрасли [1]:
- распространить действующие налоговые льготы также на IT-компании, получающие доходы от размещения рекламы или оказания допуслуг в своих приложениях и онлайн-сервисах, а также от реализации, установки, тестирования и сопровождения партнёрских отечественных IT-продуктов;
- освободить на следующие 3 года всех сотрудников IТ-компаний от уплаты НДФЛ, а сами компании от уплаты налога на прибыль, а также освободить эти компании от проверок;
- предоставить всем сотрудникам IT-компаний льготную ипотеку со ставкой 5% на время работы;
- предоставить отсрочку от призыва на военную службу для сотрудников IT-компаний на время их работы в этих компаниях;
- ввести процедуры упрощённого получения разрешения на работу и вида на жительство для иностранных граждан, привлекаемых для работы в российских компаниях;
- предоставить компаниям гранты на разработку и развитие IT-продуктов;
- обеспечить ускоренное импортозамещение ПО на объектах критической информационной инфраструктуры;
- также обеспечить целевое финансирование на создание в России «зеркала» репозитория открытого ПО GitHub.

Будем честными, поможет это не всем. То есть ничего плохого в этих предложениях нет, просто радикально ситуацию они не исправят. Главная проблема сейчас в том происходит одновременно кадровый дефицит, резкое сжатие рынков, резкое ограничение кредитования и проблемы с ликвидностью.

У меня то есть пара предложений порадикальнее, но боюсь я что их ни Минцифра, ни правительство никогда не пойдут. Не криптовалюты надо легализовывать, не криптовалюты. Взгляд совсем не туда.

Ссылки:
[1] https://kod.ru/mintsifry-podderzhka-it-rus/

#russia #digital #it #government #policies
Возвращаясь к мерам Минцифры России у меня целых два пакета мер, серьёзных и не очень серьёзных. Не буду вдаваться в подробности почему на них никогда не пойдут и какие сопутствующие риски у этого есть, просто зафиксирую.

Начну с серьёзных:
1. Обнуление отчислений в социальные фонды. Даже при сокращённых ставках для ИТ компаний, ФОТ - это основная статья расходов и отчисления с ФОТ - это основные налоги.

2. Значительное сокращение или обнуление НДФЛ для нерезидентов. Сейчас если брать на работу или по договору гражданина Казахстана или Армении и платить 30% - это очень много.

3. Легализация самозанятости в ИТ. Оно сейчас и так происходит, но все кто применяют схему с самозанятыми рискуют попасть под проверки УБЭПа, ФНС и тд. И многие уже нарываются.

4. Снижение давления правоохраны. Главные "страхи" ИТ бизнеса похожи на страхи всех остальных предпринимателей. Это не регуляторы и даже не контролёры, а правоохрана. Сюда же можно отнести Росфинмониторинг который сейчас особо внимательно следит за вновь созданными ИТ компаниями.

5. Упростить регистрацию ИТ компаний и дать возможность создавать юр. лица без помещений. Если кратко, то если нет проверок, то зачем юридическому лицу помещение когда все работают удалённо? С практикой покупки и оформления юридических адресов можно бороться, а можно узаконить. Пойти по пути разрешения регистрации юридических лиц дистанционно и без офиса и работающих только на экспорт. (Скорее всего невозможно из-за требований FATF)

6. Инфраструктурные и образовательные субсидии. После ФОТа вторые третьи по объёму расходы у ИТ бизнеса - это ИТ инфраструктура и доп. образование для сотрудников. Для первого все массово используют(-овали) зарубежные сервисы, для второго были попытки запуска обучения с господдержкой (очень неудачные). Нужны нормальные механизмы субсидирования использования ИТ инфраструктуры и обучения сотрудников.

А теперь с несерьёзных:
- легализация. Ну вы меня поняли, всего того что позволяет не сойти с ума и пропаганда легализации чего запрещена. Можно начать со стен Минцифры, технопарков, инновационных городков и тд. Сами придумайте что такого можно легализовать, чтобы все тут не посходили с ума. Продажу нарезного оружия например или частных реактивных самолётов или что-то чего-то здесь не перечисленного.
- ввести звание "заслуженного труженника" и "народного артиста" технологической отрасли. А то столько артефактов советской эпохи осталось со времен Советского союза со всеми этими заслуженными учеными и артистами, а в ИТ ничего такого нет. Так надо ввести, и медаль какую-нибудь отраслевую. А то ведь в качестве обстоятельства, смягчающего наказание выступает наличие государственных и ведомственных наград... Поэтому каждый министр и замминистра и руководитель департамента знает что госнаграда - это не только ценный мех снижение срока отсидки, возможность домашнего ареста и тд.

Если честно, даже это всё поможет нам не очень, но хоть что-то и где-то.

#policies #it #russia #digital
В Firefox выдаётся теперь сообщение что у сайта Банка России отозвали cbr.ru сертификат. Аналогично при заходе на online.vtb.ru

В остальных браузерах пока такого нет, а вот SSLTest [1] показывает что сертификат действительно отозван.

Оба сертификата были выданы Thawte, официальных заявлений компании пока не было.

При этом даже у других сайтов Банка России, вроде сайта их университета, отзыва сертификата произошло [2].

Возможно отзывы сертификатов ограничатся только организациями под санкциями.

Ссылки:
[1] https://www.ssllabs.com/ssltest/analyze.html?d=cbr.ru
[2] https://university.cbr.ru/

#tsl #ssl #bankofrussia #security
Онлайн сервис поиска по данным/сайтам Algolia позволял указывать регион при создании проекта. Например, я создавал там текстовый поисковый индекс в российском регионе. Теперь они рекомендуют перенести его в регион Германия потому что есть риски потери связи с российским сегментом.

Вот такие дела. Какой-то Цифровой обитаемый остров получается.

#sanctions #networks #networkneutrality #russia