Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
December 14, 2020
The Information опубликовали список из 50 наиболее многообещающих стартапов [1] (осторожно пэйвол) разбитых по 5 категориям, из этих стартапов, значительная часть, или связана с данными напрямую, или опосредовано. Например, номер 1 в категории AI - это Alation [2], один из наиболее дорогих корпоративных каталогов данных обещающих что они используют технологии AI для организации корпоративных данных для последующего машинного обучения.

Там много и других примеров стартапов с фокусом на микросервисы (Kong), обработку данных в облачных хранилищах (Starburst Data) и др.

P.S. Если кому-то понадобится статья целиком, пишите в чат, выложу туда её текст.

Ссылки:
[1] https://www.theinformation.com/ti50
[2] https://www.alation.com/

#tech #data #bigdata
March 1, 2021
В рубрике интересные данные, очередной особенно большой набор данных Quotebank [1] состоит из цитат персон в англоязычной онлайн прессе с 2008 по 2020 годы включительно. Это 178 миллионов цитат извлечённых из 196 англоязычных новостных статей собранных из 377 тысяч доменов.

Общий объём данных - 190 гигабайт в сжатом виде (файлы .json.bz2), то есть после распаковки, от 1 до 3 терабайт. Авторы исследования всей командой из École polytechnique fédérale de Lausanne и опубликовали статью на основе этих данных Quotebank: A Corpus of Quotations from a Decade of News [2]

Жаль ничего подобного нет для русского языка.

Ссылки:
[1] https://zenodo.org/record/4277311#.YFI7TNxn2Uk
[2] https://dl.acm.org/doi/10.1145/3437963.3441760

#opendata #openaccess #bigdata #research #datasets
March 17, 2021
July 30, 2021
В рубрике очень больших наборов данных OpenAlex [1] крупнейший каталог всех научных работ, научных организаций, конференций и авторов работ. Похожий на Microsoft Academic Graph, другой очень крупный набор данных со схожим составом. OpenAlex распространяется в виде слепков на Amazon AWS и через API. А также обещают в феврале 2022 года запустить веб-сайт.

Всё распространяется под лицензией CC0, так что это true open data, можно использовать для любых целей и задач. Например, если кто-то задумает реконструировать карту российской науки или отслеживать публикации по какой-либо редкой теме, этот датасет хорошо подойдет для затравки.

Ссылки:
[1] https://docs.openalex.org/

#bigdata #datasets #data #academic #research
January 31, 2022
В блоге Pinterest история про то как они выбирали и в итоге настроили оркестратор задач на базе Airflow [1]. Пост интересный, про сложную архитектуру, реально большие данные, сложные процессы и тд.

А также там же много интересных цифр про Pinterest:
- 500 петабайт данных всего
- 600 терабайт данных ежесуточно
- 4000 workflows
- 10 000 data flows
- 38 000 ежесуточных задач в среднем

Достоинство больших проектов и крупных команд как раз в таких масштабах и решениях возникающих от сложностей подобного объема данных.

А в случае Pinterest'а ещё и интересна их архитектура связки потоков данных, развертывания кода и кластеров Kubernetes.

Ссылки:
[1] https://medium.com/pinterest-engineering/spinner-pinterests-workflow-platform-c5bbe190ba5

#opensource #bigdata #datarchitecture #datapipelines
February 21, 2022
Одна из этически спорных тем вокруг автоматизированных алгоритмов - это персонализированные цены, когда компания/сервис предоставляют конкретному пользователю цену за услугу или продукт и эта цена формируется, в том числе, на основе информации о пользователе. Это нельзя назвать алгоритмами ИИ, но это очень близко к алгоритмам скоринга по смыслу и реализации.

Mozilla и Consumers International с мая по сентябрь 2021 года проводили исследование персонализированных цен в Tinder и выяснили что в сервисе средняя цена за Tinder Plus имеет вариации в зависимости от возраста, пола и местонахождения клиента. В исследовании [1] подробно разобрано какие критерии алгоритм использует и страны в которых оно проводилось: США, Бразилия, Нидерланды, Республика Корея, Индия, Новая Зеландия.

По итогам исследователи предлагают подписать петицию [2] и усилить регулирование за подобными сервисами.

Проблема с переменными/персональными ценами уже не нова и, действительно, почти наверняка будет подвергаться регулированию во многих странах. В случае с Tinder претензия понятна - одна и та же услуга от одного и того же продавца.

Ссылки:
[1] https://assets.mofoprod.net/network/documents/Personalized_Pricing.pdf
[2] https://foundation.mozilla.org/en/blog/new-research-tinders-opaque-unfair-pricing-algorithm-can-charge-users-up-to-five-times-more-for-same-service/

#privacy #data #bigdata #ai #algorithms #mozilla
February 23, 2022
September 26, 2022
March 4, 2023
August 9, 2023
July 30, 2024
August 14, 2024
August 22, 2024
Ivan Begtin
В рубрике как это устроено у них портал открытых данных провинции Центральная Ява в Индонезии [1]. Отличается каким-то неимоверным числом опубликованных датасетов, там их чуть менее 200 тысяч что, конечно, очень много. Для сравнения на портале открытых данных…
September 7, 2024
Неплохая подборка примеров проектов в том что называют Rewrite Bigdata in Rust (RBiR) [1], а то есть по переписыванию функциональности и отдельных продуктов с открытым кодом на Rust, вместо Python или Java.

Подборка хорошая и примеры там все как один вполне применимые к инфраструктуре практически любого дата-продукта.

А самое главное что у Rust и Python хорошая интеграция, можно заменять какие-то компоненты без болезненной адаптации проекта в целом.

Ссылки:
[1] https://xuanwo.io/2024/07-rewrite-bigdata-in-rust/

#opensource #rust #bigdata #datatools #data
September 9, 2024