4CIO – Telegram

Forwarded from Ivan Begtin (Ivan Begtin)

Публикую обещанную открытую часть материалов. По ссылке можно прочитать обзор 16 удостоверяющих центров из которых 9 государственные и во всех из них можно получить персональные данные в виде ФИО, места работы, email, ИНН и СНИЛС по физ. лицам через общедоступные реестры сертификатов. В общей сложности это около 63 тысяч записей о физ. лицах.

Ссылка на исследование: https://begtin.tech/pdleaks-p1-uc/

Это очень длинный лонгрид, с документированными примерами и скриншотами по каждому случаю, а также последовательностью воспроизведения.

Обратите внимание на то что:
- исследование проводилось в августе-сентябре 2018 года и в некоторых случаях проблема уже исправлена, но в это меньшая часть УЦ в которых вскрылась подобная ситуация;
- никаких несанкционированных действий в отношении УЦ не проводилось, был анализ только общедоступной информации;

В данном конкретном случае с удостоверяющими центрами проблема в регулировании и в применении этого регулирования УЦ. Подробнее об этом в тексте.

И, я ещё раз оговорюсь, публикуемое - это меньшая часть общего исследования по ситуации с персональными данными в созданных или регулируемых государством информационных системах. Во многих других случаях ситуация значительно хуже.

#data #privacy #personaldata

Ivan Begtin blog

Утечки персональных данных из удостоверяющих центров

В данном исследовании были проанализированы утечки таких видов персональных данных как СНИЛС, паспортные данные, сведения о трудоустройстве, сведения о ситуации с работодателем.

4 views17:00

4CIO

Forwarded from Ivan Begtin (Ivan Begtin)

19-20 октября пройдет хакатон Счетной палаты [1] с кучей интересных задач, полезных для понимания не только данных по госфинансам, но и работы с госданными в принципе.

Я же не могу не напомнить хорошее правило что когда Вы смотрите на подготовленные идеи проектов - не ограничивайтесь только ими. Часто какую-то идею вынашиваешь месяцами и годами и тут возможность её качественно представить.

Ссылки:
[1] https://web.facebook.com/events/804055623342930/

#opendata #data #hackahon #sprf

Facebook

See posts, photos and more on Facebook.

6 views20:43

Show comments

4CIO

Forwarded from Ivan Begtin (Ivan Begtin)

Хочется очень много данных? Прям очень очень много и очень больших ? На базе Amazon AWS работает бесплатная версия портала Quilt по адресу open.quiltdata.com [1] где можно скачать данные 25 датасетов общим объёмом в 3.7 петабайта и 10.2 миллиардов объектов.

Например, там прокаталогизированы:
- перепись населения США [2]
- более одного миллиона записных книжек дата сайентистов Jupyter Notebook [3]
- база OpenStreetMap [4]

и многое другое.

У проекта нет претензии на то чтобы все данные были бы в едином формате, но есть заявка на систематизацию крупнейших датасетов и хранение огромных объёмов.

Ссылки:
[1] https://open.quiltdata.com/
[2] https://open.quiltdata.com/b/dataworld-linked-acs
[3] https://open.quiltdata.com/b/open-jupyter-notebooks
[4] https://open.quiltdata.com/b/osm-pds

#opendata #data #aws

Quilt Data

Quilt is a versioned data portal for AWS. Quilt integrates files into datasets that your whole company can discover, understand, and trust. Quilt is instant infrastructure to bring discoveries to market faster.

4 views12:11

Show comments

4CIO

Forwarded from Ivan Begtin (Ivan Begtin)

Для тех кому долго самостоятельно искать тот слив из банка на каймановых островах, вот прямая ссылка [1]. Он там под кодом "Sherwood"

Только помните - там 2 терабайта. Для опытного специалиста это несколько часов работы, для неопытного может занять месяцы. Для современного журналиста расследователя это должно быть по силам, а если чувствуете что "сложно это всё", то срочно беритесь за журналистику данных.

Ссылки:
[1] https://ddosecrets.com/data/corporations/

#leaks #data #datajournalism

6 views22:07

Show comments

4CIO

Forwarded from Ivan Begtin (Ivan Begtin)

Яндекс запустил сервис для скоринговых компаний, в котором выдаёт некоторую интегральную оценку заёмщика на основе предоставленным ему хэшированных email адреса и мобильного телефона [1] об этом пишут РБК и подтверждают банки и кредитные бюро с которыми Яндекс уже работает.

В самом яндексе утверждают что данные пользователей обезличены и что кроме этой интегральной оценки ничего не передаётся.

Это та новость которую не прокомментировать очень сложно.
- первое и самое очевидное - это подозрения в адрес Яндекса по разработке кредитного скоринга как первого шага в сторону социального рейтинга. Если и есть кто-то в России кто такое может сделать, то это только Яндекс и Mail.ru.
- второе это то что в среде банков есть конкуренция, есть конкуренция среди ОФД, есть конкуренция между страховыми компаниями. Яндекс в каких-то рынках занимает позиции близкие к "монопольной", даже если подобное не признано формально. Много лет компания делала всё чтобы стать базовой инфраструктурой и быть синонимом "карт", "поиска", "такси" и так далее. Если пользователь не хочет чтобы Яндекс передавал какие-либо сведеия о нём, то у него нет возможностей кроме как полностью отказаться от сервисов Яндекса, и то, это поможет недостаточно поскольку Яндекс метрика стоит почти на всех сайтах Рунета и многих мобильных приложениях.

Вся эта ситуация в последнюю очередь техническая и, в первую очередь, этическая. Сам факт оказания Яндексом подобной услуги - это переориентация от наращивания репутации среди пользователей к наращиванию монетизации накапливаемых данных.

Ссылки:
[1] https://www.rbc.ru/finances/24/12/2019/5e00e2409a79478017f453e6

#data #privacy

13 views07:06

4CIO

Forwarded from Ivan Begtin (Ivan Begtin)

Команда из 30 исследователей в OpenAI опубликовали статью о GPT-3 [1] языковой модели позволяющий решать не только задачи перевода, но и создания статей и отвечать на вопросы уровня экзамена SAT (это сложные вопросы).

В этой модели используется 175 миллиардов параметров, для сравнения в GPT-2 было 1.5 миллиардов параметров [2], а в наиболее сопоставимой модели от Microsoft всего 17 миллиардов параметров [3]

Что немаловажно, GPT-3 обучено на базе CommonCrawl, Википедии и других открытых данных с текстами, в общей сложности в триллион слов [4].

OpenAI создаёт не только возможности, но и масштабные страхи. После выпуска предыдущей модели GPT-2 были опасения что с помощью этой технологии можно завалить интернет фэйками которые бы звучали логично и разумно, а на практике создавалась бы ботами в бесконечном количестве [5].

Ссылки:
[1] https://arxiv.org/abs/2005.14165
[2] https://venturebeat.com/2019/08/20/openai-releases-curtailed-version-of-gpt-2-language-model/
[3] https://venturebeat.com/2020/05/19/microsofts-zero-2-with-deepspeed-trains-neural-networks-with-up-to-170-billion-parameters/
[4] https://venturebeat.com/2020/05/29/openai-debuts-gigantic-gpt-3-language-model-with-175-billion-parameters/
[5] https://www.theverge.com/2019/2/14/18224704/ai-machine-learning-language-models-read-write-openai-gpt2

#data #opendata #ai

VentureBeat

OpenAI releases curtailed version of GPT-2 language model

OpenAI today said it's releasing a version of GPT-2, but that it's not yet safe for the public release of the original 1.5 billion parameter version.

26 views20:46

Show comments

4CIO

Forwarded from Ivan Begtin (Ivan Begtin)

Весьма любопытный обзор/мини-анализ инструментов машинного обучения [1] (на английском). Автор просмотрел более 200 ML инструментов и делает вывод что инструментарий для AI неразвит, несмотря на весь пузырь в этой области. Многие проблемы не решены, многие задачи требуют инструментов которые пока ещё никто не разрабатывает. И, в качестве резюме, то что хайп вокруг AI угасает и если Вы хотите заниматься данными, то выбирайте инженерию, а не машинное обучение. Машинное обучение всегда сможете наверстать, а без инженерных навыков в жизни никуда.

Ссылки:
[1] https://huyenchip.com/2020/06/22/mlops.html

#data #ai #ml

Chip Huyen

What I learned from looking at 200 machine learning tools

[Twitter thread, Hacker News discussion]

20 views10:50

4CIO

Forwarded from Ivan Begtin (Ivan Begtin)

Как обрабатывать данные? Какие бесплатные и платные инструменты существуют? И, особенно, как работать с данными изначально не в самом лучшем качестве.

Наиболее правильный термин data wrangling, плохо переводится на русский, но по сути - это "преобразование данных" и в этой области есть много инструментов. Другой часто используемый термин - data preparation или data prep (подготовка данных) за которым скрывается обработка и трансформация данных для последующей загрузки (ETL) или постобработки после загрузки (ELT).

Инструментов существует огромное количество. Есть много что можно собрать из маленьких компонентов, в академической среде, чаще это инструменты завязанные на executive papers такие как Jupiter Notebook, в open source среде - это многочисленные инструменты преобразования данных через командную строку и в корпоративной среде - это, чаще, дорогие коммерческие продукты сочетающие в себе множество возможностей.

- OpenRefine [1] бесплатный инструмент, некогда вышедший из проекта Google Refine который опубликовали в Google после поглощения команды Metaweb (проект Freebase). Один из лучших бесплатных инструментов в этой области.
- Trifacta [2] де-факто лидеры рынка, изначально делали акцент на обработке данных, сейчас это комплексный продукт по подготовке данных, их преобразованию и построение дата труб (data pipelines). Одно из самых дорогих решений на рынке, от $419 в месяц за пользователя.
- Microsoft Excel один из мощнейших инструментов о возможностях применения которого в обработке данных знают не все. Но с расширениями вроде ReshapeXL [3] позволяет добиваться многого.
- Microsoft PowerBI [4] включает многочисленные возможности обработки данных для последующей визуализации
- Tableau Prep [5] позволяет делать пред-обработку данных для последующей визуализации в продуктах Tableau.
- Datameer X [6] подготовка данных специально для озёр Hadoop
- Easy Morph [7] ETL инструмент подготовки данных без программирования
- Meltano [8] инструмент обработки данных через Python и с открытым кодом с интеграцией с разными источниками

Также большой список инструментов в коллекциях:
- Awesome ETL [9] подборка Extract, Transform and Load инструментов
- Gartner Data Preparation tools [10] список от Gartner

Основной тренд сейчас - это то что подготовка данных уходит в облака, я ранее писал о переходе от подхода ETL к ELT и обработке данных уже в облачном хранилище. Таких продуктов всё больше и, похоже, будущее за ними.

Ссылки:
[1] https://openrefine.org/
[2] https://www.trifacta.com/
[3] http://reshapexl.com/
[4] https://powerbi.microsoft.com/en-us/
[5] https://www.tableau.com/products/prep
[6] https://www.datameer.com/datameer-x/
[7] https://easymorph.com/
[8] https://meltano.com
[9] https://github.com/pawl/awesome-etl
[10] https://www.gartner.com/reviews/market/data-preparation-tools

#dataprep #datawrangling #data

Alteryx

Trifacta is Now Alteryx Designer Cloud

Trifacta has joined Alteryx to help customers and partners bring even more value to their businesses, powered by breakthrough data analytic insights.

280 views08:42

4CIO

Forwarded from Ivan Begtin (Ivan Begtin)

Я давно планировал написать про проблемы стандартизации работы с данными, она не так заметна в узкосфокусированных областях, но становится более чем актуальной когда много разных, часто малоуправляемых, источников данных публикующих данные о схожих объектах в разных форматах.

Прежде чем продолжить надо дать два определения:

стандарты метаданных - это способы описания хранимых наборов данных и иных цифровых объектов (digital assets). Они используются для того чтобы максимально полно хранить сведения о происхождении данных, первоисточнике, частоте обновления, форматах и иной сопутствующей информации которая необходима при обработке этих данных. Эти стандарты используются при каталогизации данных.

стандарты данных - это описание структур данных внутри набора данных. Они используются для того чтобы максимально удобно описать то что содержится в данном наборе данных. Стандарты данных используются при подготовке данных и их распространении.

И тех и других существует великое множество, я приведу кратко основные и далее уже по проблемам с ними связанными.

Подробнее в посте на Substack https://begtin.substack.com/p/11

#data #standards #regulation

Ivan’s Begtin Newsletter on digital, open and preserved government

#11. Стандарты работы с данными

Хрун-Варвар согласно стандартам Пупземелья считался чуть ли не академиком, поскольку умел думать, не шевеля при этом губами. (с) Цвет волшебства

381 views18:47

4CIO

Forwarded from Ivan Begtin (Ivan Begtin)

#13. Что делать в ситуации, когда за приватность граждан никто не отвечает?
Существует давний вопрос о том, какой из российских органов должен реагировать на проблемы с текущими, потенциальными и возможными утечками данных, злоупотреблениями в использовании данными и так далее. ФСТЭК? Роскомнадзор? Минцифры? МВД? Генпрокуратура? Например, в мире этой проблемой более всего озадачены органы по защите прав потребителей. А проблема госслежки - это, в первую очередь, вопрос защиты граждан законодательной властью от произвола исполнительной.
...
Продолжение в регулярной рассылке https://begtin.substack.com/p/13

#privacy #data #government

382 views07:44

4CIO

Forwarded from Ivan Begtin (Ivan Begtin)

Zoom поймали на лжи о end-to-end шифровании и передачи данных Facebook и Google [1].

Новость не из неожиданных, потому что Zoom уже ловили на передаче данных в Китай [2].

Много подробностей в комментариях у Брюса Шнаера [3] и, я тоже не могу не прокомментировать что единственный способ избежать ухудшения ситуации с торговлей данных - её легализация и регулирование. Особенно в отношении особо крупных "экосистем" и мегакорпораций.

Ссылки:
[1] https://arstechnica.com/tech-policy/2021/08/zoom-to-pay-85m-for-lying-about-encryption-and-sending-data-to-facebook-and-google/
[2] https://www.businessinsider.com/china-zoom-data-2020-4
[3] https://www.schneier.com/blog/archives/2021/08/zoom-lied-about-end-to-end-encryption.html

#zoom #data

Ars Technica

Zoom to pay $85M for lying about encryption and sending data to Facebook and Google

Zoom users to get $15 or $25 each in proposed settlement of class-action lawsuit.

340 views20:14

4CIO

Forwarded from Ivan Begtin (Ivan Begtin)

В Север.Реалии статья о реалиях прохождения переписи населения, "Цена таким данным нулевая". Фальсификации при переписи населения [1], на ту же темы в Deutsche Welle Всероссийская перепись населения: чем опасна фальсификация данных [2] и выступление Натальи Зубаревич на Эхо Москвы [3].

Перепись у нас в стране очень политизирована, в ней выражается многое, и замороженные национальные конфликты [4] и общей уровень недоверия государству граждан и ещё много чего.

Но в чем права Наталья Зубаревич и экономисты и демографы так в том что данные переписи необходимы, насколько возможно качественные, насколько возможно подробные, насколько возможно локализованные, но анонимизированные. Да, государство и так владеет базами данных о граждан в виде данных в ФНС, в Пенсионном фонде, в ФСС, в ФОМС, а также базы данных SIM карт и передвижения есть у сотовых операторов и ещё у ряда коммерческиз и государственных структур есть разной степени актуальности, полноты и достоверности базы данных.

Перепись - это один из немногих дата-продуктов государства который хотя бы частично предоставляется исследователям, бизнесу и самим гражданам в виде аналитики, официальной статистики и иных срезов данных.

Поэтому то что граждане не доверяют переписчикам, то перепись охватывает не всё, это, конечно, скорее трагедия для всех кто потом эти данные будет использовать при принятии решений и мне не хочется злорадствовать в стиле "опять ничего не получается". Да лучше бы получалось и лучше бы в российские данные были доступны с раскрытием до муниципалитета и переписного участка, например, как в Австралии [5] или США и в других странах доступны данных до уровне блока (block level).

Ссылки:
[1] https://www.severreal.org/a/tsena-takim-dannym-nulevaya-falsifikatsii-pri-perepisi-naseleniya/31557044.html
[2] https://www.dw.com/ru/perepis-naselenija-rossii-chem-opasna-falsifikacija-dannyh/a-59801766?maca=rus-yandex_new_politics_mm-9641-xml
[3] https://echo.msk.ru/programs/personalno/2926988-echo/
[4] https://kazan.mk.ru/social/2021/11/11/ilnar-garifullin-po-tatarskim-rayonam-bashkortostana-ezdyat-bashkirskie-agitbrigady.html
[5] https://www.abs.gov.au/census/find-census-data

#opendata #data #census

Север.Реалии

"Цена таким данным нулевая". Фальсификации при переписи населения

14 ноября в России завершается Всероссийская перепись населения. Замглавы Росстата Павел Смелов в пятницу заявил, что в ней приняло участие более 99% населения. Незадолго до конца кампании студенты, работавшие переписчиками, рассказали о фактах, которые,…

281 views16:19

4CIO

Forwarded from Ivan Begtin (Ivan Begtin)

В рубрике много интересного чтения о данных. Практически все по практике работы с данными и технологических стартапах:
- 30 startups that show how open source ate the world in 2021 [1] обзор 30 стартапов продуктов с открытым кодом привлекших значительное финансирование. Многие стартапы исключительно про работу с данными и про инфраструктурные аспекты работы с данными, например, MindsDB [2] про машинное обучение внутри СУБД или Airbyte [3] про преобразование и интеграцию данных. Там же упоминается весьма интересный проект Hoppscotch [4] про проектирование API с открытым кодом, фактически открытый аналог Postman. А модель многих open source продуктов часто похожа на "давайте посмотрим на лучший продукт на рынке и сделаем такой-же только с открытым кодом. А зарабатывать будем на облачной версии", иногда это работает;)
- One Year of dbt [5] статья автора о более чем годе практике использования Dbt (data build tool) [6], теперь уже популярном инструменте преобразования данных, с открытым кодом и интеграцией практически со всеми современными корпоративными инструментами и современным стеком данных.
- Announcing preview of BigQuery’s native support for semi-structured data [7] в Google BigQuery анонсируют поддержку полу-структурированных данных, с обращением к JSON данным внутри запросов. Много времени прошло с тех пор как она ожидалась и вот появилась.

Ссылки:
[1] https://venturebeat.com/2022/01/03/30-startups-that-show-how-open-source-ate-the-world-in-2021/
[2] https://mindsdb.com/
[3] https://airbyte.com/
[4] https://hoppscotch.io
[5] https://tech.devoted.com/one-year-of-dbt-b2e8474841ca
[6] https://www.getdbt.com/
[7] https://cloud.google.com/blog/products/data-analytics/bigquery-now-natively-supports-semi-structured-data

#reading #data #tech

VentureBeat

30 startups that show how open source ate the world in 2021

A look at some of the open source startups that gained traction in 2021, revealing where the world is looking to leverage the power of OSS.

420 views08:10

4CIO

Forwarded from Physics.Math.Code

Практическая_статистика_для_специалистов_Data_Science_2022_Питер.zip

15.1 MB

📕 Практическая статистика для специалистов Data Science [2022] Питер Брюс, Питер Гедек, Эндрю Брюс

Книга рассчитана на специалистов в области Data Science, обладающих некоторым опытом работы с языком программирования R и имеющих предварительное понятие о математической статистике. В ней в удобной и легкодоступной форме представлены ключевые понятия из статистики, которые относятся к науке о данных, а также объяснено, какие понятия важны и полезны с точки зрения науки о данных, какие менее важны и почему. Подробно раскрыты темы: разведочный анализ данных, распределения данных и выборок, статистические эксперименты и проверка значимости, регрессия и предсказание, классификация, статистическое машинное обучение и обучение без учителя. Во второе издание включены примеры на языке Python, что расширяет практическое применение книги.
#программирование #computer_science
#статистика #R #python #data_science

448 views11:44

About

Blog

Apps

Platform