Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике интересные наборы данных.

В РБК вышла публикация об утечке данных о 1.3 миллионах пользователей Clubhouse [1] со ссылкой на какое-то издание Cybernews. Это пример, конечно, слабой журналистской работы. Да, ссылка на эти данные опубликована на одном из профессиональных форумов, но это ссылка на вполне легальный датасет опубликованный на платформе Kaggle [2] как открытые данные под лицензией Creative Commons. А в наборе данных довольно таки минимальная информация для базового сетевого анализа.

Всё что там есть это следующие поля:
- username
- twitter
- Instagram
- num_followers
- num_following
- time_created
- invitedbyuser_profile

Набор опубликован 3-го апреля и собран с помощью API Clubhouse с помощью программной библиотеки clubhouse-py [3]

Поэтому, конечно, Clubhouse может потребовать убрать этот набор данных из открытого доступа если сочтут что его сбор нарушает их условия использования, но называть это "утечкой данных" - это очень сильно грешить против истины.

Ссылки:
[1] https://www.rbc.ru/technology_and_media/11/04/2021/607267e59a79479abb304045?from=from_main_7
[2] https://www.kaggle.com/johntukey/clubhouse-dataset
[3] https://github.com/stypr/clubhouse-py

#opendata #kaggle #data