В рубрике интересные наборы данных.
В РБК вышла публикация об утечке данных о 1.3 миллионах пользователей Clubhouse [1] со ссылкой на какое-то издание Cybernews. Это пример, конечно, слабой журналистской работы. Да, ссылка на эти данные опубликована на одном из профессиональных форумов, но это ссылка на вполне легальный датасет опубликованный на платформе Kaggle [2] как открытые данные под лицензией Creative Commons. А в наборе данных довольно таки минимальная информация для базового сетевого анализа.
Всё что там есть это следующие поля:
- username
- twitter
- Instagram
- num_followers
- num_following
- time_created
- invitedbyuser_profile
Набор опубликован 3-го апреля и собран с помощью API Clubhouse с помощью программной библиотеки clubhouse-py [3]
Поэтому, конечно, Clubhouse может потребовать убрать этот набор данных из открытого доступа если сочтут что его сбор нарушает их условия использования, но называть это "утечкой данных" - это очень сильно грешить против истины.
Ссылки:
[1] https://www.rbc.ru/technology_and_media/11/04/2021/607267e59a79479abb304045?from=from_main_7
[2] https://www.kaggle.com/johntukey/clubhouse-dataset
[3] https://github.com/stypr/clubhouse-py
#opendata #kaggle #data
В РБК вышла публикация об утечке данных о 1.3 миллионах пользователей Clubhouse [1] со ссылкой на какое-то издание Cybernews. Это пример, конечно, слабой журналистской работы. Да, ссылка на эти данные опубликована на одном из профессиональных форумов, но это ссылка на вполне легальный датасет опубликованный на платформе Kaggle [2] как открытые данные под лицензией Creative Commons. А в наборе данных довольно таки минимальная информация для базового сетевого анализа.
Всё что там есть это следующие поля:
- username
- num_followers
- num_following
- time_created
- invitedbyuser_profile
Набор опубликован 3-го апреля и собран с помощью API Clubhouse с помощью программной библиотеки clubhouse-py [3]
Поэтому, конечно, Clubhouse может потребовать убрать этот набор данных из открытого доступа если сочтут что его сбор нарушает их условия использования, но называть это "утечкой данных" - это очень сильно грешить против истины.
Ссылки:
[1] https://www.rbc.ru/technology_and_media/11/04/2021/607267e59a79479abb304045?from=from_main_7
[2] https://www.kaggle.com/johntukey/clubhouse-dataset
[3] https://github.com/stypr/clubhouse-py
#opendata #kaggle #data
РБК
СМИ узнали об утечке данных 1,3 млн пользователей Clubhouse
Как пишет портал CyberNews, утекшие в Сеть данные не являются конфиденциальными, однако их может быть достаточно для совершения последующих атак хакеров