Ivan Begtin
8.09K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
Команда технологических консультантов из UpTurn [1] опубликовала подробное исследование по теме этики больших данных (Data Ethics. Investing Wisely in Data at Scale) [2] которое также доступно в PDF формате [3].

В исследовании рассматриваются подробны вопросы связанные с тем как доступность данных для всех и возможности накопления данных некоторыми учреждениями создаёт не только возможности, но и актуальные проблемы для общества. Вот некоторые из них:
- общедоступные данные могут неэтично использовать. Например, по анонимизированным данным поездок на такси или же больничным записям можно повторно идентифицировать до 43% персон;
- автоматическое принятие решение может приводить к предубежденности систем принимающих решения автоматически. Пример: система COMPAS определяющая риски освобождения человека на поруки в судах США предубеждена против афроамериканцев;
- доступность данных может приводить к усилению крупных корпоративных игроков и ослаблять академических и гражданских акторов. Пример - значительный рост научных публикаций в которые включены авторы с сильной аффилированностью с корпорацией.

Исследование проводилось по заказу MacArthur и Ford Foundations и адресатом его являются грантодающие организации для выработки их политик в поддержке проектов работающих с данными.

Текущее состояние общественных и государственных инициатив в теме этики данных можно описать как нулевое.

Ссылки:
[1] https://www.teamupturn.com
[2] https://www.teamupturn.com/reports/2016/data-ethics
[3] https://www.teamupturn.com/static/reports/2016/data-ethics/images/Upturn_-_Data%20Ethics_v.1.0.pdf

#opendata #opengov #dataethics
October 7, 2016
Хакеры выкрадывают и выкладывают хакерские инструменты спецслужб. Этой товтологией можно назвать публикацию в Motherboard "Your Government's Hacking Tools Are Not Safe" [1]. Хакер взломал [2] ресурсы компании Cellebrite и выложил [3] огромную подборку инструментов для взлома устройств на базе Android, IOS и Blackberry.

Другая группа, "The Shadow Brokers", опубликовала набор эксплойтов для Windows [4] предположительно выкраденных у NSA (Агентства Национальной Безопасности США).

Все это о том что государство плохо умеет хранить свои секреты, даже те которые помогают получать доступ к чужим секретам. Если вернуться к России то проблема последних законов по длительному хранению трафика, создают риск не только их нецелевого использования, но и взлома со стороны хакеров.

Ссылки:
[1] https://motherboard.vice.com/en_us/article/your-governments-hacking-tools-are-not-safe
[2] https://motherboard.vice.com/en_us/article/hacker-steals-900-gb-of-cellebrite-data
[3] https://motherboard.vice.com/en_us/article/hacker-dumps-ios-cracking-tools-allegedly-stolen-from-cellebrite
[4] https://motherboard.vice.com/en_us/article/shadow-brokers-dump-alleged-windows-exploits-and-nsa-presentations-on-targeting-banks

#security #privacy #dataethics
April 15, 2017
На проходящем в России RIW Аналитический центр при Пр-ве РФ, ИРИ и Ассоциация больших данных представили свой этический кодекс работы с данными [1]. Лично я как руководитель другой ассоциации - АУРД (Ассоциация участников рынка данных) не могу его не прокомментировать, сделаю это тезисами.

1. Этот кодекс разрабатывали именно АЦ при Правительстве, ИРИ и Ассоциация больших данных. Наша ассоциация к нему никакого отношения не имела, мы не видели его ни в черновом виде, ни в каком иначе и никто из известных мне экспертов до того как кодекс был опубликован его не видел. Это продукт исключительно в зоне ответственности этих 3-х участников.
2. Кодекс существует в форме благопожеланий, не в формате "мы обязуемся делать" и "мы обязуемся не делать" как это изложено, например, в похожем кодексе в Швейцарии [3], а в форме общего, на мой взгляд, необоснованно забюрократизированного изложения.
3. Часть документа про создание "совета по совершенствованию лучших практик работе с данными" - это довольно бессмысленная идея на том уровне котором предлагается его создание. Я давно ратую за создание совета по данным на уровне правительственной комиссии или совета при Президенте РФ, но совет при АЦ при ПР РФ - это несерьёзный уровень для документа. В этом смысле я лично его бы больше ожидал от Ассоциации больших данных
4. В документе ничего нет про приближение к практикам GDPR, защиту прав пользователей и доступа граждан к их данным. Это не этика для малого бизнеса и не этика для пользователя - это самое минимальное приближение к этике со стороны "больших котов"
5. При этом я, всё равно, приветствую появление одного из первых документов по дата-этике, даже если окажется в будущем окажется что его необходимо будет глубоко переписать или полностью переделать.

Ссылки:
[1] http://ac.gov.ru/files/content/25949/kodeks-etiki-pdf.pdf
[2] http://aurd.ru
[3] https://data-service-alliance.ch/_Resources/Persistent/d8023fbcbd6cfb86e5ed814faa050f6bfa6be284/Codex_V3_english_public.pdf

#data #dataethics
December 12, 2019
January 15, 2020
Курс по дата-этике [1] от Jeremy Howard, создателя Kaggle - это бесплатный академический онлайн курс из 6 уроков:

1. Disinformation
2. Bias & Fairness
3. Ethical Foundations & Practical Tools
4. Privacy & surveillance
5. Our Ecosystem: Metrics, Venture Capital, & Losing the Forest for the Trees
6. Algorithmic Colonialism, and Next Steps

Ранее автор его лично читал в Университете Сан-Франциско в Data Institute в январе-феврале 2020 года [2] , а сейчас курс доступен всем желающим.

А я напомню и про другой курс, того же автора Practical Deep Learning for Coders [3] который связан с книгой Deep Learning for Coders with fastai and PyTorch: AI Applications Without a PhD [4] вышедшей 4 августа 2020 года.

Если Вы хотите разобраться в этике работы с данными при машинном обучении, то сейчас эти курсы, особенно первый, лучшее с чего можно начать

Ссылки:
[1] http://ethics.fast.ai/
[2] https://www.usfca.edu/data-institute
[3] https://course.fast.ai/
[4] https://www.amazon.com/Deep-Learning-Coders-fastai-PyTorch/dp/1492045527

#ai #deeplearning #dataethics
August 23, 2020
April 30, 2021
Из важного, Microsoft серьёзно пересматривают подход к этике ИИ, о чём пишут у себя в блоге [1], а также анонсируют вторую версию стандарта ответственного ИИ [2].

В контексте этого стандарта они закрыли для доступа их API распознавания лиц и эмоций [3] и это, также, весьма важный шаг саморегулирования ответственности корпораций.

И здесь я не могу не кинуть камень в огород российского кодекса этики ИИ [4] и важной разнице между ним и то в каком направлении сейчас движутся международные корпорации вроде Microsoft.

В российском кодексе этики ИИ явно декларируется требование соответствия законам, тем самым ставя компании которые имеют компетенции в этой области заведомо ниже законодателей у которых гарантированно компетенций в разы, если не на порядок меньше.

В стандарте Microsoft и иных подобных документах декларируется позиция корпорации которая и предполагается как будущая основа для законов.

Поэтому стандарт Microsoft будет иметь влияние на нашу с Вами жизнь, а российский кодекс этики ИИ не будет.

Ссылки:
[1] https://blogs.microsoft.com/on-the-issues/2022/06/21/microsofts-framework-for-building-ai-systems-responsibly/
[2] https://blogs.microsoft.com/wp-content/uploads/prod/sites/5/2022/06/Microsoft-Responsible-AI-Standard-v2-General-Requirements-3.pdf
[3] https://www.theverge.com/2022/6/21/23177016/microsoft-retires-emotion-recognition-azure-ai-tool-api
[4] https://bit.ly/3nfk7Lz

#ai #dataethics #aiethics #microsoft
June 24, 2022