Ivan Begtin
8.09K subscribers
2K photos
3 videos
102 files
4.71K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
December 30, 2023
January 4, 2024
Микрофоны в туалетах начали устанавливать в Великобритании в некоторых школах [1] чтобы отслеживать вэйпинг и буллинг школьников. Сенсоры продает Triton Sensors [2]. Когда ключевое событие происходит то администрация школы автоматически уведомляется с помощью SMS.

Похожие сенсоры под брендом HALO Smart Sensors в США внедряет компания IPVideo (часть Motorola). Ими охвачено уже более 1500 школ.

Причём согласия родителей не требуют поскольку персональные данные не собираются, только предупреждения рассылаются администрации.

Интересно что дальше будет. Автоматические химические анализаторы в в унитазах и канализационных трубах для выявления наркотиков? Обязательные наручные бэнды для отслеживания уровня стресса? Есть некоторое ощущение что школы превращаются в анти-утопические центры образования.

Ссылки:
[1] https://schoolsweek.co.uk/schools-install-toilet-sensors-that-actively-listen-to-pupils/
[2] https://tritonsensors.com/3d-sense-pro/
[3] https://halodetect.com/

#privacy #security #schools
February 9, 2024
Полезные ссылки про данные, технологии и не только:
- Про автоматизированное видеонаблюдение на олимпиаде в Париже [1]. Под пэйволом, но в общем-то и так понятно что использует положение об экспериментах в законе об Олимпийских играх во Франции [2]
- Devin, the first AI software engineer [3] AI помощник для программистов от Cognition. Ключевая фишка - он лучше умеет самостоятельно решать Github Issues, успешно около 13.86%. Не учитесь дети на программистов, скоро они останутся без работы! Шутка, а не шутка то что джуниорам придётся нелегко.
- Grok от X.AI (Элон Маск) в открытом коде [4] пока оставлю без комментариев, пусть его потестят и расскажут те кто тестят GPT-подобные модели на регулярной основе
- Croissant: a metadata format for ML-ready datasets [5] стандарт метаданных для ML датасетов. Теперь поддерживается основными платформами Kaggle, HuggingFace и OpenML. Google обещают поддерживать его в Google Dataset Search. Подробнее в спецификации тут [6]


Ссылки:
[1] https://www.lemonde.fr/en/pixels/article/2024/03/03/paris-olympics-2024-testing-on-algorithmic-video-surveillance-of-the-games-begins_6580505_13.html
[2] https://www.lemonde.fr/en/sports/article/2023/04/13/paris-2024-french-parliament-approves-the-olympic-bill-and-its-video-surveillance-flagship-project_6022755_9.html
[3] https://twitter.com/cognition_labs/status/1767548763134964000
[4] https://github.com/xai-org/grok-1
[5] https://blog.research.google/2024/03/croissant-metadata-format-for-ml-ready.html
[6] https://mlcommons.org/working-groups/data/croissant/

#data #datatools #privacy #ml #opendata #ai
March 18, 2024
Отвлекаясь немного от темы данных и технологий.

В Испании Верховный суд постановил временно заблокировать Телеграм после жалобы группы "копирастов" из ведущих медиа компаний: Mediaset, Atresmedia, Movistar и Egeda на то что в Телеграм'е пиратят и не удаляют спираченный у них контент [1].

Не менее важна причина решения суда, главный аргумент в "недостаточной кооперации" со стороны руководства Телеграма, непонятно ли кооперация с кем, с властями страны или с владельцами контента.

В любом случае, блокировкой Телеграма, Испания присоединилась к клубу стран состоящему из Кубы, Ирана, Пакистана и Таиланда.

Что тут скажешь, пора испанцам перенимать иранский опыт по обходу блокировок соцсетей.

Ссылки:
[1] https://www.euronews.com/next/2024/03/23/spains-high-court-orders-block-on-telegram-messaging-app-as-a-precautionary-measure

#privacy #piracy #telegram
March 23, 2024
April 18, 2024
В рубрике полезного чтения:
- Science in the age of AI [1] доклад британского королевского общества о трансформации и вызовах перед наукой в контексте AI. Много примеров и полезное чтение. Для тех кто давно изучает эту тему ничего нового, но авторитетный источник старого.
- Exploring the Impact of ChatGPT on Wikipedia Engagement [2] препринт статьи о влиянии ChatGPT на вовлечение в Википедию. Выводы пока что не влияет, но полезно почитать о том как измеряют.
- Vulnerabilities across keyboard apps reveal keystrokes to network eavesdroppers [3] большой лонгрид от CitizenLab о том как они анализировали перехват набираемых текстов в приложениях клавиатур, для Android и IoS, с акцентом на китайских вендоров и китайский язык. Детальное, хорошо проработанное техническое расследование
- The Simple Macroeconomics of AI [4] работа по влиянию ИИ на макроэкономику. Текст полезный всем кто считает AI impact в конкретных отраслях. Я его ещё не дочитал, но отложил до ближайшего свободного времени.
- A New National Purpose: Harnessing Data for Health [5] доклад института Тони Блэра про создание National Data Trust по управлению данными в сфере здравоохранения в Великобритании. Открытые данные не упоминается и предполагается научное примененеи и коммерциализация в среднесрочной перспективе и то что данные могут быть персональными. Если говорить про экономику данных настоящую, то это вот так, и очень непросто в реализации.


Ссылки:
[1] https://royalsociety.org/news-resources/projects/science-in-the-age-of-ai/
[2] https://www.arxiv.org/abs/2405.10205
[3] https://citizenlab.ca/2024/04/vulnerabilities-across-keyboard-apps-reveal-keystrokes-to-network-eavesdroppers/
[4] https://www.nber.org/papers/w32487
[5] https://www.institute.global/insights/politics-and-governance/a-new-national-purpose-harnessing-data-for-health

#readings #ai #data #privacy
June 1, 2024
Удивительное дело насколько все не даёт покоя идея социального рейтинга/антирейтинга и в мире пытаются так или иначе сделать скоринговые системы массовыми. Например, во Франции тестируют рейтинг подозрительности в отношении безработных желающих получить пособия. В статье это называют одним из шагов к дегуманизации общества.

Другой пример с тем что выяснилось что алгоритм проверки заявок на выплату жилищных пособий в Великобритании оказался ошибочным и выдавал 2/3 ложных срабатываний. А это не просто много, это делало его работу, фактически, бесполезной. Сейчас журналисты задаются вопросом зачем же его применяли и то во сколько встало казне его ручная проверка.

До этого в Великобритании уже были сложности с применением алгоритмов по автоматической оценке кредитополучателей , опять же алгоритмом применяемом одним из правительственных департаментов. Тогда алгоритм проверки с помощью ИИ просто отключили.

#privacy #scoring #uk #france #ai
July 6, 2024
July 25, 2024
У Михаила Емельяниникова в блоге публикация Уполномоченные операторы обработают персональные данные для вас и за вас? Точно?
о новой инициативе российских депутатов по формированию перечня уполномоченных операторов персональных данных которые умеют защищеннее/лучше/больше/быстрее обрабатывать персональные данные среднего и малого бизнеса.

Статья полезная могу порекомендовать её почитать и кое что добавить. Наделение специальных организаций полномочиями операторов персональных данных в мире есть и даже есть такое понятие как Data Custodians. Например, оно есть в Австралии и называется Data scheme.

Казалось бы лучшие практики? Но, в чём разница между российскими и австралийскими практиками. В том что в Австралии эти Data Custodians уполномочены на работу с персональными данными которыми трам-парам-парам владеет Правительство Австралии. А то есть, это те операторы которым Правительство страны доверяет и даёт им доступ и через них доступ к данным внутри государственных информационных систем.

В РФ всё это имеет нюанс, в том что депутаты обсуждают не доступ к госданным, а операторов для работы с данными бизнеса.

Чувствуете разницу?

В первом случае - это защищённый доступ бизнеса к госданным, во втором случае это дополнительное обременение на средний и малый бизнес.

Второй немаловажный нюанс этого регулирования - это попытка крупных владельцев персональных данных уйти от требований сдачи всех данных в государственную информационную систему. Это уже не столько про выгоду для цифровых олигополий, хотя и она есть, сколько про их попытку защитить собственные данные. Можно относится к инициативе как к одной из попыток "защитного GR" от наиболее худших последствий сдачи данных государству для "обезличивания".

#privacy #russia #regulation
August 12, 2024
September 3, 2024
September 20, 2024
Прекрасное чтение Watching the Watchdogs: Tracking SEC Inquiries using Geolocation Data [1] в виде научной статьи, но я перескажу простыми словами.

Если вкратце, то группа исследователей:
1) Нашли поставщика данных у которого они закупили данные по всем телефонам с которыми ходили люди в офисе комиссии по ценным бумагам в США (SEC) по своим офисам
2) Идентифицировали сотрудников из общего числа устройств,
3) Сопоставили множество геоданных, вплоть до шейпфайлов штабквартир публичных компаний
4) Определили когда сотрудники SEC приходили в эти офисы
5) Разобрали как SEC проверяет публичные компании и когда эта информация публична
6) Сопоставили проверки с изменениями стоимости ценных бумаг

И вуаля, так и хочется сказать, почему эти гении люди обо всём этом написали научную статью, вместо того чтобы существенно обогатится на полученных данных!

Многое бы бизнес во многих странах отдал бы за отслеживание того куда ходят налоговики, силовики, представители горных национальных республик и ещё много чего.

А статью рекомендую, жаль лишь что они источник данных не указывают.

Ссылки:
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4941708

#dataanalysis #research #privacy #geodata
September 22, 2024
October 16, 2024
Полезное чтение про данные, технологии и не только:
- The Death of Search [1] полезная статья о том как ИИ убивает поиск и что мы потеряем в процессе. Я бы переименовал её в The Death of Google потому что главная поисковая монополия пострадает более других. Но ещё не время пессимистичных прогнозов
- The Emergent Landscape of Data Commons: A Brief Survey and Comparison of Existing Initiatives [2] статья о инициативах публикации данных как общественного блага. Тема актуальная и про частные инициативы, и про государственные и про технологические НКО. Довольно близко к инициативам по общественной цифровой инфраструктуре (Digital Public Infrastructure, DPI)
- Congress should designate an entity to oversee data security, GAO says [3] в США Счетная палата (GAO) рекомендовала Конгрессу выбрать федеральное агентство и дать ему полномочия по защите данных. Сейчас такого агентства нет и это создаёт дополнительные риски, о чём GAO и пишут в своём докладе [4]
- OECD Digital Economy Outlook 2024 (Volume 2) [5] свежий доклад ОЭСР по цифровой экономике. Про данные мало, про многое другое много. Явные акценты на особенностях медиапотребления и на цифровой безопасности.
- How to evaluate statistical claims [6] хороший лонгрид о том как читать статистику

Ссылки:
[1] https://archive.is/ZSzAP
[2] https://medium.com/data-stewards-network/the-emergent-landscape-of-data-commons-a-brief-survey-and-comparison-of-existing-initiatives-abab7bbc4fe1
[3] https://fedscoop.com/congress-data-security-civil-rights-liberties-gao-report/
[4] https://www.gao.gov/assets/gao-25-106057.pdf
[5] https://www.oecd.org/en/publications/oecd-digital-economy-outlook-2024-volume-2_3adf705b-en.html
[6] https://seantrott.substack.com/p/how-to-evaluate-statistical-claims

#data #ai #privacy #statistics #readings
November 24, 2024
В Буэнос-Айресе в Аргентине судьи начали применять ИИ для подготовки судебных решений [1]. Специальная система PROMETEA обучена на на более чем 300 тысячах правилах и документах и за 20 секунд принимает решения с 90% точностью. При этом ни одно решение не принимается автоматически, каждое является черновиком который вычитывается юристом и только после его одобрения становится финальным решением.

Особенность в том что система применяется не для всех, а для многочисленные налоговых и административных разбирательств, которые, в основном, довольно стандартизируемы или предсказуемы. ИИ система является помощником судей, а не их заменителем.

И это поднимает вопрос о том к чему может привести и, с высокой вероятностью, приведет при внедрении ИИ в судебный процесс. Это массовые сокращения вспомогательного персонала в судах и изменение самого принципа работы судов. Хорошо это или плохо? Пока говорить рано.

А подробнее про систему PROMETEA можно прочитать в официальном отчете [2].

Ссылки:
[1] https://restofworld.org/2024/buenos-aires-courts-adopt-chatgpt-draft-rulings/
[2] https://mpfciudad.gob.ar//storage/archivos/9c8074a610f82c7ff0b47bbb1a2abee9.pdf

#ai #courts #argentina #privacy
November 30, 2024
В российском Форбс статья [1] о том что гос-во в лице Минцифры запланировало сбор "обезличенных геотреков" со всех сотовых операторов обо всех россиянах. В статье мой комментарий тоже есть, а я добавлю тезисов тут:
1. Надо понимать что государство ключевой маркетмейкер всего что касается закупки данных, сервисов и геоаналитики. Разговоры про сбор данных в госозеро - это де-факто национализация данных, отъём их от участников рынка и предоставление госсервисов на их основе. Госсервисов которые будут монопольны и поубивают частные потому что ни у одного сотового оператора такой базы не будет. Закончится это тем что государство, либо создаст отдельный бизнес юнит для торговли такими сервисами, или делегирует одному из имеющихся госАО, госГБУ, госАНО и тд. Как бы ни был "тяжёл" частный рынок, монополия будет хуже. Акции всех сотовых операторов и будущие доходы тоже просядут.
2. Что бы там не говорили про обезличивание по геотрекам очень просто восстановить информацию о конкретном человеке. Объектами слежки, чтобы кто там ни думал, будут не рядовые граждане, а сами же чиновники. Ничто не помешает приходящим в РФ к власти "консервативным силам" вычислить всех министров, замминистров, директоров департаментов нетрадиционной ориентации и ловить их во время очередного рейда по ночным клубам. Это и сейчас не так сложно, получая данные от сотовых операторов, но с геотреками будет ещё больше.

Я бы тут ещё много тезисов добавил, но не могу, сбоит внутренний переводчик с простого русского просторечного на русский публицистический. Но, в общем, все меня поняли;)

Ссылки:
[1] https://www.forbes.ru/tekhnologii/527832-mesta-znat-nado-gosudarstvo-hocet-sobirat-mobil-nye-geodannye-rossian-u-operatorov

#regulation #russia #privacy
December 25, 2024
December 27, 2024
28 января будет проходить Privacy Day 2025 интересный для всех кто интересуется приватностью, персональными данными и балансе частной жизни и общественного интереса.

Среди организаторов наши друзья из CyberHub Армения с рассказом про инфобез для НКО в контексте Армении, но актуальный для всех.

А также многие другие участники из постсоветских стран, России, международных организаций, практики, специалисты и тд.

Я также приму участие в одной из дискуссий.

#events #privacy
January 23
January 31