Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.73K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Статья в The Verge [1] о человеке в Чикаго по которому алгоритм выдал что он может оказаться по любую из сторону при стрельбе. Может быть жертвой или может использовать оружение сам. К нему пришли полицейские и соц работники в рамках профилактических мер, но интереснее всего то что алгоритмы предсказания преступлений применяются всё чаще и приводят к ситуациям вроде этой.

Кстати, не стоит думать что до России этот тренд не дойдёт. Скоринг граждан по социальным рискам (неизвестный самому гражданину) можно сказать неизбежен. Предиктивные системы для правоохранительных систем, также, довольно активно будут внедряться. С одной стороны это естественное развитие правоохранительной системы, а с другой всё зависит от вектора развития полиции.

Ссылки:
[1] https://www.theverge.com/22444020/chicago-pd-predictive-policing-heat-list

#opendata #predictive #policing
Когда открытых данных недостаточно (с) Исследователи проверили 25 научных статей отмеченных как публикуемые с открытыми данными обнаружили что только для 9 статей можно воспроизвести результаты без помощи авторов. Об этом в их статье Analytic reproducibility in articles receiving open data badges at the journal Psychological Science: an observational study [1].

Ссылки:
[1] https://royalsocietypublishing.org/doi/10.1098/rsos.201494

#opendata #openaccess
Напомню что сегодня вечером в 19:00 дебаты об использовании персональных данных. Моим оппонентом будет Михаил Степнов из Сбера.
Не буду сейчас рассказывать подробнее о том какие тезисы и аргументы буду приводить, скажу лишь что тема персональных данных, их использования, защиты прав граждан и интересов бизнеса - это всё сейчас очень острая тема. И о ней есть о чём поговорить.
Forwarded from Ivan Begtin (Ivan Begtin)
28 мая в 19:00 пройдут публичные дебаты "Тотальные данные: контроль или удобство" организованные Политехом [1]. Дебатировать буду я и исполнительный директор по исследованию данных Sber AI Михаил Степнов.

Мою позицию про приватность большинство давно знают, я её в каком-то более концентрированном виде подготовлю к дебатам.
Дебаты будут, также, транслировать на канале Политеха [2]. Не проходите мимо, приходите и смотрите.

Ссылки:
[1] https://polymus.ru/ru/museum/news/total-data/
[2] https://www.youtube.com/user/polytechnicum

#data #privacy #debates
Я не сильно люблю писать по теме информационной безопасности, но похоже что вся эта отрасль теперь стремительно политизируется (также как и ИТ). Это касается и недавних новостей НКЦКИ и Ростелеком-Солар об обнаружении "зловредов" в сетях органов власти в РФ [1] и совсем свежей новости с обвинением русских хакеров во взломе USAID и связанных с USAID организациями [2].

К сожалению, что в США, что в России сейчас всё идёт по пути поиска "внешнего врага" и, будем уж честными, активная "продажа угроз" взлома сетей, утечки данных и так далее и характерно что всё это началось как в период начала формирования бюджета на следующий год.

Проблема в том что, конечно, все публичные расследования политического толка важно делить в 2-3 раза. Потому что это та среда где на публику выносят только то в чём:
- или феерически облажались так что совсем не скрыть
- или то что собираются продавать как внешнюю угрозу

Ключевой вопрос - что нам продают? И насколько продаваемое близко к реальным проблемам, которые, безусловно есть и о которых на пресс-конференциях не говорят или, что ещё хуже, просто даже не знают.

Ссылки:
[1] https://safe-surf.ru/upload/%D0%BE%D1%82%D1%87%D0%B5%D1%82%20%D0%9D%D0%9A%D0%A6%D0%9A%D0%98%20%D0%B8%20%D0%A0%D0%BE%D1%81%D1%82%D0%B5%D0%BB%D0%B5%D0%BA%D0%BE%D0%BC-%D0%A1%D0%BE%D0%BB%D0%B0%D1%80_%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B9.pdf
[2] https://www.nytimes.com/2021/05/28/us/politics/russia-hack-usaid.html

#privacy #security
Legal.Report пишут подробности о причинах ареста [1] бывшего начальника управления информационных технологий Росреестра Александра Бибикова и соучредителей IT-компании «Юнидата» Антона Евгеньева и Сергея Кузнецова.

У Юнидата, одних из немногих, есть репутация на рынке, так что событие весьма неприятное.

И, конечно, оно про то что "правила игры" на рынке ИТ интеграции были и остаются такими что посадить можно руководителей почти всех ИТ интеграторов, главное чтобы был свидетель с показаниями. Это, конечно, моё личное оценочное суждение (с)

Ссылки:
[1] https://legal.report/eks-glava-upravleniya-rosreestra-arestovan-po-delu-o-hishheniyah-pri-cifrovizacii-egrn/

#legal #data
Подборка полезных инструментов для тех кто работает с данными:
- NocoDB [1] - open source альтернатива Airtable. Превращает SQL базы данных в интерактивные таблицы, с возможностью совместного редактирования и другими функциями Airtable
- pyWhat [2] - утилита распознавания файлов и непонятных идентификаторов. Включает множество регулярных выражений и расшифровки данных. Создавалась для анализа разного рода "зловредов" и заточена под поиск идентификаторов в этом контексте.
- Immudb [3] - open source реализация криптографически защищённой СУБД с хранением всех предыдущих версий записи без возможности правки данных.
- Awesome privacy list [4] большая подборка инструментов ставящих приоритет на приватность. Поисковые системы, браузеры, социальные сети и, в том числе, приватные инструменты работы с неприватными сервисами. Большой и полезный список
- Profil3r [5] - инструмент OSINT проверки аккаунтов пользователя во множестве соцсетей и сервисов и, заодно, проверки в утечках данных
- Snoop [6] - ещё один инструмент OSINT проверки аккаунтов, но на русском языке и со многими российскими сервисами

Ссылки:
[1] https://www.nocodb.com
[2] https://github.com/bee-san/pyWhat
[3] https://github.com/codenotary/immudb
[4] https://github.com/pluja/awesome-privacy
[5] https://github.com/Rog3rSm1th/Profil3r
[6] https://github.com/snooppr/snoop

#opendata #opensource #tools #data
Forwarded from Инфокультура
Началась ежегодная конференция дата-журналистов LAMPA 2021 (https://lampa2021.tilda.ws). Подключиться к эфиру можно по ссылкам:

— Прямая трансляция на фейсбуке:

http://bit.ly/lampa2021_fb

— Прямая трансляция в ютубе:

http://bit.ly/lampa2021_yt

— Ссылка на дата-арт в ZOOM

http://bit.ly/lampa2021
О том как не надо продавать продукты приведу на примере очень удобного инструмента Writemapper [1]. Это такой редактор текстов через майндмапы (ещё их называют - интеллект карты/карты разума). Когда ты вначале структурируешь текст блоками и потом уже по этим блокам пишешь. Для тех случаев когда пишешь тексты в заданной структуре или имеешь привычку писать тексты сверху-вниз, от структуры к содержанию - это очень удобно.

Я им часто пользуюсь, у меня много документов так написаны. У инструмента удобный минималистичный интерфейс, скриншоты которого можно увидеть на примерах того с чем я работал/работаю.

Особенность продукта была ещё и в том что автор при анонсе продукта продавал пожизненные лицензии [2]. Покупай единожды и получай бесплатные обновления. Но выпустив 3-ю версию сделал так что "пожизненные лицензии" на предыдущие версии на эту, 3-ю версию не распространяются. За что его ранние пользователи уже критикуют [3], а автор отвечает всем в худшем корпоративном стиле "я вас услышал".

При этом 3-я версия не настолько отличается от 2-й версии чтобы их разделение было очевидно и опций апгрейда предусмотрено совершено не было. С одной стороны стоимость приложения не запредельна - $60 за двойную лицензию (4400 рублей), а с другой стороны это много за не-универсальный инструмент. Отдельно приложения для редактирования текстов стоят редко более $15 (пример, Write!), а более универсальный Xmind стоит те же $60, но даёт больше гибкости с майндмапами, но не умеет работать с текстами.

Впрочем вопрос тут не цены, а именно реакции разработчика. Увы, уверенности в будущем продукта она не доставляет.

А вот сама идея и концепция документа от майндмэпа очень хорошо и могла бы транслироваться на организационные модели совместного написания книг и текстов.

Ссылки:
[1] http://writemapper.com
[2] https://www.producthunt.com/posts/writemapper
[3] https://www.producthunt.com/posts/writemapper-3

#products #writing #texts #writingtools
Примеры подготовки документов с помощью WriteMapper. Интерфейс неидеален, но альтернатив ему немного
В рубрике интересные наборы данных есть два набора данных фотографий школьных туалетов из конкурса Domestos. До того как они провели модерацию и после. В первом случае 571 объект с фотографиями на 367 мегабайт, во втором случае 150 объектов с фотографиями на 170 мегабайт.

Лёгкая внутренняя самоцензура не позволяет его куда-либо выкладывать, ибо оно неаппетитно. Но если кому-либо в журналистских целях необходимо - пишите.
Месяц назад я принял для себя решение вернуться к активной деятельности по работе с данными в общественных и коммерческих проектах далёких от вопросов государственного аудита и надзора и поэтому покинуть команду Счетной палаты РФ.

Сегодня мой последний день работы в должности зам. руководителя ФКУ ЦЭАИТ (подвед СП РФ) и руководителя проекта Госрасходы (spending.gov.ru).

В качестве руководителя проекта Госрасходы остаётся моя коллега Ольга Пархимович (автор канала @ahminfin), она опытный специалист по работе с данными и много лет организовывала разработку и развитие проекта.
Спасибо всем с к кем довелось поработать за эти годы и хочу пожелать команде СП РФ дальшейшей плодотворной
работы.

Заранее отвечая на вопрос куда я ухожу и чем буду заниматься, я пока не отвечу, лишь намекну что в работе два исследования в Информационная культура и не только по открытости.

Кроме того у меня много задач по Ассоциация участников рынка данных, деятельность которой будет активно восстановлена в этом году. Мы слегка просели за 2020 год, но в этом году АУРДа будет больше и лучше;)
А также один очень большой проект на открытых данных и об открытых данных который будет доступен этим летом. Но о котором пока ни слова))

Раньше я регулярно шутил про то что мне в голове постоянно приходится совмещать три мнения: общественное, коммерческое и государственое. Теперь станет попроще, государственного станет поменьше, а значит и больше возможностей говорить о том что думаешь и делаешь.
Дайджест ссылок про данные и технологии:
- JupyterLite [1] - облегчённая версия Jupyter Notebook для тех кому это нужно
- Drunk Post: Things I've learned as a Sr Engineer [1] - яркий "пьяный" пост от опытного инженера с сотнями комментариев
- PolarDB [3] - расширение/надстройка для маштабирования PostgreSQL с набором важных возможностей, открытый код от Alibaba
- 3D карта вселенной на новом суперкомпьютере [4] в блоге NVIDIA о новом суперкомпьютере Perlmutter [5] обсчитывающем 3D модель вселенной. На базе последних 6,159 NVIDIA A100 Tensor Core GPUs.

Ссылки:
[1] https://github.com/jtpio/jupyterlite
[2] https://old.reddit.com/r/ExperiencedDevs/comments/nmodyl/drunk_post_things_ive_learned_as_a_sr_engineer/
[3] https://github.com/alibaba/PolarDB-for-PostgreSQL
[4] https://blogs.nvidia.com/blog/2021/05/27/nersc-perlmutter-ai-supercomputer/
[5] https://www.nersc.gov/systems/perlmutter/

#opensource #data #tech
Яндекс недавно анонсировали о том что теперь данные пользователей можно удалять безвозвратно по их запросу [1]. Хотя и с оговоркой что Бóльшая часть данных стирается с серверов в течение суток. Некоторые данные по закону нужно хранить определённое время — их Яндекс перестаёт обрабатывать сразу после поступления запроса и удаляет, как только истечёт установленный срок. Данные, которые являются частью сервиса, например правки и панорамы в Картах, нельзя удалить полностью. Они обезличиваются — Яндекс стирает информацию о том, кто их добавил.

От этих оговорок возникает много вопросов.
1. А те данные что будут стёрты не сразу - это какие?
2. А те данные что надо хранить по закону - это какие?
3. Что значит обезличивание в понимание Яндекса? Какая защита от повторной идентификации предусмотрена?
4. Удаляются ли все те данные о сборе которых пользователь может и не знать ? Например о посещении страниц которые записываются кодом Яндекс метрики или кодом AppMetrica для мобильных приложений

Иначе говоря сейчас Яндекс даёт возможность удалить о себе только те данные которые относятся к некоторым потребительским сервисам, но про удаление данных накапливаемыми Яндексом как владельцем крупнейшей рекламной платформы ничего нет.


Ссылки:
[1] https://yandex.ru/company/press_releases/2021/2021-06-01
[2] https://yandex.ru/support/passport/security/soc-2.html

#privacy
Оказывается команда исследователей-волонтеров сделали любопытный некоммерческий проект Citysense [1] с оценкой качества жизни по 14 российским городам: Владивосток, Воронеж, Екатеринбург, Иркутск, Казань, Краснодар, Красноярск, Махачкала, Нижний Новгород, Новосибирск, Пермь, Томск, Тюмень, Хабаровск

Оценка там по множеству показателей, а в основе методики взята методика Евростата и данные можно скачать [2].
Результаты интереснее, жаль нет рейтинга и так и непонятно где лучше жить и не хватает Москвы и Санкт-Петербурга, но у них, можно сказать, особый статус субъектов федерации. Наверняка их просто непросто сравнивать с остальными.

Подробнее о проекте пишет его основатель Мария Бобринская [3].

Я готов биться об заклад что всё это вышло куда дешевле чем анонсируемая система измерения качества жизни в городах которую собирается строить ВЭБ.РФ [4] и будет анонсировать на ПМЭФе. Кстати, очень интересно во сколько ВЭБовская система выйдет по стоимости и сравнить;)

А я скажу что много лет думаю про агрегатор муниципальных данных и немало их уже собрано, но дело это совершенно неблагодарное. Хороших государственных баз мало, ручной работы много. Хорошо что есть те кто готов тратить на это время, силы и ресурсы.

А что Вы считаете лучшими индикаторами измерения качества жизни в России? Какие критерии были бы самыми значимыми? Рейтинг из каких критериев и показателей по городам и территориям был бы интересен?

Ссылки:
[1] https://citysense.info/
[2] https://citysense.info/data
[3] https://www.facebook.com/maria.bobrinskaya/posts/10220282624684028
[4] https://www.vedomosti.ru/opinion/articles/2021/05/24/870939-vebrf-izmerit

#opendata #data #cities
Качество жизни в городах и территориях. Что с этим делать?
anonymous poll

Бессмысленно в России измерять качество жизни потому что жизнь всё хуже! – 29
👍👍👍👍👍👍👍 30%

Нет пока нормальных рейтингов потому что данных хороших нет – 26
👍👍👍👍👍👍 27%

Смотрим Citysense, выглядит интересно – 16
👍👍👍👍 16%

Я просто хочу посмотреть результаты голосования – 11
👍👍👍 11%

Подождём рейтинг ВЭБ.РФ, будем за ним следить – 8
👍👍 8%

Надо посмотреть какие ещё рейтинги есть – 8
👍👍 8%

👥 98 people voted so far.
О культуре ведения официальных сайтов в России в примерах. В русскоязычной версии сайта Минстроя министр Файзуллин, а в англоязычной как был так и остаётся Михаил Мень. Каждый может убедиться в этом пройдя по ссылке https://minstroyrf.gov.ru/en/about/#masters или поискав в Google: "Mikhail Men site:minstroyrf.gov.ru"

С одной стороны я лично рад за Михаила Александровича и Минстрой, а с другой стороны, работы пресс-службы Минстроя РФ, как бы помягче, не на высоте. Может потому и ссылки на англоязычную версию сайта с других страниц стыдливо спрятали? Спрятать спрятали, а за собой не прибрали

#official #websites #government
В рубрике интересные наборы данных база встреч членов кабинета министров Великобритании с лоббистами и иными персонами. Базу ведёт и публикует Transparency Int UK [1] и в ней более 70 тысяч встреч, в том числе, связанных с Россией, российскими компаниями, политиками и так далее. Похожие базы есть в Евросоюзе [2], Латвии [3], Чили [4] и ещё десятке стран. Но если смотреть на это в российском контексте то интересны, в первую очередь, данные по европейским странам где в основном и активны российские бизнес интересы.

Все данные открыты, свободны для коммерческого и некоммерческого использования (лицензия ODbL).

И, не отвлекаясь от темы лоббирования и политических связей, проект LittleSis [5] с базой связей политиков в США. Главная его особенность и возможность - это ведение личных списков, добавление данных и вообще и в принципе модель связанности политиков, лоббистов, и других PEP-сов.

Правда с российским трендом на ужесточение использования общедоступной информации и закрытие информации о лицах принимающих решение с каждым годом появление такого проекта будет всё более маловероятно.

Ссылки:
[1] https://openaccess.transparency.org.uk/
[2] https://www.integritywatch.eu/
[3] https://manoseimas.lt/
[4] https://integritywatch.cl/
[5] https://littlesis.org/

#privacy #peps #lobbyying #opendata #datasets