Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.73K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Forwarded from Ivan Begtin (Ivan Begtin)
28 мая в 19:00 пройдут публичные дебаты "Тотальные данные: контроль или удобство" организованные Политехом [1]. Дебатировать буду я и исполнительный директор по исследованию данных Sber AI Михаил Степнов.

Мою позицию про приватность большинство давно знают, я её в каком-то более концентрированном виде подготовлю к дебатам.
Дебаты будут, также, транслировать на канале Политеха [2]. Не проходите мимо, приходите и смотрите.

Ссылки:
[1] https://polymus.ru/ru/museum/news/total-data/
[2] https://www.youtube.com/user/polytechnicum

#data #privacy #debates
Я не сильно люблю писать по теме информационной безопасности, но похоже что вся эта отрасль теперь стремительно политизируется (также как и ИТ). Это касается и недавних новостей НКЦКИ и Ростелеком-Солар об обнаружении "зловредов" в сетях органов власти в РФ [1] и совсем свежей новости с обвинением русских хакеров во взломе USAID и связанных с USAID организациями [2].

К сожалению, что в США, что в России сейчас всё идёт по пути поиска "внешнего врага" и, будем уж честными, активная "продажа угроз" взлома сетей, утечки данных и так далее и характерно что всё это началось как в период начала формирования бюджета на следующий год.

Проблема в том что, конечно, все публичные расследования политического толка важно делить в 2-3 раза. Потому что это та среда где на публику выносят только то в чём:
- или феерически облажались так что совсем не скрыть
- или то что собираются продавать как внешнюю угрозу

Ключевой вопрос - что нам продают? И насколько продаваемое близко к реальным проблемам, которые, безусловно есть и о которых на пресс-конференциях не говорят или, что ещё хуже, просто даже не знают.

Ссылки:
[1] https://safe-surf.ru/upload/%D0%BE%D1%82%D1%87%D0%B5%D1%82%20%D0%9D%D0%9A%D0%A6%D0%9A%D0%98%20%D0%B8%20%D0%A0%D0%BE%D1%81%D1%82%D0%B5%D0%BB%D0%B5%D0%BA%D0%BE%D0%BC-%D0%A1%D0%BE%D0%BB%D0%B0%D1%80_%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B9.pdf
[2] https://www.nytimes.com/2021/05/28/us/politics/russia-hack-usaid.html

#privacy #security
Legal.Report пишут подробности о причинах ареста [1] бывшего начальника управления информационных технологий Росреестра Александра Бибикова и соучредителей IT-компании «Юнидата» Антона Евгеньева и Сергея Кузнецова.

У Юнидата, одних из немногих, есть репутация на рынке, так что событие весьма неприятное.

И, конечно, оно про то что "правила игры" на рынке ИТ интеграции были и остаются такими что посадить можно руководителей почти всех ИТ интеграторов, главное чтобы был свидетель с показаниями. Это, конечно, моё личное оценочное суждение (с)

Ссылки:
[1] https://legal.report/eks-glava-upravleniya-rosreestra-arestovan-po-delu-o-hishheniyah-pri-cifrovizacii-egrn/

#legal #data
Подборка полезных инструментов для тех кто работает с данными:
- NocoDB [1] - open source альтернатива Airtable. Превращает SQL базы данных в интерактивные таблицы, с возможностью совместного редактирования и другими функциями Airtable
- pyWhat [2] - утилита распознавания файлов и непонятных идентификаторов. Включает множество регулярных выражений и расшифровки данных. Создавалась для анализа разного рода "зловредов" и заточена под поиск идентификаторов в этом контексте.
- Immudb [3] - open source реализация криптографически защищённой СУБД с хранением всех предыдущих версий записи без возможности правки данных.
- Awesome privacy list [4] большая подборка инструментов ставящих приоритет на приватность. Поисковые системы, браузеры, социальные сети и, в том числе, приватные инструменты работы с неприватными сервисами. Большой и полезный список
- Profil3r [5] - инструмент OSINT проверки аккаунтов пользователя во множестве соцсетей и сервисов и, заодно, проверки в утечках данных
- Snoop [6] - ещё один инструмент OSINT проверки аккаунтов, но на русском языке и со многими российскими сервисами

Ссылки:
[1] https://www.nocodb.com
[2] https://github.com/bee-san/pyWhat
[3] https://github.com/codenotary/immudb
[4] https://github.com/pluja/awesome-privacy
[5] https://github.com/Rog3rSm1th/Profil3r
[6] https://github.com/snooppr/snoop

#opendata #opensource #tools #data
Forwarded from Инфокультура
Началась ежегодная конференция дата-журналистов LAMPA 2021 (https://lampa2021.tilda.ws). Подключиться к эфиру можно по ссылкам:

— Прямая трансляция на фейсбуке:

http://bit.ly/lampa2021_fb

— Прямая трансляция в ютубе:

http://bit.ly/lampa2021_yt

— Ссылка на дата-арт в ZOOM

http://bit.ly/lampa2021
О том как не надо продавать продукты приведу на примере очень удобного инструмента Writemapper [1]. Это такой редактор текстов через майндмапы (ещё их называют - интеллект карты/карты разума). Когда ты вначале структурируешь текст блоками и потом уже по этим блокам пишешь. Для тех случаев когда пишешь тексты в заданной структуре или имеешь привычку писать тексты сверху-вниз, от структуры к содержанию - это очень удобно.

Я им часто пользуюсь, у меня много документов так написаны. У инструмента удобный минималистичный интерфейс, скриншоты которого можно увидеть на примерах того с чем я работал/работаю.

Особенность продукта была ещё и в том что автор при анонсе продукта продавал пожизненные лицензии [2]. Покупай единожды и получай бесплатные обновления. Но выпустив 3-ю версию сделал так что "пожизненные лицензии" на предыдущие версии на эту, 3-ю версию не распространяются. За что его ранние пользователи уже критикуют [3], а автор отвечает всем в худшем корпоративном стиле "я вас услышал".

При этом 3-я версия не настолько отличается от 2-й версии чтобы их разделение было очевидно и опций апгрейда предусмотрено совершено не было. С одной стороны стоимость приложения не запредельна - $60 за двойную лицензию (4400 рублей), а с другой стороны это много за не-универсальный инструмент. Отдельно приложения для редактирования текстов стоят редко более $15 (пример, Write!), а более универсальный Xmind стоит те же $60, но даёт больше гибкости с майндмапами, но не умеет работать с текстами.

Впрочем вопрос тут не цены, а именно реакции разработчика. Увы, уверенности в будущем продукта она не доставляет.

А вот сама идея и концепция документа от майндмэпа очень хорошо и могла бы транслироваться на организационные модели совместного написания книг и текстов.

Ссылки:
[1] http://writemapper.com
[2] https://www.producthunt.com/posts/writemapper
[3] https://www.producthunt.com/posts/writemapper-3

#products #writing #texts #writingtools
Примеры подготовки документов с помощью WriteMapper. Интерфейс неидеален, но альтернатив ему немного
В рубрике интересные наборы данных есть два набора данных фотографий школьных туалетов из конкурса Domestos. До того как они провели модерацию и после. В первом случае 571 объект с фотографиями на 367 мегабайт, во втором случае 150 объектов с фотографиями на 170 мегабайт.

Лёгкая внутренняя самоцензура не позволяет его куда-либо выкладывать, ибо оно неаппетитно. Но если кому-либо в журналистских целях необходимо - пишите.
Месяц назад я принял для себя решение вернуться к активной деятельности по работе с данными в общественных и коммерческих проектах далёких от вопросов государственного аудита и надзора и поэтому покинуть команду Счетной палаты РФ.

Сегодня мой последний день работы в должности зам. руководителя ФКУ ЦЭАИТ (подвед СП РФ) и руководителя проекта Госрасходы (spending.gov.ru).

В качестве руководителя проекта Госрасходы остаётся моя коллега Ольга Пархимович (автор канала @ahminfin), она опытный специалист по работе с данными и много лет организовывала разработку и развитие проекта.
Спасибо всем с к кем довелось поработать за эти годы и хочу пожелать команде СП РФ дальшейшей плодотворной
работы.

Заранее отвечая на вопрос куда я ухожу и чем буду заниматься, я пока не отвечу, лишь намекну что в работе два исследования в Информационная культура и не только по открытости.

Кроме того у меня много задач по Ассоциация участников рынка данных, деятельность которой будет активно восстановлена в этом году. Мы слегка просели за 2020 год, но в этом году АУРДа будет больше и лучше;)
А также один очень большой проект на открытых данных и об открытых данных который будет доступен этим летом. Но о котором пока ни слова))

Раньше я регулярно шутил про то что мне в голове постоянно приходится совмещать три мнения: общественное, коммерческое и государственое. Теперь станет попроще, государственного станет поменьше, а значит и больше возможностей говорить о том что думаешь и делаешь.
Дайджест ссылок про данные и технологии:
- JupyterLite [1] - облегчённая версия Jupyter Notebook для тех кому это нужно
- Drunk Post: Things I've learned as a Sr Engineer [1] - яркий "пьяный" пост от опытного инженера с сотнями комментариев
- PolarDB [3] - расширение/надстройка для маштабирования PostgreSQL с набором важных возможностей, открытый код от Alibaba
- 3D карта вселенной на новом суперкомпьютере [4] в блоге NVIDIA о новом суперкомпьютере Perlmutter [5] обсчитывающем 3D модель вселенной. На базе последних 6,159 NVIDIA A100 Tensor Core GPUs.

Ссылки:
[1] https://github.com/jtpio/jupyterlite
[2] https://old.reddit.com/r/ExperiencedDevs/comments/nmodyl/drunk_post_things_ive_learned_as_a_sr_engineer/
[3] https://github.com/alibaba/PolarDB-for-PostgreSQL
[4] https://blogs.nvidia.com/blog/2021/05/27/nersc-perlmutter-ai-supercomputer/
[5] https://www.nersc.gov/systems/perlmutter/

#opensource #data #tech
Яндекс недавно анонсировали о том что теперь данные пользователей можно удалять безвозвратно по их запросу [1]. Хотя и с оговоркой что Бóльшая часть данных стирается с серверов в течение суток. Некоторые данные по закону нужно хранить определённое время — их Яндекс перестаёт обрабатывать сразу после поступления запроса и удаляет, как только истечёт установленный срок. Данные, которые являются частью сервиса, например правки и панорамы в Картах, нельзя удалить полностью. Они обезличиваются — Яндекс стирает информацию о том, кто их добавил.

От этих оговорок возникает много вопросов.
1. А те данные что будут стёрты не сразу - это какие?
2. А те данные что надо хранить по закону - это какие?
3. Что значит обезличивание в понимание Яндекса? Какая защита от повторной идентификации предусмотрена?
4. Удаляются ли все те данные о сборе которых пользователь может и не знать ? Например о посещении страниц которые записываются кодом Яндекс метрики или кодом AppMetrica для мобильных приложений

Иначе говоря сейчас Яндекс даёт возможность удалить о себе только те данные которые относятся к некоторым потребительским сервисам, но про удаление данных накапливаемыми Яндексом как владельцем крупнейшей рекламной платформы ничего нет.


Ссылки:
[1] https://yandex.ru/company/press_releases/2021/2021-06-01
[2] https://yandex.ru/support/passport/security/soc-2.html

#privacy
Оказывается команда исследователей-волонтеров сделали любопытный некоммерческий проект Citysense [1] с оценкой качества жизни по 14 российским городам: Владивосток, Воронеж, Екатеринбург, Иркутск, Казань, Краснодар, Красноярск, Махачкала, Нижний Новгород, Новосибирск, Пермь, Томск, Тюмень, Хабаровск

Оценка там по множеству показателей, а в основе методики взята методика Евростата и данные можно скачать [2].
Результаты интереснее, жаль нет рейтинга и так и непонятно где лучше жить и не хватает Москвы и Санкт-Петербурга, но у них, можно сказать, особый статус субъектов федерации. Наверняка их просто непросто сравнивать с остальными.

Подробнее о проекте пишет его основатель Мария Бобринская [3].

Я готов биться об заклад что всё это вышло куда дешевле чем анонсируемая система измерения качества жизни в городах которую собирается строить ВЭБ.РФ [4] и будет анонсировать на ПМЭФе. Кстати, очень интересно во сколько ВЭБовская система выйдет по стоимости и сравнить;)

А я скажу что много лет думаю про агрегатор муниципальных данных и немало их уже собрано, но дело это совершенно неблагодарное. Хороших государственных баз мало, ручной работы много. Хорошо что есть те кто готов тратить на это время, силы и ресурсы.

А что Вы считаете лучшими индикаторами измерения качества жизни в России? Какие критерии были бы самыми значимыми? Рейтинг из каких критериев и показателей по городам и территориям был бы интересен?

Ссылки:
[1] https://citysense.info/
[2] https://citysense.info/data
[3] https://www.facebook.com/maria.bobrinskaya/posts/10220282624684028
[4] https://www.vedomosti.ru/opinion/articles/2021/05/24/870939-vebrf-izmerit

#opendata #data #cities
Качество жизни в городах и территориях. Что с этим делать?
anonymous poll

Бессмысленно в России измерять качество жизни потому что жизнь всё хуже! – 29
👍👍👍👍👍👍👍 30%

Нет пока нормальных рейтингов потому что данных хороших нет – 26
👍👍👍👍👍👍 27%

Смотрим Citysense, выглядит интересно – 16
👍👍👍👍 16%

Я просто хочу посмотреть результаты голосования – 11
👍👍👍 11%

Подождём рейтинг ВЭБ.РФ, будем за ним следить – 8
👍👍 8%

Надо посмотреть какие ещё рейтинги есть – 8
👍👍 8%

👥 98 people voted so far.
О культуре ведения официальных сайтов в России в примерах. В русскоязычной версии сайта Минстроя министр Файзуллин, а в англоязычной как был так и остаётся Михаил Мень. Каждый может убедиться в этом пройдя по ссылке https://minstroyrf.gov.ru/en/about/#masters или поискав в Google: "Mikhail Men site:minstroyrf.gov.ru"

С одной стороны я лично рад за Михаила Александровича и Минстрой, а с другой стороны, работы пресс-службы Минстроя РФ, как бы помягче, не на высоте. Может потому и ссылки на англоязычную версию сайта с других страниц стыдливо спрятали? Спрятать спрятали, а за собой не прибрали

#official #websites #government
В рубрике интересные наборы данных база встреч членов кабинета министров Великобритании с лоббистами и иными персонами. Базу ведёт и публикует Transparency Int UK [1] и в ней более 70 тысяч встреч, в том числе, связанных с Россией, российскими компаниями, политиками и так далее. Похожие базы есть в Евросоюзе [2], Латвии [3], Чили [4] и ещё десятке стран. Но если смотреть на это в российском контексте то интересны, в первую очередь, данные по европейским странам где в основном и активны российские бизнес интересы.

Все данные открыты, свободны для коммерческого и некоммерческого использования (лицензия ODbL).

И, не отвлекаясь от темы лоббирования и политических связей, проект LittleSis [5] с базой связей политиков в США. Главная его особенность и возможность - это ведение личных списков, добавление данных и вообще и в принципе модель связанности политиков, лоббистов, и других PEP-сов.

Правда с российским трендом на ужесточение использования общедоступной информации и закрытие информации о лицах принимающих решение с каждым годом появление такого проекта будет всё более маловероятно.

Ссылки:
[1] https://openaccess.transparency.org.uk/
[2] https://www.integritywatch.eu/
[3] https://manoseimas.lt/
[4] https://integritywatch.cl/
[5] https://littlesis.org/

#privacy #peps #lobbyying #opendata #datasets
Access Info пишут [1] о том что Еврокомиссия планирует отозвать обещание по требованию со стран-членов Евросоюза по раскрытию реестров компаний.

Тема эта давняя, о балансе интересов продавцов этих данных и выгоды для рынка от их доступности. Все стороны правы по своему, но политика последних лет была в сторону открытия этих реестров и логики того что сколько бы не зарабатывали страны на продаже доступа к ним, тем не менее экономический эффект от открытия данных куда выше. А сейчас вышел документ оценки влияния этого регулирования и Access Info его раздобыли [2] и уже подготовили свои комментарии [3].

На Impact Assessment стоит обратить внимание ещё и потому что там не только про данные компаний, но и про High Value Datasets и влияние раскрытия данных на экономику.

Ссылки:
[1] https://www.access-info.org/2021-06-03/open-company-registers-eu-at-risk/
[2] https://www.access-info.org/wp-content/uploads/Deloitte-Study-2020.pdf
[3] https://www.access-info.org/wp-content/uploads/2021-06-03-Commission-Impact-Assessment-AIE-Briefing-Note.pdf

#opendata #eu
ВЭБ.РФ представил свой индекс городов [1]. 118 городов и 214 показателей.

Минусы:
- открытых данных нет (вообще никаких данных нет для выгрузки)
- методология написана так словно её нет
- условий использования данных нет

Плюсы:
- показателей много (214 показателей)
- городов много (118 в России, всего вместе с другими городами мира 764)
- если очень захотеть данные можно спарсить

Конечно, прям очень заметно что сделано так чтобы ни один город нельзя было назвать однозначно плохим. Рейтинга нет, просто сотни сравнений по сотням показателей. Я долго думал зачем этот индекс может быть полезен в таком виде и так и не понял. Оценка качества жизни не механистическая работа, там какие-то выводы тоже должны были бы быть.

К пример, в индексе качества жизни ОЭСР они есть [2]. А именно на этот индекс ссылаются авторы, и ещё у ОЭСР есть такая группа показателей как Civic Engagement (Вовлечение граждан), переведённое в русскоязычной версии как Гражданские права [3] и там есть такие показатели как:
- активность избирателей
- социальное неравенство

Вообще же два принципиально разных подхода. У Citysense что я ранее упоминал [4] через методику Евростата, а у ВЭБ.РФ через методику ОЭСР со множеством довольно неожиданных расширений, в моём представлении, не имеющих отношения к городам и к качеству жизни, например, Количество просмотров постов на Тикток на 10 тысяч человек, это прям очень сильно влияет на качество жизни на территории.

Ссылки:
[1] https://citylifeindex.ru/
[2] https://www.oecdbetterlifeindex.org/countries/russian-federation/
[3] https://www.oecdbetterlifeindex.org/ru/countries/russian-federation-ru/
[4] https://yangx.top/begtin/2867

#opendata #lifequality #веб
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Не могу не написать о выступлении по открытости Алексея Херсонцева (статс-секретаря и зам. министра экономического развития РФ). В вопросе нужно было отметить 10 ключевых действий (решений) по открытости, без которых мы сейчас жить не можем, но которые 10 лет назад казались нереальными:

- АИС Мониторинг госсайтов и рейтинги (за >10 лет работы в открытых данных не помню, чтобы кто-то когда-то ссылался на данные рейтинги. Методики не публикуются, рейтинги оценивают только то, что можно оценить автоматически, а оценки измеряются в миллионах баллов с десятками тысячных после запятой);

- Портал открытых данных, на котором опубликовано более 30 тыс. наборов данных (портал корректно не работал ни при запуске, ни после. Последние полтора года портал находится в нерабочем режиме, а количество датасетов на нем вот уже несколько месяцев держится на 20 тыс.);

- "Публикация деклараций, которые опубликованы в формате Excel, а значит фактически являются открытыми данными" (но открытые данные - это не просто машиночитаемые данные, у них много других свойств, например, - наличие лицензии. А Минэкономразвития, кстати, разрабатывало и публиковало Методические рекомендации по открытым данным);

- Портал Российской общественной инициативы (кто-то действительно считает его работающим?);

- Портал Ваш контроль, на котором граждане оценивают госуслуги (опять же, ни один человек не назвал его в контексте открытости ни на одной конференции).

К сожалению, не было сказано ни одного слова про:
- Портал Электронного бюджета, который является кладезью действительно открытых и машиночитаемых данных,
- Не было сказано про публикацию бюджетов на всех уровнях бюджета,
- Не включили и портал ГМУ (на котором публикуются данные бюджетных, автономных и казенных учреждений, и который является уникальным)
- Машиночитаемость данных Минкультуры тоже заслуживает отдельного пункта.

Отдельный лайк Екатерине Шульман за:
- поднятие проблемы о закрытии бюджетных данных в последние годы (правда, только в контексте объема закрытого бюджета, хотя есть и не менее серьезные проблемы с закрытием реестра субсидий и поставщиков по 223-ФЗ);
- озвучивание проблемы удаления деклараций, в т.ч. и за прошлые годы;
- озвучивание проблемы с порталом РОИ.

Впрочем, про открытые данные и порталы Минэкономразвития у меня запланирован отдельный пост.