Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.74K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Незаслуженно пропущенная мной новость, появление Berlin Declaration on Digital Society and Value-based Digital Government [1]
По русски можно перевести как берлинская декларация о цифровом обществе и Цифровом государстве (правительстве) основанном на ценностях.

Декларация про применение европейских ценностей и фундаментальных прав при реализации цифрового государства, подписана всеми странами членами Евросоюза.

В декларации чётко артикулируются вопросы открытости, в том числе поддержке развития открытости данных и открытости кода. Отдельно упоминаются value-based, human-centred AI systems (ценностные человекориентированные системы ИИ).

Документ полезный, для понимания стратегий Евросоюза, также стоит посмотреть на их интерактивную инфографику на портале открытых данных Испании [2].

Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/news/berlin-declaration-digital-society-and-value-based-digital-government
[2] https://datos.gob.es/en/noticia/data-related-strategies-will-mark-2021

#opendata #opengov #opensource
Ещё один незаслуженно не упомянутый мною документ Silo Busting: The Challenges and Success Factors for Sharing Intergovernmental Data [1] от IBM Center for The Business of Government.

О том как устроены практики обмена данными между органами власти в США, какие продукты на данных создаются и как органы власти договариваются между собой. Весь документ про американский контекст, но с большим количеством примеров. Например, там есть о том что во всех штатах США есть системы Statewide Longitudinal Data Systems (SLDS) в которых собираются данные о человеке начиная со школы, продолжая высшим/профессиональным образованием и местами работы. Это не только позволяет делать неразрывной статистику образования и занятости, но и даёт возможность создания проектов кросс-секторного типа.

Пример: Massachusett’s Opioid Integrated Data Sharing Initiative где в одной базе собираются данные из десятков разных баз данных: баз ветеранов, баз раковых больных, тюремных систем, госпитальных систем, баз регистрации рождений, SLDS и ещё много чего.
И на основе этого принимаются решения по профилактике преступлений, индивидуальной поддержке и тд.

Там ещё много примеров, полезное чтение о том что возможно на данных когда это юридически возможно.

Честно говоря задача практически не решаемая простым образом на уровне региональных властей в России. Везде ограничения самым главным из которых является закон о персональных данных.

Ссылки:
[1] http://www.businessofgovernment.org/sites/default/files/Silo%20Busting.pdf

#opendata #data #sharing #ibm #usa #usecases
Департамент субсидирования мертвых лошадей
Департамент развития мертвых лошадей
Департамент финансирования мертвых лошадей
И мертволошадиный жокей

Как то собрались написать методические рекомендации
По ускоренному умервщлению лошадиной популяции
Редко, но теперь я буду разбавлять скучные новости скучными стихами из @ministryofpoems
28 мая в 19:00 пройдут публичные дебаты "Тотальные данные: контроль или удобство" организованные Политехом [1]. Дебатировать буду я и исполнительный директор по исследованию данных Sber AI Михаил Степнов.

Мою позицию про приватность большинство давно знают, я её в каком-то более концентрированном виде подготовлю к дебатам.
Дебаты будут, также, транслировать на канале Политеха [2]. Не проходите мимо, приходите и смотрите.

Ссылки:
[1] https://polymus.ru/ru/museum/news/total-data/
[2] https://www.youtube.com/user/polytechnicum

#data #privacy #debates
Свежий проект от команды Github'а - FlatData [1] как набор инструментов для сбора и обработки данных в git репозиториях. Это подход который когда-то продвигал Simon Wilson [2], автор многих инструментов и проектов на данных. Действительно Github с его набором действий очень подходит для автоматизации сбора данных. У него же есть пример автоматизации сбора данных о пожарах в Калифорнии [3].

Не менее интересный инструмент Flat Viewer для просмотра простых (плоских) файлов [4].

Инструменты интересные, и открытым кодом и интегрированностью в Github, хотя вот скажу честно для работы с относительно большими наборами данных они уже ограничены.

Я могу сказать что про эти инструменты что про десятки других что я видел за последние годы, у них примерно одна и та же проблема - работа с плоскими данными. Данные с которыми я и моя команда работаем, к примеру, почти всегда не_плоские. Это сложные JSON или XML объекты декомпозиция которых назад в плоские таблицы - это большая работа, трудоёмкая и ресурсозатратная. Часто проще с самого начала сохранять сложность первичных данных, преобразуя их только тогда когда есть в этом необходимость. Для такого не подходят CSV и плоский JSON, а скорее файлы построчного JSON lines и BSON (используется в MongoDB)

Я сам выложил в открытый код как минимум 2 инструмента с таким подходом:
- undatum [5] - утилита для обработки данных, с акцентом как раз на JSON lines и BSON.
- apibackuper [6] - утилита для автоматизации выгрузки наборов данных из API с экспортом данных в JSON lines.

С другой стороны я знаю немало инициатив как раз по отказу от платформ вроде Github'а для хранения данных и использованию альтернатив. Например, Giftless [7] от Datopian даёт возможность эмулировать Git LFS поверх локального хранилища и хранилищ Google, Amazon и Azure, тем самым мигрируя с хранилища Github.

В любом случае современные проекты на данных - это чаще конструкторы. Иногда можно и нужно писать свой код, но чаще итоговый продукт или решение - это сборная солянка из множество компонентов.

Ссылки:
[1] https://octo.github.com/projects/flat-data
[2] https://simonwillison.net/2020/Oct/9/git-scraping/
[3] https://github.com/simonw/ca-fires-history
[4] https://flatgithub.com/the-pudding/data
[5] https://github.com/datacoon/undatum/
[6] https://github.com/ruarxive/apibackuper
[7] https://github.com/datopian/giftless

#opendata #datatools #opensource #git #github
В рубрике интересные наборы данных Longitudinal Employer-Household Dynamics [1] база бюро переписи США с данными о переходах работников с одного места работы на другое, с трудоустройством выпускников ВУЗов, со сведениями о рабочей миграции.

Данные интересны во многих разрезах, но, особенно, в разрезе конкретного образовательного учреждения, выпускников по направлениям в сопоставлении с направлениями занятости и в контексте рабочей миграции между территориями, можно увидеть разрезе отрасли, города и вида занятости.

На этих и других данных в открытой части базы данных переписи в США есть такой проект как DataUSA [2] где собраны данные с детализацией до муниципалитетов в США (города, графства и тд.) и есть возможность увидеть данные по 7000+ университетам и колледжам и 319 индустриям в весьма детальных цифрах и разрезах.

В России единственным более-менее приближенным аналогом был проект Graduate.edu.ru (сайт более не работает). Но его Минобрнауки перестали поддерживать уже несколько лет назад, без объяснения причин

Ссылки:
[1] https://lehd.ces.census.gov
[2] https://datausa.io

#opendata #education #workforce
Статья в The Verge [1] о человеке в Чикаго по которому алгоритм выдал что он может оказаться по любую из сторону при стрельбе. Может быть жертвой или может использовать оружение сам. К нему пришли полицейские и соц работники в рамках профилактических мер, но интереснее всего то что алгоритмы предсказания преступлений применяются всё чаще и приводят к ситуациям вроде этой.

Кстати, не стоит думать что до России этот тренд не дойдёт. Скоринг граждан по социальным рискам (неизвестный самому гражданину) можно сказать неизбежен. Предиктивные системы для правоохранительных систем, также, довольно активно будут внедряться. С одной стороны это естественное развитие правоохранительной системы, а с другой всё зависит от вектора развития полиции.

Ссылки:
[1] https://www.theverge.com/22444020/chicago-pd-predictive-policing-heat-list

#opendata #predictive #policing
Когда открытых данных недостаточно (с) Исследователи проверили 25 научных статей отмеченных как публикуемые с открытыми данными обнаружили что только для 9 статей можно воспроизвести результаты без помощи авторов. Об этом в их статье Analytic reproducibility in articles receiving open data badges at the journal Psychological Science: an observational study [1].

Ссылки:
[1] https://royalsocietypublishing.org/doi/10.1098/rsos.201494

#opendata #openaccess
Напомню что сегодня вечером в 19:00 дебаты об использовании персональных данных. Моим оппонентом будет Михаил Степнов из Сбера.
Не буду сейчас рассказывать подробнее о том какие тезисы и аргументы буду приводить, скажу лишь что тема персональных данных, их использования, защиты прав граждан и интересов бизнеса - это всё сейчас очень острая тема. И о ней есть о чём поговорить.
Forwarded from Ivan Begtin (Ivan Begtin)
28 мая в 19:00 пройдут публичные дебаты "Тотальные данные: контроль или удобство" организованные Политехом [1]. Дебатировать буду я и исполнительный директор по исследованию данных Sber AI Михаил Степнов.

Мою позицию про приватность большинство давно знают, я её в каком-то более концентрированном виде подготовлю к дебатам.
Дебаты будут, также, транслировать на канале Политеха [2]. Не проходите мимо, приходите и смотрите.

Ссылки:
[1] https://polymus.ru/ru/museum/news/total-data/
[2] https://www.youtube.com/user/polytechnicum

#data #privacy #debates
Я не сильно люблю писать по теме информационной безопасности, но похоже что вся эта отрасль теперь стремительно политизируется (также как и ИТ). Это касается и недавних новостей НКЦКИ и Ростелеком-Солар об обнаружении "зловредов" в сетях органов власти в РФ [1] и совсем свежей новости с обвинением русских хакеров во взломе USAID и связанных с USAID организациями [2].

К сожалению, что в США, что в России сейчас всё идёт по пути поиска "внешнего врага" и, будем уж честными, активная "продажа угроз" взлома сетей, утечки данных и так далее и характерно что всё это началось как в период начала формирования бюджета на следующий год.

Проблема в том что, конечно, все публичные расследования политического толка важно делить в 2-3 раза. Потому что это та среда где на публику выносят только то в чём:
- или феерически облажались так что совсем не скрыть
- или то что собираются продавать как внешнюю угрозу

Ключевой вопрос - что нам продают? И насколько продаваемое близко к реальным проблемам, которые, безусловно есть и о которых на пресс-конференциях не говорят или, что ещё хуже, просто даже не знают.

Ссылки:
[1] https://safe-surf.ru/upload/%D0%BE%D1%82%D1%87%D0%B5%D1%82%20%D0%9D%D0%9A%D0%A6%D0%9A%D0%98%20%D0%B8%20%D0%A0%D0%BE%D1%81%D1%82%D0%B5%D0%BB%D0%B5%D0%BA%D0%BE%D0%BC-%D0%A1%D0%BE%D0%BB%D0%B0%D1%80_%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B9.pdf
[2] https://www.nytimes.com/2021/05/28/us/politics/russia-hack-usaid.html

#privacy #security
Legal.Report пишут подробности о причинах ареста [1] бывшего начальника управления информационных технологий Росреестра Александра Бибикова и соучредителей IT-компании «Юнидата» Антона Евгеньева и Сергея Кузнецова.

У Юнидата, одних из немногих, есть репутация на рынке, так что событие весьма неприятное.

И, конечно, оно про то что "правила игры" на рынке ИТ интеграции были и остаются такими что посадить можно руководителей почти всех ИТ интеграторов, главное чтобы был свидетель с показаниями. Это, конечно, моё личное оценочное суждение (с)

Ссылки:
[1] https://legal.report/eks-glava-upravleniya-rosreestra-arestovan-po-delu-o-hishheniyah-pri-cifrovizacii-egrn/

#legal #data
Подборка полезных инструментов для тех кто работает с данными:
- NocoDB [1] - open source альтернатива Airtable. Превращает SQL базы данных в интерактивные таблицы, с возможностью совместного редактирования и другими функциями Airtable
- pyWhat [2] - утилита распознавания файлов и непонятных идентификаторов. Включает множество регулярных выражений и расшифровки данных. Создавалась для анализа разного рода "зловредов" и заточена под поиск идентификаторов в этом контексте.
- Immudb [3] - open source реализация криптографически защищённой СУБД с хранением всех предыдущих версий записи без возможности правки данных.
- Awesome privacy list [4] большая подборка инструментов ставящих приоритет на приватность. Поисковые системы, браузеры, социальные сети и, в том числе, приватные инструменты работы с неприватными сервисами. Большой и полезный список
- Profil3r [5] - инструмент OSINT проверки аккаунтов пользователя во множестве соцсетей и сервисов и, заодно, проверки в утечках данных
- Snoop [6] - ещё один инструмент OSINT проверки аккаунтов, но на русском языке и со многими российскими сервисами

Ссылки:
[1] https://www.nocodb.com
[2] https://github.com/bee-san/pyWhat
[3] https://github.com/codenotary/immudb
[4] https://github.com/pluja/awesome-privacy
[5] https://github.com/Rog3rSm1th/Profil3r
[6] https://github.com/snooppr/snoop

#opendata #opensource #tools #data
Forwarded from Инфокультура
Началась ежегодная конференция дата-журналистов LAMPA 2021 (https://lampa2021.tilda.ws). Подключиться к эфиру можно по ссылкам:

— Прямая трансляция на фейсбуке:

http://bit.ly/lampa2021_fb

— Прямая трансляция в ютубе:

http://bit.ly/lampa2021_yt

— Ссылка на дата-арт в ZOOM

http://bit.ly/lampa2021
О том как не надо продавать продукты приведу на примере очень удобного инструмента Writemapper [1]. Это такой редактор текстов через майндмапы (ещё их называют - интеллект карты/карты разума). Когда ты вначале структурируешь текст блоками и потом уже по этим блокам пишешь. Для тех случаев когда пишешь тексты в заданной структуре или имеешь привычку писать тексты сверху-вниз, от структуры к содержанию - это очень удобно.

Я им часто пользуюсь, у меня много документов так написаны. У инструмента удобный минималистичный интерфейс, скриншоты которого можно увидеть на примерах того с чем я работал/работаю.

Особенность продукта была ещё и в том что автор при анонсе продукта продавал пожизненные лицензии [2]. Покупай единожды и получай бесплатные обновления. Но выпустив 3-ю версию сделал так что "пожизненные лицензии" на предыдущие версии на эту, 3-ю версию не распространяются. За что его ранние пользователи уже критикуют [3], а автор отвечает всем в худшем корпоративном стиле "я вас услышал".

При этом 3-я версия не настолько отличается от 2-й версии чтобы их разделение было очевидно и опций апгрейда предусмотрено совершено не было. С одной стороны стоимость приложения не запредельна - $60 за двойную лицензию (4400 рублей), а с другой стороны это много за не-универсальный инструмент. Отдельно приложения для редактирования текстов стоят редко более $15 (пример, Write!), а более универсальный Xmind стоит те же $60, но даёт больше гибкости с майндмапами, но не умеет работать с текстами.

Впрочем вопрос тут не цены, а именно реакции разработчика. Увы, уверенности в будущем продукта она не доставляет.

А вот сама идея и концепция документа от майндмэпа очень хорошо и могла бы транслироваться на организационные модели совместного написания книг и текстов.

Ссылки:
[1] http://writemapper.com
[2] https://www.producthunt.com/posts/writemapper
[3] https://www.producthunt.com/posts/writemapper-3

#products #writing #texts #writingtools
Примеры подготовки документов с помощью WriteMapper. Интерфейс неидеален, но альтернатив ему немного
В рубрике интересные наборы данных есть два набора данных фотографий школьных туалетов из конкурса Domestos. До того как они провели модерацию и после. В первом случае 571 объект с фотографиями на 367 мегабайт, во втором случае 150 объектов с фотографиями на 170 мегабайт.

Лёгкая внутренняя самоцензура не позволяет его куда-либо выкладывать, ибо оно неаппетитно. Но если кому-либо в журналистских целях необходимо - пишите.
Месяц назад я принял для себя решение вернуться к активной деятельности по работе с данными в общественных и коммерческих проектах далёких от вопросов государственного аудита и надзора и поэтому покинуть команду Счетной палаты РФ.

Сегодня мой последний день работы в должности зам. руководителя ФКУ ЦЭАИТ (подвед СП РФ) и руководителя проекта Госрасходы (spending.gov.ru).

В качестве руководителя проекта Госрасходы остаётся моя коллега Ольга Пархимович (автор канала @ahminfin), она опытный специалист по работе с данными и много лет организовывала разработку и развитие проекта.
Спасибо всем с к кем довелось поработать за эти годы и хочу пожелать команде СП РФ дальшейшей плодотворной
работы.

Заранее отвечая на вопрос куда я ухожу и чем буду заниматься, я пока не отвечу, лишь намекну что в работе два исследования в Информационная культура и не только по открытости.

Кроме того у меня много задач по Ассоциация участников рынка данных, деятельность которой будет активно восстановлена в этом году. Мы слегка просели за 2020 год, но в этом году АУРДа будет больше и лучше;)
А также один очень большой проект на открытых данных и об открытых данных который будет доступен этим летом. Но о котором пока ни слова))

Раньше я регулярно шутил про то что мне в голове постоянно приходится совмещать три мнения: общественное, коммерческое и государственое. Теперь станет попроще, государственного станет поменьше, а значит и больше возможностей говорить о том что думаешь и делаешь.