Ivan Begtin
8.1K subscribers
2.02K photos
3 videos
102 files
4.75K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
На самом деле я даже не знаю как это прокомментировать. Как то что в долларовом эквиваленте это около 7.4 миллионов и что это не так много для глобальной системы, так и то что за перечисленные работы это выглядит слегка ... многовато.

#fgis #itspending
Forwarded from Госзатраты
Министерство цифрового развития, связи и массовых коммуникаций РФ заключило крупный госконтракт. 407 млн рублей из федерального бюджета потратят на развитие ФГИС «Единая система идентификации и аутентификации в инфраструктуре, обеспечивающей информационно-технологическое взаимодействие информационных систем, используемых для предоставления государственных и муниципальных услуг в электронной форме» (ЕСИА).

Исполнителем в рамках соглашения выступает ПАО «Ростелеком». Закупка проводилась у единственного поставщика. Срок действия контракта — до 15 ноября 2021 года. За оставшиеся шесть месяцев, по условиям контракта, исполнитель среди прочего обязуется разработать дизайн-макеты для экрана раздела ЕСИА, разработать и модернизировать одну веб-страницу раздела ЕСИА, улучшить часть ее функций и мобильное приложение.

Подробности — на сайте «Госзатраты»: http://amp.gs/bvKC
Land Portal Foundation совместно с Open Data Charter опубликовали руководство по работе с открытыми данными о земле. Руководство ориентировано на власти стран ответственные за работу с земляными участками, это службы кадастров, министерства ответственные за лесную политику и так далее.

Авторы доклада одновременно являются создателями Land Portal [2], большого проекта по мониторингу использования земли по всему миру. России и развитых стран там нет, а вот страны третьего мира почти все.

А для тех кто интересуется этой темой, вдогонку, добавлю что есть такой проект ка LandMatrix [3] где осуществляют мониторинг сделок с землёй и вот тут про Россию есть данные. Например вот [4], контракт на посадку леса, похоже эти сведения собирают вручную. Судя по всему их региональный партнер на Украине, потому что именно по Украине более всего внесено сделок в восточной европе, а по России всего 381 сделка.

Вообще же проектов по мониторингу использования земли всё больше и эти два далеко не единственные.

Ссылки:
[1] https://landportal.org/library/resources/open-data-improved-land-governance
[2] https://landportal.org
[3] https://landmatrix.org
[4] https://landmatrix.org/deal/7836/

#opendata #land
Незаслуженно пропущенная мной новость, появление Berlin Declaration on Digital Society and Value-based Digital Government [1]
По русски можно перевести как берлинская декларация о цифровом обществе и Цифровом государстве (правительстве) основанном на ценностях.

Декларация про применение европейских ценностей и фундаментальных прав при реализации цифрового государства, подписана всеми странами членами Евросоюза.

В декларации чётко артикулируются вопросы открытости, в том числе поддержке развития открытости данных и открытости кода. Отдельно упоминаются value-based, human-centred AI systems (ценностные человекориентированные системы ИИ).

Документ полезный, для понимания стратегий Евросоюза, также стоит посмотреть на их интерактивную инфографику на портале открытых данных Испании [2].

Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/news/berlin-declaration-digital-society-and-value-based-digital-government
[2] https://datos.gob.es/en/noticia/data-related-strategies-will-mark-2021

#opendata #opengov #opensource
Ещё один незаслуженно не упомянутый мною документ Silo Busting: The Challenges and Success Factors for Sharing Intergovernmental Data [1] от IBM Center for The Business of Government.

О том как устроены практики обмена данными между органами власти в США, какие продукты на данных создаются и как органы власти договариваются между собой. Весь документ про американский контекст, но с большим количеством примеров. Например, там есть о том что во всех штатах США есть системы Statewide Longitudinal Data Systems (SLDS) в которых собираются данные о человеке начиная со школы, продолжая высшим/профессиональным образованием и местами работы. Это не только позволяет делать неразрывной статистику образования и занятости, но и даёт возможность создания проектов кросс-секторного типа.

Пример: Massachusett’s Opioid Integrated Data Sharing Initiative где в одной базе собираются данные из десятков разных баз данных: баз ветеранов, баз раковых больных, тюремных систем, госпитальных систем, баз регистрации рождений, SLDS и ещё много чего.
И на основе этого принимаются решения по профилактике преступлений, индивидуальной поддержке и тд.

Там ещё много примеров, полезное чтение о том что возможно на данных когда это юридически возможно.

Честно говоря задача практически не решаемая простым образом на уровне региональных властей в России. Везде ограничения самым главным из которых является закон о персональных данных.

Ссылки:
[1] http://www.businessofgovernment.org/sites/default/files/Silo%20Busting.pdf

#opendata #data #sharing #ibm #usa #usecases
Департамент субсидирования мертвых лошадей
Департамент развития мертвых лошадей
Департамент финансирования мертвых лошадей
И мертволошадиный жокей

Как то собрались написать методические рекомендации
По ускоренному умервщлению лошадиной популяции
Редко, но теперь я буду разбавлять скучные новости скучными стихами из @ministryofpoems
28 мая в 19:00 пройдут публичные дебаты "Тотальные данные: контроль или удобство" организованные Политехом [1]. Дебатировать буду я и исполнительный директор по исследованию данных Sber AI Михаил Степнов.

Мою позицию про приватность большинство давно знают, я её в каком-то более концентрированном виде подготовлю к дебатам.
Дебаты будут, также, транслировать на канале Политеха [2]. Не проходите мимо, приходите и смотрите.

Ссылки:
[1] https://polymus.ru/ru/museum/news/total-data/
[2] https://www.youtube.com/user/polytechnicum

#data #privacy #debates
Свежий проект от команды Github'а - FlatData [1] как набор инструментов для сбора и обработки данных в git репозиториях. Это подход который когда-то продвигал Simon Wilson [2], автор многих инструментов и проектов на данных. Действительно Github с его набором действий очень подходит для автоматизации сбора данных. У него же есть пример автоматизации сбора данных о пожарах в Калифорнии [3].

Не менее интересный инструмент Flat Viewer для просмотра простых (плоских) файлов [4].

Инструменты интересные, и открытым кодом и интегрированностью в Github, хотя вот скажу честно для работы с относительно большими наборами данных они уже ограничены.

Я могу сказать что про эти инструменты что про десятки других что я видел за последние годы, у них примерно одна и та же проблема - работа с плоскими данными. Данные с которыми я и моя команда работаем, к примеру, почти всегда не_плоские. Это сложные JSON или XML объекты декомпозиция которых назад в плоские таблицы - это большая работа, трудоёмкая и ресурсозатратная. Часто проще с самого начала сохранять сложность первичных данных, преобразуя их только тогда когда есть в этом необходимость. Для такого не подходят CSV и плоский JSON, а скорее файлы построчного JSON lines и BSON (используется в MongoDB)

Я сам выложил в открытый код как минимум 2 инструмента с таким подходом:
- undatum [5] - утилита для обработки данных, с акцентом как раз на JSON lines и BSON.
- apibackuper [6] - утилита для автоматизации выгрузки наборов данных из API с экспортом данных в JSON lines.

С другой стороны я знаю немало инициатив как раз по отказу от платформ вроде Github'а для хранения данных и использованию альтернатив. Например, Giftless [7] от Datopian даёт возможность эмулировать Git LFS поверх локального хранилища и хранилищ Google, Amazon и Azure, тем самым мигрируя с хранилища Github.

В любом случае современные проекты на данных - это чаще конструкторы. Иногда можно и нужно писать свой код, но чаще итоговый продукт или решение - это сборная солянка из множество компонентов.

Ссылки:
[1] https://octo.github.com/projects/flat-data
[2] https://simonwillison.net/2020/Oct/9/git-scraping/
[3] https://github.com/simonw/ca-fires-history
[4] https://flatgithub.com/the-pudding/data
[5] https://github.com/datacoon/undatum/
[6] https://github.com/ruarxive/apibackuper
[7] https://github.com/datopian/giftless

#opendata #datatools #opensource #git #github
В рубрике интересные наборы данных Longitudinal Employer-Household Dynamics [1] база бюро переписи США с данными о переходах работников с одного места работы на другое, с трудоустройством выпускников ВУЗов, со сведениями о рабочей миграции.

Данные интересны во многих разрезах, но, особенно, в разрезе конкретного образовательного учреждения, выпускников по направлениям в сопоставлении с направлениями занятости и в контексте рабочей миграции между территориями, можно увидеть разрезе отрасли, города и вида занятости.

На этих и других данных в открытой части базы данных переписи в США есть такой проект как DataUSA [2] где собраны данные с детализацией до муниципалитетов в США (города, графства и тд.) и есть возможность увидеть данные по 7000+ университетам и колледжам и 319 индустриям в весьма детальных цифрах и разрезах.

В России единственным более-менее приближенным аналогом был проект Graduate.edu.ru (сайт более не работает). Но его Минобрнауки перестали поддерживать уже несколько лет назад, без объяснения причин

Ссылки:
[1] https://lehd.ces.census.gov
[2] https://datausa.io

#opendata #education #workforce
Статья в The Verge [1] о человеке в Чикаго по которому алгоритм выдал что он может оказаться по любую из сторону при стрельбе. Может быть жертвой или может использовать оружение сам. К нему пришли полицейские и соц работники в рамках профилактических мер, но интереснее всего то что алгоритмы предсказания преступлений применяются всё чаще и приводят к ситуациям вроде этой.

Кстати, не стоит думать что до России этот тренд не дойдёт. Скоринг граждан по социальным рискам (неизвестный самому гражданину) можно сказать неизбежен. Предиктивные системы для правоохранительных систем, также, довольно активно будут внедряться. С одной стороны это естественное развитие правоохранительной системы, а с другой всё зависит от вектора развития полиции.

Ссылки:
[1] https://www.theverge.com/22444020/chicago-pd-predictive-policing-heat-list

#opendata #predictive #policing
Когда открытых данных недостаточно (с) Исследователи проверили 25 научных статей отмеченных как публикуемые с открытыми данными обнаружили что только для 9 статей можно воспроизвести результаты без помощи авторов. Об этом в их статье Analytic reproducibility in articles receiving open data badges at the journal Psychological Science: an observational study [1].

Ссылки:
[1] https://royalsocietypublishing.org/doi/10.1098/rsos.201494

#opendata #openaccess
Напомню что сегодня вечером в 19:00 дебаты об использовании персональных данных. Моим оппонентом будет Михаил Степнов из Сбера.
Не буду сейчас рассказывать подробнее о том какие тезисы и аргументы буду приводить, скажу лишь что тема персональных данных, их использования, защиты прав граждан и интересов бизнеса - это всё сейчас очень острая тема. И о ней есть о чём поговорить.
Forwarded from Ivan Begtin (Ivan Begtin)
28 мая в 19:00 пройдут публичные дебаты "Тотальные данные: контроль или удобство" организованные Политехом [1]. Дебатировать буду я и исполнительный директор по исследованию данных Sber AI Михаил Степнов.

Мою позицию про приватность большинство давно знают, я её в каком-то более концентрированном виде подготовлю к дебатам.
Дебаты будут, также, транслировать на канале Политеха [2]. Не проходите мимо, приходите и смотрите.

Ссылки:
[1] https://polymus.ru/ru/museum/news/total-data/
[2] https://www.youtube.com/user/polytechnicum

#data #privacy #debates
Я не сильно люблю писать по теме информационной безопасности, но похоже что вся эта отрасль теперь стремительно политизируется (также как и ИТ). Это касается и недавних новостей НКЦКИ и Ростелеком-Солар об обнаружении "зловредов" в сетях органов власти в РФ [1] и совсем свежей новости с обвинением русских хакеров во взломе USAID и связанных с USAID организациями [2].

К сожалению, что в США, что в России сейчас всё идёт по пути поиска "внешнего врага" и, будем уж честными, активная "продажа угроз" взлома сетей, утечки данных и так далее и характерно что всё это началось как в период начала формирования бюджета на следующий год.

Проблема в том что, конечно, все публичные расследования политического толка важно делить в 2-3 раза. Потому что это та среда где на публику выносят только то в чём:
- или феерически облажались так что совсем не скрыть
- или то что собираются продавать как внешнюю угрозу

Ключевой вопрос - что нам продают? И насколько продаваемое близко к реальным проблемам, которые, безусловно есть и о которых на пресс-конференциях не говорят или, что ещё хуже, просто даже не знают.

Ссылки:
[1] https://safe-surf.ru/upload/%D0%BE%D1%82%D1%87%D0%B5%D1%82%20%D0%9D%D0%9A%D0%A6%D0%9A%D0%98%20%D0%B8%20%D0%A0%D0%BE%D1%81%D1%82%D0%B5%D0%BB%D0%B5%D0%BA%D0%BE%D0%BC-%D0%A1%D0%BE%D0%BB%D0%B0%D1%80_%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B9.pdf
[2] https://www.nytimes.com/2021/05/28/us/politics/russia-hack-usaid.html

#privacy #security
Legal.Report пишут подробности о причинах ареста [1] бывшего начальника управления информационных технологий Росреестра Александра Бибикова и соучредителей IT-компании «Юнидата» Антона Евгеньева и Сергея Кузнецова.

У Юнидата, одних из немногих, есть репутация на рынке, так что событие весьма неприятное.

И, конечно, оно про то что "правила игры" на рынке ИТ интеграции были и остаются такими что посадить можно руководителей почти всех ИТ интеграторов, главное чтобы был свидетель с показаниями. Это, конечно, моё личное оценочное суждение (с)

Ссылки:
[1] https://legal.report/eks-glava-upravleniya-rosreestra-arestovan-po-delu-o-hishheniyah-pri-cifrovizacii-egrn/

#legal #data
Подборка полезных инструментов для тех кто работает с данными:
- NocoDB [1] - open source альтернатива Airtable. Превращает SQL базы данных в интерактивные таблицы, с возможностью совместного редактирования и другими функциями Airtable
- pyWhat [2] - утилита распознавания файлов и непонятных идентификаторов. Включает множество регулярных выражений и расшифровки данных. Создавалась для анализа разного рода "зловредов" и заточена под поиск идентификаторов в этом контексте.
- Immudb [3] - open source реализация криптографически защищённой СУБД с хранением всех предыдущих версий записи без возможности правки данных.
- Awesome privacy list [4] большая подборка инструментов ставящих приоритет на приватность. Поисковые системы, браузеры, социальные сети и, в том числе, приватные инструменты работы с неприватными сервисами. Большой и полезный список
- Profil3r [5] - инструмент OSINT проверки аккаунтов пользователя во множестве соцсетей и сервисов и, заодно, проверки в утечках данных
- Snoop [6] - ещё один инструмент OSINT проверки аккаунтов, но на русском языке и со многими российскими сервисами

Ссылки:
[1] https://www.nocodb.com
[2] https://github.com/bee-san/pyWhat
[3] https://github.com/codenotary/immudb
[4] https://github.com/pluja/awesome-privacy
[5] https://github.com/Rog3rSm1th/Profil3r
[6] https://github.com/snooppr/snoop

#opendata #opensource #tools #data
Forwarded from Инфокультура
Началась ежегодная конференция дата-журналистов LAMPA 2021 (https://lampa2021.tilda.ws). Подключиться к эфиру можно по ссылкам:

— Прямая трансляция на фейсбуке:

http://bit.ly/lampa2021_fb

— Прямая трансляция в ютубе:

http://bit.ly/lampa2021_yt

— Ссылка на дата-арт в ZOOM

http://bit.ly/lampa2021
О том как не надо продавать продукты приведу на примере очень удобного инструмента Writemapper [1]. Это такой редактор текстов через майндмапы (ещё их называют - интеллект карты/карты разума). Когда ты вначале структурируешь текст блоками и потом уже по этим блокам пишешь. Для тех случаев когда пишешь тексты в заданной структуре или имеешь привычку писать тексты сверху-вниз, от структуры к содержанию - это очень удобно.

Я им часто пользуюсь, у меня много документов так написаны. У инструмента удобный минималистичный интерфейс, скриншоты которого можно увидеть на примерах того с чем я работал/работаю.

Особенность продукта была ещё и в том что автор при анонсе продукта продавал пожизненные лицензии [2]. Покупай единожды и получай бесплатные обновления. Но выпустив 3-ю версию сделал так что "пожизненные лицензии" на предыдущие версии на эту, 3-ю версию не распространяются. За что его ранние пользователи уже критикуют [3], а автор отвечает всем в худшем корпоративном стиле "я вас услышал".

При этом 3-я версия не настолько отличается от 2-й версии чтобы их разделение было очевидно и опций апгрейда предусмотрено совершено не было. С одной стороны стоимость приложения не запредельна - $60 за двойную лицензию (4400 рублей), а с другой стороны это много за не-универсальный инструмент. Отдельно приложения для редактирования текстов стоят редко более $15 (пример, Write!), а более универсальный Xmind стоит те же $60, но даёт больше гибкости с майндмапами, но не умеет работать с текстами.

Впрочем вопрос тут не цены, а именно реакции разработчика. Увы, уверенности в будущем продукта она не доставляет.

А вот сама идея и концепция документа от майндмэпа очень хорошо и могла бы транслироваться на организационные модели совместного написания книг и текстов.

Ссылки:
[1] http://writemapper.com
[2] https://www.producthunt.com/posts/writemapper
[3] https://www.producthunt.com/posts/writemapper-3

#products #writing #texts #writingtools
Примеры подготовки документов с помощью WriteMapper. Интерфейс неидеален, но альтернатив ему немного