Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
28 ноября на ОГФ большая совместная площадка с Роскомсвободой. Не проходите мимо, будем говорить про открытость и приватность и всё с этим связанное
Forwarded from Roskomsvoboda
Руководитель Роскомсвободы Артём Козлюк о нашей площадке на ОГФ'2020☝️

28 ноября на Общероссийском гражданском форуме мы поговорим о цифровых ограничениях и ущемлениях прав, с которыми во время пандемии столкнулись граждане всего мира.

В течение всего дня вместе с АНО «Информационная культура» мы будем обсуждать сохранение права на приватность граждан и обеспечение открытости органов власти в период всеобщей борьбы с пандемией.

❗️Регистрируйтесь на ОГФ'2020 и включайтесь в защиту своих цифровых прав!

➡️ Подробнее
UNICEF инвестирует в создание платформы MagicBox [1] которую они позиционируют как a collaborative data sharing platform и через которую, например, собирают сведения о всех школах в Колумбии и Киргизстане [2] включая расстояние до школ для жителей и с перспективой распространения проекта на весь мир.

У проекта открытый код [3] да и, в принципе, UNICEF публикует немало открытого кода [4] и ведёт его разработку как и более десятка других структур и организаций входящих в ООН.

Справочно UNICEF (ЮНИСЕФ), Детский фонд ООН - международная организация, действующая под эгидой Организации Объединённых Наций.

Ссылки:
[1] https://www.unicef.org/innovation/Magicbox
[2] https://www.unicef.org/innovation/school-mapping
[3] https://github.com/unicef/magicbox
[4] https://github.com/unicef

#opendata #un #unicef
Свежая огромная утечка паролей под названием CitoDay [1] охватывает 226.8 миллионов аккаунтов и, хотя и не является проверенной утечкой паролей [2], но пароли лучше сменить.

Для проверки паролей к своим аккаунтом можно воспользоваться сервисом "';--have i been pwned?" Троя Ханта.

А для сохранения безопасности своих паролей:
- используйте менеджеры паролей;
- используйте только сильные пароли;
- не используйте один и тот же пароль в нескольких сервисах;
- не используйте сервисы без HTTPS
- по возможности, используйте VPN во всех случаях когда это возможно

Ссылки:
[1] https://www.troyhunt.com/inside-the-cit0day-breach-collection/
[2] https://haveibeenpwned.com/FAQs#UnverifiedBreach
[3] https://haveibeenpwned.com/

#privacy #security
Очень интересный проект ВкусыРоссии [1] с продуктами уникальных вкусов по российским регионам. Я так много лет думал делать его самому, а тут бабах и узнаю что его сделали!

Ну, почти сделали. Сейчас это рейтинг в котором можно голосовать, ему не хватает навигации не только по регионам, но и по типу вкуса, жирности, типу еды (сыры, соки, сладкое) и ещё нужна карта передвижения гастротуриста, виртуальная (по интернет магазинам) и реальная по кафе и ресторанам.

В целом и частом проект прекрасный, даже несмотря на то что он не про данные. И как я понимаю делают его при поддержке Минсельхоза РФ, странно что не Ростуризма.

Ссылки:
[1] https://вкусыроссии.рф/

#food #food #food
То о чём я совсем недавно писал про новые мобильные приложения Москвы теперь в новостях официальных
Новость на сайте С.С. Собянина Электронный дом. Новый этап развития жилищного самоуправления [1] как раз про то мобильное приложение о котором я недавно писал [2]

С точки зрения сервиса для граждан, конечно, очень удобно (теоретически, посмотрим как там заработает в итоге).

А вот с точки зрения конкуренции и приватности, ну прям слов нет.
Можно ведь было обязать управляющие компании и ТСЖ выбрать сервисы с рынка по конкурсу (да, на рынке решения есть или моментально бы появились), а вместо этого прямая трата бюджетных денег и махровейший патернализм.

Каждый раз когда видишь это напрашивается вопрос. Ну зачем? И в "лучшем" (в кавычках - лучшем) случае случае - это "освоение бюджетных средств"), а в худшем осознанная политика контроля над всеми данными собираемыми в городе. А данных в таких системах будет много, очень много, а как по ним можно скоринг потом проводить - просто идеальный источник данных для банков и тд. И для социальных рейтингов, кстати, тоже.

Ссылки:
[1] https://www.sobyanin.ru/elektronnyi-dom-novyi-etap
[2] https://yangx.top/begtin/2261

#privacy #moscow
Свежий проект от Google Labs под названием Tree Canopy (Кроны деревьев) [1] где с помощью аэрофотосъемки определяется каждое дерево и районы измеряются по проценту покрытия кронами деревьев.

Хороший пример интеграции открытых данных, спутникового мониторинга и алгоритмов для создания гиперлокальных данных по качеству жизни.
Ссылки:
[1] https://insights.sustainability.google/labs/treecanopy

#opendata #localdata
С начала пандемии орган высшего аудита США (U.S. Government Accountability Office) опубликовали 208 отчетов, рекомендаций и исследований по теме COVID-19 [1].

Например, из отчета COVID-19 Contracting. Observations on Federal Contracting in Response to the Pandemic [2] можно узнать что к середине июня власти США потратили 17.8 миллиардов долларов США на борьбу с пандемией, если измерять в рублях то это чуть менее 1,4 триллона рублей.

Из этих средств 11 миллиардов долларов было потрачено на закупку товаров (вентиляторы, маски, лекарства и тд.). А также 9.4 миллиарда долларов были потрачены без конкурентных процедур.

Ссылки:
[1] https://www.gao.gov/coronavirus/newest_covid-related_reports
[2] https://www.gao.gov/products/GAO-20-632

#audit #opendata #opengov #covid19 #spending
Сегодня после расформирования Роспечати и Россвязи сразу несколько журналистов мне позвонило и спросило про судьбу Минцифры, не будет ли оно усилено. Я честно, говоря, не понимаю зачем об этом спрашивать меня, я не так много знаю про Минцифру, если честно. Вот если бы ДИТ Москвы расформировывали, была бы куда более интересная новость, ну а Роспечать и Россвязь да и ещё многие органы власти - это скорее персонифицированные артефакты, чем полноценные институциональные регуляторы.

Но вот никто не спросил меня про да и не пишет, а что будет со всем тем цифровым барахлом ценными цифровыми материалами что на сайтах Роспечати и Россвязи накоплены?

Я занимаюсь тем что сохраняю их сайты. В чём их особенность?
1. У обоих ведомств практически нет информационных систем (нет в открытом доступе)
2. И там и там основные каналы коммуникации - это сайты.
3. По сайтам обоих ведомств их судьба непонятна. В России только ЦБ сохраняет все архивы, а ФОИВы в этом не преуспели.

Только два сайта rossvyaz.gov.ru и fapmc.gov.ru займут не меньше 20 ГБ в сжатом виде и около 30-35 ГБ в распакованном, в основном из-за большого числа PDF документов.

Их судьба остаться на нашем Национальном цифровом архиве [1] и если вскоре они исчезнут, то Вы всегда знаете где найти оттуда информацию.

P.S. Надо отдать должное и сказать что приятно что Минцифры - это не МВД. Когда передавали полномочия ФМС и ФСКН в МВД, то их сайты исчезли одномоментно с официальным опубликованием решения. Вжух и нету!


Ссылки:
[1] http://ruarxive.org

#webarchive #ruarxive #archival
Собрать данные легко, ты попробуй их опиши (с)

Я как-то писал что данных у нашей команды и меня лично за эти годы накопилось столько что я сам не знаю даже сколько, точно много. Большая часть этих данных - это, или большие базы данных собранные в открытых источниках, или архивные данные собираемые начиная с 2005 года.

Данные чаще всего в CSV, XML, JSON форматах и дампах баз данных.

Но руки постепенно доходят, свежие датасеты о старом:
- Состав экспертного совета при Правительстве РФ на сентябрь 2015 года [1]. Может быть интересно всем изучающим госуправление и лоббизм.
- Ежесуточные времянные ряды по выездам скорой помощи в Москве с 2004 по 2013 годы [2]. Может быть интересно для сравнительной оценки смертности и заболеваемости в ретроспективе.
- Состав кадрового резерва при Президенте РФ в 2012 году [3]. Может быть интересно всем изучающим госуправление
- Данные на основе архива блога Дмитрия Медведева с 2008 по 2011 годы [4]. Включает статистику и первичные данные постов и комментариев. Может быть интересно всем кто изучает госуправление, обучает алгоритмы анализу жалоб и тд.
- Списки послов РФ за 2013 и 2017 годы [5] Может быть интересно всем изучающим гендерную политику МИД РФ, госуправление и внешнюю политику России
- Составы комиссий и советов при Правительстве РФ и Президенте РФ за 2019-2020 годы [6]. Все изменения за этой время. Может быть интересно всем кто изучает госуправление и лоббизм

Данные все лежат на портале данных НКО (Инфокультура - НКО), это один из 2-х общественных порталов открытых данных ngodata.ru [7] относительно новый и ориентированный на публикацию НКО результатов их деятельности. В случае Инфокультуры - это открытые данные идущих проектов и архивные данные.

И второй, старый портал, Хаб открытых данных [8] честно говоря заброшенный слегка. Не обновлённый и пока не понятно что с ним делать, у него, увы, нет сейчас "владельца продукта" и он остаётся как архив.

Дальше будут и новые наборы данных. Самое сложное, всегда их документировать. Это сложно делегировать когда знание осталось только у тебя в голове или когда все данные разноформатные и с разными метаданными.

Ссылки:
[1] http://ngodata.ru/dataset/govexp-2015
[2] http://ngodata.ru/dataset/emergency-msk-2004-2013
[3] http://ngodata.ru/dataset/kadryreserv-2012
[4] http://ngodata.ru/dataset/medvedevblog-archive
[5] http://ngodata.ru/dataset/amb-2013-2017
[6] http://ngodata.ru/dataset/govcomm
[7] http://ngodata.ru
[8] http://hubofdata.ru

#opendata #portals #datasets
Как устроено содержание типичного госсайта на примере сайта Россвязи (только что заархивированного в 16GB в сжатом виде и 28GB в распакованном).

Всего 97 тысяч файлов:
- около 40% - это HTML страницы общим объёмом 9.1GB (средний размер веб страницы 236 килобайт)
- более 50% файлов - это изображения в jpeg, объёмом в 9.7GB среднего размера в 186 килобайт.
- большая часть документов в форматах PDF и RTF, 164 Excel файла.
- примерно 16 тысяч веб страниц - это перечень всех таксофонов (совершенная идиотская идея, не понимаю зачем они его так публиковали)
- совсем немного файлов с данными - в форматах JSON, XML, практически ничего
- а вот Excel файлов более чем на 80 мегабайт, могли бы их преобразовать хотя бы в данные, что ли

Если говорить не про историческую, а про практическую ценность веб архивов, то это задачи data discovery, выкачивать всё, а потом автоматически анализировать то какие файлы можно превращать в наборы данных.

#webarchive #archive #datasets
ТАСС пишет что в ближайшие 3 года МВД создаст банк биометрических данных россиян [1]. Этот банк будет входить в ранее анонсированную систему ФИСБУ (Федеральная информационная система биометрических учетов) [2] созданной на базе пилотов системы Безопасный город в г. Москве.

При этом, в последней редакции открытой части плана информатизации МВД сведения об этой информационной системе отсутствуют [3].

Неизвестно будут ли туда вносится биометрические данные всех россиян и въезжающих в страну или же только в рамках существующих учётов.

Пока информации очень мало.

Ссылки:
[1] https://tass.ru/obschestvo/10067035
[2] https://www.vedomosti.ru/society/news/2020/02/24/823676-i
[3] https://мвд.рф/mvd/documents/20120328164545/item/21625373

#mvd #govsystems #gosit
Извините, но это очень смешно. Но не только то что это произошло, а то насколько упала планка в обеспечении безопасности в условиях пандемии.

#security #fun
Могут ли одни органы власти оказывать услуги другим органам власти? В США могут и делают это официально. Система управления сайтами Federalist [1] это продукт General Service Administration в составе Правительства США. В этом продукте любой орган власти или иная государственная структура может создавать неограниченное число сайтов в домене .gov платя всего лишь $24,949 долларов США в год. Очень немного, это около 1.9 миллионов рублей в год.

При этом сайты получают:
- соответствие всем официальным стандартам;
- автоматическое тестирование;
- сертификат HTTPS;
- отличный CDN;
- отсутствие платежей за хранение файлов и трафик.

Сейчас на базе этой системы работают 134 сайта 9 федеральных агентств США.

Ссылки:
[1] https://federalist.18f.gov

#website #digital #usa
Нужна ли возможность в России одним органам власти создавать платные продукты для других органов власти и взимать с них деньги?
anonymous poll

Да, обязательно нужна – 53
👍👍👍👍👍👍👍 31%

Нет, не нужна. Это же перебрасывание денег налогоплательщиков из кармана в карман – 41
👍👍👍👍👍 24%

Они и так оказывают через свои ФГБУ, ФГУПы и подчинённые АО – 35
👍👍👍👍👍 21%

Нечего государству делать в конкурентном коммерческом рынке – 25
👍👍👍 15%

Лучше пусть будет, может хоть клиентоориентированность появится – 16
👍👍 9%

👥 170 people voted so far. Poll closed.
РБК пишут про реформу институтов развития [1] , ликвидацией 8 из них и объединением остальных под ВЭБ.РФ.
Многие из этих институтов развития, действительно, много лет (десятилетие) друг друга дублировали и как они будут существовать теперь внутри ВЭБ.РФ - это интересно.

Ещё интереснее то что ВЭБ превращается в супер-мега госкорпорацию с многократно большими ресурсами, я пока не могу оценить всех изменений которые за этим последуют. Потому что очевидно что некоторые из старых команд институтов развития потеряют работу полностью, другие будут встроены в новую оргмодель. Непонятно какие из этих структур сохранят юрлица и какие нет.

Но вот что могу сказать точно это то что у всех этих институтов развития публиковалось довольно много данных и похоже пора делать архивные слепки их ресурсов. Честно говоря у меня не доходили руки чтобы инвентаризировать хотя бы их домены (а их много), но официальные сайты сохранить нужно как минимум.

Там есть много того что долгосрочно должно было попасть в базу Госрасходов [2], например, компании получившие господдержку и суммы предоставленных субсидий и ещё немало всего (РФРИТ, Фонд содействия инновациям, РНФ и и др.).

Ссылки:
[1] https://www.rbc.ru/ins/society/23/11/2020/5fbb360d9a79474d25c90e85?
[2] https://spending.gov.ru

#preservation #archives #government
Большинство проголосовало за то что официально органы власти должны иметь возможность оказывать услуги другим органам власти или констатировали факт что это и так происходит. И только 38% точно против (25% что это перебрасывание из кармана в карман и 13% тех кто считает что это рынок где не место государству).
Об архивации официальных сайтов и иных цифровых ресурсов институтов развития.
Я подготовил открытый список общедоступных ресурсов [1], там базовые метаданные по каждому сайту и стратегия архивации.

Обратите внимание что:
- есть не только официальные сайты, но и данные публикуемые как API. Стандартный подход к архивации их не возьмёт.
- нужно время чтобы собрать сведения о соцсетях и расставить приоритеты по сбору данных из них: из твиттера просто, из фэйсбука сложно, из Youtube требует очень много места
- сайт Фонда защиты прав участников долевого строительства https://фонд214.рф/ уже недоступен (быстро они)
- не все сайты проектов учтены, нужно их собирать
- учтены некоторые ресурсы в которых текущие институты развития были партнерами и которые могут исчезнуть

Если Вы знаете что-то относящееся к институтам развития:
- что имеет ценность
- может исчезнуть
- не безумно сложно собрать

То пишите мне тут или на [email protected].

Итогом будет коллекция архивов сайтов, данных, публикаций в соцсетях доступных для всех заинтересованных.

Ссылки:
[1] https://docs.google.com/spreadsheets/d/1YIwLeSBJ3WqR4nvsPq50rLkX2Z_4uHpW2q9ni8hw8x0/edit?usp=sharing

#archives #preservation #datasets