Ivan Begtin
8.1K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Очень интересный проект ВкусыРоссии [1] с продуктами уникальных вкусов по российским регионам. Я так много лет думал делать его самому, а тут бабах и узнаю что его сделали!

Ну, почти сделали. Сейчас это рейтинг в котором можно голосовать, ему не хватает навигации не только по регионам, но и по типу вкуса, жирности, типу еды (сыры, соки, сладкое) и ещё нужна карта передвижения гастротуриста, виртуальная (по интернет магазинам) и реальная по кафе и ресторанам.

В целом и частом проект прекрасный, даже несмотря на то что он не про данные. И как я понимаю делают его при поддержке Минсельхоза РФ, странно что не Ростуризма.

Ссылки:
[1] https://вкусыроссии.рф/

#food #food #food
То о чём я совсем недавно писал про новые мобильные приложения Москвы теперь в новостях официальных
Новость на сайте С.С. Собянина Электронный дом. Новый этап развития жилищного самоуправления [1] как раз про то мобильное приложение о котором я недавно писал [2]

С точки зрения сервиса для граждан, конечно, очень удобно (теоретически, посмотрим как там заработает в итоге).

А вот с точки зрения конкуренции и приватности, ну прям слов нет.
Можно ведь было обязать управляющие компании и ТСЖ выбрать сервисы с рынка по конкурсу (да, на рынке решения есть или моментально бы появились), а вместо этого прямая трата бюджетных денег и махровейший патернализм.

Каждый раз когда видишь это напрашивается вопрос. Ну зачем? И в "лучшем" (в кавычках - лучшем) случае случае - это "освоение бюджетных средств"), а в худшем осознанная политика контроля над всеми данными собираемыми в городе. А данных в таких системах будет много, очень много, а как по ним можно скоринг потом проводить - просто идеальный источник данных для банков и тд. И для социальных рейтингов, кстати, тоже.

Ссылки:
[1] https://www.sobyanin.ru/elektronnyi-dom-novyi-etap
[2] https://yangx.top/begtin/2261

#privacy #moscow
Свежий проект от Google Labs под названием Tree Canopy (Кроны деревьев) [1] где с помощью аэрофотосъемки определяется каждое дерево и районы измеряются по проценту покрытия кронами деревьев.

Хороший пример интеграции открытых данных, спутникового мониторинга и алгоритмов для создания гиперлокальных данных по качеству жизни.
Ссылки:
[1] https://insights.sustainability.google/labs/treecanopy

#opendata #localdata
С начала пандемии орган высшего аудита США (U.S. Government Accountability Office) опубликовали 208 отчетов, рекомендаций и исследований по теме COVID-19 [1].

Например, из отчета COVID-19 Contracting. Observations on Federal Contracting in Response to the Pandemic [2] можно узнать что к середине июня власти США потратили 17.8 миллиардов долларов США на борьбу с пандемией, если измерять в рублях то это чуть менее 1,4 триллона рублей.

Из этих средств 11 миллиардов долларов было потрачено на закупку товаров (вентиляторы, маски, лекарства и тд.). А также 9.4 миллиарда долларов были потрачены без конкурентных процедур.

Ссылки:
[1] https://www.gao.gov/coronavirus/newest_covid-related_reports
[2] https://www.gao.gov/products/GAO-20-632

#audit #opendata #opengov #covid19 #spending
Сегодня после расформирования Роспечати и Россвязи сразу несколько журналистов мне позвонило и спросило про судьбу Минцифры, не будет ли оно усилено. Я честно, говоря, не понимаю зачем об этом спрашивать меня, я не так много знаю про Минцифру, если честно. Вот если бы ДИТ Москвы расформировывали, была бы куда более интересная новость, ну а Роспечать и Россвязь да и ещё многие органы власти - это скорее персонифицированные артефакты, чем полноценные институциональные регуляторы.

Но вот никто не спросил меня про да и не пишет, а что будет со всем тем цифровым барахлом ценными цифровыми материалами что на сайтах Роспечати и Россвязи накоплены?

Я занимаюсь тем что сохраняю их сайты. В чём их особенность?
1. У обоих ведомств практически нет информационных систем (нет в открытом доступе)
2. И там и там основные каналы коммуникации - это сайты.
3. По сайтам обоих ведомств их судьба непонятна. В России только ЦБ сохраняет все архивы, а ФОИВы в этом не преуспели.

Только два сайта rossvyaz.gov.ru и fapmc.gov.ru займут не меньше 20 ГБ в сжатом виде и около 30-35 ГБ в распакованном, в основном из-за большого числа PDF документов.

Их судьба остаться на нашем Национальном цифровом архиве [1] и если вскоре они исчезнут, то Вы всегда знаете где найти оттуда информацию.

P.S. Надо отдать должное и сказать что приятно что Минцифры - это не МВД. Когда передавали полномочия ФМС и ФСКН в МВД, то их сайты исчезли одномоментно с официальным опубликованием решения. Вжух и нету!


Ссылки:
[1] http://ruarxive.org

#webarchive #ruarxive #archival
Собрать данные легко, ты попробуй их опиши (с)

Я как-то писал что данных у нашей команды и меня лично за эти годы накопилось столько что я сам не знаю даже сколько, точно много. Большая часть этих данных - это, или большие базы данных собранные в открытых источниках, или архивные данные собираемые начиная с 2005 года.

Данные чаще всего в CSV, XML, JSON форматах и дампах баз данных.

Но руки постепенно доходят, свежие датасеты о старом:
- Состав экспертного совета при Правительстве РФ на сентябрь 2015 года [1]. Может быть интересно всем изучающим госуправление и лоббизм.
- Ежесуточные времянные ряды по выездам скорой помощи в Москве с 2004 по 2013 годы [2]. Может быть интересно для сравнительной оценки смертности и заболеваемости в ретроспективе.
- Состав кадрового резерва при Президенте РФ в 2012 году [3]. Может быть интересно всем изучающим госуправление
- Данные на основе архива блога Дмитрия Медведева с 2008 по 2011 годы [4]. Включает статистику и первичные данные постов и комментариев. Может быть интересно всем кто изучает госуправление, обучает алгоритмы анализу жалоб и тд.
- Списки послов РФ за 2013 и 2017 годы [5] Может быть интересно всем изучающим гендерную политику МИД РФ, госуправление и внешнюю политику России
- Составы комиссий и советов при Правительстве РФ и Президенте РФ за 2019-2020 годы [6]. Все изменения за этой время. Может быть интересно всем кто изучает госуправление и лоббизм

Данные все лежат на портале данных НКО (Инфокультура - НКО), это один из 2-х общественных порталов открытых данных ngodata.ru [7] относительно новый и ориентированный на публикацию НКО результатов их деятельности. В случае Инфокультуры - это открытые данные идущих проектов и архивные данные.

И второй, старый портал, Хаб открытых данных [8] честно говоря заброшенный слегка. Не обновлённый и пока не понятно что с ним делать, у него, увы, нет сейчас "владельца продукта" и он остаётся как архив.

Дальше будут и новые наборы данных. Самое сложное, всегда их документировать. Это сложно делегировать когда знание осталось только у тебя в голове или когда все данные разноформатные и с разными метаданными.

Ссылки:
[1] http://ngodata.ru/dataset/govexp-2015
[2] http://ngodata.ru/dataset/emergency-msk-2004-2013
[3] http://ngodata.ru/dataset/kadryreserv-2012
[4] http://ngodata.ru/dataset/medvedevblog-archive
[5] http://ngodata.ru/dataset/amb-2013-2017
[6] http://ngodata.ru/dataset/govcomm
[7] http://ngodata.ru
[8] http://hubofdata.ru

#opendata #portals #datasets
Как устроено содержание типичного госсайта на примере сайта Россвязи (только что заархивированного в 16GB в сжатом виде и 28GB в распакованном).

Всего 97 тысяч файлов:
- около 40% - это HTML страницы общим объёмом 9.1GB (средний размер веб страницы 236 килобайт)
- более 50% файлов - это изображения в jpeg, объёмом в 9.7GB среднего размера в 186 килобайт.
- большая часть документов в форматах PDF и RTF, 164 Excel файла.
- примерно 16 тысяч веб страниц - это перечень всех таксофонов (совершенная идиотская идея, не понимаю зачем они его так публиковали)
- совсем немного файлов с данными - в форматах JSON, XML, практически ничего
- а вот Excel файлов более чем на 80 мегабайт, могли бы их преобразовать хотя бы в данные, что ли

Если говорить не про историческую, а про практическую ценность веб архивов, то это задачи data discovery, выкачивать всё, а потом автоматически анализировать то какие файлы можно превращать в наборы данных.

#webarchive #archive #datasets
ТАСС пишет что в ближайшие 3 года МВД создаст банк биометрических данных россиян [1]. Этот банк будет входить в ранее анонсированную систему ФИСБУ (Федеральная информационная система биометрических учетов) [2] созданной на базе пилотов системы Безопасный город в г. Москве.

При этом, в последней редакции открытой части плана информатизации МВД сведения об этой информационной системе отсутствуют [3].

Неизвестно будут ли туда вносится биометрические данные всех россиян и въезжающих в страну или же только в рамках существующих учётов.

Пока информации очень мало.

Ссылки:
[1] https://tass.ru/obschestvo/10067035
[2] https://www.vedomosti.ru/society/news/2020/02/24/823676-i
[3] https://мвд.рф/mvd/documents/20120328164545/item/21625373

#mvd #govsystems #gosit
Извините, но это очень смешно. Но не только то что это произошло, а то насколько упала планка в обеспечении безопасности в условиях пандемии.

#security #fun
Могут ли одни органы власти оказывать услуги другим органам власти? В США могут и делают это официально. Система управления сайтами Federalist [1] это продукт General Service Administration в составе Правительства США. В этом продукте любой орган власти или иная государственная структура может создавать неограниченное число сайтов в домене .gov платя всего лишь $24,949 долларов США в год. Очень немного, это около 1.9 миллионов рублей в год.

При этом сайты получают:
- соответствие всем официальным стандартам;
- автоматическое тестирование;
- сертификат HTTPS;
- отличный CDN;
- отсутствие платежей за хранение файлов и трафик.

Сейчас на базе этой системы работают 134 сайта 9 федеральных агентств США.

Ссылки:
[1] https://federalist.18f.gov

#website #digital #usa
Нужна ли возможность в России одним органам власти создавать платные продукты для других органов власти и взимать с них деньги?
anonymous poll

Да, обязательно нужна – 53
👍👍👍👍👍👍👍 31%

Нет, не нужна. Это же перебрасывание денег налогоплательщиков из кармана в карман – 41
👍👍👍👍👍 24%

Они и так оказывают через свои ФГБУ, ФГУПы и подчинённые АО – 35
👍👍👍👍👍 21%

Нечего государству делать в конкурентном коммерческом рынке – 25
👍👍👍 15%

Лучше пусть будет, может хоть клиентоориентированность появится – 16
👍👍 9%

👥 170 people voted so far. Poll closed.
РБК пишут про реформу институтов развития [1] , ликвидацией 8 из них и объединением остальных под ВЭБ.РФ.
Многие из этих институтов развития, действительно, много лет (десятилетие) друг друга дублировали и как они будут существовать теперь внутри ВЭБ.РФ - это интересно.

Ещё интереснее то что ВЭБ превращается в супер-мега госкорпорацию с многократно большими ресурсами, я пока не могу оценить всех изменений которые за этим последуют. Потому что очевидно что некоторые из старых команд институтов развития потеряют работу полностью, другие будут встроены в новую оргмодель. Непонятно какие из этих структур сохранят юрлица и какие нет.

Но вот что могу сказать точно это то что у всех этих институтов развития публиковалось довольно много данных и похоже пора делать архивные слепки их ресурсов. Честно говоря у меня не доходили руки чтобы инвентаризировать хотя бы их домены (а их много), но официальные сайты сохранить нужно как минимум.

Там есть много того что долгосрочно должно было попасть в базу Госрасходов [2], например, компании получившие господдержку и суммы предоставленных субсидий и ещё немало всего (РФРИТ, Фонд содействия инновациям, РНФ и и др.).

Ссылки:
[1] https://www.rbc.ru/ins/society/23/11/2020/5fbb360d9a79474d25c90e85?
[2] https://spending.gov.ru

#preservation #archives #government
Большинство проголосовало за то что официально органы власти должны иметь возможность оказывать услуги другим органам власти или констатировали факт что это и так происходит. И только 38% точно против (25% что это перебрасывание из кармана в карман и 13% тех кто считает что это рынок где не место государству).
Об архивации официальных сайтов и иных цифровых ресурсов институтов развития.
Я подготовил открытый список общедоступных ресурсов [1], там базовые метаданные по каждому сайту и стратегия архивации.

Обратите внимание что:
- есть не только официальные сайты, но и данные публикуемые как API. Стандартный подход к архивации их не возьмёт.
- нужно время чтобы собрать сведения о соцсетях и расставить приоритеты по сбору данных из них: из твиттера просто, из фэйсбука сложно, из Youtube требует очень много места
- сайт Фонда защиты прав участников долевого строительства https://фонд214.рф/ уже недоступен (быстро они)
- не все сайты проектов учтены, нужно их собирать
- учтены некоторые ресурсы в которых текущие институты развития были партнерами и которые могут исчезнуть

Если Вы знаете что-то относящееся к институтам развития:
- что имеет ценность
- может исчезнуть
- не безумно сложно собрать

То пишите мне тут или на [email protected].

Итогом будет коллекция архивов сайтов, данных, публикаций в соцсетях доступных для всех заинтересованных.

Ссылки:
[1] https://docs.google.com/spreadsheets/d/1YIwLeSBJ3WqR4nvsPq50rLkX2Z_4uHpW2q9ni8hw8x0/edit?usp=sharing

#archives #preservation #datasets
Вышло Постановление Правительства Российской Федерации от 18.11.2020 № 1867 по предустановке отечественного софта [1].

Я лично не считаю эту затею сколь бы то ни было хорошей, но неизбежной. Проблема в том что это не решит ни проблемы монополий в цифре, ни снизит слежку зарубежными компаниями.

Достаточно вспомнить о том что браузер Chrome лидирует у потребителей несмотря на то что он не предустановлен на десктопах или то что многое из того что планируется предустанавливать никогда ранее не предустанавливалось производителями.

Ключевой вопрос в том можно ли будет удалять это ПО. Потому что некоторые вендоры давно уже играют в неудаляемые приложения.

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202011230051?index=15&rangeSize=1

#government #it
Просто в качестве регулярного напоминания. ОАО "Большая российская энциклопедия" [1] получило субсидию федерального бюджета на 684 миллиона рублей [2] на создание и функционирование общенационального интерактивного энциклопедического портала.

Задача, несомненно, общественно полезная, значимая и важная, особенно если она хорошо сделана, материалы опубликованы под свободными лицензиями, есть данные и API и так далее

Только вот с 2015 года организация получатель субсидии не публикует на своём сайте финансовую отчетность, списки аффилированных лиц, изменения в уставе и состав совета директоров [3], а с 2017 года не публикует ту же информацию и в системе "Прайм Раскрытие" где сведения публиковались ранее [4].

Учитывая что данное ОАО потратило менее 100 миллионов за 2020 год на контракты с подрядчиками [5] (название подрядчиков более не раскрываются из-за изменений в 223-ФЗ), а число его сотрудников составляет лишь 30 человек (по данным ФНС на конце 2019 года) возникают вопросы

1. Где энциклопедический портал?
2. Кто ответственнен за то что ОАО принадлежащее Росимуществу (Правительству РФ) не выполняет требования законодательства по раскрытию информации?
2. Куда деньги то ушли и идут?

Кстати, в связи с ликвидацией Роспечати разбираться с этим теперь Минцифре России.

Очень хочу пожелать им в этом удачи;)

Ссылки:
[1] https://greatbook.ru
[2] https://spending.gov.ru/subsidies/subsidies_list/13520P0S000/
[3] https://greatbook.ru/oao-info.html
[4] https://disclosure.1prime.ru/Portal/Default.aspx?emId=7709654510
[5] https://spending.gov.ru/goscontracts/contracts/?customerinn=7709654510&customerkpp=770901001&sort=-signDate

#spending #encyclopedia #bigenc #digital
По поводу актуальных историй про то что Московское правительство создаёт очередную систему слежки за горожанами, МВД создаёт базу биометрических паспортов и нового приложения Минкомсвязи "Стопкоронавирус контакты" мне есть много что сказать, но я что-то так много и так часто комментировал это журналистам последнюю неделю и даже, перекрестившись, ходил на передачу на НТВ в качестве одного из экспертов за что меня уже троллят все коллеги что это видели.

Я сформулирую тезисно и сразу с нескольких точек зрения которые мне удаётся пока что удерживать одновременно в моей голове.

Общественная позиция
1. Новые инструменты слежки за гражданами неподотчетны, непрозрачны, неизмеримы поскольку закрыты и не предусматривают прав граждан на запрет слежки за собой. Да и даже на то чтобы узнать что о тебе собрано.
2. Сейчас отсутствуют публичные инструменты противодействия таким инициативам, они не согласуются с законодательными властями или же законодательные власти не прислушиваются к опасениям граждан.
3. Вместо регулирования big tech органы власти воспроизводят их худшие практики и сами пытаются стать цифровыми монополиями.

Государственная позиция
1. Создание информационных систем одними органами власти усиливает их в отношении других и создает возможности для злоупотреблений. Злоупотребления могут пресекаться ведением цифрового надзора за создаваемыми информационными системами.
2. Такой надзор должны осуществлять, и Роскомнадзор и Роспотребнадзор, которые активно проверяют коммерческие компании и почти полностью игнорируют государственные организации и органы власти.
3. Это также требует введение цифровой повестки в деятельность этих надзорных органов поскольку сейчас они всё ещё мыслят категориями физических объектов.
4. Основной надзор за государственными структурами в России осуществляют органы прокуратуры. Без возможности технической и кадровой по надзору за цифровой повесткой: информационными системами, мобильными приложениями и тд. нарушения там продолжаться.

Взгляд со стороны бизнеса
1. Практически все эти инициативы технологические, но происходят неконкурентным образом.
2. Бизнес давно имеет платформы для отслеживания потребителей с гораздо более серьёзным и широким охватом устройств/людей.
3. Бизнес хотя бы _пытается_ саморегулироваться и реагирует или понимает что будет реагировать в ближайшее время на запрос на этическое использование данных со стороны граждан.

#privacy #surveillance
Я продолжу цикл про государственные информационные системы о которых мало кто знает, несмотря на наличие там вполне полезных данных.

- ЕСИМО [1] Единая государственная система информации об обстановке в мировом океане. Разработана Минэкономразвития, участвуют в ней более десятка органов власти. Включает базу более чем 3300 показателей/наборов данных/цифровых материалов. Можно сказать что это был один из первых порталов данных.
- СГРИР «Автоматизированная информационная система государственной регистрации информационных ресурсов» [2] по логике своего существования должна была включить все сведения о базах данных (информационных ресурсах) регистрируемых государством, по факту это каталоги электронных изданий
- ГАС Управления, документы стратегического планирования в рамках [3] мало кому известных за пределами ряда органов власти реестр документов стратегического планирования. Для тех кто изучает работу муниципальных образований там есть немало интересного.

Ссылки:
[1] http://esimo.ru
[2] http://catalog.inforeg.ru/
[3] https://gasu.gov.ru/stratdocuments

#data #government #gis
Оказывается ещё в сентябре Bloomberg расширили их платформу альтернативных данных [1] и добавили туда предложения от 60 провайдеров данных [2] включая данные по отслеживанию судов, передаче нефти, цепочках поставок и так далее, ещё довольно много всего. Это чем-то напоминает ранее купленную Nasdaq платформу Quandl [3] чуть ли не главным достоинством которой было как раз огромное число источников альтернативных данных.

При этом модель, что Quandl, что сервиса альтернативных данных Bloomberg, что, например, маркетплейса данных внутри Factset [4] показывают что бизнес модель маркетплейса данных работает когда есть большой пул потребителей которые докупают их в добавление к основному продукту, по крайней мере в той части которая касается данных для анализа рынка, оценки компаний и их показателей.

Ссылки:
[1] https://www.tradersmagazine.com/am/bloomberg-expands-alt-data-offering/
[2] https://www.bloomberg.com/professional/product/alternative-data/
[3] https://www.quandl.com/
[4] https://www.factset.com/marketplace

#alternativedata
В Бразилии утечка данных о 16 миллионах пациентах с COVID-19 [1] причём не через взлом, а "криворукость" сотрудника госпиталя в Сан-Пауло. Затронуло президента страны и 17 губернаторов.

А в Intertrust выпустили отчёт о безопасности приложений используемых для слежки при COVID-19, у 85% есть риски утечки данных [2].

Не болейте, болезнь создает новые риски слежки.

Ссылки:
[1] https://www.zdnet.com/article/personal-data-of-16-million-brazilian-covid-19-patients-exposed-online/
[2] https://www.intertrust.com/news/intertrust-releases-2020-security-report-on-global-mhealth-app-threats/

#privacy #covid19