Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Комментировать совсем не хочется, хочется задаться одним лишь вопросом - а откуда таки эта утечка?
Forwarded from in2security
Очередная крупная утечка персональных данных россиян.

На популярном англоязычном теневом форуме выставили на продажу персональные данные более 23 миллионов жителей Москвы и Московской области. База данных фонда обязательного медицинского страхования, содержащая ФИО, дату рождения, пол, регион проживания, регион страхования, номер и дату выдачи полиса ОМС, а также другие сведения, предлагается всем желающим всего за 990 долларов США. Согласно данным продавца, источником утечки является: ffoms.gov.ru.

Размещенный в открытом доступе образец продаваемых данных содержит сведения о 100 тысячах москвичей и жителях МО.
@In4security
Дайджест материалов про открытые данные и проекты на данных в мире:
- data.ed.gov [1] - портал открытых данных в сфере образования в США, включая данные по каждому колледжу, статистику и результаты мониторинга. Всего 226 наборов данных.
- неравенство чистого воздуха [2] публикация в Нью-Йорк таймс о разнице в загрязненности воздуха у двух детей в Индии: из бедной семьи и зажиточной. Очень наглядно и хорошо сделано
- визуализация контрактов на расходы при COVID-19 в Великобритании [3]
- реформа госконтрактации в Великобритании [4] в стороны большей открытости и простоты

Ссылки:
[1] https://data.ed.gov/
[2] https://www.nytimes.com/interactive/2020/12/17/world/asia/india-pollution-inequality.html
[3] https://www.nytimes.com/interactive/2020/12/17/world/europe/britain-covid-contracts.html
[4] https://www.gov.uk/government/news/new-plans-set-out-to-transform-procurement-providing-more-value-for-money-and-benefitting-small-business

#opendata #finances #government
Свежий текст в рассылке: #10. Инвентаризация государственных ИТ ресурсов

Инвентаризация чего-бы то ни было чем занимается государство во всей его совокупности органов власти, учреждений и иных организаций - это само по себе большая работа. Часто сопряженная с наказанием виновных и невиновных в отсутствии искомого.

12 декабря Правительством Михаила Мишустина была анонсирована большая инвентаризация ИТ систем в ведении органов власти. Это большая задача, скорее нужная и важная, чем бесполезная. В каком-то смысле запоздалая, но это претензия к предыдущему Правительству Д. Медведева. А вот сроки этой инвентаризации обозначены крайне жесткие, до 31 марта 2021 года необходимо проинвентаризировать практически все ИТ ресурсы ФОИВов. Сроки, скажу честно почти невыполнимые, но, в любом случае, надо смотреть на результаты.

Я ранее немного рассказывал про инвентаризацию государственных доменов, а сейчас настала пора поговорить об инвентаризации ИТ в государстве более серьёзно. В каких-то вопросах я буду излагать начиная с самых азов, для погружения в контекст ситуации и, по возможности, простыми словами.

Подробнее [1]

P.S. Несмотря на длинный текст он получился неполным и в ближайшие месяцы я ещё не раз вернусь к этой теме.

Ссылки:
[1] https://begtin.substack.com/p/10-

#it #inventory #data
15 декабря вышло Постановление Правительства №2109 [1] О Правительственной комиссии, уполномоченной на принятие решения об аккредитации удостоверяющих центров.

Те кто лучше погружён в эту тему, я уверен, лучше меня прокомментируют о том что это означает для рынка, регулирования в целом и так далее, а я обращу Ваше внимание на следующий абзац:

Предельное количество членов Правительственной комиссии составляет 22 человека, в том числе7 уполномоченных представителей автономной некоммерческой организации, на которую в соответствии с решением Правительства Российской Федерации возложены функции по мониторингу развития цифровой экономики и цифровых технологий и формированию прогнозов развития цифровой экономики и цифровых технологий

Что это за организация догадаться несложно, другой вопрос прецедента модели формирования Правительственных комиссий. Не решением внутри Аппарата Правительства, а на уровне НКО с частичным (или уже полным?) государственным участием и частичным корпоративным участием. Как я помню у других, более "ассоциативных" объединений предпринимателей, вроде РСПП или ТПП РФ, никогда таких полномочий не было.

Ссылки:
[1] http://government.ru/news/41147/#

#government #regulation
Вышел доклад Мирового банка об улучшении работы государств в части эффективности и прозрачности и борьбе с коррупцией
Enhancing Government Effectiveness and Transparency : The Fight Against Corruption [1]. Вернее вышел он ещё в октябре 2020 года, а я о нём пишу только сейчас.

Обширный и интересный документ с большим числом примеров, всячески рекомендую. Открытые данные там упоминаются регулярно во множестве проектов, а вот Россия лишь единожды, как Russian Laundromat. Что тут сказать, видимо в России с антикоррупционными практиками куда хуже чем с коррупционными.

Ссылки:
[1] https://documents.worldbank.org/en/publication/documents-reports/documentdetail/235541600116631094/enhancing-government-effectiveness-and-transparency-the-fight-against-corruption

#opendata #wb #russia #anticorruption
Свежая публикация об открытых данных в России в сборнике Open Government Data in Russia [1] за авторством Ольги Пархимович (@ahminfin). Много хороших примеров и изложение того что с открытыми государственными данными в России

Ссылки:
[1] https://link.springer.com/chapter/10.1007/978-3-030-42855-6_22

#opendata #opengov
Стартап Anomalo [1] специализируется на автоматизации проверки качества данных, как автоматически, так и через специально подготовленные правила проверки данных. Главный акцент в проверке и документировании данных без написания кода. Сам продукт пока недоступен, есть только скриншоты и анонсы в блоге. А также новость от 17 декабря о получении стартапом первых инвестиций в $5.95 миллионов [2].

Ключевое ноу-хау - это искусственный интеллект пишущий правила для проверки данных.

Подобный проект пока ещё маловероятен в России, слишком немногие компании держат данные в облачных базах данных, сама идея и направления реализации интересны.

Ссылки:
[1] https://www.anomalo.com/
[2] https://news.crunchbase.com/news/anomalo-raises-5-95m-to-validate-data/

#data #dataquality
Московское правительство модернизирует мобильное приложение "Доносчик Помощник Москвы" и за 76.8 миллионов рублей победитель тендера ООО "Программный продукт" доработают его для возможности следить не только за нарушителями парковки, но и за больными коронавирусом, о чём пишет Коммерсант в выпуске N231 [1]. Изначально приложение было разработано в ЦОДД Москвы, а теперь, по всей видимости, и функции ЦОДД расширяются для подобной слежки.

Для поощрения наиболее бдительных доносчиков помощников будет доработана система баллов и возможность обмена баллов на рюкзаки, футболки, кепки.

P.S. Тот редкий случай когда мне сложно сдержать если не эмоции, то иронию, когда изначально разумные идеи цифровизации вырождаются в инструменты слежки, социальной разобщённости и конфликтов. А что будет когда если база этих добровольных помощников утечёт из ЦОДД? Они возьмут на себя ответственность за последующий самосуд?

Ссылки:
[1] https://www.kommersant.ru/doc/4615863

#privacy #security #informers
В сегодняшнем анонсе Павла Дурова о монетизации Телеграм [1], ожидаемый выход его платформы на конкуренцию со Slack за корпоративных пользователей. Хочется надеяться что стоимость аккаунтов в Slack снизится и он начнёт, наконец-то, развиваться.

Поэтому новость позитивная, вполне логичная модель развития для популярного мессенжера с огромным числом ботов и лояльной аудитории. Остаётся вопрос "легализации в России", потому что чем легальнее, тем больше нормативно-правового давления.

Ссылки:
[1] https://yangx.top/durov_russia/29

#telegram #russia
Для тех кто помнит про сервис Keybase.io, его в мае 2020 года купил Zoom [1] и с той поры не понятно будет ли Keybase как-то развиваться, будет ли он в Zoom интегрирован или команда Keybase теперь занята основном продуктом Zoom. Поэтому осталось немало тревоги у сообщества и для тех кто особенно тревожен, появился новый проект Cyph [2] позиционирующий себя как альтернатива Keybase.

Плюсы:
- простая миграция, рассылают приглашения уже зарегистрированным в Keybase
- воспроизведение ключевых функций Keybase: мессенжера, заметок и хранения файлов

Минусы:
- юридическое лицо в штате Вирджиния (State of VA) и, как следствие, настоящих криптопанков это отпугнёт
- устойчивого финансирования пока нет. Есть инвестиции в $1 миллион [3] и некая бизнес модель через платные аккаунты.

Предварительный вывод: интересно понаблюдать и тестировать, но пока не для активного использования

Ссылки:
[1] https://keybase.io/blog/keybase-joins-zoom
[2] http://cyph.com
[3] https://www.crunchbase.com/organization/cyph

#privacy #crypto
Data trusts in Germany and under the GDPR [1] публикация Anouk Ruhaak из Algorithm Watch о том как устроено регулирование через альтернативные модели управления данными под названием "трасты данных" (data trusts). Трасты данных - это специальные организации уполномоченные правительством или пользователями на доверительное хранение и предоставление данных по запросу. В Австралии, к примеру, под data trust понимается предоставление государством доступа к данным которые обычно недоступны, а в контексте GDPR это модель когда Ваши данные хранятся не в дата-корпорации, а в специальной организации посреднике. Кстати, отечественную модель цифрового профиля можно отнести к таким трастам данных, только в данном случае он под контролем государства/ЦБ.

А в данном случае короткая записка на 19 страниц качественного исследования и рекомендаций по корректировке госполитики в Германии. Для России интересно тем что в Германии не общее, а континентальное право и больше вероятности что на него будут смотреть будущие регуляторы/законотворцы.

Ссылки:
[1] https://algorithmwatch.org/wp-content/uploads/2020/12/Data-trusts-in-Germany-and-under-the-GDPR-Anouk-Ruhaak-AlgorithmWatch-2020.pdf

#privacy #data #germany
Хорошая новость что на сайте Минцифры начал обновляться реестр аккредитованных ИТ компаний [1] - за что им спасибо.

И не такая хорошая новость в том что реестр отечественного ПО и реестр заявок на регистрацию не публикуется как открытые данные и по сей день.

Поскольку реестр заявок изначально полнее чем реестр ПО, там и включенные и не включенные заявления, то по ссылке [2] можно скачать его с нашего портала открытых данных в форматах BSON или JSON lines.
В обычный эксель это не загрузишь, у одной заявки может быть более одного заявителя, так что используйте специальное ПО и загружайте данные, например, в MongoDB. Для всех кто хочет вручную или автоматически проанализировать зарегистрированное, поискать аномалии и тд. - это самое то.

Ну а на десерт дамп организаций зарегистрированных на портале Душевная Москва [3] который ведёт Комитет общественных связей Москвы. С их описанием, сайтами, контактами и тд. Мы это уже загружали и далее добавляем в наш общественный проект Открытые НКО [4] где можно работать с данными некоммерческих организаций, а заодно и каждый желающий может поработать с этими данными отдельно в этом дампе.


Ссылки:
[1] https://digital.gov.ru/opendata/7710474375-registergosaccred/
[2] https://ngodata.ru/dataset/reestrporeq
[3] https://ngodata.ru/dataset/dushmosorgs
[4] http://openngo.ru

#opendata #ngo #reestrpo #digital
На сайте Международного бюджетного партнерства (International Budget Partnership) появился набор данных из 171 некоммерческой организации занятых темой налогового равенства [1].
Никого из России там, ожидаемо, нет.

Сама инициатива налогового равенства инициирована IBP ещё в апреле 2020 года [2], с оглядкой на то насколько справедлива государственная налоговая политика в рамках COVID-19.

Ссылки:
[1] https://www.internationalbudget.org/dataset-for-global-scan-of-civil-society-work-on-taxation/
[2] https://www.internationalbudget.org/wp-content/uploads/tax-equity-initiative-strategy-note-april-2020.pdf

#opengov #budgets
Для тех кто одновременно является исследователем и работает в НКО - @infoculture Информационная культура проводит конкурс "Исследователь" - https://ngo-research.ru/contest. Конкурс идёт до конца февраля, времени ещё много.

А я напомню что портал Данные НКО - http://ngodata.ru - это один из порталов данных созданных Инфокультурой для публикации открытых данных. Например, многочисленные наборы данных самой НКО опубликованы там на странице организации http://ngodata.ru/organization/infoculture.

Например, я туда регулярно выкладываю данные из собственных архивов и относящиеся к некоммерческой деятельности и сектору НКО в частности, а из нескольких проектов АНО Инфокультура туда данные выгружаются автоматически, например, из проекта Открытые НКО http://ngodata.ru/dataset/ngo-dumps или данные субсидий из проекта Госзатраты http://ngodata.ru/dataset/subs-dumps

Возвращаясь к конкурсу исследований - если есть идеи, предложения и варианты партнерства, пишите на [email protected]

#opendata #opengov #ngo #contests
Forwarded from Инфокультура
Приглашаем некоммерческие организации к участию в первом независимом конкурсе «Исследователь», организованном Информационной культурой при поддержке Фонда президентских грантов.

Работа некоммерческих организаций сложная и многогранная — она связана с необходимостью искать оптимальные решения в условиях ограниченных ресурсов. Для получения данных о социальных проблемах НКО зачастую проводят собственные исследования. Это позволяет сделать деятельность организации более выверенной, четко направленной и эффективной.

Информационная культура считает, что данные и другие информационные материалы, производимые НКО, опубликованные в открытом доступе, помогают в распространении общественно-полезной информации и способствуют информационному сотрудничеству между некоммерческими организациями, донорами и исследовательскими центрами.

Чтобы привлечь широкое внимание к результатам исследований НКО и полученным выводам, Инфокультура проводит конкурс «Исследователь».

Принять участие в нем могут российские некоммерческие организации, проводившие исследования в период с января 2017 по ноябрь 2020 года.
Конкурс проходит с 25 декабря по 25 февраля. Сбор заявок продлится до 31 января.

Победители конкурса получат возможность поработать под руководством профессионалов над результатами своего исследования с использованием современных аналитических и цифровых методов — разработать медиапроект, создать инфографику, визуализацию, интерактивный отчет и проч.

Подать заявку: https://ngo-research.ru/contest.
О разных подходах к цифровой архивации.

Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам как внутри СП РФ (госзакупки, госфинансы и др.) так и в общественном пространстве (НКО, архивы, каталоги данных и тд). Но конкретно архивы много лет были моим хобби, наконец-то хочется дать этому хобби институциональную опору.

Постепенно я буду буду больше и чаще писать про цифровую архивацию, тема плохо развита у нас в стране, а потребность в ней всё выше. При этом во всем мире с ней довольно много проблем именно в последние годы


Например, очень многие сведения, данные, документы, ресурсы не поддаются классической веб-архивации. Они либо концентрируются в конкретных платформах со своими ограничениями для краулеров, либо закрыты через технологии вроде Ajax, каптчу и ещё многими разными способами.

Вот пример того что не поддается классической веб-архивации:
- социальные сети (Facebook, VK, Odnoklassniki, Twitter, Instagram)
- файловые хранилища: Yandex.Disk, Google Drive,
- мессенжеры (публичные каналы и чаты): Telegram, Viber, WhatsApp и др.
- видео и аудиохостинги: Youtube, Vimeo, Soundcloud и др. (самый тяжёлый контент)
- мобильные приложения: Google Store, AppStore и др.
- порталы данных: на базе CKAN, DKAN, JKAN, OpenDataSoft и других.
и, в целом, с каждым годом такого всё больше.

Как с этим бороться?
Нужны специальные программы сбора данных с конкретных платформ, но платформы этому активно мешают. Instagram и Twitter ужесточают требования на доступ к API, Facebook изначально ничего не отдаёт, меняются требования по доступу к другим ресурсам.

Есть коммерческие решения по сбору данных с платформ, но очень дорогие. Есть некоммерческие, но далеко не все и не все актуально работающие.

Как делать такие программы?
Развилки и возможности таковы:
1. Делать своими силами, привлечь 1-2 программистов и работа по ТЗ
2. Разместить задачи на сайтах для фрилансеров, опять же надо подготовить ТЗ.
3. Устроить конкурс для разработчиков с денежными призами
4. "Вписаться в большую движуху" вроде Google Summer of Code и дать туда свои задачи по цифровой архивации
5. Придумать способ договариваться с платформами чтобы они давали возможность получать экспорт данных наиболее значимых ресурсов хранимых у них?


#archives #digitalpreservation #webarchive
В регионах проблема с доступностью открытых данных даже хуже чем на федеральном уровне. Ну а проблема всё та же, на открытые данные все в субъектах федерации "забили" сразу после окончания срока президентства Дмитрия Медведева, да и до этого, двигалось всё очень тяжело.

Но хорошо что есть издания, НКО и просто активные люди кто обращает на это внимание и хорошо что, всё же, есть и те госорганы которые понимают что открытость - это нормально и, более того, можно использовать в своей работе чтобы привлекать ИТ сообщества к решению общих проблем.

Но вот город Владимир отличился, создать раздел открытые данные и не обновлять его 8 лет.

#opendata #opengov
Forwarded from ПроВладимир (Kirill)
На сайте администрации Владимирской области есть раздел «Открытые данные». Последнее обновление в нем − от 2012 года. Другого Big Data у них нет ни для внешнего пользования, ни для внутреннего.

Издатель ПроВладимира Алексей Шляпужников на экспертном совете в РАНХиГС затронул проблему использования современных технологий анализа данных, точнее, ее неиспользования администрацией Владимирской области.

«Система сбора анализа данных, которые сегодня работают в регионе, они не связаны друг с другом. Чуть ли не каждый департамент использует свою собственную систему, свой набор данных, который не линкуется. Из этого, конечно, происходит тот самый (недавно, то ли придумано, то ли вспомнено Медведевым) разнотык. И, конечно, Владимирская область, к моему величайшему сожалению, выглядит столицей разнотыка».

https://provladimir.ru/2020/12/24/aleksej-shljapuzhnikov-likero-vodochnyj-magazin-luchshe-znaet-svoego-pokupatelja-chem-administracija-vladimirskoj-oblasti-zhitelej/
Я за этот год очень много чего плохого (недоброжелательного) написал про Мэрию Москвы, особенно в части работы с данными, но это не значит что "всё плохо". Есть и то за что можно и нужно хвалить. Например, Главархив Москвы разместил у себя на сайте все церковные метрические книги [1] с 1726 года по 1932 год. Об этом есть новость на сайте Мэрии Москвы [2] и обещают в следующем году оцифровать ревизские сказки - переписи населения того времени.

В следующем году мы будем перезапускать наш проект Национального цифрового архива [3] и запускать его подпроекты и эти книги мы также обязательно будем интегрировать в наш архив.

В любом случае - это новость Мэрии Здорового Человека, хорошо что такая оцифровка идёт, хорошо что такие материалы доступны.

Ссылки:
[1] https://cgamos.ru/metric-books/
[2] https://www.mos.ru/news/item/84607073/
[3] http://ruarxive.org

#archives #digitalpreservation #moscow