Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
Для тех кто ищет открытые данные и побольше, новые наборы данных большого объёма, большая часть про нормативные документы, основной продукт государственных органов.

- Метаданные нормативно-правовых документов с сайта publication.pravo.gov.ru [1] - 580 тысяч документов, с идентификаторами документа на pravo.gov.ru для последующей выгрузки
- Нормативные документы подписанные Президентом РФ [2] - 44 тысячи НПА подписанных Президентом РФ с сайта kremlin.ru и их полные тексты с pravo.gov.ru
- Документы стратегического планирования [3] - метаданные документов стратегического планирования из ГАС Управление. Более 68 тысяч документов , более 3ГБ метаданных. Через какое-то время там же появится ссылка на дамп копии всех документов
- Нормативно-правовые документы города Москвы на сентябрь 2020 года [4] - 39 тысяч документов НПА от Мэрии Москвы со всеми текстами и опубликованными документами. Ссылка на архив в 96Gb
- Метаданные всех официальных документов на сайте Мэрии Москвы [5] - метаданные более чем 238 тысяч документов опубликованных на сайте www.mos.ru включая НПА, письма, рекомендации и иные официально опубликованные документы

А также дополнительно:
- база организаций в подчинении Мэрии Москвы с сайта мэрии mos.ru [6] (более 2700 организаций)
- обработанные данные отчётов по переписи населения 2002 года [7]
- архивные данные по получателям президентских грантов за 2013 год [8] (до появления фонда президентских грантов)

Ссылки:
[1] https://ngodata.ru/dataset/ppgrmeta2020
[2] https://ngodata.ru/dataset/kremlinlaws
[3] https://ngodata.ru/dataset/gasustratdocs
[4] https://ngodata.ru/dataset/mosnormdocs
[5] https://ngodata.ru/dataset/mosdocs
[6] https://ngodata.ru/dataset/mosorgs
[7] https://ngodata.ru/dataset/refined-perepis-2002
[8] https://ngodata.ru/dataset/prgrants2013

#datasets #data
December 5, 2020
December 6, 2020
Выходные лучшее время разбирать архивы данных.

Очередная подборка наборов данных из архивов:
- Архив аккаунтов органов власти в Twitter [1] 76 официальных аккаунтов органов власти в Twitter на сентябрь 2019 года. Собраны с помощью twint для Национального цифрового архива России (НЦАР)
- Архивы сайтов и Twitter'ов кандидатов Президенты РФ выборов 2018 года [2] Архив твиттера Ксения Собчак, Григория Явлинского, Алексея Навального и остальных кандидатов в Президенты РФ, а также архивы всех сайтов всех кандидатов в Президенты РФ на выборах 2018 года. Общий объём 8.5ГБ в сжатом виде
- Подсети Интернета относящиеся к Российской Федерации [3], а также дополнительная информация по подсетям: префиксы, связанные сети, пиры и так далее на 9 сентября 2019 года.

Я чувствую скоро надо будет завести рубрику ежедневные датасеты:)

Ссылки:
[1] http://ngodata.ru/dataset/govtwitters
[2] http://ngodata.ru/dataset/prescamp2018
[3] http://ngodata.ru/dataset/rusasn

#datasets #data #opendata
December 6, 2020
Тем временем исследователи, активисты и ещё многие подписывают письмо о том что все данные о вакцинах от COVID-19 должны быть открыты и прозрачны [1]. Инициаторы письма The GovLab и Federation of American Scientists.

Ранее об этом же писали The Washington Post [2] то что требованием для всех вакцин должна быть полная открытость данных о проведении испытаний.

Необходимо ли аналогичное требование в России? Я считаю что безусловно необходимо. Но пока есть проблемы даже с тем чтобы получить просто достоверные данные по заболеваемости и смертности, об этом мы говорили на секции про открытые данные при COVID-19 в России на ОГФ [3]

Ссылки:
[1] https://openvaccines.thegovlab.org/
[2] https://www.washingtonpost.com/opinions/2020/12/04/fda-should-condition-any-vaccine-approval-open-trial-data/
[3] https://www.youtube.com/watch?v=W9HP2e2knog

#opendata #covid19 #data
December 6, 2020
Я тут планировал написать про великое сожаление от того что в России всё таки активно движется эта тема с предустановкой отечественного ПО на смартфоны. По последним новостям Минцифры [1] ставить будут приложения Яндекса, Mail.ru и Касперского, Госуслуги и МИР как минимум.

Да, крупные экосистемные дата-корпорации те ещё монополисты, да, есть много фактов и свидетельств их манипуляции вендорами, поисковой выдачей в их магазинах приложений и ещё много чего про них можно сказать. Но проблема в том что с момента решения о предустановке, не пользователь, а государство в лице Минцифры РФ принимает решение за потребителя о том что тот должен иметь на своём устройстве. Это как если бы государство решало за гражданина что он должен носить, какую мебель использовать и что читать (одну такую страну многие из нас всё ещё помнят).

История про импортозамещение - она вообще не про граждан. Госполитика в пользу граждан - это демонополизация через выбор, выбор поисковой системы, картографического приложения и других сервисов. Такая модель регулирования применяется в Евросоюзе.

А когда решение о выборе за гражданина принимает государство, то если устройство потребителя не потянет весь этот "ворох отечественного ПО", то и виновато в этом будет Минцифры РФ, а не Яндекс или Mail.ru
При этом и отечественные производители ПО много лукавят. Когда им надо, у них российская юрисдикция, когда не надо швейцарская [2]. У многих отечественных ИТ компаний вот уже много лет стратегия "в разных театрах - разные роли" и я скорее понимаю патовость всей ситуации в которой они находятся, не имея возможности полностью избежать плохого регулирования,
и это совсем не в адрес Минцифры, они пытаются извлечь максимум выгоды при плохой игре. Но это игра неконкурентная, про то как помочь отечественным монополиям против международных монополий, малый и средний бизнес идет побоку.

Вся эта история с предустановкой отечественного ПО становится хуже на фоне того что сейчас происходит в Казахстане с государственным перехватом доступа к сайтам социальных сетей через навязывание пользователям государственного сертификата [3] в рамках "киберучений".

Такой сертификат установленный на пользовательское устройство позволяет реализовывать атаку MITM (Атака посредника) [4] и позволяет органам госбезопасности перехватывать трафик по протоколу HTTPS.

Можем ли мы быть уверены что подобное не начнет происходить в России?

Ссылки:
[1] https://digital.gov.ru/ru/events/40238/
[2] https://yangx.top/begtin/2312
[3] https://www.zdnet.com/article/kazakhstan-government-is-intercepting-https-traffic-in-its-capital/
[4] https://ru.wikipedia.org/wiki/%D0%90%D1%82%D0%B0%D0%BA%D0%B0_%D0%BF%D0%BE%D1%81%D1%80%D0%B5%D0%B4%D0%BD%D0%B8%D0%BA%D0%B0

#privacy
December 7, 2020
В блоге Евгения Яна хороший обзор платформ обнаружения данных (data discovery platforms) [1]. Их сейчас появилось много, в основном с открытым кодом и почти все от ведущих цифровых компаний. Nemo от Facebook, DataBook от Uber, DataHub от LinkedIn. Существуют и сильные внутрикорпоративные продукты, но ценник на них такой что вот эти проекты с открытым кодом особенно интересны.

Важная их особенность в том что они нужны уже зрелым организациям внутри которых есть несколько команд data science и проблемы с находимостью внутренних данных.

Но все такие корпоративные каталоги данных и платформы обнаружения данных - это уже зрелые продукты для зрелой систематизации данных и организации работы с ними.

Ссылки:
[1] https://eugeneyan.com/writing/data-discovery-platforms/

#data
December 8, 2020
December 8, 2020
December 8, 2020
Для тех кто ищет открытые данные данные для работы и не только, свежие датасет:
- Компании победители и участники конкурсов Фонда содействия инновациям - 5147 записей [1]
- Реестр производственных субъектов малого и среднего предпринимательства - потенциальных поставщиков крупнейших заказчиков - 31296 записей [2]

Оба набора данных собраны в рамках архивационной кампании по сохранению цифровых материалов институтов развития.
Следующим шагом будет полный архив сайтов этих организаций.

Со временем они будут интегрированы в такие проекты как Госрасходы [3], для учета всех расходов органов власти и государства в целом.

Ссылки:
[1] https://ngodata.ru/dataset/fasie-orgs
[2] https://ngodata.ru/dataset/reestrmp
[3] https://spending.gov.ru

#data #opendata #archives
December 8, 2020
December 8, 2020
Forwarded from Майский указ
December 8, 2020
В США опубликовали официальные данные по загрузке больниц во время эпидемии COVID-19 [1] с гранулярностью до каждой больницы и по неделям начиная с 31 июля 2020 года.

Также можно обратить внимание что на этом же портале HealthData.gov раскрывается 188 наборов данных связанных с COVID-19 [2] и 4634 по системе здравоохранения в целом [3], причём не менее половины данных поступает из систем здравоохранения отдельных штатов, а сам портал создан U.S. Department of Health которые также ведут HHS Protect Public Data Hub [4] где публикуются дашборды статистики, но сами данные, обязательно, публикуются на HealthData.gov, а уже оттуда транслируются на другие официальные государственные ресурсы.

Ссылки:
[1] https://healthdata.gov/dataset/covid-19-reported-patient-impact-and-hospital-capacity-facility
[2] https://healthdata.gov/search/type/dataset?query=covid-19&sort_by=changed&sort_order=DESC
[3] https://healthdata.gov/search/type/dataset
[4] https://protect-public.hhs.gov/

#opendata #data #covid19 #usa #health
December 9, 2020
Публикация данных о COVID-19 во Франции - 77 баз данных и 121 пример их использования в открытых проектах [1] на официальном портале data.gouv.fr.

Что дополнительно стоит отметить про французский опыт в открытых данных:
- их портал data.gouv.fr работает на их ПО udata [2] с открытым кодом, используется, похоже, мало где за пределами Франции
- у них опубликовано более 2447 примеров использования открытых данных [3], включая: 1132 визуализации, 667 приложений, 278 публикаций в блогах, 168 статей в СМИ и 131 API https://github.com/opendatateam/udata/
- всего 65 тысяч пользователей, 35 тысяч наборов данных с 195 тысячами ресурсов (файлов, ссылок и тд). [4]

Ссылки:
[1] https://www.data.gouv.fr/fr/search/?tag=covid19
[2] https://github.com/opendatateam/udata/
[3] https://www.data.gouv.fr/fr/reuses/
[4] https://www.data.gouv.fr/fr/dashboard/

#france #opendata
December 9, 2020
2020_Minsport_reg_survey.pdf
6.3 MB
December 9, 2020
December 9, 2020
Forwarded from Baza
December 9, 2020
December 9, 2020
Forwarded from addmeto (Grigory Bakunov)
Каждый раз радуюсь, когда появляются новые массивные датасеты в каких-то бытовых областях. Как вам такое: огромный неплохо структурированный набор из более 2 миллионов рецептов, в машинно-читаемом формате. Прямо готовая база для создания ИИ-шефповара, можно создавать совершенно новые но при этом относительно сьедобные блюда.

Чем больше датасетов в бытовых областях, тем меньше "вау" и больше бытового использования уже давно неплохо работающей системы генерации новых обьектов на базе старых. https://github.com/Glorf/recipenlg
December 9, 2020
December 9, 2020
December 9, 2020