Ivan Begtin
8.1K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Что такое институты работы с данными (data institutions) и как они должны развиваться и в чём их роль? Об этом в публикации The Open Data Institute " What are data institutions and why are they important? " [1]

В каком-то смысле этот текст самореклама the ODI поскольку он даёт ответ на вопрос зачем сам ODI нужен, но в нём есть и здравое зерно по созданию того что в России принято называть центрами компетенций (но опять же в России это название стало уже "ругательным").

Текст полезный для понимания будущего регулирования данные в Евросоюзе и Великобритании.

Ссылки:
[1] https://theodi.org/article/what-are-data-institutions-and-why-are-they-important/

#data
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Реестр субсидий закрывается (даже если останется "открытым").

В середине декабря на сайте "Электронного бюджета" был закрыт реестр субсидий и, поскольку мы его скоро потеряем (а также потому что я немного устала отвечать на один и тот же вопрос о доступности данных о субсидиях в проектах "Госрасходы" и "Госзатраты"), вынесу информацию о реестре в отдельный пост.

Для баз данных наших проектов мы используем (использовали) реестр субсидий, который публикуется на портале Электронного бюджета. С середины декабря данный реестр стал недоступен, а с 20-х чисел января интерфейс для просмотра реестра снова открыли, но сам реестр пустой (API по-прежнему закрыт).

Некоторое время назад в канале "Координация профанации" поднимался важный вопрос о доступности в дальнейшем реестра субсидий на сайте Электронного бюджета [1, 2] из-за проекта документа, опубликованного Минфином России [3].

Проект документа вносит изменения в пункт 53 "Порядка ведения реестра соглашений (договоров) о предоставлении субсидий, бюджетных инвестиций, межбюджетных трансфертов, утвержденного приказом Министерства финансов Российской Федерации от 30 июля 2020 г. № 153н [4]".

Проект до сегодняшнего дня находится на стадии общественных обсуждений и, согласно проекта, практически все публиковавшиеся ранее поля реестра будут закрыты.

В открытом доступе останутся:

- сведения о распорядителе бюджетных средств
- вид, реквизиты и срок действия соглашения и решения или правового акта
- размер субсидии, бюджетных инвестиций, межбюджетного трансферта
- код классификации расходов бюджета.

Перестанут публиковаться:

- сведения о получателях (!)
- наименование бюджета, из которого предоставляется субсидия, и наименование бюджета субъекта РФ, которому предоставляется межбюджетный трансферт
- цель, целевое назначение субсидии, бюджетных инвестиций и трансфертов (!)
- плановые значения результатов использования субсидии (!)
- график перечисления субсидии, бюджетных инвестиций, межбюджетных трансфертов
- уникальный код объекта капитального строительства
- сведения о НПА, определяющего правила предоставления субсидий, бюджетных инвестиций, межбюджетных трансфертов
- копии соглашений о предоставлении субсидий (!)
- информация об осуществлении расходов в целях софинансирования
- копия отчетности, предоставленная получателем субсидии и иная отчетность об исполнении соглашения (!)
- информация о перечислении субсидии, межбюджетных инвестиций, межбюджетного трансферта (!).

Фактически период открытости реестра субсидий (как и Минфина России, и Федерального казначейства) закончился. Лучше бы Минфин России и Федеральное казначейство потратили свое время и ресурсы на исполнение текущих обязанностей и документов, а не на создание новых - например, федеральный бюджет до сих пор публикуется с ошибками, а данные по региональным бюджетам в принципе отсутствуют.

[1] https://yangx.top/CynExp/2925
[2] https://yangx.top/CynExp/2926
[3] https://regulation.gov.ru/projects#
[4] http://publication.pravo.gov.ru/Document/View/0001202010220024?index=0&rangeSize=1
Продолжая тему институциональных структур в области данных [1] и того как строится инфраструктура и работают инфраструктурные организации важным моментом является то как именно эти организации работают. Если посмотреть на классификацию data institution от The ODI то выходит что они делятся, по сути, на три направления, иногда пересекающихся. Далее моя интерпретация этой классификации:
- policy-making - вырабатывающие госполитику и рекомендации
- standards and tools - создающие общие стандарты и инструменты
- data infrastructure - общая инфраструктура, каталоги данных, облака и тд.

Обычно проекты/организации не совмещают эти роли, слишком разные знания и опыт для этого нужны, но специализируются на чём-то одном и вступают в союзы и разного рода партнерства.

Здесь особняком стоят инфраструктурные организации в области данных. Их полезность, эффективность, востребованность и устойчивость определяют числом вовлеченных поставщиков данных и участников обмена данными.

Например, успешность проект Humanitarian Data Exchange [2] можно измерить в том что 289 крупных международных и национальных организаций публикуют там данные о природных катастрофах, инфраструктуре и ликвидации последствий катастроф. Что их мотивирует? Целенаправленная политика UN OCHA по предоставлению данных из собственных подразделений, предоставление данных теми кто получает от них финансирование и корпоративная ответственность для крупных транснациональных холдингов вроде Facebook. Иначе говоря внутри три стопа:
- внутренняя мотивация и перестройка процессов
- вовлечение финансируемых организаций
- привлечение и мотивация партнеров

Есть и другие примеры. Например, UK Data Service [3], это инфраструктура научных данных Великобритании является продолжением обязательных научных архивов и для исследовательских центров финансируемых за счёт государства они являются обязательным центром "сдачи данных'.

Ещё один проект, Zenodo [4] - это европейская инициатива от CERN в основе которой европейская политика открытого доступа (open access) и создание инфраструктуры для публикации данных исследователями. Опять же с учётом того что выдача грантов ЕС научным учреждениям требует и учитывает последующее раскрытие ими данных.

А вот инфраструктурные коммерческие проекты делают сильный акцент на удобстве. Проекты вроде data.world или QRI фокусируются на удобстве обмена данными и на возможности их анализировать прямо в портале/каталоге/сервисе данных. И на бесплатности до определенного объёма. Хотя и можно обратить внимание что data.world всё более склоняется в платформу для дата-журналистики и не-научной аналитики, а QRI в инфраструктурный сервис для дата-инженерии, а также ещё есть несколько десятков похожих сервисов.

Особняком стоят проекты вроде Figshare [5] и Mendeley Data [6]. Это коммерческие проекты для публикации данных академическими институтами, но у них freemium модель, с сильным фокусом на потребности исследователей, в поиске данных для цитирования и в доступности их данных для цитируемых другими исследователями.
Что характерно:
- все сервисы научной инфраструктуры данных имеют сильную академическую или некоммерческую аффиляцию, во всех случаях либо от международных организаций с сильной репутацией, или национальных научных фондов, или консорциумов университетов (как поставщиков данных)
- ключевой фактор успеха - наличие возможности экономического и культурного влияния на владельцев данных. Если их нет, то и данные публиковаться не будут
- коммерческие проекты имеют сильный фокус на удобство и масштаб. Они дают удобные интерфейсы, индексируют сотни тысяч наборов данных и так далее
- инфраструктурные организации практически никогда не совмещают свои функции с созданием данных. Иначе говоря, даже если создаётся какой-нибудь центр биоданных при каком-нибудь лидирующем университете в этой области, то всё равно, управление этим биобанком выделяется, или в отдельный инфраструктурный юнит, или, что более вероятно, в отдельную организацию учреждаемую сразу группой таких исследовательских центров.
- отдельная тема - это огромное число отраслевых банков данных и цифровых репозиториев данных в отраслевом разрезе: лингвистика, биология, гидрография. Такие банки данных есть и в России, например, ЕСИМО [7] или УИС Россия [8] и ещё ряд специализированных, чаще непубличных, репозиториев. Некоторые из них можно найти в каталоге re3data [9], хотя и далеко не все, конечно же.

Ссылки:
[1] https://yangx.top/begtin/2513
[2] https://data.humdata.org
[3] https://www.ukdataservice.ac.uk/
[4] https://zenodo.org
[5] https://figshare.com/
[6] https://data.mendeley.com/
[7] http://esimo.ru/portal/
[8] https://uisrussia.msu.ru
[9] https://www.re3data.org/search?query=&countries[]=RUS

#data #datainfrastructure
Данные о 10 миллионах полетах самолётов в 2020 году [1] собраны краудсорсингом через OpenSky Network и публикуются в открытом доступе для анализа последствий COVID-19 [2]. Общий объём данных - 4.6 GB в сжатом виде и 61.4 GB в распакованном виде.

Уже есть примеры визуализации [2], но, несомненно есть те кто придумает новые. Обратите также внимание что в этой версии набора данных у всех самолетов уникальный анонимизированный номер, но, в его предыдущей редакции был номер ICAO24 и хвостовой номер самолёта (если он известен) [3]

Эти данные могут, также, заинтересовать и журналистов расследователей заинтересованных в полетах не только отдельных политиков, олигархов, но и с анализом больших данных.

Ссылки:
[1] https://zenodo.org/record/4419082
[2] https://traffic-viz.github.io/scenarios/covid19.html
[3] https://zenodo.org/record/3928550

#opendata #flights
Прекраснейшая визуализация [1] Codex Atlanticus (Атлантического кодекса) Леонардо Да Винчи [2] из более чем 1119 страниц текста и иллюстраций.

В визуализации все его материалы просистематизированы, классифицированы и разделены по хронологии.

Авторы работы The Visual Agency [3], они же публикуют данные проекта в CSV формате [4]

Проекту уже не меньше 1.5 лет, его авторы получили за него несколько престижных премий.

Лично я отнес бы его, как и многие другие проекты по визуализации, к цифровому культурному наследию. К сожалению, недолговечному, потому что пройдет 5-10 лет, сменятся технологии и не факт что останется и сайт и возможность видеть его теми средствами что мы сейчас используем.

Ссылки:
[1] https://codex-atlanticus.it
[2] https://en.wikipedia.org/wiki/Codex_Atlanticus
[3] https://thevisualagency.com/
[4] https://codex-atlanticus.it/data/Leonardo.csv

#visual #data #opendata #italy
Администрация Байдена опубликовала указ о научной честности [1] где декларируется необходимость применения принципов доказательной политики (от слова policy не politics) при принятии решений. А также в органах власти США появляется новая должность Chief science officer или по русски это "руководитель по науке" / "научный директор".

Фактически это возврат и развитие аналогичных принципов декларировавшихся Бараком Обамой и его указов о scientific integrity. И это, конечно, имеет прямое отношение к открытости науки финансируемой государством и открытости данных которые должны публиковаться по итогам исследований.

Ссылки:
[1] https://www.nextgov.com/analytics-data/2021/01/executive-order-creates-chief-science-officers-federal-agencies/171705/
[2] https://www.whitehouse.gov/briefing-room/presidential-actions/2021/01/27/memorandum-on-restoring-trust-in-government-through-scientific-integrity-and-evidence-based-policymaking/

#opendata #openaccess
В Германии в последние дни активно обсуждается и может быть усилено законодательство в защиту копирайта и могут быть введены фильтры на загрузку контента (upload filters). Об этом пишет Euroactive [1] с акцентом на то что это нарушает обещание правительства Германии 2-х летней давности. Правда, похоже, из-за общественного резонанса рассмотрение этого вопроса в прошедшую среду было отложено.

В любом случае можно наблюдать постепенное усиление правообладателей в давлении на крупнейшие цифровые платформы платформы и их пользователей.

Ссылки:
[1] https://www.euractiv.com/section/copyright/news/leak-german-government-reaches-agreement-on-copyright-law/

#copyright #germany
OpenCitation один из крупнейших инфраструктурных проектов по сбору данных о научном цитировании [1] на декабрь 2020 года включает:
- 60 778 357 библиографических ресурсов;
- 759 516 507 ссылок на цитаты.

Общим объёмом в 3 терабайта данных в форматах N-Triple, Scholix, CSV. [2]

Проект осуществляется при поддержке The Global Sustainability Coalition for Open Science Services (SCOSS) [3], одна из глобальных инициатив по поддержке открытости науки.

Для тех кому сложно развернуть собственную инфраструктуру, в проекте также предусморена доступность всех данных через REST API и SPARQL, а также как связанных данных [4].

В принципе можно обратить внимание что открытых наукометрических баз данных становится всё больше, а также растёт их финансирование и поддержка исследовательскими центрами. Становится интересно когда будет происходить качественных переход одного из таких проектов до уровня конкуренции с коммерческими наукометрическими системами.

Ссылки:
[1] http://opencitations.net
[2] http://opencitations.net/download
[3] https://scoss.org/
[4] http://opencitations.net/querying

#openaccess #opendata #linkeddata
В 2015 году международная НКО Tactical Tech делали проект Trackography [1].
Это большое исследование национальных и местных СМИ на предмет передачи данных в другие страны.

Для этого они сделали робота который обращался к сайтам СМИ по ссылкам и определяли:
- где сайт хостится
- к каким хостам обращался браузер
- какие веб-трекеры установлены

Проекту уже более 6 лет, он минимум лет 5 не обновлялся, в нем охвачены только СМИ и то, по нынешним временам, далеко не самые популярные, но логика, методология и отчасти визуализация актуальны и сейчас.

Например, один из выводов по России
Russia: 77.78% of national media websites have connections which pass through the network infrastructure of the U.S and the UK.

Исходный код проекта и API полностью открыты [3]

Ссылки:
[1] https://trackography.org
[2] https://myshadow.org/trackography
[3] https://github.com/vecna/trackmap

#tracking #privacy #opendata
Этот год начался у всех с рефлексии о том как прошедший год, даже надежда на этот год была весьма скупой, но тем самым почти потерян был жанр прогнозов и предсказаний.

А такие предсказания есть, как минимум в части приватности, открытости и госуправления, да и про другие темы тоже.
Начну с приватности в привязке к нашим темам

Приватность 2021 году

1. Число госприложений в Google Play достигнет 100 за год(+56 к прошлому году)

Большая их часть будет создана региональными властями которые начнут плодить их массового в этом году, по 1-2 на регион. Они будут касаться госуслуг, единых билетов в музеи, доступа к бюджетам, дистанционной работы служащих, городских и областных гидов и так далее. Те кто поумнее будут покупать их на рынке и делать ребрендинг, остальные будут заказывать у системных интеграторов (с ожидаемым качеством). Примерно столько же приложений будет в AppStore

2. Практически все госприложения продолжат нарушать приватность

Они будут включать встроенные трекеры, запрашивать "опасные" разрешения, собирать избыточную информацию. Систематизированного регулирования этой деятельности не возникнет, а вот гражданских опасений будет много и призывов к тому чтобы запретить использовать эти приложения тоже много. Причем это гражданское беспокойство всё более будет выходить за пределы маргинализированных групп,

3. Тема приватности будет политизироваться

Неизбежно в этом году политика и приватность (политика как politics, не policy) проникнет в публичное пространство. Либо госслежка станет предметом общественных расследований, либо проникнет в активную (публичную) политику, в митинги и тд., либо и то и то вместе, но в любом случае ИТ будет продолжать политизироваться в России в ближайший год и далее. Включая обвинения крупнейших ИТ и телекоммуникационных компаний в слежке в пользу гос-ва.

4. Цифровой профиль заработает до конца года

К нему подключатся банки, крупные цифровые платформы и тд. многие будут приобретать банковские и иные лицензии и лоббировать расширение доступак профилю на другие типы компаний. С одной стороны это станет аналогом бюро кредитных историй с возможностью узнать кто получал доступ к твоим данных, с другой стороны - это будет во многих случаях очень забюрократизированным и единственным способом доступа к информации о гражданине. Очень многое будет зависеть от итоговой реализации.

5. Появятся централизованные государственные шлюзы для доступа в Интернет

Это системы централизованной фильтрации контента, через DNS сервера и прокси сервера. Выход из сетей школ, бюджетных учреждений и тд. постепенно будет переводится на работу только через эти шлюзы, вместо локальной фильтрации контента. Постепенно такие шлюзы будут основным способом фильтрафии в Рунете.

#privacy #foresight #prognoz
Дмитрий Медведев говорит в интервью что обособление России от Интернета возможно [1], а центр НАТО CCDCOE в декабрьской публикации Cyber Threats and NATO 2030: Horizon Scanning and Analysis [2] на полном серьёзе рассуждает о рисках для НАТО от такой формы национальной самоизоляции России.

И здесь хотелось бы сказать о том как умеют "петь хором" милитаристы всех мастей, для кого-то "угроза НАТО", для кого-то "Красная угроза", но суть одна, выгодно это только тем кто ничего не понимает в современной экономике, которая и есть цифровая экономика, не в красивых речах, а в фактической форме своего существования.

В целом даже обсуждать это со стороны публичных лиц - это опасный тренд. Если подобное событие реально станет вероятным то большая часть российских "национальных цифровых чемпионов", либо превратятся в тыкву, или де-факто станут государственными (либо жестко подотчетными гос-ву), либо убегут в другие юрисдикии, если успеют.

Ни один из этих сценариев оптимистичным не является.

Ссылки:
[1] https://tass.ru/obschestvo/10587069
[2] https://ccdcoe.org/uploads/2020/12/Cyber-Threats-and-NATO-2030_Horizon-Scanning-and-Analysis.pdf

#foresight #prognoz #runet
Ещё вчера по запросу "приватность госприложений" [1] или "Инфокультура" Яндекс выдавал ссылки на десятки новостей в СМИ, начиная со статьи в РБК, а теперь ни одной новости, ни одного события.
Если это сбой, то он очень похож на цензуру, а если это цензура то она совсем не похожа на сбой.
А я то всё ждал когда цензоры придут по нашу душу.

Или всё таки сбой? Что-то странное в общем, просветите кто знает.

P.S. Те кто мониторят Яндекс говорят мне что это не сбой, по другим запросам всё нормально, то есть цензура?

Ссылки:
[1] https://newssearch.yandex.ru/yandsearch?text=%D0%BF%D1%80%D0%B8%D0%B2%D0%B0%D1%82%D0%BD%D0%BE%D1%81%D1%82%D1%8C+%D0%B3%D0%BE%D1%81%D0%BF%D1%80%D0%B8%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9&rpt=nnews2&grhow=clutop
[2] https://www.rbc.ru/politics/27/01/2021/60115c209a79476980008933

#media
Исследование об исследованиях Systematic Mapping of Open Data Studies: Classification and Trends From a Technological Perspective [1] о том как открытые данные используются в научном сообществе, науке, как сообщества устроены и как ведутся исследования на открытых данных.

Большая работа, значительный акцент на semantic web и других темах связанных с работой с данными.

Вот несколько важных выводов:
1. До 2009 года публикации про открытые данные были незначительны и их рост начался с инициативы Барака Обамы и Open Government Directive.
2. В целом интерес исследователей к теме открытых данных снизился, скорее всего из-за того что тема перестала быть "хайповой", но при этом всё ещё актуальна.
3. Ключевые темы исследований: "software engineering", "government", "semantic web".
4. В исследованиях много тематических пробелов, на которые стоит обратить внимание. Многие темы не раскрыты.

Ссылки:
[1] https://ieeexplore.ieee.org/document/9326343

#opendata #government #ieee #study
Уже почти год Австралийская комиссия по делам конкуренции и потребителей ведет расследование платформ цифровой рекламы и 28 января опубликовали промежуточный отчет [1] с анализом устройства рынка рекламы, какие компании и в каком объёме на нём представлены, как реально устроены процессы размещения и управления рекламой на платформах, у потребителей, в системах подготовки рекламных кампаний и так далее. Это огромный содержательный и подробный отчет на 222 страницы с акцентом австралийский цифровой рынок, но актуально и для других стран, во многих случаях картина идентичная.

Это исследование закончится к августу 2021 года и можно ожидать нового регулирования AdTech индустрии не только в Австралии, но и в мире, поскольку законодатели по всему миру смотрят друг на друга и на то у кого же получится регулировать цифровые корпорации и каким образом.

Ссылки:
[1] https://www.accc.gov.au/system/files/Digital%20Advertising%20Services%20Inquiry%20-%20Interim%20report.pdf

#privacy #dmp #adtech #australia
Solving public problems [1] свежий открытый бесплатный онлайн курс от The Govlab в NYU Tandon School of Engineering. Курс нацелен, в первую очередь, на государственных служащих целью которых является решение общественных проблем современными методами - использованием данных и вовлечением граждан.

Курс основан на свежей книге Solving Public Problems: A Practical Guide to Fix Government and Change the World [2] за авторством Beth Noveck, также посвященной вопросам решения общественных проблем.

Я могу порекомендовать, и курс, и книгу, с тем что тут важно помнить что этот курс и книга про технологии и их применение, созданы без учёта национальных особенностей или законодательных ограничений в разных странах, таких как Россия.

Ссылки:
[1] https://engineering.nyu.edu/news/governance-lab-launches-online-course-innovation-social-good
[2] https://solvingpublicproblems.org/book.html

#governance #thegovlab #courses
Digital Services Act [1] [2] законопроект внесённый в Европарламент 15 декабря 2020 года по новому регулирует отношения стран Евросоюза и цифрового рынка. Прочитать его стоит всем кто оказывает онлайн услуги для жителей Евросоюза или оказывается в юрисдикции Евросоюза.

Для тех у кого нет времени читать документ целиком, сейчас доступна презентация с семинара который Еврокомиссия проводила для балканских стран [3]

Ключевое в нем:
1. Платформы обязаны сообщать правоохранителям о нелегальной активности пользователей, нелегальность регулируется национальным законодательством стран ЕС.
2. У каждой организации регулируемой DSA должен быть юридический представитель в ЕС (не путайте с представительством компании). Регулирование как и GDPR становится экстерриториальным
3. Объём регулирования пропорционален размеру компании
4. Вводится понятие "очень больших платформ" и большой объём отчетности и требований по прозрачности который эти платформы должны соблюдать.
5. При нарушении наказание может составить штраф до 6% оборота.

Бизнес активно против, например, можно почитать позицию Developers Alliance, ассоциации разработчиков ПО [3] где они против регулирования как DSA, так и другого законопроекта, DMA, даже сильнее регулирующего цифровой бизнес.

Я бы обратил особое внимание на определение "очень больших платформ" подвергающихся особому регулированию
‘Value set at 10% of the EU population (45 mil.), as a proxy value for the significant, systemic role and potential impact of such services.

Речь, конечно же, в первую очередь про Google, Facebook, Apple, Twitter и др.

Если говорить про компании значимые в России то вопрос в том подпадут ли под это регулирование Яндекс и Mail.ru как "очень большие платформы" или только как "онлайн платформы" (тогда поменьше отчетности, но тоже есть)?

В любом случае после принятия DSA российские платформы где есть пользователи из Евросоюза должны будут соответствовать этому регулированию и возникнет ситуация неравенства когда граждане евросоюза в "российских платформах" будут иметь больше прав чем граждане России.

Ссылки:
[1] https://en.wikipedia.org/wiki/Digital_Services_Act
[2] https://ec.europa.eu/digital-single-market/en/digital-services-act-package
[3] https://www.euractiv.com/wp-content/uploads/sites/2/2021/02/05_TAIEX-DSA.pdf
[4] https://static1.squarespace.com/static/53864718e4b07a1635424cdd/t/5f9c392507d2aa5b3e812459/1604073766050/Developers+Alliance+Standpoints+On+The+Digital+Services+Act+And+The+Digital+Markets+Act+Next.pdf

#privacy #eu #regulation #digitalmarket