Ivan Begtin

Подборка полезного чтения:
- обзор работы с ФИАС на Хабре - одна из крупных баз данных раскрываемых ФНС. Работать с ней непросто, статья полезная
- расследование о том как некоторые УЦ выдают подложные сертификаты и там же в канале у автора рекомендации как действовать если Вы с таким столкнулись
- группа по надзору за таксономиями (Taxonomy Oversight Group) появилась при агентстве по стандартизации данных в UK. В тексте подробности о том чем она занимается
- ведомственная стратегия работы с данными от HM Courts & Tribunal Service (Службы судов и трибунала) Великобритании. Хороший пример высокоуровневого документа

#opendata #privacy #texts #reading

Хабр

Парсим ГАР БД ФИАС в удобный формат в питоне. Бесплатно, без регистрации и СМС

Если вам зачем-то понадобилась полная адресная база России, то самый простой и дешевый способ ее заполучить — это скачать на сайте налоговой . Да, вот так вот просто все. Ну почти. Да, это полная...

1.3K viewsIvan Begtin, 09:13

Ivan Begtin

Для тех кто интересуется контекстом возросшего внимания к открытому коду в России, могу порекомендовать полезное чтение в виде обзора группы MERICS (Mercator Institute for China Studies) от мая 2021 года. Там неплохой анализ того что сейчас происходит в Китае и про разницу в подходе с другими странами.

Ключевое - в Китае провели несколько исследований и, вообще, "разгонялись медленно" и очень чёткий акцент на замену конкретных продуктов на национальные аналоги (тоже с открытым кодом).

А также рекомендую почитать CAICT Open Source White Paper.

У Китая своя большая стратегия в итоге и её надо изучать и оценивать применимость к России.

#opensource #opengovernment #opengov #china

1.2K viewsIvan Begtin, 09:39

Ivan Begtin

Полезная июльская статья о внутреннем устройстве архитектуры работы с данными LinkedIn [1] и свежая статья о том как как они перестраивают аналитические дашборды внутри [2]. И то, и то, читать весьма интересно. Почти весь стек данных у них основан на относительно ограниченном наборе данных, около 1400+ датасетов и команде в более чем 900+ человек. А всё построено поверх экосистемы Hadoop с множеством собственных надстроек, большая часть которых с открытым кодом. Меня зацепило что они отказываются от Avro и CSV в сторону формата Apache Orc [3], а не Parquet или других форматов. И конечно, в очередной раз убеждаюсь, что стэки данных больших дата проектов бывают очень сложными. В схемах LinkedIn также видно как они отказываются от проприетарного ПО в сторону своего и внешнего открытого кода.

Ссылки:
[1] https://engineering.linkedin.com/blog/2021/from-daily-dashboards-to-enterprise-grade-data-pipelines
[2] https://engineering.linkedin.com/blog/2021/evolving-linkedin-s-analytics-tech-stack
[3] https://orc.apache.org/

#dataarchitecture #data #datastack #linkedin

From daily dashboards to enterprise grade data pipelines

Within a matter of hours of each day beginning, we ingest tens of billions of records from online sources to HDFS, aggregated across 50+ offline data flows, and visualize 40+ metrics across our business lines to support a dashboard providing company leaders…

1.3K viewsIvan Begtin, 11:39

Ivan Begtin

Для тех кто считает что открытые государственные данные - это атрибут исключительно развитых демократических стран и развивающихся стран которым развитые оказывают поддержку, могу сказать что это совершенно не так.

В качестве примера портал открытых данных Саудовской Аравии [1], а также методический раздел на государственном сайте страны [2].

В Саудовской Аравии опубликовано в открытом доступе 6000+ наборов данных, а также предоставляются API, в том числе, предоставляющие данные в реальном времени.

Кроме Саудовской Аравии порталы открытых данных есть в таких не-демократических странах как Оман, ОАЭ, Бахрейн, Китай и множестве других. Потому что открытость данных - это характеристика _действующего_ государства, они необходимы как часть коммуникации с бизнесом и с критически мыслящими гражданами, в том числе, для демонстрации того что чиновникам нечего от них скрывать.

Ссылки:
[1] https://data.gov.sa/en/home
[2] https://www.my.gov.sa/wps/portal/snp/eParticipation/openData#header2_6

#opendata #democracy

www.my.gov.sa

Open Government Data in Saudi Arabia

In this section, you will understand the concept of open data, its policies, laws and advantages, including its nine principles and the general rules for open data. This section will also highlight each individual’s right to access and use the Open Government…

2.0K viewsIvan Begtin, 13:02

Ivan Begtin

Крупное публичное акционерное общество чьи акции торгуются на ММВБ и с немалой капитализацией, которое я называть не буду, публикует паспортные данные членов совета директоров в отчетных материалах общих собраний акционеров на своём сайте для инвесторов.

Почему они это делают? Потому что не вычищают их из итоговых документов согласий кандидатов в советы директоров. А там для россиян указаны паспорта, для иностранцев ничего такого нет.

Почему об этом мало кто знает? Потому что файлы выкладывают в виде сканов в PDF внутри ZIP архивов.

А Вы думаете как находят личные данные уважаемых людей? Вот так и находят.

Причиной этого всего является абсолютно идиотская российская юридическая практика вписывать паспортные данные в любой юридически значимый подписываемый документ.

#privacy #personaldata

2.0K viewsIvan Begtin, 16:51

Ivan Begtin

Тим Дэвис, консультант Open Data Institute, и довольно хорошо известный эксперт в открытых данных опубликовал серию заметок о порталах (открытых) данных [1]. Тем кто хочет разбираться в этой теме - всячески рекомендую, он описывает если не все, то многие аспекты их работы.

Он упоминает многие продукты в каталогов такие как CKAN, DKAN, OpenDataSoft, Jupyter, Socrata, Knoema и ещё немало. А также многие исследования порталов открытых данных, например, за время COVID-19, то как на них публиковались данные о коронавирусе. Это, кстати, лучшая метрика понимания насколько живой/мертвый портал данных у страны/территории. Если данные о коронавирусе публикуются - то точно живой, а если нет, то есть сомнения.

Чего в заметках нет или мало - это обзора открытости данных в контексте открытости науки и цифровых научных репозиториев данных и того какие инновации происходят сейчас в экосистеме продуктов относящихся к Modern Data Stack (data engineering, data science) и тд.

А я напомню что каталогов данных в мире много. Есть несколько каталогов каталогов данных, их перечней. Самый большой и не очень точный - opendatainception.io [2] от Open Data Soft. Там более 2600 источников, но некоторые из них не каталоги, а просто разделы на сайтах с минимум данных. Значительно меньше datacatalogs.org [3] от Open Knowledge Foundation, там 592 каталога данных.

А также напомню про каталог данных Инфокультуры datacatalogs.ru [4] где собрано около 250 каталогов и репозиториев данных в России и о России.

Ссылки:
[1] https://dataportals.pubpub.org
[2] https://opendatainception.io
[3] http://datacatalogs.org
[4] https://www.datacatalogs.ru

#opendata #datacatalogs

Open Data Inception

Open Data Inception - A List of 2600+ Open Data Portals in the World

For all Open Data geeks out there, we set up a comprehensive list of all open data portals around the world. Check it out!

1.4K viewsIvan Begtin, 07:27

Ivan Begtin

Forwarded from Инфокультура

В каталог каталогов открытых данных добавлен репозиторий открытых данных по русской литературе и фольклору Института русской литературы (Пушкинский дом) РАН.

В общей сложности каталог включает 255 каталогов данных, преимущественно открытых и общедоступных данных.

Если Вы знаете источник данных который отсутствует в каталоге присылайте его нам на [email protected] или через форму добавления на сайте.

1.3K viewsIvan Begtin, 09:46

Ivan Begtin

Cogram [1] ассистент программирования для задач машинного обучения. Интегрируется с Python и помогает в работе с SQL. Переводит тексты на ясном английском языке в программные директивы.

Выглядит недорого, $29 в месяц за профессиональную версию и бесплатно для личного пользования. А перспективы хорошие. Так и хочется сказать что первое что делают разработчики и инженеры инструментов на базе ИИ - это лишать работы других разработчиков и инженеров ИИ;)

Ссылки:
[1] https://www.cogram.com

#machinelerning #datascience

Cogram

Cogram - The AI Platform for Architects, Builders, and Engineers

From AI-assisted bidding and automatic meeting minutes to field reports and risk insights, Cogram keeps your projects on schedule, on budget, and out of disputes.

1.5K viewsIvan Begtin, 11:45

Ivan Begtin

Я регулярно слышу аргументы и утверждения в стиле "за нами и так всё следят, так чего боятся?" или
"из Интернета всё равно уже ничего не удалить" и тому подобное.

Вся это логика в стиле "всё равно ты когда-нибудь подскользнёшься и упадёшь, так ничего страшного если ты упадёшь и сейчас" или в стиле "тебя же уже били 20 человек, тебе что жалко ещё кто-то ещё побьёт?".

Добровольная беспомощность и обыденность зла. Вот что это такое.

1.4K viewsIvan Begtin, 13:21

Ivan Begtin

Я несколько раз писал ранее о executable papers [1] [2], когда научные статьи готовятся сразу в виде кода в Jupyter Notebook и аналогах, предоставляя возможность простой и быстрой воспроизводимости и прозрачности исследования и его результатов.

Этот подход, executable papers, в принципе шире. Например, ещё один сервис Stencila [3] позиционируется создателями как Executable document pipelines. Он всё ещё скорее про executable papers, с акцентом на научное применение, но, тем не менее научная среда далеко не единственная область где подобное применимо. Напримео, идея executable documents вполне транслируема на техническую документацию или на аналитические отчеты или на корпоративную отчетность и ещё много на что. При наличии фантазии можно транслировать на нормативные документы для моделирования структуры и последствий изменений или на аудиторские отчеты или на государственные доклады или на отчеты перед инвесторами - пространство для полета мыслей есть.

Я не единственный кто думаю об этом, вот тут есть рассуждения нескольких авторов на близкие темы о executable software documentation [4] [5].

В каком-то смысле, например, Observable [6] это тоже про executable, только executable visualization. Но важно то что во всех случаях, в каждом из примеров, документ- это больше чем текст. Это ретроспектива, логика, воспроизводимость и код отражением которого является уже сформированный текст.

Пока же всё идет к тому что будущее научных публикаций именно за подобными executable papers и в каких-то науках, таких как как науки о жизни, инженерные науки или в компьютерной лингвистике они станут (а может уже становятся?) стандартом де-факто.

Ссылки:
[1] https://yangx.top/begtin/2147
[2] https://yangx.top/begtin/2607
[3] https://stenci.la/
[4] https://apiumacademy.com/blog/executable-documentation-benefits/
[5] https://craignicol.wordpress.com/2020/09/04/cloud-thinking-executable-documentation/
[6] https://observablehq.com/

#papers #science #executablepapers #data #opensource

Ivan Begtin

В Nature статья о переосмыслении научных статей, и перевод их в формат "исполняемых статей" (executable papers) [1] идея в том что электронная научная публикация должна иметь формат аналогичный цифровым записным книжкам таким как Jupyter Notebook или Wolfram…

1.7K viewsIvan Begtin, 18:33

Ivan Begtin

Forwarded from Tech Talk

Мессенджер Signal выпустил обновление, в котором максимальное количество участников групповых аудио- и видеозвонков увеличено с пяти до 40.

В анонсе разработчики подробно описывают, как им удалось запилить поддержку групповых звонков с большим количеством участников и сквозным шифрованием одновременно. Говорят, что решали интересную проблему:

• Если все участники шлют свое аудио и видео каждому другому участнику по отдельности и так же получают (full mesh), то сквозное шифрование есть, но многим участникам будет не хватать пропускной способности - в звонке на 40 человек надо поддерживать 39 соединений.
• Если каждый участник шлет свое аудио и видео на сервер, а сервер "микширует" из этого единственный аудио и видео поток для каждого другого участника, то пропускной способности участникам будет хватать, но нельзя сделать сквозное шифрование - серверу нужны расшифрованные аудио- и видеопотоки каждого участника для микширования.
• Поэтому пришлось выбирать третий вариант: selective forwarding, когда каждый участник шлет свои аудио и видео на сервер, а сервер пересылает их остальным, не расшифровывая (потому что ключей шифрования у него нет). В результате команда Signal выбрала самостоятельно написать такой сервер и выложила код на GitHub.

Signal все-таки молодцы, они очень подробно объясняют, как у них что устроено. В подобных решениях как раз момент со сквозным шифрованием групповых звонков часто остается неясным.

https://signal.org/blog/how-to-build-encrypted-group-calls/

1.4K viewsIvan Begtin, 08:13

Ivan Begtin

В рубрике больших наборов данных архив Github в некоммерческом проекте Github Archive[1]. Ежедневно, ежечасно там собирается слепок данных о 20+ событиях по репозиториям в Github. Я писал о нём ранее и всегда актуально напомнить о нём потому что данные из этого архива присутствуют уже на нескольких крупных платформах.

Их слепок на декабрь 2020 года есть на Clickhouse [2] (проект Яндекса) и с ними можно работать онлайн через веб интерфейс [3] или API. Там же у них есть есть полный слепок этих данных в виде архива на 83GB, хороший тестовый набор живых данных для тех кто хочет работать с Clickhouse с большим статическим объёмом данных.

Доступ к данным из этого архива есть и через Google BigQuery [4], он появился ещ в 2016 году если не раньше, но, судя по описанию в каталоге BigQuery не обновлялся с 2019 года. Интересно обновляется ли набор Яндекса? Кстати, надо бы проверить.

Всё это возможно потому что Github предоставляет открытое API для доступа к данным. Его я использовал когда-то для анализа открытого кода органов власти [5]. Я этот анализ в первый раз проводил 5 лет назад и повторял потом несколько раз, но со временем делать несколько сотен тысяч запросов к API для получения статистики стало утомительно и планировал перейти на работу через API поверх GH архива, но для этого нужно чтобы данные там были актуальны.

А также не могу не напомнить презентацию исследователей [6] ещё с 2012 года о том как можно анализировать данные Github'а для расчёта разных метрик в привязке к языкам разработки, лицензиям, организациям и тд.

А также напомню что в России немного государственного кода на Github есть в репозитории [7] который я давно поддерживаю.

Ссылки:
[1] https://gharchive.org
[2] https://ghe.clickhouse.tech/
[3] https://gh-api.clickhouse.tech/play?user=play
[4] https://console.cloud.google.com/bigquery?p=bigquery-public-data&d=github_repos&page=dataset&project=test1-162811
[5] https://data.world/ibegtin/open-source-government-project
[6] https://www.igvita.com/slides/2012/bigquery-github-strata.pdf
[7] https://github.com/infoculture/awesome-gov-opensource-russia

#opensource #opendata #openapi #datasets

www.gharchive.org

GH Archive

GH Archive is a project to record the public GitHub timeline, archive it, and make it easily accessible for further analysis.

1.6K viewsIvan Begtin, 08:52

Ivan Begtin

МИД России обновил свой сайт [1] перенеся его с платформы Liferay на Bitrix и сломав вообще все ссылки на своём сайте. Если поискать в Гугле документы на сайте МИД через "site:www.mid.ru" и перейти по любой ссылке то будет выводится ошибка 404.

Неприятный нюанс - это не исправить потому что такое проектируют на ранней стадии переноса веб сайта с одной платформы на другую.

Обычно, даже органы власти, в таких случаях оставляют старую версию и в МИД могли бы сохранить old.mid.ru к примеру. Что не исправило бы проблемы с поисковиками, но хотя бы не привело к потери всех ссылок на весь контент.

Я смотрю сейчас архивы сайтов и обнаружил что именно сайт МИД мы не архивировали года 4 исходя из завидной его стабильности, он не попадал в списки deathwatch (кандидатов на исчезновение), но вот такая вот неприятность произошла. Что не может не печалить, если честно. Надеюсь они догадаются создать old.mid.ru пока не поздно.

Ссылки:
[1] https://www.mid.ru

#webarchives #archives #government

1.9K viewsIvan Begtin, 18:43

Ivan Begtin

В Амстердаме власти города ввели требование по обязательной регистрации всех сенсоров [1]. Сенсоры выводятся в специальном реестре на карте города [2]. Кроме камер реестр включает сенсоры качества воздуха, мониторинга звука и транспортных потоков.

Сейчас в реестре сенсоров только сенсоры органов власти города, остальные владельцы под угрозой штрафа должны внести сведения до 1 июня 2022 года.

Ссылки:
[1] https://cities-today.com/amsterdam-introduces-mandatory-register-for-sensors/
[2] https://sensorenregister.amsterdam.nl/

#opendata #registers #privacy #sensors #regulation

2.7K viewsIvan Begtin, 11:31

Ivan Begtin

В Эквадоре правительство открыло платформу Contrataciones Abiertas Ecuador - OCDS [1] (Открытые контракты Эквадора - OCDS). Где OCDS - это Open Contracting Data Standard, международный стандарт раскрытия открытых данных о госзакупках/госконтрактах.

Сейчас опубликованы сведения о 127 тысячах контрактов на сумму $3.5 млрд.

Ссылки:
[1] https://datosabiertos.compraspublicas.gob.ec/PLATAFORMA

#opendata #spending #opencontracting #equador

1.8K viewsIvan Begtin, 14:20

Ivan Begtin

МВД опубликовало офицальную информацию о том что услуги регистрации автомобилей восстановятся не раньше завтрашнего дня [1] и даже принесло извинения. Как писали СМИ ранее [2] сервера залиты водой в связи с тем что произошёл прорыв трубы и с её механическим повреждением в серверной в Москве [3].

Несмотря на то что адрес серверной и ответственный эксплуатант не указываются в сообщениях, но мы то его знаем. Это ФКУ НПО "СТИС" МВД РОССИИ [4]. Именно на них оформлен патент на систему ФИС ГИБДД-М используемой для оказания государственных услуг и именно они выступали в роли госзаказчика этой системы, последний контракт на доработку ПО был c РОСБИ ИНФОРМ КО в 2020 году [5].

При этом нигде не упоминается местонахождение местонахождение именно ФИС ГИБДД-М, МВД вообще не распространяется о собственной инфраструктуре. Но если посмотреть два их последних крупных контракта на поставку оборудования [6] [7] на 771 и 931 млн. руб в 2019 году, то там упоминается два адреса поставки, без указания эксплуатируемых на них информационных систем:
- г. Москва, Боярский переулок, д. 4, стр. 1 - это бывший адрес ФМС, а теперь Главное управление по вопросам миграции при МВД России
- 115230, г. Москва, ул. Электролитный проезд, д. 3, стр. 4 - это ЦОД Нагорная от АО "Электронная Москва" [8]

Есть ли у МВД дополнительные арендованные ЦОДы - это, тоже, вопрос, я склоняюсь к тому что нет иначе контракты на их обслуживание были бы известны.

Возникает в итоге довольно много разных вопросов:
1. Как получилось что довольно критичная ФГИС для оказания услуг гражданам оказалась без георезервирования?
2. Где, всё таки, эта информационная система находится?
3. Какие другие системы МВД России пострадали? Напомню что у НПО "СТИС" таких систем несколько десятков (см. их сайт)
4. Какая организация, в итоге, отвечала за эксплуатацию зданий ЦОДа - МВД или АО "Электронная Москва" или ещё какая-то организация?
5. Понимают ли в МВД что "прорыв трубы" - это не технические неполадки, а авария и говорить иное - это дезинформация?
6. Застрахованы ли были сервера/информационная система? Какая ответственность оператора была предусмотрена?

Вообще же будет удивительно если по итогам не будет, как минимум, расследования внутри МВД, а как максимум со стороны прокуратуры и др. органов власти, потому что какой-то вопиющий случай.

Ссылки:
[1] https://мвд.рф/news/item/27539293
[2] https://www.fontanka.ru/2021/12/19/70326554/
[3] https://www.fontanka.ru/2021/12/18/70325834/
[4] https://стис.мвд.рф
[5] https://clearspending.ru/contract/1770802535820000019/
[6] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=1770802535819000044&contractInfoId=53143678
[7] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=1770802535819000037&contractInfoId=54111750
[8] https://www.e-moskva.ru/projects-new/data-centers/

#government #govtech #govit

мвд.рф

Официальная информация

Новости официального сайта МВД России

18.1K viewsIvan Begtin, edited 08:25

Ivan Begtin

Центробанк Саудовской Аравии открыл собственную платформу открытых данных [1] которая теперь доступна у них на сайте [2].

Насчёт платформы - это, конечно, громко сказано. Сейчас функции реализованы в виде конструктора отчетов с выгрузкой данных в CSV и Excel форматах, а также обещают XML в будущем.

Данных не так много, например, у Российского ЦБ РФ на сайте гораздо больше данных, но нет централизованной точки раскрытия.

Ссылки:
[1] https://twitter.com/SAMA_GOV/status/1472610195859812357
[2] https://www.sama.gov.sa/en-US/EconomicReports/Pages/database.aspx

#opendata #saudiarabia #centralbank #data

1.9K viewsIvan Begtin, 08:57

Ivan Begtin

Кстати, а понимаем ли мы что текущие блокировки Роскомнадзора - это регулирование лайт?

Регулирование хард будет после установления максимальных штрафов для владельцев доменов имеющих российское гражданство при неисполнение требований РКН и появление реестра физических и юридических владельцев сайтов заблокированных РКН и требования по маркировке любых их сайтов/материалов как у инагентов.

18.2K viewsIvan Begtin, 11:41

Ivan Begtin

Для тех кто интересуется реакцией правительств на COVID-19 через мобильные приложения для отслеживания, вышел финальный отчет Tracing The Tracers 2021 report: Automating COVID responses [1] от Algrorithm Watch, германской исследовательской группы в области ИИ и приватности.

В отчете много разного полезного, вроде того что утечки данных были не только в российских приложениях и о том какие меры и как предпринимали центральные и региональные власти европейских стран.

Ссылки:
[1] https://algorithmwatch.org/en/tracing-the-tracers/2021-report/

#privacy #covid19 #ai #ethics

AlgorithmWatch

Tracing The Tracers 2021 report: Automating COVID responses - AlgorithmWatch

In this final report, we will provide an early overall assessment of the main trends and developments concerning ADM-based responses to COVID-19.

2.5K viewsIvan Begtin, 17:35

Ivan Begtin

Коммерсантъ пишет о появлении [1] Концепции обеспечения защиты прав и свобод человека и гражданина в цифровом пространстве РФ разработанной СПЧ.

Я внимательно прочитал эту концепцию и по её содержанию мои комментарии есть в статье Коммерсанта. Но есть и не менее важные "стилистические" замечания. Вся концепция написана по шаблону "риски-противодействие", а переводя с русского-на-русский язык - это шаблон "угрозы-противодействие", по такому шаблону у нас пишут многочисленные стратегии информационной безопасности и тд.

В концепции нет отсылок к фундаментальным принципам прав человека, аналогичным международным документам и тд. Есть отсылка только к российской Конституции.

В концепции нет ничего про международное регулирование и защиту прав граждан и потребителей в части защиты их данных (в Китае, в Евросоюзе, в Германии, в США) и ещё в десятках стран. Во многих странах есть государственные стратегии цифрового суверенитета и госрегулирования big tech.

При этом, в концепции довольно много всего про безальтернативные ограничения на использование данных в госсекторе и в бизнесе, запретительную модель регулирования и совсем удивительных требований вроде:
- установление запрета на присвоение единого номера-идентификатора человеку в общенациональном цифровом пространстве
...
- сохранение бумажного документооборота в критически значимых сферах защиты интересов государства, гражданского общества, коммерческих и некоммерческих организаций, общественных объединений, человека и гражданина
...
- введение моратория на формирование и использование интегральных баз данных о гражданах, создаваемых путем объединения баз персональных данных, обработка которых осуществляется в целях, несовместимых между собой

И там ещё довольно много всего такого. К сожалению не могу дать ссылку на сам документ, он ещё в открытом доступе вроде как не опубликован, могу лишь цитировать ту версию с которой я успел ознакомиться.

Поэтому, конечно, документ это, в первую очередь, политический. В форме "манифеста цифрового консерватизма" очень недалёкому от "аналогового консерватизма" с большим числом утверждений напрямую противоречащих современной цифровой экономике и цифровому госуправлению.

Лично я, несмотря на критику в адрес big tech компаний и государства, считаю что единственно возможный путь регулирования - это не запретительно-консервативная, а гибкая регуляторная модель с чётким взвешиванием рисков и возможностей, а также последствий регулирования.

Несмотря на то что у концепций нет нормативно-правового статуса, они являются основной для других документов, на их основе в дальнейшем пишутся и изменяются законы. Поэтому эта концепция, в случае рассмотрения её как основы госполитики, на мой взгляд, требует существенной переработки и снижения градуса политического популизма.

Лично я, и многие эксперты в области работы с данными, считаю необходимым появление Национальной стратегии управления данными, определяющей принципы развития экосистемы и рынков данных в нашей стране. Защита прав потребителей и граждан, права на доступ к их данным должны быть частью этой стратегии.

Ссылки:
[1] https://www.kommersant.ru/doc/5140980

#data #regulation

Коммерсантъ

Широка цифра моя родная

СПЧ просит ограничить обработку данных о гражданах на уровне закона

1.7K viewsIvan Begtin, 07:14

Ivan Begtin

Я регулярно пишу об открытых данных и для тех кто мог забыть или не знал что это такое я напомню.
Определение открытых данных дано в Open Definition [1] и звучит как

“Open data and content can be freely used, modified, and shared by anyone for any purpose”

или по русски

"Открытые данные и открытый контент могут быть свободно используемы, изменены, и предоставлены кем угодно для любой цели"

В 2015 году правительствами стран, гражданским обществом и экспертами были разработаны 6 принципов открытых данных [2] таких как:
1. Открытость по умолчанию
2. Своевременность и полнота
3. Доступность и пригожность
4. Сравнимость и переносимость
5. Для улучшения управления и вовлечения граждан
6. Для инклюзивного развития и инноваций

Свобода использования данных предполагает позволяющий делать это юридический статус и публикацию данных под такими лицензиями как ODbL, Creative Commons и ряда других. По этой же причине часто термин открытые данные смешивают с открытые государственные данные, по тому как на данных коммерческих компаний, как правило, есть ограничения интеллектуальной собственности, а на данных граждан ограничения персональных данных.

Но многие данные изначально создавались не государством. Крупнейшие некоммерческие проекты с открытыми данными - это OpenStreetMap и Wikipedia предоставляющие дампы собранных в них данных.

Важно помнить что открытость данных - это просветительская функция. Например, собрать материалы с сайтов органов власти и опубликовать их в виде открытых данных - это легально и допустимо, это пример того что госорганы могут делать и сами и это работа с данными на которых нет запретительных юридических ограничений.

А, к примеру, собрать набор данных с сайтов интернет-магазина или социальной сети можно рассматривать как открытые данные только при наличии соответствующего согласия владельца данных, компании оператора сайта.

Это не значит что открытых корпоративных данных нет, это означает что открытыми данными они становятся при соблюдении юридических условий их публикации.

Важно помнить что открытых данных много, становится всё больше, а порталы открытых данных создаются, в том числе для указания того на каких условиях эти данные распространяются.

Ссылки:
[1] https://opendefinition.org/
[2] https://opendatacharter.net/principles/

#opendata #opendefinition #data

opendefinition.org

The Open Definition - Open Definition - Defining Open in Open Data, Open Content and Open Knowledge

1.7K viewsIvan Begtin, 08:14

About

Blog

Apps

Platform