Ivan Begtin

Wir dokumentieren Deutschland

В рубрике как это работает у них проект bund.de [1] и его основательница Лилит Виттманн. Лилит с волонтерами занимается тем что находит недокументированные государственные API, документируют их и выкладывают документацию на сайт bund.de помогая повторному использованию данных. Фактически выполняют за правительство Германии ту работу которую они должны делать сами. Например, во Франции этим занимается государственная компания Etalab создавшая каталог api.gouv.fr

Из свежих работ Лилит и её команды - это превращение торгового реестра Германии (аналога российского ЕГРЮЛа) в машиночитаемую форму. С 1 августа в Германии он стал "открытым", но лишь частично, не в виде открытых данных. Она пишет у себя в блоге о том как они обрабатывают эти данные и собирают набор данных [2]. В общий доступ они его не выкладывают, но можно заполнить форму и получить их для исследовательских целей (это около 100ГБ).

То что делает Лилит и команда волонтеров - это то что волонтеры в Германии, Великобритании, России и т.д. делали ещё 10 лет назад. До появления национальных порталов открытых данных мы устраивали хакатоны и конкурсы по извлечению данных из открытых источников и превращению их в открытые данные.

Потом стали появлятся госинициативы, но не все из них были достаточно системы чтобы решить вопросы с доступом к данным, поэтому история ходит по кругу.

В прошлом году наша команда собрала более 100 открытых точек подключения к открытым недокументированным API информационных систем в России и сделать аналог bund.de или api.gouv.fr это несложно и быстро. Но время ещё, видимо, не пришло.

Кстати, Лилит Виттманн известна тем что когда-то вычислила секретное германское ведомство с помощью Airtag [3]. Так что боевая девушка, думаю что ещё станет депутатом Бундестага когда-нибудь или сделает политическую карьеру.

Ссылки:
[1] https://bund.de
[2] https://lilithwittmann.medium.com/bund-dev-wir-befreien-das-handelsregister-8168ad46b4e
[3] https://yangx.top/begtin/3473
#opendata #germany #opengov #api

1.7K viewsIvan Begtin, 08:32

Ivan Begtin

В рубрике о нас пишут, о нашем исследовании приватности мобильных приложений написали:
- Эксперты оценили долю американских трекеров в RuStore РБК
- «Инфокультура» исследовала приватность мобильных приложений в RuStore Роскомсвобода
- Почти 90% приложений в RuStore имеют встроенный иностранный трекер Runet.News
- В приложениях российского магазина RuStore нашли зарубежные модули слежки Ferra
а также ещё пара десятков СМИ и телеграм каналов.

Не менее важно кто ничего о нём не написал: CNews, Коммерсант, Ведомости и ещё ряд изданий. Как говорится, Бог простит, а я запишу (с) ;)

Это не последнее наше исследование, будут и другие и не только про мобильные приложения.

#research #privacy #mobileapps

РБК

Эксперты оценили долю американских трекеров в RuStore

Почти 90% приложений из магазина RuStore используют иностранные трекеры — они могут собирать как техошибки, так и данные пользователей. Создатель маркетплейса — холдинг VK подчеркивает: на безопасность данных это не влияет

3.2K viewsIvan Begtin, 09:50

Ivan Begtin

В рубрике больших наборов данных, базы событий в Github.

Github - это крупнейшая в мире платформа по работу с открытым кодом, с открытым API и возможностью отслеживать собственные и чужие репозитории кода. Она часто является объектом работы исследователей и существует несколько крупных слепков данных по событиям на платформе.

GHTorrent [1] большой слепок данных за 2019-2020 годы, не обновлявшийся с июля 2020 года. Удобно что сразу можно скачать в формате MongoDB, неудобно неактуальностью

GHArchive [2] база из 20+ событий в Github, в виде файлов дампов для выгрузки и обработки․ Пишут правда что в данных есть существенные пробелы [3].

Копия базы из GHArchive есть в онлайн базе Clickhouse [4] на декабрь 2020 года. Доступ удобнее, но пробелы и устаревание присутствуют.

Альтернативные способы - это использовать открытое API проекта Software Heritage [5] или API самого Github [6]․

Ссылки:
[1] https://ghtorrent.org/
[2] https://www.gharchive.org/
[3] https://medium.com/@jennysahng/how-to-mine-github-data-in-2022-e9c70b3f61d3
[4] https://ghe.clickhouse.tech/
[5] https://archive.softwareheritage.org/api/
[6] https://docs.github.com/en/rest

#opendata #datasets #opensource

1.6K viewsIvan Begtin, 11:54

Ivan Begtin

В рубрике как это работает у них Атлас биоразнообразия Австралии [1]

Это большой национальный исследовательский проект по консолидации всех исследовательских данных о флоре и фауне Австралии. Он объединяет данные десятков биобанков страны и на нём опубликовано более 11 тысяч наборов данных [2] большая часть которых - это списки/подборки видов животных и растений по типу и месту.

В атласе собрано уже более 113 миллионов записей и значительная их часть - это материалы собираемые проектами гражданских учёных (citizen scientists) и оцифрованные прямой грантовой поддержкой.

В Австралии существует 644 гражданских проекта сбора информации о животных [3], специальное мобильное приложение BioCollect App [4].

А также ежегодно по грантовой программе можно получить от 20 до 50 тысяч австралийских долларов на оцифровку существующих архивов в рамках Australian Biodiversity Data Mobilisation Program [5]. То есть, если какой-то музей или университет Австралии хочет оцифровать и выложить данные по своей коллекции фотографий кенгуру или записок полевых исследователей, то у них есть возможность претендовать на грант и компенсировать хотя бы часть расходов.

При достаточно простых условиях:
- эти данные уже должны существовать, оплачивается их оцифровка
- они должны быть связаны с национальными приоритетами
- в форме записей о встречаемости видов
- в виде открытых данных и с соблюдением стандарта Darwin Core

Ссылки:
[1] https://www.ala.org.au
[2] https://collections.ala.org.au/datasets
[3] https://biocollect.ala.org.au/acsa#isCitizenScience%3Dtrue%26max%3D30%26sort%3DdateCreatedSort
[4] https://www.ala.org.au/biocollect-mobile-apps/
[5] https://www.ala.org.au/blogs-news/the-ala-australian-biodiversity-data-mobilisation-program/

#opendata #datasets #australia

Atlas of Living Australia

Home

1.8K viewsIvan Begtin, edited 05:17

Ivan Begtin

Для тех кто проектирует продукты на данных Data Product Canvas [1] нарисованный профессором Leandro Carvalho и доступный всем желающим.

Правда не он первый рисующий подобное. Например, похожий по смыслу и иной по стилю есть от команды Know-Center GmbH, Graz [2] в Австрии.

А если поискать то найдется и ещё. Такие штуки полезны при проектировании продуктов основанных на данных, возможно какие-то даже стоит перевести на русский язык.

Ссылки:
[1]https://medium.com/@leandroscarvalho/data-product-canvas-a-practical-framework-for-building-high-performance-data-products-7a1717f79f0
[2] https://aisel.aisnet.org/bled2020/8/

#itarchitecture #itdesign #data #dataproducts

2.8K viewsIvan Begtin, 08:27

Ivan Begtin

У Postman вышел их ежегодный обзор 2022 State of the API Report [1] составленный через опрос разработчиков пользующихся их платформой и схожий с исследованиями JetBrains.

Исследование полезное, много графиков, большая выборка, много чего любопытного. Конечно, с оговоркой что они делают акценты там где их собственный продукт посильнее, а некоторые темы вроде предпочтений по корпоративной интеграции или языки разработки охватывают мало или недостаточно.

Полезно будет, в первую очередь, тем кто выбирает приоритеты в изучении новых технологий.

Ссылки:
[1] https://www.postman.com/state-of-api/how-to-share-the-report/

#api #studies #research #postman

1.5K viewsIvan Begtin, 07:58

Ivan Begtin

Instrumentorum minorum linguarum inopia magna sunt

Как активный пользователь разного рода онлайн и не онлайн курсов/занятий/инструментов изучения разговорных языков могу сказать что есть большая нехватка удобных инструментов изучения для языков малых и не хайповых.

Будь то национальные или региональные языки: армянский, казахский, татарский, камбоджийский и тд.

В лучшем случае если ты уже знаешь английский то можешь учить через него какие-то другие языки через Duolingo или аналогичные онлайн сервисы (ling-app и ещё с десяток).

Тут три наблюдения:
- как рыночные продукты для массовой аудитории есть несколько очень удачных продуктов, но для популярных языков в основном
- относительно небольшие страны мало инвестируют в платформы/стартапы/сервисы и в открытый код и данные
- страны с активной языковой политикой, вроде Испании, как раз наоборот инвестируют много

Такое ощущение что здесь есть какая-то бизнес модель упускаемая на этом рынке. Аналоги Duolingo on premise, когда не свой контент, чужой перепродаешь или даёшь платформу в аренду. Может быть курсера для языков.

Или, возможно, более структурированный и адаптированный "усилитель работы репетиторов" которыми сейчас де-факто являются карточки в Memrise к примеру.

Я бы сказал что здесь клиентами могли бы быть государственные институции популяризации национальных языков, но по ощущением это не про бизнес, эти структуры, за исключениями, инертны.

#startups #ideas #thoughts

1.5K viewsIvan Begtin, edited 09:11

Ivan Begtin

Белый дом (США) опубликовал меморандум об обязательном оперативном раскрытии результатов научных исследователей финансируемых из федерального бюджета США [1] [2].

К середине 2023 года все федеральные органы власти должны обновить свои планы по открытию доступа и обмене данными, а с 31 декабря 2025 года результаты всех научных исследований должны публиковаться в открытом доступе.

От себя добавлю что портал открытых данных в США data.gov - это, во многом, портал раскрытия научных данных такими ведомствами как НАСА, геологической службой США и ещё рядом органов власти, но он не был приспособлен к раскрытию именно научных данных, например, он не присваивает DOI, не даёт публиковать данные под эмбарго и тд.

Поэтому этот меморандум имеет большое значение и интересно будут ли в США создавать отдельный национальный портал открытого доступа или обновят data.gov.

Ссылки:
[1] https://www.whitehouse.gov/ostp/news-updates/2022/08/25/ostp-issues-guidance-to-make-federally-funded-research-freely-available-without-delay/
[2] https://www.whitehouse.gov/wp-content/uploads/2022/08/08-2022-OSTP-Public-Access-Memo.pdf

#opendata #openaccess #datasharing #usa

The White House

OSTP Issues Guidance to Make Federally Funded Research Freely Available Without Delay

Today, the White House Office of Science and Technology Policy (OSTP) updated U.S. policy guidance to make the results of taxpayer-supported research immediately available to the American public at no cost. In a memorandum to federal departments and agencies…

1.5K viewsIvan Begtin, 11:21

Ivan Begtin

Подборка свежего чтения про работу с данными и не только:
- The Rise of Data Contracts [1] текст о важности контрактов по работе с данными (контракт - это договоренность поставщиков и потребителей данных о существенных условиях вроде обратной совместимости, итеративности изменений и тд.)․ Можно было бы поиронизировать что молодежь открыла для себя contract programming, но хорошо что открыли и пишут и нужная вещь. Полезно для тех кто не в курсе того как это работает и полезно обновить знания тем кто уже знает.
- Qloo [2] интересный стартап обещающий что могут предсказывать культурные предпочтения пользователей. Называют себя "Cultural AI". Недавно они подняли инвестиций на $15M
- Ziliz [3] стартап по созданию Cloud-native service for Milvus я про Milvus писал ранее - это такая интересная облачная база данных удобная для рекомендательных сервисов и нечёткого поиска. Подняли $60M инвестиций [4] вдогонку к предыдущим $53.
- Apache Hudi vs Delta Lake vs Apache Iceberg - Lakehouse Feature Comparison [5] сравнение трёх платформ для озер данных от стартапа Onehouse. Читать надо с осторожностью, они делают свой сервис на Hudi, так что не стоит доверять без оглядки.
- Why Apache Iceberg will rule data in the cloud [6] чтобы иметь другую картину в сравнениях озер данных, альтернативный взгляд с позиции преимуществ Iceberg. Но лучше выберите любое и пробуйте, пробуйте, пробуйте пока не набьёте шишек.
- Professional Pandas: The Pandas Assign Method and Chaining [7] для тех кто уже всё про pandas знаете и хочет поизучать более сложные техники на базе pandas. Конкретно здесь про пользу метода assign и итоговые результаты.

Ссылки:
[1] https://dataproducts.substack.com/p/the-rise-of-data-contracts
[2] https://qloo.com/
[3] https://zilliz.com
[4] https://zilliz.com/news/vector-database-company-zilliz-series-b-extension
[5] https://www.onehouse.ai/blog/apache-hudi-vs-delta-lake-vs-apache-iceberg-lakehouse-feature-comparison
[6] https://www.infoworld.com/article/3669848/why-apache-iceberg-will-rule-data-in-the-cloud.html
[7] https://ponder.io/professional-pandas-the-pandas-assign-method-and-chaining/

#data #readings #datatools #startups

Data Products

The Rise of Data Contracts

And Why Your Data Pipelines Don't Scale

1.5K viewsIvan Begtin, 14:23

Ivan Begtin

Продолжая тему приватности мобильных приложений. Есть стартапы создающие мобильные приложения, а есть стартапы помогающие отслеживать нарушения приватности в этих приложениях. Например, Privado [1] предоставляют сервис отслеживания обработки чувствительных данных в приложениях для Android'а через сканирование исходного кода. Проверить код можно скачав их open source сканер [2] и запустив с параметром 'privado scan <folder name>'.

Я его проверял на швейцарском государственном приложении отслеживания COVID-19 swisscovid-app-android [3].

Из плюсов - он работает
Из минусов - только с Java кодом, не поддерживается приложения на Javascript или Kotlin не говоря уже о Flutter и тд.
Из странностей - ложные срабатывания. Например, срабатывает на обработку высоты изображения как рост человека height, хотя в коде видно что срабатывание неверное.

Приложение хотя и open source, но будьте осторожны, результаты оно постит сразу на сайт community.privado.ai, то есть открытый код, но с зависимостью от облачного сервиса.

Главная фишка - генерация Data Safety манифеста для Google Play. Иначе говоря, автоматизация комплаенс процедуры для приложений Android.

Продукт интересный, буду наблюдать за его развитием. Может быть он сможет работать и с декомпилированным кодом или сам научится декомпилировать DEX файлы? А может у него появятся конкуренты.

Ссылки:
[1] https://www.privado.ai/
[2] https://github.com/Privado-Inc/privado
[3] https://github.com/SwissCovid/swisscovid-app-android

#mobileapps #privacy #android #security

1.6K viewsIvan Begtin, 16:48

Ivan Begtin

Я давно не писал про мою любимую тему, семантические типы данных, а, между тем, я активно продолжаю ей заниматься в свободное время, в основном. Создавая metacrafter-registry [1] [2], реестр существующих семантических типов данных и регулярных выражений для их идентификации.

Для тех кто не знает что это такое, напомню про мой текст с рассказом того как их применяют и зачем они нужны [3], если кратко то для автоматизации визуализации, анализа, навигации и обработки данных.

Реестр вырос уже до 284 типов данных сгруппированных по 26 категориям и в привязке к 11 странам. Более всего страновых идентификаторов по России - более 70 (ИНН, СНИЛС, КЛАДР и все остальные), но по мере обработки порталов данных и других источников растет список и по другим странам.

Самые главные изменения в том что многие типы данных теперь имеют привязку к Wikidata и Schema.org. Какие-то ещё можно привязать, но, к сожалению не все. Wikidata почти не покрывает персональные идентификаторы, зато включает сотни идентификаторов литературных источников почти нигде "в диком виде" не встречающиеся.

Реестр всё лучше перелинкован, синхронизован с используемыми инструментами и понемногу включает и регулярные выражения для идентификации типов данных. Часть их уже перенесена в утилиту metacrafter [4] для идентификации семантических типов данных, а часть будет перенесена постепенно позже.

Ссылки:
[1] https://registry.apicrafter.io/
[2] https://github.com/apicrafter/metacrafter-registry
[3] https://medium.com/@ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b
[4] https://github.com/apicrafter/metacrafter

#opensource #data #datatools #metadata #semanticdatatypes

GitHub

GitHub - apicrafter/metacrafter-registry: Registry of metadata identifier entities like UUID, GUID, person fullname, address and…

Registry of metadata identifier entities like UUID, GUID, person fullname, address and so on. Linked with other sources - apicrafter/metacrafter-registry

1.7K viewsIvan Begtin, 10:40

Ivan Begtin

В рубрике как это работает у них the Global Open Science Cloud Initiative (GOSC) [1] проект CODATA (Комитета по данным Международного научного совета).

Идея его простая - создать стандарты и инфраструктуру для интеграции больших национальных и международных проектов открытой научной инфраструктуры. Я об этих проектах многих писал: EOSC, ARDC, NFDI, NRDIO и многих других. В мире идёт активное развитие таких платформ, например, развивается La Refencia в Латинской Америке и African Open Science Platform, как вы догадываетесь, в Африке.

Все они на разных стандартах, идентификаторах, протоколах, и вот CODATA организуют инициативы по их обзору и интеграции. Что любопытно, оплачивает это CNIC CAS (Компьютерный сетевой информационный центр Китайской академии наук). И вот организаторы обещают уже 12 октября представить первые результаты в рамках GOSC IPO [3]. Ждать недолго и даже если это будет только результат анализа существующих проектов - это уже будет интересно.

Почему это важно? Существенная часть открытой научной инфраструктуры - это доступность научных данных, инструментов их обработки и облачных сервисов. Лично я сомневаюсь появления глобальной [некоммерческой] научной инфраструктуры как digital commons в ближайшие годы, но сама идея интеграции национальных инициатив выглядит актуально.

Ссылки:
[1] https://codata.org/initiatives/decadal-programme2/global-open-science-cloud/
[2] https://codata.org
[3] https://codata.org/launch-of-the-gosc-international-programme-office/

#openaccess #openscience #opendata

CODATA, The Committee on Data for Science and Technology

Global Open Science Cloud - CODATA, The Committee on Data for Science and Technology

Invitation to Collaborate on the Global Open Science Cloud Initiative Preamble The major global scientific and human challenges of the 21st century (including COVID-19 and future pandemics, anthropogenic climate change, sustainable development, and disaster…

1.6K viewsIvan Begtin, 17:54

Ivan Begtin

Онтология типов данных

Когда я только-только начинал возиться с семантическими типами данных то столкнулся с тем что онтологического моделирования типов данных очень мало. Есть исследование и онтология OntoDT [1] ещё 2016 года, но сайт с ним уже недоступен, и сама онтология кое-где ещё доступна как RDF/OWL [2]. Основной автор Panče Panov явно переключился на более прикладные исследования [3]

В качестве других примеров։
- онтология EDAM [4] в биоинформатике, с акцентом на особенности анализа и майнинга данных в этой области
- CDM (Common Data Model) [5] не-формальная онтологии от Microsoft привязанная с акцентом на продажах, пользователях, маркетинге и тд.
- онтология типов данных при ответах на вопросы по геоаналитике [6] прошлогоднее исследование с акцентом на геоданные.

Есть, также, какое-то количество других научных и не только научных публикаций на эту тему, но в целом их довольно мало. Они чаще всего происходят в контексте задач по анализу данных и его автоматизации. Самое развитое идёт в сторону автоматизации создания и аннотирование моделей для ИИ. Проект D3M (Data-Driven Discovery of Models) [7] от DARPA в США. Я не так давно писал о нём и порождённых им стартапах. [8]

По тому что я вижу, рано или поздно, но с практической или научной или обеих точек зрения будет продолжение развитие моделирования типов данных. Помимо задач автоматизации обработки данных, есть явный тренд на развитие инструментов их хранения.

Ещё какое-то время назад в СУБД на родном уровне поддерживались только самые базовые типы данных։ INT, FLOAT, STRING/VARCHAR, BLOB и тд. с небольшими вариациями. Сейчас, современные СУБД, поддерживают многочисленные дополнительные типы данных, перешедших из смысловых (семантических) в базовые типы. Пример: ip-адреса и mac-адреса уже достаточно давно имеющиеся в некоторых СУБД [9] и недавно добавляемые в другие [10].

Ранее всего это произошло с датами и временем в разных вариациях, с геоданными для которых есть сейчас много отдельных функций и индексов внутри СУБД. Также происходит с сетевыми наиболее популярными данными.

Мои ощущения что на этом процесс не остановится. Например, меня удивляет что всё ещё нет СУБД общего типа с отдельными типами данных под хэши (SHA1, SHA256 и др.).

Многие составные идентификаторы и коды классификаторов сейчас в СУБД хранятся как строки, при том что часто они нужны в декомпозированной форме и, в итоге, создаётся избыточность разбирая этот код на части. Пример в России: Вы можете хранить код КЛАДР как есть, а можете разделить его на подэлементы и осуществлять поиск по ним когда это необходимо.

Не знаю появится ли когда-либо движок для СУБД дающий возможность значительно большей гибкости в хранении и индексировании данных иди же, на самом деле, это далеко от насущных необходимостей, но важно то что к у каждого смыслового типа данных есть важная связка с практиками обработки данных и эволюция СУБД в этом направлении явно происходит.

Ссылки:
[1] https://fairsharing.org/FAIRsharing.ydnwd9
[2] https://kt.ijs.si/panovp/OntoDM/archive/OntoDT.owl
[3] https://orcid.org/0000-0002-7685-9140
[4] http://edamontology.org/page
[5] https://docs.microsoft.com/en-us/common-data-model/
[6] https://digitalcommons.library.umaine.edu/josis/vol2020/iss20/2/
[7] https://datadrivendiscovery.org
[8] https://yangx.top/begtin/3926
[9] https://www.postgresql.org/docs/current/datatype-net-types.html
[10] https://mariadb.com/kb/en/inet4/

#data #rdbms #research #metadata #semanticdatatypes

Docs

Common Data Model - Common Data Model

Common Data Model is a standardized, modular, and extensible collection of data schemas that Microsoft published to help you build, use, and analyze data.

1.6K viewsIvan Begtin, 06:18

Ivan Begtin

Если медицинская организация имеет личный кабинет и использует сервис CDN для раздачи контента и данные в личном кабинете тоже через него отдаются, то это в чистом виде трансграничная передача данных. Ведь данные проходят пользователю через сервера в США и/или Европе. Пожалуйся на них в Роскомнадзор и те прибегут и наштрафуют. Но есть ли ущерб потребителю? Честно говоря, я сомневаюсь. Называть компанию не буду, более того, их много.

А если ВК раздают пользователям приложения в котором 90% приложений отдаёт данные Гуглу, Facebook'у и тд. или если некоторые, не будем показывать пальцами, органы власти то Роскомнадзор даже не почешется.

Как это правильно назвать по-русски?

#privacy

1.6K viewsIvan Begtin, 08:30

Ivan Begtin

Весьма любопытное мини-исследование о том сколько времени занимает создание open source альтернативы проприетарному продукту [1].

Автор на научность не претендует, зато много чего проанализировал и выложил в виде CSV файла [2]․

Цифр и примеров там много, почитать будет любопытно, жаль что литературного обрамления маловато, о каждом продукте можно рассказать целую историю.

А вывод очень простой - есть тренд на сокращение сроков запуска open source альтернативы существующему продукту. С 18 лет связки Unix - GNU/Linux, до менее года (343 дня) с связки Clubhouse и его опенсорс альтернативы Dogehouse.

Предлагаю подумать над выводами из этого. Я лично главным выводом вижу коммодизацию разработки ПО, в том числе открытого. Интересно посмотреть не только на open source альтернативы, но и на появление сравнимых конкурентов, оно тоже сократилось. Чем это грозит рынку ПО и сервисов? Тем что бежать надо быстрее, сильнее, лучше, а не ждать что создав продукт можно стричь купюры до конца жизни.

Ссылки:
[1] https://staltz.com/time-till-open-source-alternative.html
[2] https://github.com/staltz/ttosa

#opensource #itmarket

2.2K viewsIvan Begtin, 11:31

About

Blog

Apps

Platform