Ivan Begtin
8.09K subscribers
1.98K photos
3 videos
102 files
4.69K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике о нас пишут, о нашем исследовании приватности мобильных приложений написали:
- Эксперты оценили долю американских трекеров в RuStore РБК
- «Инфокультура» исследовала приватность мобильных приложений в RuStore Роскомсвобода
- Почти 90% приложений в RuStore имеют встроенный иностранный трекер Runet.News
- В приложениях российского магазина RuStore нашли зарубежные модули слежки Ferra
а также ещё пара десятков СМИ и телеграм каналов.

Не менее важно кто ничего о нём не написал: CNews, Коммерсант, Ведомости и ещё ряд изданий. Как говорится, Бог простит, а я запишу (с) ;)

Это не последнее наше исследование, будут и другие и не только про мобильные приложения.

#research #privacy #mobileapps
В рубрике больших наборов данных, базы событий в Github.

Github - это крупнейшая в мире платформа по работу с открытым кодом, с открытым API и возможностью отслеживать собственные и чужие репозитории кода. Она часто является объектом работы исследователей и существует несколько крупных слепков данных по событиям на платформе.

GHTorrent [1] большой слепок данных за 2019-2020 годы, не обновлявшийся с июля 2020 года. Удобно что сразу можно скачать в формате MongoDB, неудобно неактуальностью

GHArchive [2] база из 20+ событий в Github, в виде файлов дампов для выгрузки и обработки․ Пишут правда что в данных есть существенные пробелы [3].

Копия базы из GHArchive есть в онлайн базе Clickhouse [4] на декабрь 2020 года. Доступ удобнее, но пробелы и устаревание присутствуют.

Альтернативные способы - это использовать открытое API проекта Software Heritage [5] или API самого Github [6]․

Ссылки:
[1] https://ghtorrent.org/
[2] https://www.gharchive.org/
[3] https://medium.com/@jennysahng/how-to-mine-github-data-in-2022-e9c70b3f61d3
[4] https://ghe.clickhouse.tech/
[5] https://archive.softwareheritage.org/api/
[6] https://docs.github.com/en/rest

#opendata #datasets #opensource
В рубрике как это работает у них Атлас биоразнообразия Австралии [1]

Это большой национальный исследовательский проект по консолидации всех исследовательских данных о флоре и фауне Австралии. Он объединяет данные десятков биобанков страны и на нём опубликовано более 11 тысяч наборов данных [2] большая часть которых - это списки/подборки видов животных и растений по типу и месту.

В атласе собрано уже более 113 миллионов записей и значительная их часть - это материалы собираемые проектами гражданских учёных (citizen scientists) и оцифрованные прямой грантовой поддержкой.

В Австралии существует 644 гражданских проекта сбора информации о животных [3], специальное мобильное приложение BioCollect App [4].

А также ежегодно по грантовой программе можно получить от 20 до 50 тысяч австралийских долларов на оцифровку существующих архивов в рамках Australian Biodiversity Data Mobilisation Program [5]. То есть, если какой-то музей или университет Австралии хочет оцифровать и выложить данные по своей коллекции фотографий кенгуру или записок полевых исследователей, то у них есть возможность претендовать на грант и компенсировать хотя бы часть расходов.

При достаточно простых условиях:
- эти данные уже должны существовать, оплачивается их оцифровка
- они должны быть связаны с национальными приоритетами
- в форме записей о встречаемости видов
- в виде открытых данных и с соблюдением стандарта Darwin Core

Ссылки:
[1] https://www.ala.org.au
[2] https://collections.ala.org.au/datasets
[3] https://biocollect.ala.org.au/acsa#isCitizenScience%3Dtrue%26max%3D30%26sort%3DdateCreatedSort
[4] https://www.ala.org.au/biocollect-mobile-apps/
[5] https://www.ala.org.au/blogs-news/the-ala-australian-biodiversity-data-mobilisation-program/

#opendata #datasets #australia
Для тех кто проектирует продукты на данных Data Product Canvas [1] нарисованный профессором Leandro Carvalho и доступный всем желающим.

Правда не он первый рисующий подобное. Например, похожий по смыслу и иной по стилю есть от команды Know-Center GmbH, Graz [2] в Австрии.

А если поискать то найдется и ещё. Такие штуки полезны при проектировании продуктов основанных на данных, возможно какие-то даже стоит перевести на русский язык.

Ссылки:
[1]https://medium.com/@leandroscarvalho/data-product-canvas-a-practical-framework-for-building-high-performance-data-products-7a1717f79f0
[2] https://aisel.aisnet.org/bled2020/8/

#itarchitecture #itdesign #data #dataproducts
У Postman вышел их ежегодный обзор 2022 State of the API Report [1] составленный через опрос разработчиков пользующихся их платформой и схожий с исследованиями JetBrains.

Исследование полезное, много графиков, большая выборка, много чего любопытного. Конечно, с оговоркой что они делают акценты там где их собственный продукт посильнее, а некоторые темы вроде предпочтений по корпоративной интеграции или языки разработки охватывают мало или недостаточно.

Полезно будет, в первую очередь, тем кто выбирает приоритеты в изучении новых технологий.

Ссылки:
[1] https://www.postman.com/state-of-api/how-to-share-the-report/

#api #studies #research #postman
Instrumentorum minorum linguarum inopia magna sunt

Как активный пользователь разного рода онлайн и не онлайн курсов/занятий/инструментов изучения разговорных языков могу сказать что есть большая нехватка удобных инструментов изучения для языков малых и не хайповых.

Будь то национальные или региональные языки: армянский, казахский, татарский, камбоджийский и тд.

В лучшем случае если ты уже знаешь английский то можешь учить через него какие-то другие языки через Duolingo или аналогичные онлайн сервисы (ling-app и ещё с десяток).

Тут три наблюдения:
- как рыночные продукты для массовой аудитории есть несколько очень удачных продуктов, но для популярных языков в основном
- относительно небольшие страны мало инвестируют в платформы/стартапы/сервисы и в открытый код и данные
- страны с активной языковой политикой, вроде Испании, как раз наоборот инвестируют много

Такое ощущение что здесь есть какая-то бизнес модель упускаемая на этом рынке. Аналоги Duolingo on premise, когда не свой контент, чужой перепродаешь или даёшь платформу в аренду. Может быть курсера для языков.

Или, возможно, более структурированный и адаптированный "усилитель работы репетиторов" которыми сейчас де-факто являются карточки в Memrise к примеру.

Я бы сказал что здесь клиентами могли бы быть государственные институции популяризации национальных языков, но по ощущением это не про бизнес, эти структуры, за исключениями, инертны.

#startups #ideas #thoughts
Белый дом (США) опубликовал меморандум об обязательном оперативном раскрытии результатов научных исследователей финансируемых из федерального бюджета США [1] [2].

К середине 2023 года все федеральные органы власти должны обновить свои планы по открытию доступа и обмене данными, а с 31 декабря 2025 года результаты всех научных исследований должны публиковаться в открытом доступе.

От себя добавлю что портал открытых данных в США data.gov - это, во многом, портал раскрытия научных данных такими ведомствами как НАСА, геологической службой США и ещё рядом органов власти, но он не был приспособлен к раскрытию именно научных данных, например, он не присваивает DOI, не даёт публиковать данные под эмбарго и тд.

Поэтому этот меморандум имеет большое значение и интересно будут ли в США создавать отдельный национальный портал открытого доступа или обновят data.gov.


Ссылки:
[1] https://www.whitehouse.gov/ostp/news-updates/2022/08/25/ostp-issues-guidance-to-make-federally-funded-research-freely-available-without-delay/
[2] https://www.whitehouse.gov/wp-content/uploads/2022/08/08-2022-OSTP-Public-Access-Memo.pdf

#opendata #openaccess #datasharing #usa
Подборка свежего чтения про работу с данными и не только:
- The Rise of Data Contracts [1] текст о важности контрактов по работе с данными (контракт - это договоренность поставщиков и потребителей данных о существенных условиях вроде обратной совместимости, итеративности изменений и тд.)․ Можно было бы поиронизировать что молодежь открыла для себя contract programming, но хорошо что открыли и пишут и нужная вещь. Полезно для тех кто не в курсе того как это работает и полезно обновить знания тем кто уже знает.
- Qloo [2] интересный стартап обещающий что могут предсказывать культурные предпочтения пользователей. Называют себя "Cultural AI". Недавно они подняли инвестиций на $15M
- Ziliz [3] стартап по созданию Cloud-native service for Milvus я про Milvus писал ранее - это такая интересная облачная база данных удобная для рекомендательных сервисов и нечёткого поиска. Подняли $60M инвестиций [4] вдогонку к предыдущим $53.
- Apache Hudi vs Delta Lake vs Apache Iceberg - Lakehouse Feature Comparison [5] сравнение трёх платформ для озер данных от стартапа Onehouse. Читать надо с осторожностью, они делают свой сервис на Hudi, так что не стоит доверять без оглядки.
- Why Apache Iceberg will rule data in the cloud [6] чтобы иметь другую картину в сравнениях озер данных, альтернативный взгляд с позиции преимуществ Iceberg. Но лучше выберите любое и пробуйте, пробуйте, пробуйте пока не набьёте шишек.
- Professional Pandas: The Pandas Assign Method and Chaining [7] для тех кто уже всё про pandas знаете и хочет поизучать более сложные техники на базе pandas. Конкретно здесь про пользу метода assign и итоговые результаты.

Ссылки:
[1] https://dataproducts.substack.com/p/the-rise-of-data-contracts
[2] https://qloo.com/
[3] https://zilliz.com
[4] https://zilliz.com/news/vector-database-company-zilliz-series-b-extension
[5] https://www.onehouse.ai/blog/apache-hudi-vs-delta-lake-vs-apache-iceberg-lakehouse-feature-comparison
[6] https://www.infoworld.com/article/3669848/why-apache-iceberg-will-rule-data-in-the-cloud.html
[7] https://ponder.io/professional-pandas-the-pandas-assign-method-and-chaining/

#data #readings #datatools #startups
Продолжая тему приватности мобильных приложений. Есть стартапы создающие мобильные приложения, а есть стартапы помогающие отслеживать нарушения приватности в этих приложениях. Например, Privado [1] предоставляют сервис отслеживания обработки чувствительных данных в приложениях для Android'а через сканирование исходного кода. Проверить код можно скачав их open source сканер [2] и запустив с параметром 'privado scan <folder name>'.

Я его проверял на швейцарском государственном приложении отслеживания COVID-19 swisscovid-app-android [3].

Из плюсов - он работает
Из минусов - только с Java кодом, не поддерживается приложения на Javascript или Kotlin не говоря уже о Flutter и тд.
Из странностей - ложные срабатывания. Например, срабатывает на обработку высоты изображения как рост человека height, хотя в коде видно что срабатывание неверное.

Приложение хотя и open source, но будьте осторожны, результаты оно постит сразу на сайт community.privado.ai, то есть открытый код, но с зависимостью от облачного сервиса.

Главная фишка - генерация Data Safety манифеста для Google Play. Иначе говоря, автоматизация комплаенс процедуры для приложений Android.

Продукт интересный, буду наблюдать за его развитием. Может быть он сможет работать и с декомпилированным кодом или сам научится декомпилировать DEX файлы? А может у него появятся конкуренты.

Ссылки:
[1] https://www.privado.ai/
[2] https://github.com/Privado-Inc/privado
[3] https://github.com/SwissCovid/swisscovid-app-android

#mobileapps #privacy #android #security
Я давно не писал про мою любимую тему, семантические типы данных, а, между тем, я активно продолжаю ей заниматься в свободное время, в основном. Создавая metacrafter-registry [1] [2], реестр существующих семантических типов данных и регулярных выражений для их идентификации.

Для тех кто не знает что это такое, напомню про мой текст с рассказом того как их применяют и зачем они нужны [3], если кратко то для автоматизации визуализации, анализа, навигации и обработки данных.

Реестр вырос уже до 284 типов данных сгруппированных по 26 категориям и в привязке к 11 странам. Более всего страновых идентификаторов по России - более 70 (ИНН, СНИЛС, КЛАДР и все остальные), но по мере обработки порталов данных и других источников растет список и по другим странам.

Самые главные изменения в том что многие типы данных теперь имеют привязку к Wikidata и Schema.org. Какие-то ещё можно привязать, но, к сожалению не все. Wikidata почти не покрывает персональные идентификаторы, зато включает сотни идентификаторов литературных источников почти нигде "в диком виде" не встречающиеся.

Реестр всё лучше перелинкован, синхронизован с используемыми инструментами и понемногу включает и регулярные выражения для идентификации типов данных. Часть их уже перенесена в утилиту metacrafter [4] для идентификации семантических типов данных, а часть будет перенесена постепенно позже.

Ссылки:
[1] https://registry.apicrafter.io/
[2] https://github.com/apicrafter/metacrafter-registry
[3] https://medium.com/@ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b
[4] https://github.com/apicrafter/metacrafter

#opensource #data #datatools #metadata #semanticdatatypes
В рубрике как это работает у них the Global Open Science Cloud Initiative (GOSC) [1] проект CODATA (Комитета по данным Международного научного совета).

Идея его простая - создать стандарты и инфраструктуру для интеграции больших национальных и международных проектов открытой научной инфраструктуры. Я об этих проектах многих писал: EOSC, ARDC, NFDI, NRDIO и многих других. В мире идёт активное развитие таких платформ, например, развивается La Refencia в Латинской Америке и African Open Science Platform, как вы догадываетесь, в Африке.

Все они на разных стандартах, идентификаторах, протоколах, и вот CODATA организуют инициативы по их обзору и интеграции. Что любопытно, оплачивает это CNIC CAS (Компьютерный сетевой информационный центр Китайской академии наук). И вот организаторы обещают уже 12 октября представить первые результаты в рамках GOSC IPO [3]. Ждать недолго и даже если это будет только результат анализа существующих проектов - это уже будет интересно.

Почему это важно? Существенная часть открытой научной инфраструктуры - это доступность научных данных, инструментов их обработки и облачных сервисов. Лично я сомневаюсь появления глобальной [некоммерческой] научной инфраструктуры как digital commons в ближайшие годы, но сама идея интеграции национальных инициатив выглядит актуально.

Ссылки:
[1] https://codata.org/initiatives/decadal-programme2/global-open-science-cloud/
[2] https://codata.org
[3] https://codata.org/launch-of-the-gosc-international-programme-office/

#openaccess #openscience #opendata
Онтология типов данных

Когда я только-только начинал возиться с семантическими типами данных то столкнулся с тем что онтологического моделирования типов данных очень мало. Есть исследование и онтология OntoDT [1] ещё 2016 года, но сайт с ним уже недоступен, и сама онтология кое-где ещё доступна как RDF/OWL [2]. Основной автор Panče Panov явно переключился на более прикладные исследования [3]

В качестве других примеров։
- онтология EDAM [4] в биоинформатике, с акцентом на особенности анализа и майнинга данных в этой области
- CDM (Common Data Model) [5] не-формальная онтологии от Microsoft привязанная с акцентом на продажах, пользователях, маркетинге и тд.
- онтология типов данных при ответах на вопросы по геоаналитике [6] прошлогоднее исследование с акцентом на геоданные.

Есть, также, какое-то количество других научных и не только научных публикаций на эту тему, но в целом их довольно мало. Они чаще всего происходят в контексте задач по анализу данных и его автоматизации. Самое развитое идёт в сторону автоматизации создания и аннотирование моделей для ИИ. Проект D3M (Data-Driven Discovery of Models) [7] от DARPA в США. Я не так давно писал о нём и порождённых им стартапах. [8]

По тому что я вижу, рано или поздно, но с практической или научной или обеих точек зрения будет продолжение развитие моделирования типов данных. Помимо задач автоматизации обработки данных, есть явный тренд на развитие инструментов их хранения.

Ещё какое-то время назад в СУБД на родном уровне поддерживались только самые базовые типы данных։ INT, FLOAT, STRING/VARCHAR, BLOB и тд. с небольшими вариациями. Сейчас, современные СУБД, поддерживают многочисленные дополнительные типы данных, перешедших из смысловых (семантических) в базовые типы. Пример: ip-адреса и mac-адреса уже достаточно давно имеющиеся в некоторых СУБД [9] и недавно добавляемые в другие [10].

Ранее всего это произошло с датами и временем в разных вариациях, с геоданными для которых есть сейчас много отдельных функций и индексов внутри СУБД. Также происходит с сетевыми наиболее популярными данными.

Мои ощущения что на этом процесс не остановится. Например, меня удивляет что всё ещё нет СУБД общего типа с отдельными типами данных под хэши (SHA1, SHA256 и др.).

Многие составные идентификаторы и коды классификаторов сейчас в СУБД хранятся как строки, при том что часто они нужны в декомпозированной форме и, в итоге, создаётся избыточность разбирая этот код на части. Пример в России: Вы можете хранить код КЛАДР как есть, а можете разделить его на подэлементы и осуществлять поиск по ним когда это необходимо.

Не знаю появится ли когда-либо движок для СУБД дающий возможность значительно большей гибкости в хранении и индексировании данных иди же, на самом деле, это далеко от насущных необходимостей, но важно то что к у каждого смыслового типа данных есть важная связка с практиками обработки данных и эволюция СУБД в этом направлении явно происходит.

Ссылки:
[1] https://fairsharing.org/FAIRsharing.ydnwd9
[2] https://kt.ijs.si/panovp/OntoDM/archive/OntoDT.owl
[3] https://orcid.org/0000-0002-7685-9140
[4] http://edamontology.org/page
[5] https://docs.microsoft.com/en-us/common-data-model/
[6] https://digitalcommons.library.umaine.edu/josis/vol2020/iss20/2/
[7] https://datadrivendiscovery.org
[8] https://yangx.top/begtin/3926
[9] https://www.postgresql.org/docs/current/datatype-net-types.html
[10] https://mariadb.com/kb/en/inet4/

#data #rdbms #research #metadata #semanticdatatypes
Если медицинская организация имеет личный кабинет и использует сервис CDN для раздачи контента и данные в личном кабинете тоже через него отдаются, то это в чистом виде трансграничная передача данных. Ведь данные проходят пользователю через сервера в США и/или Европе. Пожалуйся на них в Роскомнадзор и те прибегут и наштрафуют. Но есть ли ущерб потребителю? Честно говоря, я сомневаюсь. Называть компанию не буду, более того, их много.

А если ВК раздают пользователям приложения в котором 90% приложений отдаёт данные Гуглу, Facebook'у и тд. или если некоторые, не будем показывать пальцами, органы власти то Роскомнадзор даже не почешется.

Как это правильно назвать по-русски?

#privacy
Весьма любопытное мини-исследование о том сколько времени занимает создание open source альтернативы проприетарному продукту [1].

Автор на научность не претендует, зато много чего проанализировал и выложил в виде CSV файла [2]․

Цифр и примеров там много, почитать будет любопытно, жаль что литературного обрамления маловато, о каждом продукте можно рассказать целую историю.

А вывод очень простой - есть тренд на сокращение сроков запуска open source альтернативы существующему продукту. С 18 лет связки Unix - GNU/Linux, до менее года (343 дня) с связки Clubhouse и его опенсорс альтернативы Dogehouse.

Предлагаю подумать над выводами из этого. Я лично главным выводом вижу коммодизацию разработки ПО, в том числе открытого. Интересно посмотреть не только на open source альтернативы, но и на появление сравнимых конкурентов, оно тоже сократилось. Чем это грозит рынку ПО и сервисов? Тем что бежать надо быстрее, сильнее, лучше, а не ждать что создав продукт можно стричь купюры до конца жизни.

Ссылки:
[1] https://staltz.com/time-till-open-source-alternative.html
[2] https://github.com/staltz/ttosa

#opensource #itmarket
Полезное чтение про данные и не только:
- WSJ пишет что метеорологическая служба США начала закупать данные у двух частных компаний чтобы заполнить пробелы в покрытии их спутников [1]. Статья о том что государство действует очень медленно в таких случаях, закупать данные у частного сектора госорганам непросто.
- научная статья о том как регулируется (ограничивается) ИИ в разных странах [2] статья под пэйволом, но весьма полезна и по сути построена на сравнении предпочтении граждан.
- критическая статья в Politico о том что предполагалось что ИИ изменит систему здравоохранения и о том почему этого не происходит [3]. Если коротко то - завышенные обещания, несовместимые системы и тд. Самое плотное применение ИИ в США сейчас в радиологии.

Ссылки:
[1] https://www.wsj.com/articles/u-s-government-effort-to-tap-private-weather-data-moves-along-slowly-11661335203
[2] https://www.tandfonline.com/doi/full/10.1080/13501763.2022.2094988?src=
[3] https://www.politico.com/news/2022/08/15/artificial-intelligence-health-care-00051828

#data #readings