Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Какая прекрасная история в коротком изложении, процитирую дословно Newsru.co.il

Полицейские, бойцы полицейского спецназа и пограничники провели спецоперацию в квартале Джуариш в Рамле в рамках борьбы с преступностью в арабском секторе. В ходе этой операции были демонтированы десятки камер наблюдения, установленных на улицах города криминальными элементами. [1]

Жаль лишь что информации категорически мало, а тут интересны подробности и важен сам по себе факт что организованная преступность на месте не следит: ставит камеры, использует OSINT, а там глядишь и нейросети начнут применять и специальные ИИ инструменты. В самом деле если есть edutech, fintech, govtech, то обязательно будет и crimetech.

Ссылки:
[1] https://txt.newsru.co.il/israel/25jun2023/ramla_police_004.html

#privacy #security #crime #israel
Я долго думал как изложить свою реакцию на "мятеж Пригожина" , после которого все смазанные концовки в кинолентах отходят на второй план и понял что после состояния крайнего censored недоумения у меня остаётся только взгляд со стороны цифровой архивации. Стремительность с которой Роскомнадзор заблокировал связанные с Пригожиным медиа-ресурсы возвращает нас к вопросу о том надо ли архивировать подобные цифровые артефакты вроде РИА ФАН и других потому что они могут в любой момент исчезнуть? Правда, смех вокруг всей этой ситуации в том что Роскомнадзор их заблокировал, а сайты то эти работали за CDN'ом BiZone (IP адрес: 185.163.159.22 у riafan.ru, nevnov.ru и др.), а BiZone - это российская инфобезная компания в подчинении Сбербанка. Так что с этими блокировками вопрос довольно удивительный.

Другой вопрос в этой реакции на "мятеж" со стороны властей в том что реакция быстрая и в том какие цифровые ресурсы надо было архивировать заранее. Всех политиков, формальных или неформальных? Информационные ресурсы всех частных армий ? Усилить архивацию сайтов органов власти?

#digitalpreservation #webarchives #security
Из любопытных инвестиций в мире дата-инженерии, Acryl Data подняли раунд на $21m [1] на свой продукт дата-каталога DataHub и среди анонсированных возможностей обещают разное генеративное ИИ.

Правда обещания пока очень смутные:
- подсказывать релевантные наборы данных
- умно курировать метаданные
- генерировать инсайты без значительных усилий

Звучит очень обще и неопределённо, если честно, но деньги на эти и другие возможности им дали и сам продукт стоит внимания.

Ссылки:
[1] https://www.acryldata.io/blog/a-control-plane-for-data-and-a-new-era-for-acryl

#opensource #datacatalogs
В рубрике интересных открытых данных каталог ресурсов с общедоступными API по стандарту OAI-PHM [1]. Это 6099 репозиториев с публикациями, как правило университетов и академических институтов. OAI-PHM версии 2.0 - это довольно давний стандарт [2] для работы с любыми цифровыми репозиториями контента. Его поддерживают, как ПО для публикации научных статей, так и сервисы и ПО для публикации исследовательских данных.

Наиболее популярные продукты с поддержкой OAI-PHM - это DSpace и EPrints, активно используемые для публикации научных статей в открытом доступе. OAI-PHM поддерживает портал Zenodo [3] и многие другие. Фактически этот интерфейс есть по умолчанию у многих продуктов используемых для публикации цифровых материалов, но не все знают что он есть

Ссылки:
[1] https://www.openarchives.org/Register/BrowseSites
[2] http://www.openarchives.org/OAI/openarchivesprotocol.html
[3] https://developers.zenodo.org

#opendata #datasets #openapi #oai-phm
This media is not supported in your browser
VIEW IN TELEGRAM
Я регулярно рассказываю о том над чем я лично работаю над глобальным поисковиком по данным Common Data Index и могу уже показать демо поиска по датасетам. Пока без дизайна, без карточек датасетов, без ещё многого.

Зато очень быстро, с более чем 3.3 миллионами наборов данных. Причём добавление большего числа наборов данных не проблема.

Общий объём метаданных в поиске 7.5Gb, а сам поисковый индекс занимает 65Gb.

Много работы уходит на стандартизацию данных из разных источников, но это интересная гибридно аналитическая и инженерная работа.

Пока по плану ближе к концу августа будет публичный сервис поиска.

#opendata #datacatalogs #datasearch
Любопытный исследовательский проект ORKG [1] дословно The Open Research Knowledge Graph (ORKG) aims to describe research papers in a structured manner. With the ORKG, papers are easier to find and compare.

А в переводе на русский язык посвящённый структуризации научных публикаций. Обратите внимание, не упрощённое понятное понимание, а именно структуризация. Фактически - это перевод научной статьи в данные/граф знаний с привязкой к Wikidata. Делает его команда TIB – Leibniz Information Centre for Science and Technology которые под руководством Сорена Ауэра, команда которого когда-то создавала DbPedia. Фактически проект создаёт структурированную базу научных статей, задача эта очень непростая, но реалистичная и наукоёмкая.

Да, у них открытое API, точки подключения к SPARQL и много чего открытого.

Ссылки:
[1] https://orkg.org

#opendata #openapi #openscience #knowledge #science
Mosaic [1] симпатичный опенсорсный фреймворк визуализации данных. Визуализации можно настраивать через JS, JSON или YAML, что даёт удобное разнообразие того как с этим работать. А то что это фреймворк даёт возможность удобно встраивать в свои продукты. Выглядит как минимум неплохо, стоит попробовать на реальных данных.

Кроме всего прочего обещают прозрачную интеграцию с DuckDB и поддержку больших датасетов, до миллиардов записей.

Ссылки:
[1] https://uwdata.github.io/mosaic/

#dataviz #opensource #datatools
Для тех кто ненавидит любит придумывать пароли совершенно смешная игра https://neal.fun/password-game/

Для полноты счастья ещё бы автор добавил написание пароля на время. Я остановился на 11м правиле;)

P.S. Хорошо что в реальной жизни я использую несколько паролей от 25 до 35 символов, а не вот это вот всё:)

#security #privacy #fun
Я тут задумался о KPI которые должны/могут быть у поисковика по данным, если рассматривать его как глобальный, причём эти критерии могут существенно как пересекаться так и давать разные направления усилий.

Например, критерий разнообразности. То что данные данные должны быть разных типов: госданные, открытые геоданные, научные данные, микроданные, данные для ML, точки подключения API и тд. Максимально широкий охват данных по типам. Требует поиска каталогов с разными типами данных и их индексации

Или критерий географической полноты, так чтобы поиск позволял найти данные по условно любой страны из условно любой страны, даже маленьких тихоокеанских государств. Здесь надо обыскать порталы всех стран на предмет каталогов данных и уметь извлекать страновую принадлежность у датасетов из общемировых каталогов.

Или критерий масштаба, когда чем больше данных тем лучше. Тогда надо не гоняться за наибольшим числом порталов данных, где может быть даже по 3-5 датасетов, а целенаправленно индексировать вначале крупнейшие. Чем больше каталог тем приоритетнее он должен быть.

Или критерий количественный, когда важно не то сколько наборов данных, а то сколько источников данных. Обогнать все имеющиеся каталоги порталов данных и быть наиболее полным из них, с поиском не только по датасетам, но и просто по метаданным каталога каталогов.

Или критерий полноты возможностей, когда важно то сколько фасетов можно задать в поиске, так чтобы не только по типу каталога или лицензии, но и по стране, территории, научным дисциплинам, темам, макрорегионам, форматам, и так далее.

Или критерий глубины, когда поиск идёт не только по ключевым полям, но и создаются индексы поиска по организациям публикующим данные, по полям данных. Здесь же находится интеграция с другими источниками, например, базами научного цитирования.

Или критерий скорости, так чтобы средний поисковый запрос шёл не более 100 миллисекунд или меньшее или чуть большее время.

И таких критериев ещё немало. Эти, пожалуй, главные. Чем больше делаешь фокус на один, тем меньше времени и возможности уделить остальным. Но какие-то акценты на развитии необходимы, ключевое тут в том кто пользователи и что им нужно.

Я регулярно буду рассказывать про проект Common Data Index, реестр каталогов данных и открытый поисковик по всем доступным открытым данным в мире.

#opendata #datasets #commondataindex
Александр Горный напомнил про проекты по архивации Интернета, а я напомню что кроме Archive.org и Archive.today существует множество цифровых сервисов сохранения исходного кода, данных, цифровых объектов и тд.

Проект которым я занимаюсь, Common Data Index, тоже может рассматриваться как архив данных, на стадии когда уже получится запустить краулер данных, а не только метаданных. Но важно что почти все ключевые публичные проекты по архивации живут на донаты или дополнительные небольшие коммерческие сервисы. Человечество в целом до сих пор не очень то научилось ценить открытые знания и их долгосрочную доступность, к счастью есть критическая масса людей понимающих что именно это позволяет сохранять цивилизацию и что наши потому тоже имеют право изучать историю творимую в наши дни.

#opendata #digitalpreservation #webarchives
Архивы интернета

Все знают главный архив интернета – web.archive.org. Цель сервиса – сохранить вид всей мировой сети в каждый момент времени. Идеально эту задачу решить невозможно, но web.archive к этому стремится. Главную страницу Гугла он сохранил 13 миллионов раз, главную страницу моего блога – 126 раз.

Чего многие не знают, у интернета есть и второй архив – #стартапдня archive.today с меньшей, но сопоставимой посещаемостью. Его модель гораздо практичнее и, видимо, на много порядков дешевле, чем модель web.archive. Он сохраняет не всё подряд постоянно, а только то, что пользователь просит и только в тот момент, когда он просит. Понравился мне именно сегодняшний вид того же Google – иду на сайт, нажимаю кнопку, – всё, страница ушла в вечность, каждый сможет в будущем её посмотреть.

Любопытный побочный эффект: archive.today иногда работает, как средство халявного просмотра платного контента. Мне этот фокус показали на Business Insider, я проверил случайную статью на Financial Times – да, стартап отлично показал полный текст. Сервера газет думали, что общаются с поисковым роботом, а для них секретов нет, СМИ хотят индексироваться по максимуму.

Хочется сказать, что в этом и есть секрет популярности стартапа, но похоже, что нет. С того же Financial Times он индексировал всего 2000 статей за всю историю, это совсем немного на фоне десятков миллионов визитов на archive.today каждый месяц. Не знаю, что обычные посетители там делают. Личные сайты сохраняют? Зачем?...

Archive.today делается одним энтузиастом. Зарабатывает он донатами и, видимо, не окупает хостинг, но уверенно пишет – деньги есть, работать будем, убыток есть кому закрыть. И больше десяти лет действительно уже работает.

https://archive.ph/

#контент #насвои

——
http://yangx.top/startupoftheday — рассказ о новом стартапе каждый день. Кратко и без воды.
Любопытный свежий документ Deloitte про открытые данные и открытый банкинг Digital transformation of financial services and moving from Open Banking to Open Data [1], подготовленный в продолжение отчёта ОЭСР Shifting from open banking to open finance [2] от февраля 2023. В документе Deloitte в большей степени и в документе ОЭСР в меньшей степени упоминаются открытые данные, но термин постоянно подменяется с "open data" на "Open Data Ecosystem" и то что там описывается, формально, конечно, никакими открытыми данными не являются. Это данные, в том числе персональные, доступные в рамках различных инициатив по data sharing и само регулирование и примеры в этих документах это практики корпоративного обмена данными и предоставление данных через стандартизованные интерфейсы.

С точки зрения интересных примеров регулирования работы с данными - почитать полезно, в остальном, довольно активная подмена понятий, особенно в тексте от Deloitte.

Ссылки:
[1] https://www.deloitte.com/global/en/Industries/financial-services/perspectives/ecosystem-imperative.html
[2] https://www.oecd.org/publications/shifting-from-open-banking-to-open-finance-9f881c0c-en.htm

#opendata #readings
Я тут недавно выступал на одной из конференций с презентацией на русском языке про текущее состояние открытых данных и очень хотел добавить к ней цифры по числу и объёму открытых данных в мире. Такие цифры никто не собирал и, в принципе, это трудоёмкая задача. Поэтому получилось измерить минимальное число каталогов с данными, их около 3000+, но число самих данных в Common Data Index пока только 3.3 миллиона, с оговорками что не всё индексируется, не всё индексируется хорошо и тд. Но есть ли хотя бы ориентиры?

Итак вот 2 цифры:
- 45 миллионов наборов данных - это то что заявляет команда Google dataset search [1] на февраль 2023 года и собранные из 13 тысяч сайтов с разметкой Schema.org Dataset
- 53 миллиона наборов данных - это число наборов данных содержащихся в 10 крупнейших репозиториях (содержащих от 100 тысяч наборов данных) и агрегаторах научных данных, OpenAIRE, Data Mendeley, DataCite, SciDb, Figshare, DataOn, Data One, Pangaea, Zenodo, IRDB. Подсчитано мной вручную, с оговоркой что научных репозиториев много, миллионников мало, но под 100 тысяч могут быть какие-то какие я не видел ещё. Так что 53 миллиона это минимальные оценки.

Измерить объёмы данных также можно, но это будет очень большим допущением потому что до 99.9% объёма всех данных будут результаты исследований CERN и аэрофотосъёмка. Там много-много-много десятков петабайт. Речь только про доступные данные, конечно.

Ссылки:
[1] https://ai.googleblog.com/2023/02/datasets-at-your-fingertips-in-google.html

#opendata #datasets
В рубрике как это устроено у них, экспериментальный австралийский проект их департамента финансов (аналог Министерства финансов в РФ и постсоветских странах) по созданию так называемого финансового графа по органам власти Австралии. С атрибутами, свойствами и характеристиками органов власти с точки зрения их участия в бюджетном процессе. Можно посмотреть вживую на structure.gov.au [1]

В России похожий проект был в виде реестра участников и неучастников бюджетного процесса, но только связанных данных там не было, но информации значительно больше публиковалось и частично публикуется.

В мире такие проекты редкость, сложные формальные реестры - это одна из областей где применение связанных данных оправданно и логично, хотя и от конечного неквалицированного пользователяь оторвано.

Для тех кто любит оперировать смыслами понятий в госуправлении и управлении бюджетными процессами - это сложная и интересная штука.

Ссылки:
[1] https://structure.gov.au/body/department-finance

#opendata #linkedata #govfinances #government #australia
Я уже несколько раз писал о том что государства по всему миру продолжают создавать каталоги API, по аналогии с сайтами для разработчиков предлагаемыми в коммерческом секторе. Новые каталоги API в тот же список:
- Каталог административных API Японии http://api-catalog.e-gov.go.jp/ открыт 31 марта 2023 г., 39 API
- Государственные API в Малайзии https://www.mygdx.gov.my/en/landing-page/architecture?theme=first-theme 130 API
- Портал API налоговой службы Австралии https://apiportal.ato.gov.au, 6 API
- Портал госAPI ОАЭ https://api.government.ae 29 API
- Портал API налоговой службы Новой Зеландии https://portal.api.business.govt.nz 30 API
- Каталог API Литвы https://api.gov.lt около 40 API

А также предыдущий список из 6 каталогов API.

Таких порталов становится всё больше и, надо отметить, что появляются они в странах где порталы открытых данных уже стали нормой и такие каталоги API их дополняют для задач где сложно или неудобно выгружать весь набор данных целиком или органы власти требуют авторизации.

#openapi #opendata #api #government
Свежий текст в рассылку на Substack, текстов я туда не писал давно, поэтому перезапускаю с вопроса. О чём же написать в первую очередь? Опрос прямо там же, на Substack [1]

Ссылки:
[1] https://begtin.substack.com/p/fde

#blogging #data #substack
Тут буквально недавно Миннауки РФ разродилось контрактом на 344 млн. руб. с на создание сервисов в рамках "домена наука" на базе ЕГИСУ НИОКР.
Контракт, ожидаемо, с ед. исполнителем, их подведом ЦИТИСом.

Отдельная история про смысл этой работы, о ней как-то в другой раз. А отдельно про "нюансы" с Гостехом. Так вот упоминание Гостеха там в документе щедро раскидано, но... как опытный чтец ТЗ на госсистемы отмечу следующее:
1. В документе акцент не на создание на базе Гостеха, а на "готовности перевода сервисов", а значит Минобрнауки сможет принять работы и без переноса.
2. Технические мероприятия не включают перевод в промышленную эксплуатацию (впрочем это касается всего что делает ЦИТИС, а не только ГосТех, можно сказать что это такая "особенность")
3. Гостех описывается исключительно как платформа для хостинга. Требования к оборудованию нет, всё что касается сервисной инфраструктуры отсутствует.
4. Про взаимодействие через витрины данных описывается в модели "если они будут".
5. Стоит обратить внимание что размещение гостайны на Гостехе не предусмотрено, поэтому ЕГИСУ НИОКТР разделяют на две части: на инфраструктуре ЦИТИСа и на инфраструктуре ГосТеха.

В итоге, что и требовалось доказать. Гостех ничем не отличается от того чтобы вместо него использовался бы ЦОД Госзнака или Ростелекома или ГЕОП и ещё много чего.

Учитывая насколько представители Сбера стали реже упоминать себя в контексте ГосТеха, в банке то понимают насколько они портят себе этим репутацию. Собственно и мне инсайдеры в Сбере периодически честно говорят, что из всего технологического что банк делает, именно Гостех - это самый неаппетитный результат жизнедеятельности.

Ссылки:
[1] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=1971006293923000063&contractInfoId=83142106

#government #govtech #spending