Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Вдогонку к тексту про недокументированные API, маленький лайфхак о котором мало кто знает. У сервисов ArcGIS проверка доступа к ним зависит от вида запрашиваемого контента, для одних и тех же данных. Если обратится по ссылке к HTML представлению то может быть ошибка 403, а если к JSON то всё возвращается.

На скриншотах сервер с данными ArcGIS в Индии. Его можно открыть по ссылке. Он выдаст 403 ошибку, потом добавляем ?f=json и получаем ответ в формате JSON. Что важно, даже несмотря на то что администратор ограничил просмотр директорий с сервисами.

Это уже чуть-чуть ближе к инфобезу, но серьёзные данные и так не выставляют в ArcGIS в открытый доступ, а краулеры вообще не знают что там администратор ограничил. JSON доступен и парсится? Вот и славно.

#opendata #undocumentedapi #datasets #arcgis #geodata
Читаю научную статью Relationships are Complicated! An Analysis of Relationships Between Datasets on the Web [1] от команды Google Datasets из которой немного больше понятно о том как устроен их Google Dataset Search и не могу не отметить насколько неглубоко они погружаются в тематику того чем занимаются и с насколько небольшими датасетами метаданных работают. В этом случае они работали с датасетом с метаданными о 2.7 миллионов наборах данных.

Но сама проблема которую они поднимают актуальна. К данным не работают индексы цитирования, а взаимосвязи между ними не всегда можно установить простым образом если авторы сами не указали.

Но, почему я лично считаю их статью неглубокой:
1. Кроме базовых стандартов вроде DCAT, Schema.org и других есть куда больше более сложных стандартов публикации данных, особенно научных, где эти взаимоотношения прописаны куда чётче.
2. Взаимоотношения датасетов, по хорошему, это предмет онтологического моделирования и дополнения/расширения/адаптации DCAT
3. Более сложная эвристика не только и не столько в анализе названий, как это делают авторы, а в общих схеме/структуре данных между датасетами, пересечение по содержанию и тд.

Правда работ в этой области не так много, но от ребят из Гугла я ждал большего.

Когда у меня только начинались мысли про Dateno изначально желание было с запустить процесс постоянного обогащения метаданных чтобы сделать поиск насыщеннее: больше фильтров, лучше связи между данными, больше понимания их содержимого и тд. Но, случайно, получилось собрать быстро много датасетов и по прежнему не покидает ощущение что их слишком мало. Данных всегда мало!😜

Но о том что можно выдавать пользователю инфу про схожие датасеты мысли были и есть. Можно использовать тут сложную эвристику или функции а ля ИИ заложенные в поисковый движок, а можно большее знание о самих данных и простые выборки на основе этого.

Ссылки:
[1] https://www.semanticscholar.org/paper/Relationships-are-Complicated%21-An-Analysis-of-on-Lin-Alrashed/97e3cfd5a6cf88f2b1887c5fefc76b528e92f23b

#opendata #datasets #google #dateno #readings
Please open Telegram to view this post
VIEW IN TELEGRAM
Я тут тоже думал про всякое применение ИИ, как в продуктовых и рабочих делах, так и общечеловеческих. Рабочие дела - это как применять ИИ для обработки, классификации, повышения качества, поиска, обогащения и тд. в работе с данными. Применений много, о них как-то в другой раз и скорее уже когда будет что показать и рассказать живое.

А вот про рабочее и полезное человечеству.
1. Не теряю всё же надежду что хоть кто-то из разработчиков сделает умный Inbox, AI ассистента нормально работающего с почтой, контактами и документами в рамках корпоративных и личных коммуникаций. Для людей живущих асинхронной жизнью это просто необходимо. Я вот не хочу сортировать почту по папкам, довылавливать спам, дозаполнять контакты после внесения, вспоминать треды переписки и так далее. Это всё совершенно точно поддаётся качественной даже не автоматизации, а глубокой трансформации без потери качества.
2. Есть огромное число малых/не национальных языков, никак не защищаемых государствами или защищаемых незначительно. Какие-то из них стагнируют, некоторые развиваются, большая часть медленно или быстро вымирает. Если по ним есть хоть какая-то устная и письменная история то AI для сохранения и обучения вымирающих языков. Не только как предмет анализа, исследований и научных работ, а по автоматизированному созданию автопереводчиков, словарей, обучающих материалов и так далее. Коммерческой идеи тут, может не быть. Подчеркну что идея тут не в автоматизации перевода, а в автоматизации создания обучающих материалов.

#ai #thoughts
Ещё один полезный/любопытный инструмент ChartDB по проектированию баз данных [1]. Умеет быстро делать структуру из нескольких SQL СУБД, выглядит простым и удобным. Открытый код AGPL-3.0 [2].

Ссылки:
[1] https://chartdb.io
[2] https://github.com/chartdb/chartdb

#opensource #tools #databases
Elasticsearch снова open source, они добавили лицензию AGPL 3.0 к SSPL [1]. Хочется немного позлорадствовать, а стоило ли им идти тем путём что они пошли, но реально это хороший продукт и все эти события добавили ему конкуренции, а конкуренция тоже хорошо.

P.S. Но для поиска Meilisearch лучше [2] и лицензия там MIT.

Ссылки:
[1] https://www.elastic.co/blog/elasticsearch-is-open-source-again
[2] https://github.com/meilisearch/meilisearch

#opensource #elastic #search
Кстати, я пропустил точный момент когда это произошло, но явно не так давно. OpenCorporates, проект по сбору и предоставлению открытых данных о компаниях более не открытые данные [1]. Где-то в 2023 году, скорее всего в августе, но может и чуть раньше.

В этом смысле во всём что касается открытых данных есть давняя не нерешённая проблема про отсутствие устойчивых механизмов существования у open data проектов претендующих на создание качественных данных.

Из всех известных мне проектов только OSM и Wikidata имеют более менее устойчивую модель жизни. И то, Wikidata не претендует на полноту, а OSM находится под нарастающим давлением бигтехов.

Для сравнения, в случае открытого исходного кода ситуация лучше. Моделей существования устойчивых сообществ создающих open source продукт много:
- open source по умолчанию, коммерческий сервис в облаке
- заработок на услугах поддержки ПО
- работа изнутри бигтехов

и тд. не все варианты простые, но они хотя бы есть.

А в случае открытых данных, развилка в в одном из или:
- постоянное грантовое
- госфинансирование
- финансирование как часть научной инфраструктуры (госфинасирование и частное грантовое)

или не открытые данные. Я это наблюдаю не только в случае Open Corporates, но и в проектах Open Sanctions, AIDA и многих других. У всех их создателей есть дилемма. Или делаешь полностью открытое и получаешь поддержку сообщества, но в любой момент финансирование прекращается и проект стухает. Или не делаешь полноценно открытый проект и сообщество или игнорирует его или воспринимает с агрессией.

Гибридные на данных проекты делать сложно, если они удаются, то быстро уходят в коммерческий рынок данных, теряя полностью атрибуты открытости.


Ссылки:
[1] https://github.com/orgs/datasets/discussions/386

#opendata #opensource #business #dataproducts
TF05_ST_06_Advocating_an_Inter66cf6ad8f1a90.pdf
688.5 KB
Для тех кто интересуется международной повесткой регулирования данных International Decade for Data (2025-2035) under G20 sponsorship [1] доклад одной из рабочих группы при G20 с предложением по продвижению десятилетия данных под эгидой G20 и основных направлениях.

Удивительно что там ни слова об открытых данных, но много про управление данными в международном аспекте.

Ссылки:
[1] https://www.t20brasil.org/media/documentos/arquivos/TF05_ST_06_Advocating_an_Inter66cf6ad8f1a90.pdf

#opendata #data #policy #readings
Open data in Scotland: a blueprint for unlocking innovation, collaboration and impact [1] ещё один любопытный документ про открытые данные в Шотландии.

Видимо чтобы подтолкнуть правительство Шотландии создать портал открытых данных региона. При этом надо сказать что в реестре Dateno [2] Шотландии есть 29 каталогов данных и в самом Dateno проиндексировано 7500+ датасетов из Шотландии. Скорее всего данных там реально больше.

Надо, кстати, как-нибудь доработать реестр и отображать каталоги данных на субрегиональном уровне, добавить мониторинг доступности, перевести ведение реестра из формата сборки в формат СУБД.

Но это скорее задачи для бэклога.

Сейчас чтобы работать с реестром каталогов данных Dateno можно просто скачать файл full.jsonl [3] из репозитория и выполнить команду
select uid, catalog_type, software.id, link from (select *, unnest(owner.location.subregion) from 'full.jsonl') where id_1 = 'GB-SCT';


Очень и очень просто. А сам реестр постоянно пополняется.

Ссылки:
[1] https://www.gov.scot/publications/open-data-scotland-blueprint-unlocking-innovation-collaboration-impact/
[2] https://dateno.io/registry
[3] https://github.com/commondataio/dataportals-registry/tree/main/data/datasets

#opendata #datasets #scotland #dateno
На всякий случай, для тех кто не знает, посты с рассказом про источники данных и Dateno я дублирую на английском в LinkedIn [1] где можно подписаться на эти и другие новости проекта.

Закидывать туда посты, я, и коллеги, будем нечасто, но регулярно и на английском языке и по теме data discovery.

А в этом телеграм канале я пишу:
а) На русском.
б) Часто
в) Про разное

Ссылки:
[1] https://www.linkedin.com/company/datenoproject/posts/?feedView=all

#opendata #dateno
Forwarded from Privacy Advocates
⚡️Instagram** в рекламных целях прослушивает каждого пользователя
🔸Издание 404 Media выяснило, что соцсеть Instagram** в рекламных целях прослушивает (опция Active Listening) каждого пользователя. В этом факте признался один из основных партнёров платформы по предоставлению рекламных услуг Cox Media Group (CMG), который уже много лет работает с Google и Meta*.
🔸Согласно презентации CMG в рамках развития опции для контекстной рекламы, которая буквально читает мысли пользователей:
• компания предлагает клиентам услугу «активного прослушивания»;
• опция позволяет ИИ подслушивать ваши разговоры возле смартфона, а также анализировать действия пользователя в сети;
• Active Listening захватывает любые звуки с микрофона любых смартфонов;
• алгоритмы Active Listening позволяют выдавать клиентам самую точную рекламу. Например, после фразы «нужна новая футболка» они видят наплыв таргетированной рекламы футболок;
• главные клиенты CMG: Google, Amazon, Meta.
🔸Примечательно, что Google и Meta* после обнародования данных об использовании Active Listening удалили любые упоминания CMG со своих ресурсов. В Amazon заявили СМИ, что знают об этом сервисе, но никогда им не пользовались. В Facebook* пояснили, что экстренно «начали проверку» этой информации от СМИ.

Meta Platforms*, а также принадлежащие ей ресурсы Facebook и Instagram *признана экстремистской организацией, её деятельность в России запрещена; **запрещены в России.
На фоне "новости" о том что бигтехи следят за нами прослушивая микрофон непрерывно, не могу не напомнить про прекрасный проект https://trackthis.link/ по обману рекламодателей через открытие сотни табов в браузере. Там, правда, не было обновлений за 5 лет и часть открываемых ссылок уже протухли, но не все. Лично я регулярно пользуюсь профилем Doomsday Prepper и ни о чём не жалею!

#privacy #mozilla #humour
В рубрике интересных открытых данных данные по трафику судов [1] от Finnish Transport Infrastructure Agency. Данные по портам, кораблям, движению, портозаходам и ещё много чему. Всё без ограничений и аутентификации, покрывает практически всё Балтийское море.

Тот случай когда API оправдано на 100%. Для полного счастья нехватает только исторических данных для bulk download.

Ссылки:
[1] https://www.digitraffic.fi/en/marine-traffic/#vessel-locations

#opendata #finland #API
Ранее Notion, а теперь ещё и Coda. Но Notion писали в стиле "мы теперь не принимаем платежи из РФ", а Coda сразу пишут что из РФ будут недоступны.

#russia #sanctions
Полезное чтение про данные, технологии и не только:
- Founder Mode [1] "Режим основателя", текст от Пола Грэхема о том что часто важно чтобы основатели стартапов оставались вовлечёнными в бизнес, а не переводили его в режиме менеджмента. Вроде как очевидно, но мысль и канва рассуждения полезны чтобы освежить эту истину.
- How a startup feels [2] как ощущается жизнь в стартапе, текст от Benn Stancil, хорошо написано и просто таки ощущается. Перекликается с текстом Пола Грэхема.
- Art of Finishing [3] "Искусство завершать" , тоже полезный, уже с более техническим взглядом у автора, про то что надо доделывать то что надо доделывать применительно к программной инженерии.

Ссылки:
[1] https://paulgraham.com/foundermode.html
[2] https://substack.com/home/post/p-148046562
[3] https://www.bytedrum.com/posts/art-of-finishing/

#readings #startup
В рубрике как это устроено у них, открытые данные Палестинской Автономии. В реестр Dateno на сегодня 15 каталогов данных из Палестины [1] из которых 12 каталогов - это геопорталы на базе ArcGIS Server или ArcGIS Hub, 1 каталог микроданных и 2 каталога открытых данных. Основной opendata.ps можно сказать официальный портал открытых данных страны и и второй с наборами данных связанными с последними гуманитарными событиями https://data.techforpalestine.org/docs/datasets/ от Tech for Palestine.

Как и по многим других развивающимся странам гораздо больше данных о Палестине в международных организациях, в виде статистики или данных по гуманитарной инфраструктуре.

Многие из каталогов данных уже проиндексированы в Dateno, но не все. Сказывается ситуация с отсутствием сетевой нейтральности и того что не все источники данных индексируются из всех стран( Рано или поздно придётся приходить к использованию распределённых краулеров и тестированию доступности из разных стран.

Ссылки:
[1] https://dateno.io/registry/country/PS

#opendata #datacatalogs #palestine #datasets