Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Для тех кто работает с архивами сайтов в формате WARC свежий инструмент WARC-GPT [1] по исследованию содержимого WARC файлов с использованием большой языковой модели (ИИ).

С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.

Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt

#opensource #digitalpreservation #ai #webarchives
Для настоящих фанатов работы с командной строкой переосмысление работы с оболочками/терминалами в виде Wave Terminal [1] проекта с открытым кодом для который, с одной стороны даёт возможность работать с несколькими сессиями командной строки, а с другой позволяет организовывать пространство в виде виджетов. Сейчас эти виджеты включают:
- окно терминала
- системная информация по нагрузке памяти и CPU в реальном времени
- папки с файлами
- диалоговое окно с чатботом
- окно браузера

Для Windows прозрачная интеграция с WSL и дистанционным подключением к серверам, для других OS пока не пробовал.

Ко всему ещё и под открытой лицензией, в общем-то для тех кто живёт командной строкой не продукт, а мечта. Хотя я лично для W10 и W11 давно привык к Windows Terminal [2], но этот продукт может его потеснить потому что выглядит неплохо.

И, сразу понятно как создатели могут монетизировать такой продукт:
- виджеты для дистанционного подключения к Grafana, Prometheus, Datadog, Newrelic и тд.
- сервис взаимодействия с чат ботами через свои сервера с возможностью переключения на разные AI модели, собственно это уже проксируется через них для одной модели, просто пока денег за это не берут
- интеграция с дата инженерными платформами, базами данных и тд. где есть конвееры и нагрузка на ресурсы

При этом всё настраивается через файлы конфигурации и инструменты командной строки, организуется в рабочие пространства и можно создать рабочее пространство под конкретный проект, для работы, для работы с домашними устройствами и так далее.

Для дистанционной отладки продуктов и для операций DataOps и DevOps может быть весьма полезной прикладной штукой

Ссылки:
[1] https://github.com/wavetermdev/waveterm
[2] https://github.com/microsoft/terminal

#opensource #commandline
В рубрике интересных каталогов данных я ранее писал про WIS 2.0 движок от Всемирной метеорологической организации (WMO) по сбору стандартизированных данных о погоде [1]. Но это относительно новый продукт, ведь большое число стран интегрировано с системами WMO и без него. И делают они это, не все но многие, с помощью другого продукта который называется OpenWIS [2].

Это продукт с открытым кодом созданный в The OpenWIS Association AISBL через кооперацию более чем десятка стран.

На базе OpenWIS работают порталы с данными о погоде в России [3], Таиланде [4], Индонезии [5], Южной Корее [6] и многих других странах.

Внутри OpenWIS форк продукта Geonetwork, специализированного каталога метаданных используемого для публикации и поиска по пространственным данным. Поскольку у Geonetwork много открытых API и интерфейсов то к этим порталам можно подключится даже когда их веб интерфейсы закрыты паролями. Например, у российской инсталляции OpenWIS открытое API по стандарту OAI-PMH [7] и, скорее всего и другие тоже есть.

Код OpenWIS не развивается уже несколько лет, явно постепенно метеорологические агентства будут переходить на WIS 2.0 и на другие решения, тем не менее эти порталы это тоже каталоги данных. В реестре каталогов Dateno их пока нет, кроме портала OpenWIS в Таиланде, который был идентифицирован как экземпляр Geonetwork хотя, правильнее всё же будет определять OpenWIS как отдельный тип каталогов данных.

С одной стороны данных в этих каталогах данных немного, сотни слоёв карт, максимум, а с другой стороны их сбор не требует сверхусилий и рано или поздно они появятся в поиске Dateno.

Ссылки:
[1] https://yangx.top/begtin/5972
[2] https://github.com/OpenWIS/openwis
[3] http://meta.gisc-msk.wis.mecom.ru/openwis-portal/srv/en/main.home
[4] http://wis.tmd.go.th/openwis-user-portal/srv/en/main.home
[5] http://wis.bmkg.go.id/openwis-user-portal/srv/en/about.home
[6] http://dcpc.nmsc.kma.go.kr/openwis-user-portal/srv/en/main.home
[7] http://meta.gisc-msk.wis.mecom.ru/openwis-portal/srv/en/oaipmh?verb=Identify

#opendata #datacatalogs #data #meteorology #opensource