Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Свежий любопытный инструмент Chartbrew [1], частичная замена Superset и ряду других BI инструментам. Одновременно существует как open source и как сервис.

Из плюсов:
- MIT лицензия
- поддержка MongoDB сразу и из коробки
- выглядит достаточно быстрым, судя по их живому демо

Минусы:
- никаких корпоративных СУБД, скорее акцент на онлайн сервисы
- есть сомнения в высокой настраиваемости, то что более продвинутые BI умеют хорошо
- непонятно что с локализацией, нет примеров

В итоге и судя по позиционированию выглядит как low-code BI для веб студий для их клиентов, там даже предусмотрена возможность создания аккаунтов клиентов.

Выглядит не очень продвинуто пока, но свою нишу может найти.

Ссылки:
[1] https://github.com/chartbrew/chartbrew
[2] https://app.chartbrew.com/live-demo

#opensource #bi #datatools
В рубрике интересных инструментов SeekTune [1] реализация алгоритма идентификации музыки, по сути аналогичный Shazam, но с открытым кодом и реализующий технологию audio fingerprinting. Причём, если посмотреть на код, то там всё просто до безобразия, алгоритм фиксирует задержки между пиками звука, но, судя по демо, это как-то работает. Хотя и надо протестировать, конечно.

Что любопытно:
- автор сам никакой исследовательской/научной работы не проводил, но собрал ссылки на научные работы и примеры кода, например на Java [2]
- автор студент из Нигерии

Для студенческого проекта очень неплохо, для тех кто работает над алгоритмами audio fingerprinting может быть полезно.

Ссылки:
[1] https://github.com/cgzirim/seek-tune
[2] https://www.royvanrijn.com/blog/2010/06/creating-shazam-in-java/

#opensource #audio #audiofingerprinting
В рубрике интересных больших данных World Ocean Database [1] публикуемая Национальным управлением океанических и атмосферных исследований США.

База включает данные по множество наблюдений за океанами и морями, начиная с путешествия капитана Кука в 1772 году и до наших дней.

Из необычного, данные опубликованы не в виде стандартизированного каталога данных, а с возможностью выгрузки по годам или по географической территории по класссификации WMO. Вот, к примеру, данные по северной части Красного моря [2].

Из интересного, примеры работы с данными этой базы приведены на... трам парам... Фортране и, немного, на C [3]

Ссылки:
[1] https://www.ncei.noaa.gov/products/world-ocean-database
[2] https://www.ncei.noaa.gov/access/world-ocean-database/bin/getgeodata.pl?Depth=S&WorldOcean.x=41&WorldOcean.y=219
[3] https://www.nodc.noaa.gov/OC5/WOD/wod_programs.html

#opendata #ocean #seas #researchdata
Полезная картинка для составления стека работы с данными с помощью open source продуктов [1]. Автор большую часть основных продуктов охватил и много что не охватил как и бывает в таких картинках. Полезное когда уже знаешь большую часть продуктов и интересно находить какие-то незнакомые.

Странно что ещё никто не сделал генератор таких картинок. Оно же поддаётся автоматизации, незадорого причём

Ссылки:
[1] https://www.linkedin.com/posts/ravitjain_data-ai-dataengineering-activity-7226190324291837952-COT0/

#data #datatools
Наконец-то инициатива отделяющая Open Source от бизнес моделей с ограничениями, но то же с раскрытием кода. Называется Fair Source [1] или, по-русски, Программное обеспечение с честным исходным кодом (FSS).

Его основные принципы:
1. Общедоступно для чтения;
2. Допускает использование, модификацию и распространение с минимальными ограничениями для защиты бизнес-модели производителя; 3. Проходит процедуру отложенной публикации с открытым исходным кодом (DOSP).

У них есть две лицензии [2]
- Fair Core License (FCL)
- Business Source License (BUSL or BSL)

С обещаниями раскрытия исходного кода через 2 и 4 года соответственно.

Хорошая новость - этому явлению теперь есть более точное название чем часть Open Source

Плохая новость - пока не придумал;)

Что думаете про инициативу?

Ссылки:
[1] https://fair.io
[2] https://fair.io/licenses/

#opensource #fairsource #code #licenses
Существует множество деклараций открытого доступа и вот ещё одна. Учитывая охват и масштаб Sci-Hub она точно заслуживает внимания.
В постах от 18 и 20 апреля с.г. я сообщал, что Александра Элбакян, создатель популярного в мировом научном сообществе сайта Sci-Hub (который помог многим коллегам получить доступ к научным статьям, даже если их организация не подписана на соответствующий журнал), защитила диссертацию на соискание ученой степени кандидата философских наук в Институте философии РАН. Я также писал о том, что я прочитал диссертацию Александры, которая посвящена проблемам философских оснований открытого знания, и что она мне весьма понравилась.

Сегодня я получил от коллег сообщение, что А.Элбакян вернулась к практической деятельности по продвижению идей открытого доступа к научному знанию. Насколько можно понять, она хотела бы сделать проект Sci-Hub полностью легальным. Для этого нужно, чтобы научное сообщество выступило в поддержку свободных научных библиотек.

Александра предлагает на рассмотрение научного сообщества следующую Декларацию об открытом доступе к научному знанию:

https://disk.yandex.ru/i/Y1ok2R2t-N25VQ

Прочитав этот документ, я считаю, что он содержит важные положения, однако детали того, что предлагается, требуют дополнительной проработки. Возможно, было бы правильно организовать обсуждение этой декларации в научном сообществе. Публикуя данный пост, я хотел бы привлечь внимание к декларации и призвать к обсуждению ее основных положений.
Такое чувство что производители облачных СУБД "почувствовали фишку" / осознали возможность демонстрации своих продуктов через наглядное представление больших датасетов. Я ранее писал про OSS Insight [1] от TiDB Cloud с данными извлечёнными из Github, а теперь и команда ClickHouse анонсировала [2] CryptoHouse [3] как бесплатный открытый сервис для блокчейн аналитики. Просто открываешь веб интерфейс и делаешь SQL запросы. А то что интерфейс не требует даже авторизации - это лишнее подтверждение способности выдерживать большие нагрузки.

Выглядит как довольно продвинутая штука, есть немало баз данных над которыми было бы интересно иметь такой интерфейс, но без заоблачных облачных ценников и с возможностью экспорта результатов. Скорее всего это можно сделать достаточно просто и дешево с помощью ch-ui [4] и подобных инструментов.

Недостатков тоже много, в таком интерфейсе непонятно где увидеть документацию, нет data storitelling'а, есть только чистый SQL и таблицы. Не для всех задач такое подходит, но когда знаешь структуру данных и что ищешь, то вполне.

Ссылки:
[1] https://ossinsight.io/
[2] https://clickhouse.com/blog/announcing-cryptohouse-free-blockchain-analytics
[3] https://crypto.clickhouse.com/
[4] https://github.com/caioricciuti/ch-ui

#opendata #clickhouse #sql #blockchain
В рубрике как это устроено у них каталог каталогов данных и иных знаний созданный ЮНЕСКО для систематизации источников информации об океанах, ODIS [1]. В общей сложности это 3135 источников, существенная часть которых - это каталоги данных, базы данных и другие дата продукты.

Это хорошо систематизированный каталог, с возможностью фасетного поиска по стандартам публикации информации, темам, политикам, странам. Например, есть 25 источников из РФ и даже есть источники данных по Ирану.

Ссылки:
[1] https://catalogue.odis.org/

#opendata #data #oceans #datacatalogs
В рубрике как это устроено у них портал по инвентаризации данных Туниса (registre.data.gov.tn) [1]. Недавно начатый правительством страны проект по инвентаризации данных органов власти. Идея в том что вне зависимости от того будут публиковаться данные или нет, их метаданные должны быть систематизированы, описаны, каталогизированы и быть предметом общественного обсуждения, надо ли их открывать и насколько.

Проект на ранней стадии, но само по себе движение правильное. По такому пути шли в США при первоначальном наполнении портала data.gov.

Ссылки:
[1] https://registre.data.gov.tn/fr/

#opendata #tunis #datainventory
Испанский доклад про инновации в муниципальном управлении связанные с открытыми данными и с ИИ [1].

Короткий, всего 30 слайдов/страниц, фокус на урбанистику, геоданные и муниципальное управление. Про ИИ мало, про сервисы на данных много. Всё на испанском, но довольно понятно. По большей части про коммерческие продукты управления городской инфраструктурой.

Ссылки:
[1] https://datos.gob.es/es/documentacion/innovacion-municipal-traves-de-datos-abiertos-soluciones-para-hacer-mas-accesibles-0

#opendata #data #cities #spain
Честно говоря не знаю по какому критерию они будут проверять что участники из одной из стран Кавказа или Средней Азии, по наличию гражданства или, может быть, сойдёт и ВНЖ. Во втором случае в хакатоне смогут принять многие приехавшие в эти страны из РФ.

В любом случае больше хакатонов интересных и разных.

#opendata #data #google #centralasia #caucasus #ai
Forwarded from Open Data Armenia
Google организует в Астане хакатон ИИ-решений проблем, связанных с экологией, сельским хозяйством и продовольственной безопасностью. Участвовать могут граждане стран Южного Кавказа и Центральной Азии.

Дедлайн заявок – 15 августа, предварительная дата хакатона – 15 сентября.

Возможно, получилась бы неплохая разминка перед нашим следующим конкурсом.
В рубрике интересных наборов данных OpenAddresses.io [1] огромная база адресов, кадастровым участкам и зданиям по многим странам мира и отдельным территориям. Проект с огромным числом участников, контрибьюторов и, хоть и не тотальным, но серьёзным покрытием. Например, там есть данные по всему Казахстану, по некоторым регионам РФ, Республике Беларусь, Литве, Эстонии и ещё по многим странам на разных континентах.

Общий объём измеряется сотнями гигабайт, учитывая архивные релизы, в последнем релизе данные глобального покрытия порядка 35ГБ.

Из особенностей - для скачивания просят авторизоваться. С необычным аргументом в пользу этого в том что надо платить за хостинг на AWS S3, а такой механизм нагрузку на бюджет снижает.

В остальном это полноценные открытые данные. В основном скомпилированные из открытых государственных источников.

Ссылки:
[1] https://openaddresses.io

#opendata #datasets #geo #data