Elasticsearch снова open source, они добавили лицензию AGPL 3.0 к SSPL [1]. Хочется немного позлорадствовать, а стоило ли им идти тем путём что они пошли, но реально это хороший продукт и все эти события добавили ему конкуренции, а конкуренция тоже хорошо.
P.S. Но для поиска Meilisearch лучше [2] и лицензия там MIT.
Ссылки:
[1] https://www.elastic.co/blog/elasticsearch-is-open-source-again
[2] https://github.com/meilisearch/meilisearch
#opensource #elastic #search
P.S. Но для поиска Meilisearch лучше [2] и лицензия там MIT.
Ссылки:
[1] https://www.elastic.co/blog/elasticsearch-is-open-source-again
[2] https://github.com/meilisearch/meilisearch
#opensource #elastic #search
Elastic Blog
Elasticsearch Is Open Source. Again!
Elastic announces the return of open source licensing for Elasticsearch and Kibana, adding AGPL as an option alongside existing licenses. This change reinforces our long-standing commitment to open source principles and the open source community.
Кстати, я пропустил точный момент когда это произошло, но явно не так давно. OpenCorporates, проект по сбору и предоставлению открытых данных о компаниях более не открытые данные [1]. Где-то в 2023 году, скорее всего в августе, но может и чуть раньше.
В этом смысле во всём что касается открытых данных есть давняя не нерешённая проблема про отсутствие устойчивых механизмов существования у open data проектов претендующих на создание качественных данных.
Из всех известных мне проектов только OSM и Wikidata имеют более менее устойчивую модель жизни. И то, Wikidata не претендует на полноту, а OSM находится под нарастающим давлением бигтехов.
Для сравнения, в случае открытого исходного кода ситуация лучше. Моделей существования устойчивых сообществ создающих open source продукт много:
- open source по умолчанию, коммерческий сервис в облаке
- заработок на услугах поддержки ПО
- работа изнутри бигтехов
и тд. не все варианты простые, но они хотя бы есть.
А в случае открытых данных, развилка в в одном из или:
- постоянное грантовое
- госфинансирование
- финансирование как часть научной инфраструктуры (госфинасирование и частное грантовое)
или не открытые данные. Я это наблюдаю не только в случае Open Corporates, но и в проектах Open Sanctions, AIDA и многих других. У всех их создателей есть дилемма. Или делаешь полностью открытое и получаешь поддержку сообщества, но в любой момент финансирование прекращается и проект стухает. Или не делаешь полноценно открытый проект и сообщество или игнорирует его или воспринимает с агрессией.
Гибридные на данных проекты делать сложно, если они удаются, то быстро уходят в коммерческий рынок данных, теряя полностью атрибуты открытости.
Ссылки:
[1] https://github.com/orgs/datasets/discussions/386
#opendata #opensource #business #dataproducts
В этом смысле во всём что касается открытых данных есть давняя не нерешённая проблема про отсутствие устойчивых механизмов существования у open data проектов претендующих на создание качественных данных.
Из всех известных мне проектов только OSM и Wikidata имеют более менее устойчивую модель жизни. И то, Wikidata не претендует на полноту, а OSM находится под нарастающим давлением бигтехов.
Для сравнения, в случае открытого исходного кода ситуация лучше. Моделей существования устойчивых сообществ создающих open source продукт много:
- open source по умолчанию, коммерческий сервис в облаке
- заработок на услугах поддержки ПО
- работа изнутри бигтехов
и тд. не все варианты простые, но они хотя бы есть.
А в случае открытых данных, развилка в в одном из или:
- постоянное грантовое
- госфинансирование
- финансирование как часть научной инфраструктуры (госфинасирование и частное грантовое)
или не открытые данные. Я это наблюдаю не только в случае Open Corporates, но и в проектах Open Sanctions, AIDA и многих других. У всех их создателей есть дилемма. Или делаешь полностью открытое и получаешь поддержку сообщества, но в любой момент финансирование прекращается и проект стухает. Или не делаешь полноценно открытый проект и сообщество или игнорирует его или воспринимает с агрессией.
Гибридные на данных проекты делать сложно, если они удаются, то быстро уходят в коммерческий рынок данных, теряя полностью атрибуты открытости.
Ссылки:
[1] https://github.com/orgs/datasets/discussions/386
#opendata #opensource #business #dataproducts
TF05_ST_06_Advocating_an_Inter66cf6ad8f1a90.pdf
688.5 KB
Для тех кто интересуется международной повесткой регулирования данных International Decade for Data (2025-2035) under G20 sponsorship [1] доклад одной из рабочих группы при G20 с предложением по продвижению десятилетия данных под эгидой G20 и основных направлениях.
Удивительно что там ни слова об открытых данных, но много про управление данными в международном аспекте.
Ссылки:
[1] https://www.t20brasil.org/media/documentos/arquivos/TF05_ST_06_Advocating_an_Inter66cf6ad8f1a90.pdf
#opendata #data #policy #readings
Удивительно что там ни слова об открытых данных, но много про управление данными в международном аспекте.
Ссылки:
[1] https://www.t20brasil.org/media/documentos/arquivos/TF05_ST_06_Advocating_an_Inter66cf6ad8f1a90.pdf
#opendata #data #policy #readings
Open data in Scotland: a blueprint for unlocking innovation, collaboration and impact [1] ещё один любопытный документ про открытые данные в Шотландии.
Видимо чтобы подтолкнуть правительство Шотландии создать портал открытых данных региона. При этом надо сказать что в реестре Dateno [2] Шотландии есть 29 каталогов данных и в самом Dateno проиндексировано 7500+ датасетов из Шотландии. Скорее всего данных там реально больше.
Надо, кстати, как-нибудь доработать реестр и отображать каталоги данных на субрегиональном уровне, добавить мониторинг доступности, перевести ведение реестра из формата сборки в формат СУБД.
Но это скорее задачи для бэклога.
Сейчас чтобы работать с реестром каталогов данных Dateno можно просто скачать файл full.jsonl [3] из репозитория и выполнить команду
Очень и очень просто. А сам реестр постоянно пополняется.
Ссылки:
[1] https://www.gov.scot/publications/open-data-scotland-blueprint-unlocking-innovation-collaboration-impact/
[2] https://dateno.io/registry
[3] https://github.com/commondataio/dataportals-registry/tree/main/data/datasets
#opendata #datasets #scotland #dateno
Видимо чтобы подтолкнуть правительство Шотландии создать портал открытых данных региона. При этом надо сказать что в реестре Dateno [2] Шотландии есть 29 каталогов данных и в самом Dateno проиндексировано 7500+ датасетов из Шотландии. Скорее всего данных там реально больше.
Надо, кстати, как-нибудь доработать реестр и отображать каталоги данных на субрегиональном уровне, добавить мониторинг доступности, перевести ведение реестра из формата сборки в формат СУБД.
Но это скорее задачи для бэклога.
Сейчас чтобы работать с реестром каталогов данных Dateno можно просто скачать файл full.jsonl [3] из репозитория и выполнить команду
select uid, catalog_type, software.id, link from (select *, unnest(owner.location.subregion) from 'full.jsonl') where id_1 = 'GB-SCT';
Очень и очень просто. А сам реестр постоянно пополняется.
Ссылки:
[1] https://www.gov.scot/publications/open-data-scotland-blueprint-unlocking-innovation-collaboration-impact/
[2] https://dateno.io/registry
[3] https://github.com/commondataio/dataportals-registry/tree/main/data/datasets
#opendata #datasets #scotland #dateno
На всякий случай, для тех кто не знает, посты с рассказом про источники данных и Dateno я дублирую на английском в LinkedIn [1] где можно подписаться на эти и другие новости проекта.
Закидывать туда посты, я, и коллеги, будем нечасто, но регулярно и на английском языке и по теме data discovery.
А в этом телеграм канале я пишу:
а) На русском.
б) Часто
в) Про разное
Ссылки:
[1] https://www.linkedin.com/company/datenoproject/posts/?feedView=all
#opendata #dateno
Закидывать туда посты, я, и коллеги, будем нечасто, но регулярно и на английском языке и по теме data discovery.
А в этом телеграм канале я пишу:
а) На русском.
б) Часто
в) Про разное
Ссылки:
[1] https://www.linkedin.com/company/datenoproject/posts/?feedView=all
#opendata #dateno
LinkedIn
LinkedIn Login, Sign in | LinkedIn
Login to LinkedIn to keep in touch with people you know, share ideas, and build your career.
Forwarded from Privacy Advocates
⚡️Instagram** в рекламных целях прослушивает каждого пользователя
🔸Издание 404 Media выяснило, что соцсеть Instagram** в рекламных целях прослушивает (опция Active Listening) каждого пользователя. В этом факте признался один из основных партнёров платформы по предоставлению рекламных услуг Cox Media Group (CMG), который уже много лет работает с Google и Meta*.
🔸Согласно презентации CMG в рамках развития опции для контекстной рекламы, которая буквально читает мысли пользователей:
• компания предлагает клиентам услугу «активного прослушивания»;
• опция позволяет ИИ подслушивать ваши разговоры возле смартфона, а также анализировать действия пользователя в сети;
• Active Listening захватывает любые звуки с микрофона любых смартфонов;
• алгоритмы Active Listening позволяют выдавать клиентам самую точную рекламу. Например, после фразы «нужна новая футболка» они видят наплыв таргетированной рекламы футболок;
• главные клиенты CMG: Google, Amazon, Meta.
🔸Примечательно, что Google и Meta* после обнародования данных об использовании Active Listening удалили любые упоминания CMG со своих ресурсов. В Amazon заявили СМИ, что знают об этом сервисе, но никогда им не пользовались. В Facebook* пояснили, что экстренно «начали проверку» этой информации от СМИ.
Meta Platforms*, а также принадлежащие ей ресурсы Facebook и Instagram *признана экстремистской организацией, её деятельность в России запрещена; **запрещены в России.
🔸Издание 404 Media выяснило, что соцсеть Instagram** в рекламных целях прослушивает (опция Active Listening) каждого пользователя. В этом факте признался один из основных партнёров платформы по предоставлению рекламных услуг Cox Media Group (CMG), который уже много лет работает с Google и Meta*.
🔸Согласно презентации CMG в рамках развития опции для контекстной рекламы, которая буквально читает мысли пользователей:
• компания предлагает клиентам услугу «активного прослушивания»;
• опция позволяет ИИ подслушивать ваши разговоры возле смартфона, а также анализировать действия пользователя в сети;
• Active Listening захватывает любые звуки с микрофона любых смартфонов;
• алгоритмы Active Listening позволяют выдавать клиентам самую точную рекламу. Например, после фразы «нужна новая футболка» они видят наплыв таргетированной рекламы футболок;
• главные клиенты CMG: Google, Amazon, Meta.
🔸Примечательно, что Google и Meta* после обнародования данных об использовании Active Listening удалили любые упоминания CMG со своих ресурсов. В Amazon заявили СМИ, что знают об этом сервисе, но никогда им не пользовались. В Facebook* пояснили, что экстренно «начали проверку» этой информации от СМИ.
Meta Platforms*, а также принадлежащие ей ресурсы Facebook и Instagram *признана экстремистской организацией, её деятельность в России запрещена; **запрещены в России.
На фоне "новости" о том что бигтехи следят за нами прослушивая микрофон непрерывно, не могу не напомнить про прекрасный проект https://trackthis.link/ по обману рекламодателей через открытие сотни табов в браузере. Там, правда, не было обновлений за 5 лет и часть открываемых ссылок уже протухли, но не все. Лично я регулярно пользуюсь профилем Doomsday Prepper и ни о чём не жалею!
#privacy #mozilla #humour
#privacy #mozilla #humour
В рубрике интересных открытых данных данные по трафику судов [1] от Finnish Transport Infrastructure Agency. Данные по портам, кораблям, движению, портозаходам и ещё много чему. Всё без ограничений и аутентификации, покрывает практически всё Балтийское море.
Тот случай когда API оправдано на 100%. Для полного счастья нехватает только исторических данных для bulk download.
Ссылки:
[1] https://www.digitraffic.fi/en/marine-traffic/#vessel-locations
#opendata #finland #API
Тот случай когда API оправдано на 100%. Для полного счастья нехватает только исторических данных для bulk download.
Ссылки:
[1] https://www.digitraffic.fi/en/marine-traffic/#vessel-locations
#opendata #finland #API
Ранее Notion, а теперь ещё и Coda. Но Notion писали в стиле "мы теперь не принимаем платежи из РФ", а Coda сразу пишут что из РФ будут недоступны.
#russia #sanctions
#russia #sanctions
Полезное чтение про данные, технологии и не только:
- Founder Mode [1] "Режим основателя", текст от Пола Грэхема о том что часто важно чтобы основатели стартапов оставались вовлечёнными в бизнес, а не переводили его в режиме менеджмента. Вроде как очевидно, но мысль и канва рассуждения полезны чтобы освежить эту истину.
- How a startup feels [2] как ощущается жизнь в стартапе, текст от Benn Stancil, хорошо написано и просто таки ощущается. Перекликается с текстом Пола Грэхема.
- Art of Finishing [3] "Искусство завершать" , тоже полезный, уже с более техническим взглядом у автора, про то что надо доделывать то что надо доделывать применительно к программной инженерии.
Ссылки:
[1] https://paulgraham.com/foundermode.html
[2] https://substack.com/home/post/p-148046562
[3] https://www.bytedrum.com/posts/art-of-finishing/
#readings #startup
- Founder Mode [1] "Режим основателя", текст от Пола Грэхема о том что часто важно чтобы основатели стартапов оставались вовлечёнными в бизнес, а не переводили его в режиме менеджмента. Вроде как очевидно, но мысль и канва рассуждения полезны чтобы освежить эту истину.
- How a startup feels [2] как ощущается жизнь в стартапе, текст от Benn Stancil, хорошо написано и просто таки ощущается. Перекликается с текстом Пола Грэхема.
- Art of Finishing [3] "Искусство завершать" , тоже полезный, уже с более техническим взглядом у автора, про то что надо доделывать то что надо доделывать применительно к программной инженерии.
Ссылки:
[1] https://paulgraham.com/foundermode.html
[2] https://substack.com/home/post/p-148046562
[3] https://www.bytedrum.com/posts/art-of-finishing/
#readings #startup
benn.substack
How a startup feels
Why some of us are unfit for the magical mystery money machine.
В рубрике как это устроено у них, открытые данные Палестинской Автономии. В реестр Dateno на сегодня 15 каталогов данных из Палестины [1] из которых 12 каталогов - это геопорталы на базе ArcGIS Server или ArcGIS Hub, 1 каталог микроданных и 2 каталога открытых данных. Основной opendata.ps можно сказать официальный портал открытых данных страны и и второй с наборами данных связанными с последними гуманитарными событиями https://data.techforpalestine.org/docs/datasets/ от Tech for Palestine.
Как и по многим других развивающимся странам гораздо больше данных о Палестине в международных организациях, в виде статистики или данных по гуманитарной инфраструктуре.
Многие из каталогов данных уже проиндексированы в Dateno, но не все. Сказывается ситуация с отсутствием сетевой нейтральности и того что не все источники данных индексируются из всех стран( Рано или поздно придётся приходить к использованию распределённых краулеров и тестированию доступности из разных стран.
Ссылки:
[1] https://dateno.io/registry/country/PS
#opendata #datacatalogs #palestine #datasets
Как и по многим других развивающимся странам гораздо больше данных о Палестине в международных организациях, в виде статистики или данных по гуманитарной инфраструктуре.
Многие из каталогов данных уже проиндексированы в Dateno, но не все. Сказывается ситуация с отсутствием сетевой нейтральности и того что не все источники данных индексируются из всех стран( Рано или поздно придётся приходить к использованию распределённых краулеров и тестированию доступности из разных стран.
Ссылки:
[1] https://dateno.io/registry/country/PS
#opendata #datacatalogs #palestine #datasets
Для тех кто любит визуализировать данные нестандартными способами, сайт Printing Money [1] с визуализацией доходов или расходов, в общем, денег в час в виде напечатанных долларов. Начинает с минимальной оплаты труда, заканчивает военными расходами США и дефицитом бюджета США. Скриншот не отражает движения, лучше смотреть на сайте, а видео не прилагаю потому что файл видео или GIF получаются слишком большими.
Интересная задумка, применима не только к деньгам.
Ссылки:
[1] https://neal.fun/printing-money/
#dataviz
Интересная задумка, применима не только к деньгам.
Ссылки:
[1] https://neal.fun/printing-money/
#dataviz
Поделюсь личной болью, я когда-то активно пользовался минималистичным редактором Write! (сайт - wri.tt) не все, но многие заметки вел в нём. У него был экспорт в простые форматы, минималистичный текст и, в принципе, лично мне для заметок был удобный инструмент. С lifetime подпиской что было удобно синхронизовывать между несколькими устройствами и не переплачивать.
Где-то в 2023 году сайт ушёл в оффлайн, приложение превратилось в кирпич потому что проверка авторизации и синхронизацию работала через сайт и теперь в приложение локально просто не войти. Не local-first приложение по идеологии.
Большая часть заметок у меня есть в разных местах в экспортированные, но какие-то надо доставать теперь из внутренней базы. А внутри там собственный XML формат внутри ZIP контейнера и какой-то неочевидный формат локальной базы данных. В общем автор наизобретал там велосипедов и, похоже, теперь единственный способ восстановить часть заметок - это или найти конвертер парсер этих XML файлов или написать его самому.
Если кто-то сталкивался с этим редактором и столкнулся с той же проблемой, расскажите как решали.
А для меня это очередное напоминание о том что:
- cloud first приложения - это безусловное зло.
- базовые стандарты должны соблюдаться, никакой проприетарщины
- lifetime лицензии прекрасны если у бизнеса есть бренд, а так приложение прожило всего 9 лет.
Сейчас есть много local-first альтернатив для заметок, преимущественно работающих с разметкой Markdown и они гораздо удобнее в итоге.
#writing #texts #issues #markdown
Где-то в 2023 году сайт ушёл в оффлайн, приложение превратилось в кирпич потому что проверка авторизации и синхронизацию работала через сайт и теперь в приложение локально просто не войти. Не local-first приложение по идеологии.
Большая часть заметок у меня есть в разных местах в экспортированные, но какие-то надо доставать теперь из внутренней базы. А внутри там собственный XML формат внутри ZIP контейнера и какой-то неочевидный формат локальной базы данных. В общем автор наизобретал там велосипедов и, похоже, теперь единственный способ восстановить часть заметок - это или найти конвертер парсер этих XML файлов или написать его самому.
Если кто-то сталкивался с этим редактором и столкнулся с той же проблемой, расскажите как решали.
А для меня это очередное напоминание о том что:
- cloud first приложения - это безусловное зло.
- базовые стандарты должны соблюдаться, никакой проприетарщины
- lifetime лицензии прекрасны если у бизнеса есть бренд, а так приложение прожило всего 9 лет.
Сейчас есть много local-first альтернатив для заметок, преимущественно работающих с разметкой Markdown и они гораздо удобнее в итоге.
#writing #texts #issues #markdown
К вопросу об открытости и её формах и устойчивости проектов на открытых данных. Недавно я обнаружил что в проекте Zenodo (агрегатор научных данных) ввели ограничения объём данных в рамках одного запроса. Это не только Rate Limiting с ограничением числа запросов в минуту, но и то что в рамках одного поискового запроса, неважно, листая по 10 записей или по 100, можно получить не более 10 тысяч записей.
При том что всего в Zenodo более 4 миллионов записей из которых 365 тысяч - это наборы данных, то ограничение оказывается очень серьёзным. Не непреодолимым, но уже, влияет, например, на краулер Dateno который индексировал Zenodo через REST API.
При этом не важно доступ к API идёт после авторизации или без неё, авторизация влияет только на Rate Limit, а не на объём.
Zenodo - это один из эталонных открытых проектов активно используемых исследователями для публикации открытых данных. Кроме REST API у проекта также есть интерфейс OAI-PMH и экспорт данных во множестве форматов.
Но из недостатков проекта у него нет опции bulk download каталога метаданных. В результате после ограничений на API его открытость снижается.
С одной стороны это печально, хотя и обходится технически, с другой стороны я прекрасно понимаю откуда берутся такие ограничения. В их природе может быть как пресечение недобросовестных пользователей создающих повышенную нагрузку на сервер, так и блокировка ботов которые ни про какие ограничения не знают и просто долбят API перебирая страницы без участия и задания от человека.
Я лично считаю что для открытых проектов такие ограничения оправданы при предоставлении полных дампов данных (bulk download). И открытость соблюдена, и нагрузка на оборудование снижена.
#opendata #zenodo #datasets
При том что всего в Zenodo более 4 миллионов записей из которых 365 тысяч - это наборы данных, то ограничение оказывается очень серьёзным. Не непреодолимым, но уже, влияет, например, на краулер Dateno который индексировал Zenodo через REST API.
При этом не важно доступ к API идёт после авторизации или без неё, авторизация влияет только на Rate Limit, а не на объём.
Zenodo - это один из эталонных открытых проектов активно используемых исследователями для публикации открытых данных. Кроме REST API у проекта также есть интерфейс OAI-PMH и экспорт данных во множестве форматов.
Но из недостатков проекта у него нет опции bulk download каталога метаданных. В результате после ограничений на API его открытость снижается.
С одной стороны это печально, хотя и обходится технически, с другой стороны я прекрасно понимаю откуда берутся такие ограничения. В их природе может быть как пресечение недобросовестных пользователей создающих повышенную нагрузку на сервер, так и блокировка ботов которые ни про какие ограничения не знают и просто долбят API перебирая страницы без участия и задания от человека.
Я лично считаю что для открытых проектов такие ограничения оправданы при предоставлении полных дампов данных (bulk download). И открытость соблюдена, и нагрузка на оборудование снижена.
#opendata #zenodo #datasets
В рубрике как это устроено у них портал открытых данных провинции Центральная Ява в Индонезии [1]. Отличается каким-то неимоверным числом опубликованных датасетов, там их чуть менее 200 тысяч что, конечно, очень много. Для сравнения на портале открытых данных США Data.gov всего опубликовано 300 тысяч датасетов. А тут всего одна провинция, да ещё и в Индонезии.
При этом, там почти нет геоданных или научных данных, зато бесконечное число файлов статистики и Excel файлов. Такое ощущение что они просто обыскали все компьютеры и выложили все найденные Excel файлы, сконвертировав некоторые из них в CSV.
Это пример того почему я говорил что сделать национальный портал открытых данных и быстро его наполнить вообще несложно. Сложно сделать его полезным.
Ссылки:
[1] https://data.jatengprov.go.id/dataset/
#opendata #indonesia #centraljava #datacatalogs
При этом, там почти нет геоданных или научных данных, зато бесконечное число файлов статистики и Excel файлов. Такое ощущение что они просто обыскали все компьютеры и выложили все найденные Excel файлы, сконвертировав некоторые из них в CSV.
Это пример того почему я говорил что сделать национальный портал открытых данных и быстро его наполнить вообще несложно. Сложно сделать его полезным.
Ссылки:
[1] https://data.jatengprov.go.id/dataset/
#opendata #indonesia #centraljava #datacatalogs
Ivan Begtin
В рубрике как это устроено у них портал открытых данных провинции Центральная Ява в Индонезии [1]. Отличается каким-то неимоверным числом опубликованных датасетов, там их чуть менее 200 тысяч что, конечно, очень много. Для сравнения на портале открытых данных…
Крупнейшие порталы открытых данных в мире, по критерию количества (не физического объёма) открытых данных и с более чем 100 тысячами наборов данных.
Открытые данные
- data.europe.eu - портал открытых данных Евросоюза, данные структур ЕС и агрегатор данных входящих в ЕС стран
- data.gov - национальный портал открытых данных США
- data.jatengprov.go.id портал открытых данных провинции Центральная Ява, Индонезия
- datos.gob.es - портал открытых данных Испании
- www.govdata.de - портал открытых данных Германии
Научные данные
- explore.openaire.eu - портал раскрытия результатов исследований в Европейском союзе, разные формы результатов, включая наборы данных
- zenodo.org - портал для раскрытия научных данных от CERN
- data.mendeley.com - портал агрегатор научных данных от Elsevier. Лукавят с числами, реально наборов данных значительно меньше заявленных 31 миллиона, поскольку за датасеты выдают, в том числе, отдельные машиночитаемые записи. Но несколько миллионов наборов данных точно есть.
- figshare.com - платформа и агрегатор научных данных от Digital Science
Геоданные
- data.amerigeoss.org - портал геоданных сообщества AmeriGEO, включающего все страны северной, центральной и южной америк
- hub.arcgis.com - платформа и агрегатор открытых данных от компании ArcGIS
- metadaten.geoportal-bw.de портал геоданных земли Baden-Wurttemberg в Германии
- geo.btaa.org - большой геопортал альянса университетов в США, чуть-чуть недотягивает до 100 тысяч датасетов
- atom.cuzk.cz - портал геоданных Чешского кадастра
- catalogue.geo-ide.developpement-durable.gouv.fr - каталог геоданных Франции
Данные для обучения ИИ
- www.kaggle.com - крупнейший каталог наборов данных для обучения ИИ
- huggingface.co - второй после Kaggle и стремительно набирающий популярность (и данные) каталог данных для обучения ИИ
Статистика
- data.worldbank.org - более 4-х миллионов индикаторов в системе Всемирного Банка, если рассматривать их в привязке к странам и территориям. Неочевидно если смотреть индикаторы на сайте, выясняется при использовании их API
- data.bis.org - многочисленные индикаторы банка международных расчётов
- data.ecb.europa.eu - огромное число индикаторов Европейского центрального банка
#opendata #datacatalogs #bigdata
Открытые данные
- data.europe.eu - портал открытых данных Евросоюза, данные структур ЕС и агрегатор данных входящих в ЕС стран
- data.gov - национальный портал открытых данных США
- data.jatengprov.go.id портал открытых данных провинции Центральная Ява, Индонезия
- datos.gob.es - портал открытых данных Испании
- www.govdata.de - портал открытых данных Германии
Научные данные
- explore.openaire.eu - портал раскрытия результатов исследований в Европейском союзе, разные формы результатов, включая наборы данных
- zenodo.org - портал для раскрытия научных данных от CERN
- data.mendeley.com - портал агрегатор научных данных от Elsevier. Лукавят с числами, реально наборов данных значительно меньше заявленных 31 миллиона, поскольку за датасеты выдают, в том числе, отдельные машиночитаемые записи. Но несколько миллионов наборов данных точно есть.
- figshare.com - платформа и агрегатор научных данных от Digital Science
Геоданные
- data.amerigeoss.org - портал геоданных сообщества AmeriGEO, включающего все страны северной, центральной и южной америк
- hub.arcgis.com - платформа и агрегатор открытых данных от компании ArcGIS
- metadaten.geoportal-bw.de портал геоданных земли Baden-Wurttemberg в Германии
- geo.btaa.org - большой геопортал альянса университетов в США, чуть-чуть недотягивает до 100 тысяч датасетов
- atom.cuzk.cz - портал геоданных Чешского кадастра
- catalogue.geo-ide.developpement-durable.gouv.fr - каталог геоданных Франции
Данные для обучения ИИ
- www.kaggle.com - крупнейший каталог наборов данных для обучения ИИ
- huggingface.co - второй после Kaggle и стремительно набирающий популярность (и данные) каталог данных для обучения ИИ
Статистика
- data.worldbank.org - более 4-х миллионов индикаторов в системе Всемирного Банка, если рассматривать их в привязке к странам и территориям. Неочевидно если смотреть индикаторы на сайте, выясняется при использовании их API
- data.bis.org - многочисленные индикаторы банка международных расчётов
- data.ecb.europa.eu - огромное число индикаторов Европейского центрального банка
#opendata #datacatalogs #bigdata
This media is not supported in your browser
VIEW IN TELEGRAM
Свежий любопытный BI(?) проект MotherDuck Data App Generator [1] который позволяет на основе датасета в DuckDB генерировать дата приложение. Приложение с открытым кодом, но зависит от инфраструктуры MotherDuck.
Хотя они и называют его Data App Generator, тут надо быть честными, это такой недо-BI, по крайней мере в текущей форме и примерах по генерации дашбордов.
Мне, честно говоря, показалось странным что они сделали такое, потому что визуализация данных не самая сильная сторона их команды, Mother Duck известны продуктом для облачной аналитики, но не BI. Но в итоге они, похоже, выбирают путь прокачки собственного продукта, а не интеграции с другими, предлагая свой продукт как бэкэнд.
В любом случае идея по генерации приложений на данных имеет право на существование и даже может быть весьма востребована.
Если бы я не был занят Dateno и поиском данных, я бы автоматизацию аналитики ставил бы где в верхней части своих приоритетов, потому что это большая рыночная востребованная тема.
Ссылки:
[1] https://motherduck.com/blog/data-app-generator/
#opensource #duckdb #data #dataapps #startups
Хотя они и называют его Data App Generator, тут надо быть честными, это такой недо-BI, по крайней мере в текущей форме и примерах по генерации дашбордов.
Мне, честно говоря, показалось странным что они сделали такое, потому что визуализация данных не самая сильная сторона их команды, Mother Duck известны продуктом для облачной аналитики, но не BI. Но в итоге они, похоже, выбирают путь прокачки собственного продукта, а не интеграции с другими, предлагая свой продукт как бэкэнд.
В любом случае идея по генерации приложений на данных имеет право на существование и даже может быть весьма востребована.
Если бы я не был занят Dateno и поиском данных, я бы автоматизацию аналитики ставил бы где в верхней части своих приоритетов, потому что это большая рыночная востребованная тема.
Ссылки:
[1] https://motherduck.com/blog/data-app-generator/
#opensource #duckdb #data #dataapps #startups