Для тех кто пользуется или планирует пользоваться DuckDB я закинул в рассылку подборку ограничений и особенностей применения из личного опыта.
На удивление их не так много, но знать их важно. Важно помнить что DuckDB это не только и столько инструмент хранения данных, сколько инструмент обработки данных и запросов к условно любым данным.
#duckdb #rdbms #datatools
На удивление их не так много, но знать их важно. Важно помнить что DuckDB это не только и столько инструмент хранения данных, сколько инструмент обработки данных и запросов к условно любым данным.
#duckdb #rdbms #datatools
Substack
DuckDB на практике. Ограничения о которых важно знать
Я много пишу о DuckDB, особенно у себя в телеграм канале и не просто так, ведь DuckDB - это реально удобный и инструмент значительно упрощающий работу с большими базами данных на десктопах.
🔥14❤4
Полезные ссылки про данные, технологии и не только:
Открытый код
- The Data Engineering Handbook большая подборка ресурсов для дата инженеров: блоги, подкасты, книги, компании, ключевые продукты и тд. Полезно будет, в первую очередь, начинающим дата инженерам для быстрого погружения в профессию
- RustFS высокопроизводительная альтернатива Minio, для создания облачных хранилищ файлов доступом по S3 протоколу. Написан на языке Rust, лицензия Apache 2.0, декларируют производительность вдвое выше чем у Minio.
- STORM: Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking - исследовательский проект (оттого и такое длинное странное название) по генерации статей в стиле Википедии на заданную тему. Можно попробовать его на практике на storm.genie.stanford.edu.
- Harper бесплатный и открытый продукт для проверки грамматической проверки для английского языка. Ключевое - это то что не требует подключения к внешнему сервису, можно развернуть свой language server и проверки делать оффлайн. Полезно для всех кто озабочен приватностью или просто не хочет платить за сервисы вроде Grammarly.
- Easytier открытый код и сервис для быстрого развертывания децентрализованных сетей VPN. Прямой конкурент и альтернатива Tailscale. Сделан в Китае, распространяется под лицензией LGPL. Главное не путать с теми VPN что используются для обхода цензуры, этот сделан именно в классическом понимании VPN - для организации частной защищённой сети со своими устройствами.
- Bitchat новая децентрализованная альтернатива облачным мессенжерам. Была представлена Джеком Дорси, основателем Twitter'а, работает через Bluetooth и напоминает похожие проекты вроде Firechat (не знаю жив ли он ещё).
ИИ
- Half of Managers Use AI To Determine Who Gets Promoted and Fired опрос от сервиса Resume Builder об использовании ИИ менеджерами для оценки сотрудников и других задач. Если кратко, то используют большинство, многие уже всегда работают с ИИ, вплоть до принятия решений о повышении или увольнении сотрудника на основе оценки ИИ помощника
- RAPIDS Adds GPU Polars Streaming, a Unified GNN API, and Zero-Code ML Speedups NVIDIA продолжают развивать Polars и другие инструменты с открытым кодом для выполнения задач по обработке данных в GPU. Это и про открытый код и про применение Polars вместо Pandas для большей части научных тетрадок
Разное
- Apyhub очередной сервис каталогизации API, честно говоря непонятно зачем нужный. В этом рынке я знаю всего два продукта обретшие успех. Это OpenRouter для ИИ и RapidAPI как маркетплейс для API. Рынок устроен так что посредники ценны только если они приносят много реальных пользователей. К примеру, если Яндекс делает API маркетплейс - это сработает, а в остальных случаях почти наверняка нет.
- The One Trillion Row challenge with Apache Impala тест Apache Impala, базы с открытым кодом, на 1 триллионе строк. Я, честно говоря, был уверен что Apache Impala уже мертвый продукт, а там ещё какая-то жизнь происходит.
- Yet another ZIP trick автор покопался в спецификации ZIP файлов и поманипулировал метаданными внутри так что некоторые парсеры ZIP файлов видят одно содержимое, а другие другое. Ждем волны вирусов прячущихся внутри ZIP'ов (шутка).
#opensource #ai #api #rdbms
Открытый код
- The Data Engineering Handbook большая подборка ресурсов для дата инженеров: блоги, подкасты, книги, компании, ключевые продукты и тд. Полезно будет, в первую очередь, начинающим дата инженерам для быстрого погружения в профессию
- RustFS высокопроизводительная альтернатива Minio, для создания облачных хранилищ файлов доступом по S3 протоколу. Написан на языке Rust, лицензия Apache 2.0, декларируют производительность вдвое выше чем у Minio.
- STORM: Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking - исследовательский проект (оттого и такое длинное странное название) по генерации статей в стиле Википедии на заданную тему. Можно попробовать его на практике на storm.genie.stanford.edu.
- Harper бесплатный и открытый продукт для проверки грамматической проверки для английского языка. Ключевое - это то что не требует подключения к внешнему сервису, можно развернуть свой language server и проверки делать оффлайн. Полезно для всех кто озабочен приватностью или просто не хочет платить за сервисы вроде Grammarly.
- Easytier открытый код и сервис для быстрого развертывания децентрализованных сетей VPN. Прямой конкурент и альтернатива Tailscale. Сделан в Китае, распространяется под лицензией LGPL. Главное не путать с теми VPN что используются для обхода цензуры, этот сделан именно в классическом понимании VPN - для организации частной защищённой сети со своими устройствами.
- Bitchat новая децентрализованная альтернатива облачным мессенжерам. Была представлена Джеком Дорси, основателем Twitter'а, работает через Bluetooth и напоминает похожие проекты вроде Firechat (не знаю жив ли он ещё).
ИИ
- Half of Managers Use AI To Determine Who Gets Promoted and Fired опрос от сервиса Resume Builder об использовании ИИ менеджерами для оценки сотрудников и других задач. Если кратко, то используют большинство, многие уже всегда работают с ИИ, вплоть до принятия решений о повышении или увольнении сотрудника на основе оценки ИИ помощника
- RAPIDS Adds GPU Polars Streaming, a Unified GNN API, and Zero-Code ML Speedups NVIDIA продолжают развивать Polars и другие инструменты с открытым кодом для выполнения задач по обработке данных в GPU. Это и про открытый код и про применение Polars вместо Pandas для большей части научных тетрадок
Разное
- Apyhub очередной сервис каталогизации API, честно говоря непонятно зачем нужный. В этом рынке я знаю всего два продукта обретшие успех. Это OpenRouter для ИИ и RapidAPI как маркетплейс для API. Рынок устроен так что посредники ценны только если они приносят много реальных пользователей. К примеру, если Яндекс делает API маркетплейс - это сработает, а в остальных случаях почти наверняка нет.
- The One Trillion Row challenge with Apache Impala тест Apache Impala, базы с открытым кодом, на 1 триллионе строк. Я, честно говоря, был уверен что Apache Impala уже мертвый продукт, а там ещё какая-то жизнь происходит.
- Yet another ZIP trick автор покопался в спецификации ZIP файлов и поманипулировал метаданными внутри так что некоторые парсеры ZIP файлов видят одно содержимое, а другие другое. Ждем волны вирусов прячущихся внутри ZIP'ов (шутка).
#opensource #ai #api #rdbms
👍6✍3❤3😱1