Полезное чтение про данные, технологии и не только:
- TPC-H SF300 on a Raspberry Pi [1] бенчмарк TPC-H SF300 для DuckDB на Raspberri Pi с 16 GB RAM и 1TB SSD. TPC-H тест на двух базах в 26GB и 78GB. Самое главное, все стоимость всего всего этого железа $281.
- BuzzHouse: Bridging the database fuzzing gap for testing ClickHouse [2] в блоге ClickHouse об автоматизации тестирования запросов к ClickHouse. Автор создал и оформил 100+ issues выявленных таким автоматическим тестированием.
- Öppna data-portalen [3] портал открытых данных Шведского национального совета по культурному наследию. Все они геоданные в открытых форматах для возможности нанесения на карту.
- Pilot NIH Science of Science Scholars Program [4] национальный институт здравоохранения США запустил программу для исследователей по работе с их внутренними данными. Это те данные которые не могут быть открыты, но доступны с соблюдением требований безопасности, приватности, с оборудования предоставленного государством и тд. Ограничений немало, но и данные из тех что относят к особо чувствительным.
- LINDAS [5] официальный государственный портал связанных данных (Linked Data) Швейцарии. Создан и поддерживается Швейцарскими Федеральными Архивами. Включает 133 набора данных/базы данных
- Visualize Swiss Open Government Data [6] Швейцарская государственная платформа для визуализации данных. Да, по сути это как если бы к Datawrapper прикрутили каталог данных и придали бы всему государственный статус. Наборов данных там около 200 и, самое главное, всё с открытым кодом [6]
Ссылки:
[1] https://duckdb.org/2025/01/17/raspberryi-pi-tpch.html
[2] https://clickhouse.com/blog/buzzhouse-bridging-the-database-fuzzing-gap-for-testing-clickhouse
[3] https://www.raa.se/hitta-information/oppna-data/oppna-data-portal/
[4] https://dpcpsi.nih.gov/oepr/pilot-nih-science-science-scholars-program
[5] https://lindas.admin.ch/
[6] https://github.com/visualize-admin
#opendata #opensource #data #rdmbs #datatools
- TPC-H SF300 on a Raspberry Pi [1] бенчмарк TPC-H SF300 для DuckDB на Raspberri Pi с 16 GB RAM и 1TB SSD. TPC-H тест на двух базах в 26GB и 78GB. Самое главное, все стоимость всего всего этого железа $281.
- BuzzHouse: Bridging the database fuzzing gap for testing ClickHouse [2] в блоге ClickHouse об автоматизации тестирования запросов к ClickHouse. Автор создал и оформил 100+ issues выявленных таким автоматическим тестированием.
- Öppna data-portalen [3] портал открытых данных Шведского национального совета по культурному наследию. Все они геоданные в открытых форматах для возможности нанесения на карту.
- Pilot NIH Science of Science Scholars Program [4] национальный институт здравоохранения США запустил программу для исследователей по работе с их внутренними данными. Это те данные которые не могут быть открыты, но доступны с соблюдением требований безопасности, приватности, с оборудования предоставленного государством и тд. Ограничений немало, но и данные из тех что относят к особо чувствительным.
- LINDAS [5] официальный государственный портал связанных данных (Linked Data) Швейцарии. Создан и поддерживается Швейцарскими Федеральными Архивами. Включает 133 набора данных/базы данных
- Visualize Swiss Open Government Data [6] Швейцарская государственная платформа для визуализации данных. Да, по сути это как если бы к Datawrapper прикрутили каталог данных и придали бы всему государственный статус. Наборов данных там около 200 и, самое главное, всё с открытым кодом [6]
Ссылки:
[1] https://duckdb.org/2025/01/17/raspberryi-pi-tpch.html
[2] https://clickhouse.com/blog/buzzhouse-bridging-the-database-fuzzing-gap-for-testing-clickhouse
[3] https://www.raa.se/hitta-information/oppna-data/oppna-data-portal/
[4] https://dpcpsi.nih.gov/oepr/pilot-nih-science-science-scholars-program
[5] https://lindas.admin.ch/
[6] https://github.com/visualize-admin
#opendata #opensource #data #rdmbs #datatools
DuckDB
TPC-H SF300 on a Raspberry Pi
DuckDB can run all TPC-H SF300 queries on a Raspberry Pi board.
January 22
Свежий интересный продукт по контролю качества данных DQX - Data Quality Framework от Databricks Labs [1].
Плюсы:
- зрелость поскольку Databricks один из лидеров рынка дата инженерии
- хорошая документация, судя по первому взгляду
- декларативное описание тестов в YAML (тут очень субъективно)
- интегрированность и заточенность на работу с Apache Spark
- открытый код на Github
Минусы:
- зависимость от Databricks Workspace в их дата каталоге Unity
- код открыт но лицензия несвободная, а специальная Databricks License с ограничениями [2], вполне возможно внешних контрибьюторов это оттолкнёт
Он очень напоминает движок Soda [3] который тоже даёт возможность декларативного описания тестов, но ещё более заточенный на их облачный сервис и который бесплатен только в рамках 45 дней тестирования. Можно пользоваться из Soda Core, правда, который под лицензией Apache 2.0
Итоговая ситуация такова что из частично открытых остались только движки Soda и great_expectations [4] который также стремительно коммерциализируется, но вроде как его команда обещала сохранить продукт GX Core под лицензией Apache 2.0 и развивать его, но как бы не закончилось также как с Elasticsearch и MongoDB, со сменой лицензии или тем что новые ключевые возможности будут только в облачных сервисах.
А DQX продукт интересный, но хотелось бы то же самое, но без вот этого вот всего (с).
Итого я могу сказать что есть заметный дефицит инструментов контроля качества данных. Сейчас нет ни одного подобного продукта под лицензией MIT, с простой интеграцией и, желательно, декларативным описанием тестов.
Поляна инструментов контроля качества данных совершенно точно заполнена не до конца и "рулят" на нём продукты в гибридном состоянии открытого кода и SaaS платформ.
Ссылки:
[1] https://databrickslabs.github.io/dqx/
[2] https://github.com/databrickslabs/dqx?tab=License-1-ov-file#readme
[3] https://github.com/sodadata/soda-core
[4] https://github.com/great-expectations/great_expectations
#opensource #dataquality #datatools
Плюсы:
- зрелость поскольку Databricks один из лидеров рынка дата инженерии
- хорошая документация, судя по первому взгляду
- декларативное описание тестов в YAML (тут очень субъективно)
- интегрированность и заточенность на работу с Apache Spark
- открытый код на Github
Минусы:
- зависимость от Databricks Workspace в их дата каталоге Unity
- код открыт но лицензия несвободная, а специальная Databricks License с ограничениями [2], вполне возможно внешних контрибьюторов это оттолкнёт
Он очень напоминает движок Soda [3] который тоже даёт возможность декларативного описания тестов, но ещё более заточенный на их облачный сервис и который бесплатен только в рамках 45 дней тестирования. Можно пользоваться из Soda Core, правда, который под лицензией Apache 2.0
Итоговая ситуация такова что из частично открытых остались только движки Soda и great_expectations [4] который также стремительно коммерциализируется, но вроде как его команда обещала сохранить продукт GX Core под лицензией Apache 2.0 и развивать его, но как бы не закончилось также как с Elasticsearch и MongoDB, со сменой лицензии или тем что новые ключевые возможности будут только в облачных сервисах.
А DQX продукт интересный, но хотелось бы то же самое, но без вот этого вот всего (с).
Итого я могу сказать что есть заметный дефицит инструментов контроля качества данных. Сейчас нет ни одного подобного продукта под лицензией MIT, с простой интеграцией и, желательно, декларативным описанием тестов.
Поляна инструментов контроля качества данных совершенно точно заполнена не до конца и "рулят" на нём продукты в гибридном состоянии открытого кода и SaaS платформ.
Ссылки:
[1] https://databrickslabs.github.io/dqx/
[2] https://github.com/databrickslabs/dqx?tab=License-1-ov-file#readme
[3] https://github.com/sodadata/soda-core
[4] https://github.com/great-expectations/great_expectations
#opensource #dataquality #datatools
January 22
Написал в рассылку текст Работаем с дата фреймами. Почему не Pandas и какие альтернативы? [1] про альтернативы Pandas такие как Polars, Dask, DuckdB и cuDF. А также там же подборка ссылок на большое число параллельно развивающихся инструментов.
А я повторю тезис что Pandas нужный, полезный и важный, но легаси инструмент у которого есть уже много высокопроизводительных альтернатив значительно упрощающих работу с данными большого объёма на недорогих устройствах.
Ссылки:
[1] https://begtin.substack.com/p/pandas
#opensource #dataengineering #dataframes #datatools
А я повторю тезис что Pandas нужный, полезный и важный, но легаси инструмент у которого есть уже много высокопроизводительных альтернатив значительно упрощающих работу с данными большого объёма на недорогих устройствах.
Ссылки:
[1] https://begtin.substack.com/p/pandas
#opensource #dataengineering #dataframes #datatools
Ivan’s Begtin Newsletter on digital, open and preserved government
Работаем с дата фреймами. Почему не Pandas и какие альтернативы?
Самый популярный инструмент для работы с аналитиков в последние годы - это программная библиотека Pandas для Python.
January 25
В рубрике интересных продуктов для работы с данными PuppyGraph [1] (Щенячий граф) стартап и open-source продукт для взаимодействия с SQL базами данных с помощью графовых языков запросов таких как Gremlin и openCypher.
Основной лозунг под которым продукт продвигают это Query your relational data as a graph in real-time. Zero ETL. Главный акцент тут на том что графовые базы данных неудобны всегда были тем что туда необходимо было переносить данные из реляционных баз и это означало увеличение объёмов хранения и затраты ресурсов на обработку данных. А тут движок позволяет работать с условным PostgreSQL напрямую запросами.
Open source версия доступна под лицензией Apache 2.0 [2]. Команда в ноябре 2024 г. подняла $5 миллионов инвестиций [3], а сам продукт в первой версии появился ещё в марте 2024 года.
Ссылки:
[1] https://www.puppygraph.com
[2] https://github.com/puppygraph/puppygraph-query
[3] https://www.puppygraph.com/blog/puppygraph-raises-5-million-in-seed-funding-led-by-defy-vc
#opensource #rdbms #datatools
Основной лозунг под которым продукт продвигают это Query your relational data as a graph in real-time. Zero ETL. Главный акцент тут на том что графовые базы данных неудобны всегда были тем что туда необходимо было переносить данные из реляционных баз и это означало увеличение объёмов хранения и затраты ресурсов на обработку данных. А тут движок позволяет работать с условным PostgreSQL напрямую запросами.
Open source версия доступна под лицензией Apache 2.0 [2]. Команда в ноябре 2024 г. подняла $5 миллионов инвестиций [3], а сам продукт в первой версии появился ещё в марте 2024 года.
Ссылки:
[1] https://www.puppygraph.com
[2] https://github.com/puppygraph/puppygraph-query
[3] https://www.puppygraph.com/blog/puppygraph-raises-5-million-in-seed-funding-led-by-defy-vc
#opensource #rdbms #datatools
January 28
На чём быстро, просто и, желательно, недорого построить дашборд? Я лично всегда начинаю выбор с open source инструментов, часть из которых давно стали зрелыми продуктами, а другие позволяют проверить интересные технологии на практике.
Более известные
1. Apache Superset - используется уже повсеместно, много общедоступных инсталляций где можно посмотреть вживую. Например, экземпляр Superset Википедии. Уже зрелый продукт используемый многими компаниями по всему миру.
2. Grafana - довольно быстро вырвавшийся вперед инструмент для визуализации данных. Развивался изначально для отображения метрик и логов, а сейчас визуализирует почти что угодно. Для внутреннего использования очень удобно, для интеграции в свой продукт есть ограничения поскольку открытый код AGPL.
3. Metabase - когда-то основной конкурент Apache Superset, но стали отставать по скорости добавления новых возможностей и живут по принципу SaaS стартапа, с платным облачным сервисом и бесплатным продуктом для сообщества и под открытым кодом.
4. Redash - ещё один pure open-source продукт, открытый код для построения дашбордов , в этот раз под BSD2 лицензией и с поддержкой большого числа SQL и NoSQL источников данных.
Менее известные
5. Briefer - гибрид подготовки тетрадок (notebooks) и дашбордов. Изначально облачный сервис, потом выложили открытый код. Сама идея кажется разумной, но лицензия AGPL-3.0.
6. Quary - позиционируется как open source BI для инженеров. Инженерность, похоже, обеспечивается за счёт панели для SQL запросов? Выглядит простым, что может быть удобно для кого-то и полностью написан на Rust.
Непривычные
7. NeoDash - движок для дашбордов от Neo4J, базы данных и набора инструментов для работы с графами. Отличается той самой заточенностью на графовые данные. Сильно менее популярен чем другие и может быть даже малоизвестен. Лицензия Apache 2.0
8. SDMX Dashboard Generator - совсем редкая штука по созданию визуализации статистики по стандарту SDMX в виде дашборда. Открытый код, лицензия Apache 2.0. Изначально разрабатывался командой Банка международных расчётов (bis.org). Внутри используется движок Dash от Plotly
Не BI, не только дашборды
9. Dash от Plotly - нельзя назвать BI или дашбордопостроителем, это скорее инстурмент для создания data приложений. Может использоваться как компонент собственного продукта потому что лицензия MIT
10. Observable Framework не дашбордер, а генератор статистических сайтов для дата приложений. Идеально для дата сторителлинга и отчуждаемой дата аналитики. Может использоваться как часть своего продукта из-за необычной, но очень пермиссивной лицензии. Важное отличие от других продуктов - это создание статических снапшотов данных и отсутствие динамических запросов к СУБД.
Другие инструменты для дашбордов на которые стоит обратить внимание:
- Lightdash, Vizro, Datalens
#opensource #bi #datatools #dashboards #dataviz
Более известные
1. Apache Superset - используется уже повсеместно, много общедоступных инсталляций где можно посмотреть вживую. Например, экземпляр Superset Википедии. Уже зрелый продукт используемый многими компаниями по всему миру.
2. Grafana - довольно быстро вырвавшийся вперед инструмент для визуализации данных. Развивался изначально для отображения метрик и логов, а сейчас визуализирует почти что угодно. Для внутреннего использования очень удобно, для интеграции в свой продукт есть ограничения поскольку открытый код AGPL.
3. Metabase - когда-то основной конкурент Apache Superset, но стали отставать по скорости добавления новых возможностей и живут по принципу SaaS стартапа, с платным облачным сервисом и бесплатным продуктом для сообщества и под открытым кодом.
4. Redash - ещё один pure open-source продукт, открытый код для построения дашбордов , в этот раз под BSD2 лицензией и с поддержкой большого числа SQL и NoSQL источников данных.
Менее известные
5. Briefer - гибрид подготовки тетрадок (notebooks) и дашбордов. Изначально облачный сервис, потом выложили открытый код. Сама идея кажется разумной, но лицензия AGPL-3.0.
6. Quary - позиционируется как open source BI для инженеров. Инженерность, похоже, обеспечивается за счёт панели для SQL запросов? Выглядит простым, что может быть удобно для кого-то и полностью написан на Rust.
Непривычные
7. NeoDash - движок для дашбордов от Neo4J, базы данных и набора инструментов для работы с графами. Отличается той самой заточенностью на графовые данные. Сильно менее популярен чем другие и может быть даже малоизвестен. Лицензия Apache 2.0
8. SDMX Dashboard Generator - совсем редкая штука по созданию визуализации статистики по стандарту SDMX в виде дашборда. Открытый код, лицензия Apache 2.0. Изначально разрабатывался командой Банка международных расчётов (bis.org). Внутри используется движок Dash от Plotly
Не BI, не только дашборды
9. Dash от Plotly - нельзя назвать BI или дашбордопостроителем, это скорее инстурмент для создания data приложений. Может использоваться как компонент собственного продукта потому что лицензия MIT
10. Observable Framework не дашбордер, а генератор статистических сайтов для дата приложений. Идеально для дата сторителлинга и отчуждаемой дата аналитики. Может использоваться как часть своего продукта из-за необычной, но очень пермиссивной лицензии. Важное отличие от других продуктов - это создание статических снапшотов данных и отсутствие динамических запросов к СУБД.
Другие инструменты для дашбордов на которые стоит обратить внимание:
- Lightdash, Vizro, Datalens
#opensource #bi #datatools #dashboards #dataviz
superset.apache.org
Welcome | Superset
Community website for Apache Superset™, a data visualization and data exploration platform
January 29
Open R1 [1] полностью открытая реконструкция модели Deepseek-R1 которая несколько дней назад стала столь известной и популярной.
Думаю что недолго будет ждать когда появится сервис (спорю что уже появились) альтернативы DeepSeek в других юрисдикциях, не в Китае.
Что последствия для рынка не отменит, но уменьшит опасения утечки конфиденциальных данных
Ссылки:
[1] https://github.com/huggingface/open-r1
#opensource #llm #deepseek #ai
Думаю что недолго будет ждать когда появится сервис (спорю что уже появились) альтернативы DeepSeek в других юрисдикциях, не в Китае.
Что последствия для рынка не отменит, но уменьшит опасения утечки конфиденциальных данных
Ссылки:
[1] https://github.com/huggingface/open-r1
#opensource #llm #deepseek #ai
January 29
Полезное чтение про данные, технологии и не только:
- Chart Smarter, Not Harder: Plotly Now Offers Universal DataFrame Support [1] о том как разработчики движка визуализации Plotly многократно ускорили визуализацию графиков используя библиотеку Narwhals поверх Polars и pyArrow. Познавательные цифры и опыт для тех кто сталкивается с медленной отрисовкой графиков.
- Siyuan [2] персональная система управления знаниями и заметками. Китайский аналог Notion и Obsidian. Открытый код под AGPL, бесплатно для личного использования. Много интеграции в китайскую экосистему вроде WeChat и тд
- Requestly [3] расширение для браузера, прокси, для перехвата запросов. Необходимо всем разработчикам работающим с API. Открытый код под AGPL и онлайн сервис за деньги. По сути конкурент Postman
- Maxun [4] ещё один no-code инструмент для скрейпинга сайтов. Облегчает жизнь тем кто не хочет кодировать то что можно не кодировать. Открытый код, AGPL
- VeilStream [5] для разнообразия не вполне обычный коммерческий сервис, прокси для PostgreSQL который принимает запросы от пользователей, а ответы отдаёт отфильтрованными от персональных данных. Меня не покидает ощущение что это несколько, ммм, извращённое решение, но тем не менее. Оно есть и, видимо, кто-то его покупает.
- 10 Ways to Work with Large Files in Python: Effortlessly Handle Gigabytes of Data! [6] статья полностью для джунов, но именно джунам её прочитать обязательно. Там есть небольшая реклама Dask и игнорирование Polars, DuckDB и тд. А если говорить серьёзно, то всё зависит от того какие у тебя большие данные, в каком они состоянии и что с ними планируется делать. К примеру, обработка десятков и сотен гигабайт бинарных данных происходит иначе.
- Python Rgonomics 2025 [7] материал о том как работать в Python тем кто учил R. Полезное чтение для тех кто живёт в двух мирах или переходит с R на Python.
Ссылки:
[1] https://plotly.com/blog/chart-smarter-not-harder-universal-dataframe-support/
[2] https://github.com/siyuan-note/siyuan
[3] https://github.com/requestly/requestly
[4] https://github.com/getmaxun/maxun
[5] https://www.veilstream.com/
[6] https://blog.devgenius.io/10-ways-to-work-with-large-files-in-python-effortlessly-handle-gigabytes-of-data-aeef19bc0429
[7] https://www.emilyriederer.com/post/py-rgo-2025/
#readings #opensource #data #datatools
- Chart Smarter, Not Harder: Plotly Now Offers Universal DataFrame Support [1] о том как разработчики движка визуализации Plotly многократно ускорили визуализацию графиков используя библиотеку Narwhals поверх Polars и pyArrow. Познавательные цифры и опыт для тех кто сталкивается с медленной отрисовкой графиков.
- Siyuan [2] персональная система управления знаниями и заметками. Китайский аналог Notion и Obsidian. Открытый код под AGPL, бесплатно для личного использования. Много интеграции в китайскую экосистему вроде WeChat и тд
- Requestly [3] расширение для браузера, прокси, для перехвата запросов. Необходимо всем разработчикам работающим с API. Открытый код под AGPL и онлайн сервис за деньги. По сути конкурент Postman
- Maxun [4] ещё один no-code инструмент для скрейпинга сайтов. Облегчает жизнь тем кто не хочет кодировать то что можно не кодировать. Открытый код, AGPL
- VeilStream [5] для разнообразия не вполне обычный коммерческий сервис, прокси для PostgreSQL который принимает запросы от пользователей, а ответы отдаёт отфильтрованными от персональных данных. Меня не покидает ощущение что это несколько, ммм, извращённое решение, но тем не менее. Оно есть и, видимо, кто-то его покупает.
- 10 Ways to Work with Large Files in Python: Effortlessly Handle Gigabytes of Data! [6] статья полностью для джунов, но именно джунам её прочитать обязательно. Там есть небольшая реклама Dask и игнорирование Polars, DuckDB и тд. А если говорить серьёзно, то всё зависит от того какие у тебя большие данные, в каком они состоянии и что с ними планируется делать. К примеру, обработка десятков и сотен гигабайт бинарных данных происходит иначе.
- Python Rgonomics 2025 [7] материал о том как работать в Python тем кто учил R. Полезное чтение для тех кто живёт в двух мирах или переходит с R на Python.
Ссылки:
[1] https://plotly.com/blog/chart-smarter-not-harder-universal-dataframe-support/
[2] https://github.com/siyuan-note/siyuan
[3] https://github.com/requestly/requestly
[4] https://github.com/getmaxun/maxun
[5] https://www.veilstream.com/
[6] https://blog.devgenius.io/10-ways-to-work-with-large-files-in-python-effortlessly-handle-gigabytes-of-data-aeef19bc0429
[7] https://www.emilyriederer.com/post/py-rgo-2025/
#readings #opensource #data #datatools
Plotly
Chart Smarter, Not Harder: Plotly Now Offers Universal DataFrame Support
Learn how you can boost Dash data app performance with the new Plotly.py collaboration with Narwhals, a dataframe compatibility layer.
January 29
AI и политика
Dario Amodei, CEO стартапа Anthropic, создателей LLM моделей Claude, написал в блоге [1] призыв к ужесточению экспортного контроля США за чипами для обучения ИИ. Дословно это звучит как Export controls serve a vital purpose: keeping democratic nations at the forefront of AI development. У него под постом в твиттере развернулась большая полемика с теми кто против ограничений на развитие ИИ [2]. Большая часть комментариев звучит как при всём уважении к Вашей команде, но DeepSeek молодцы и развивать ИИ модели с открытым кодом важно.
Разработка ИИ стремительно политизируется вместе с демократизацией ИИ инструментов.
Ссылки:
[1] https://darioamodei.com/on-deepseek-and-export-controls
[2] https://x.com/DarioAmodei/status/1884636410839535967
#ai #opensource #deepseek #llm
Dario Amodei, CEO стартапа Anthropic, создателей LLM моделей Claude, написал в блоге [1] призыв к ужесточению экспортного контроля США за чипами для обучения ИИ. Дословно это звучит как Export controls serve a vital purpose: keeping democratic nations at the forefront of AI development. У него под постом в твиттере развернулась большая полемика с теми кто против ограничений на развитие ИИ [2]. Большая часть комментариев звучит как при всём уважении к Вашей команде, но DeepSeek молодцы и развивать ИИ модели с открытым кодом важно.
Разработка ИИ стремительно политизируется вместе с демократизацией ИИ инструментов.
Ссылки:
[1] https://darioamodei.com/on-deepseek-and-export-controls
[2] https://x.com/DarioAmodei/status/1884636410839535967
#ai #opensource #deepseek #llm
Darioamodei
Dario Amodei — On DeepSeek and Export Controls
January 31
Полезные ссылки про данные, технологии и не только:
- DocumentDB: Open-Source Announcement [1] похоже Microsoft выложили в открытый код [2] новый NoSQL продукт, прямой конкурент MongoDB. Внутри там FerretDB и PostgreSQL, бенчмарки пока не наблюдаются, что странно. Может быть в ClickBench/JSONBench они появятся через какое-то время. Пока главное достоинство лицензия MIT.
- ai_query function [3] в Databricks есть функция ai_query которую можно использовать прямо в SQL запросе и которая позволяет обрабатывать данные с помощью одной из LLM специальным запросом. Осталось подождать когда такая функция или аналог появятся во всех современных RDBMS
- Human-Computer Input via a Wrist-Based sEMG Wearable [4] исследование Metaпро уличную магию про использование жестов для управления устройствами. Помимо того что это может поменять многое в обыденной жизни тут ещё и много открытых наборов данных Я думал такие устройства будут делать в виде тонких перчаток, а оказывается что можно в виде браслета.
- pg_mooncake. Postgres extension for 1000x faster analytics [5] расширение для колоночных таблиц для PostgreSQL для ускорения аналитики. Внутри, ожидаемо, DuckDB
Ссылки:
[1] https://opensource.microsoft.com/blog/2025/01/23/documentdb-open-source-announcement/
[2] https://github.com/microsoft/documentdb
[3] https://docs.databricks.com/en/sql/language-manual/functions/ai_query.html#examples
[4] https://www.meta.com/blog/surface-emg-wrist-white-paper-reality-labs/
[5] https://github.com/Mooncake-Labs/pg_mooncake
#opensource #rdbms #postgresql #duckdb #datatools
- DocumentDB: Open-Source Announcement [1] похоже Microsoft выложили в открытый код [2] новый NoSQL продукт, прямой конкурент MongoDB. Внутри там FerretDB и PostgreSQL, бенчмарки пока не наблюдаются, что странно. Может быть в ClickBench/JSONBench они появятся через какое-то время. Пока главное достоинство лицензия MIT.
- ai_query function [3] в Databricks есть функция ai_query которую можно использовать прямо в SQL запросе и которая позволяет обрабатывать данные с помощью одной из LLM специальным запросом. Осталось подождать когда такая функция или аналог появятся во всех современных RDBMS
- Human-Computer Input via a Wrist-Based sEMG Wearable [4] исследование Meta
- pg_mooncake. Postgres extension for 1000x faster analytics [5] расширение для колоночных таблиц для PostgreSQL для ускорения аналитики. Внутри, ожидаемо, DuckDB
Ссылки:
[1] https://opensource.microsoft.com/blog/2025/01/23/documentdb-open-source-announcement/
[2] https://github.com/microsoft/documentdb
[3] https://docs.databricks.com/en/sql/language-manual/functions/ai_query.html#examples
[4] https://www.meta.com/blog/surface-emg-wrist-white-paper-reality-labs/
[5] https://github.com/Mooncake-Labs/pg_mooncake
#opensource #rdbms #postgresql #duckdb #datatools
Microsoft Open Source Blog
DocumentDB: Open-Source Announcement - Microsoft Open Source Blog
Learn more on how Microsoft Open Source can help with you with your data stores with the announcement of DocumentDB.
February 3
В рубрике интересных инструментов работы с данными Mathesar [1] ещё одна альтернатива Airtable, с открытым кодом под GPL-3.0 и похожий во многом на Teable о котором я ранее писал.
Если вкратце то это UI поверх таблиц в PostgreSQL. Выглядит как удобная штука в жанре онлайн MS Access.
Альтернативы Airtable - это хорошая новость, со многими данными надо работать руками и не всё доверишь облакам.
Ссылки:
[1] https://mathesar.org
#opensource #datatools
Если вкратце то это UI поверх таблиц в PostgreSQL. Выглядит как удобная штука в жанре онлайн MS Access.
Альтернативы Airtable - это хорошая новость, со многими данными надо работать руками и не всё доверишь облакам.
Ссылки:
[1] https://mathesar.org
#opensource #datatools
February 5