Подборка полезного чтения про данные, технологии и не только:
- How we built a new powerful JSON data type for ClickHouse [1] статья от Павла Круглого про реализацию нового типа JSON в ClickHouse. Много подробностей и можно предполагать что новые фичи и этот тип стоит опробовать. По моему опыту ещё совсем недавно ClickHouse резко проигрывал DuckDB в разборе/импорте любого типа JSON документов. В общем надо тестировать, если всё так хорошо как написано, это может быть альтернативой MongoDB
- GERDA - German Elections Database [2] научный онлайн проект с базой по выборам в Германии с 1953 года. Доступно в виде наборов данных и пакета для языка R.
- Why techies leave Big Tech [3] почему технари покидают бигтехи? Да много почему, где-то увольнения, где-то стагнация и тупики в карьере. Автор пишет про основные причины и о том почему не надо так в бигтехи стремиться. Лично я для себя вообще не представляю что могло бы подтолкнуть там работать (ну если только бигтех не придёт с большим кошельком инвестиций в наш стартап Dateno, но это совсем другая тема)
Ссылки:
[1] https://clickhouse.com/blog/a-new-powerful-json-data-type-for-clickhouse
[2] http://www.german-elections.com/
[3] https://newsletter.pragmaticengineer.com/p/leaving-big-tech
#readings #data #datasets #opendata #careers #bigtech
- How we built a new powerful JSON data type for ClickHouse [1] статья от Павла Круглого про реализацию нового типа JSON в ClickHouse. Много подробностей и можно предполагать что новые фичи и этот тип стоит опробовать. По моему опыту ещё совсем недавно ClickHouse резко проигрывал DuckDB в разборе/импорте любого типа JSON документов. В общем надо тестировать, если всё так хорошо как написано, это может быть альтернативой MongoDB
- GERDA - German Elections Database [2] научный онлайн проект с базой по выборам в Германии с 1953 года. Доступно в виде наборов данных и пакета для языка R.
- Why techies leave Big Tech [3] почему технари покидают бигтехи? Да много почему, где-то увольнения, где-то стагнация и тупики в карьере. Автор пишет про основные причины и о том почему не надо так в бигтехи стремиться. Лично я для себя вообще не представляю что могло бы подтолкнуть там работать (ну если только бигтех не придёт с большим кошельком инвестиций в наш стартап Dateno, но это совсем другая тема)
Ссылки:
[1] https://clickhouse.com/blog/a-new-powerful-json-data-type-for-clickhouse
[2] http://www.german-elections.com/
[3] https://newsletter.pragmaticengineer.com/p/leaving-big-tech
#readings #data #datasets #opendata #careers #bigtech
ClickHouse
How we built a new powerful JSON data type for ClickHouse
We’re excited to introduce our new and significantly enhanced JSON data type, purpose-built to deliver high-performance handling of JSON data. Our core engineer, Pavel Kruglov, dives into how we built this feature on top of ClickHouse's columnar storage.
Хорошая статья в Системном блоке про судьбу ABBYY, их продукта Compreno и научного подхода в переводе текстов [1]. Если вкратце, то судьба печально, LLM ИИ пожирают мир. Я помню в 2010-х разговоры про Compreno как люди вовлеченные в этот проект его расхваливали, но вживую его так и не успел попробовать, а теперь уже и непонятно зачем.
А вообще то что пишет автор про то что простые методы обученные на бесконечном объёме данных дают больший эффект - это не только прогибель трансформацию компьютерной лингвистики, это и про будущее онтологического моделирования, это про судьбу проектов вроде Wolfram Alpha (похоже недолгую уже), это про применение LLM в моделировании и систематизации данных.
Вот я вам приведу пример, у нас в Dateno десятки миллионов карточек датасетов и далеко не у всех есть привязка к категориям, не у всех есть теги, не у всех есть геометки и тд.. Можно вложить усилия и категоризировать их вручную, а можно натравить одну или несколько LLM и проделать эту работу. Можно ещё на несколько задач LLM натравить и будет ещё больший эффект, вопрос лишь в цене запросов или развертывания open source LLM.
А что говорить про задачи онтологического моделирования во многих исследовательских проектах. Я всё жду когда появятся научные статьи с тезисами вроде "Мы заменили команду из 10 онтологов на LLM модель и результат был не хуже".
Ссылки:
[1] https://sysblok.ru/blog/gorkij-urok-abbyy-kak-lingvisty-proigrali-poslednjuju-bitvu-za-nlp/
#thoughts #readings #ai
А вообще то что пишет автор про то что простые методы обученные на бесконечном объёме данных дают больший эффект - это не только про
Вот я вам приведу пример, у нас в Dateno десятки миллионов карточек датасетов и далеко не у всех есть привязка к категориям, не у всех есть теги, не у всех есть геометки и тд.. Можно вложить усилия и категоризировать их вручную, а можно натравить одну или несколько LLM и проделать эту работу. Можно ещё на несколько задач LLM натравить и будет ещё больший эффект, вопрос лишь в цене запросов или развертывания open source LLM.
А что говорить про задачи онтологического моделирования во многих исследовательских проектах. Я всё жду когда появятся научные статьи с тезисами вроде "Мы заменили команду из 10 онтологов на LLM модель и результат был не хуже".
Ссылки:
[1] https://sysblok.ru/blog/gorkij-urok-abbyy-kak-lingvisty-proigrali-poslednjuju-bitvu-za-nlp/
#thoughts #readings #ai
Системный Блокъ
Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP - Системный Блокъ
Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации сотрудников по паспорту улеглись, хочется поговорить о более…
Документы бюджета Великобритании Autumn Budget 2024 [1] интересно смотреть сразу с нескольких точек зрения. Во первых они публикуют документ бюджета в виде книги [2], с графиками и очень понятными таблицами и сразу с присвоением ISBN и хорошо отформатированной веб версией [3].
А во вторых, и это интереснее, отдельным приложением идёт документ с упоминанием всех источников данных [4]. Буквально в стиле "в таком то разделе, таком то параграфе приведены данные ссылка на которых вот тут".
А также множество сопровождающих документов.
После чтения бюджетов многих стран, в разных форматах, читать этот значительно легче и понятнее. Хотя лично я жду когда же когда-нибудь появится моделирование бюджетов и госполитики интерактивными и машинными инструментами.
Ссылки:
[1] https://www.gov.uk/government/publications/autumn-budget-2024
[2] https://assets.publishing.service.gov.uk/media/672232d010b0d582ee8c4905/Autumn_Budget_2024__web_accessible_.pdf
[3] https://www.gov.uk/government/publications/autumn-budget-2024/autumn-budget-2024-html
[4] https://assets.publishing.service.gov.uk/media/6722236e4da1c0d41942a986/Autumn_Budget_2024_-_Data_Sources__1_.pdf
#openbudgets #data #opendata #uk #readings
А во вторых, и это интереснее, отдельным приложением идёт документ с упоминанием всех источников данных [4]. Буквально в стиле "в таком то разделе, таком то параграфе приведены данные ссылка на которых вот тут".
А также множество сопровождающих документов.
После чтения бюджетов многих стран, в разных форматах, читать этот значительно легче и понятнее. Хотя лично я жду когда же когда-нибудь появится моделирование бюджетов и госполитики интерактивными и машинными инструментами.
Ссылки:
[1] https://www.gov.uk/government/publications/autumn-budget-2024
[2] https://assets.publishing.service.gov.uk/media/672232d010b0d582ee8c4905/Autumn_Budget_2024__web_accessible_.pdf
[3] https://www.gov.uk/government/publications/autumn-budget-2024/autumn-budget-2024-html
[4] https://assets.publishing.service.gov.uk/media/6722236e4da1c0d41942a986/Autumn_Budget_2024_-_Data_Sources__1_.pdf
#openbudgets #data #opendata #uk #readings
Полезное чтение про данные, технологии и не только:
- All the data can be yours [1] автор пишет про реверс-инжиниринг API. Ха, подержи моё пиво! Я могу рассказать об этом куда больше, а было бы и время то и книжку написать. Но читать про опыт других всегда полезно, всегда есть что-то новое.
- AI protein-prediction tool AlphaFold3 is now open source [2] в Google заопенсорсили AlphaFold3, движок для предсказания структур протеинов с помощью ИИ. Для некоммерческого использования, конечно.
- The Death and Life of Prediction Markets at Google [3] неожиданное и любопытное, про внутренние инструменты предсказаний в Google и, заодно, немало про их внутреннюю культуру.
Ссылки:
[1] https://jero.zone/posts/reverse-engineering-apis
[2] https://www.nature.com/articles/d41586-024-03708-4
[3] https://asteriskmag.com/issues/08/the-death-and-life-of-prediction-markets-at-google
#readings #tech
- All the data can be yours [1] автор пишет про реверс-инжиниринг API. Ха, подержи моё пиво! Я могу рассказать об этом куда больше, а было бы и время то и книжку написать. Но читать про опыт других всегда полезно, всегда есть что-то новое.
- AI protein-prediction tool AlphaFold3 is now open source [2] в Google заопенсорсили AlphaFold3, движок для предсказания структур протеинов с помощью ИИ. Для некоммерческого использования, конечно.
- The Death and Life of Prediction Markets at Google [3] неожиданное и любопытное, про внутренние инструменты предсказаний в Google и, заодно, немало про их внутреннюю культуру.
Ссылки:
[1] https://jero.zone/posts/reverse-engineering-apis
[2] https://www.nature.com/articles/d41586-024-03708-4
[3] https://asteriskmag.com/issues/08/the-death-and-life-of-prediction-markets-at-google
#readings #tech
Nature
AI protein-prediction tool AlphaFold3 is now more open
Nature - The code underlying the Nobel-prize-winning tool for modelling protein structures can now be downloaded by academics.
Полезное чтение про данные, технологии и не только:
- The Death of Search [1] полезная статья о том как ИИ убивает поиск и что мы потеряем в процессе. Я бы переименовал её в The Death of Google потому что главная поисковая монополия пострадает более других. Но ещё не время пессимистичных прогнозов
- The Emergent Landscape of Data Commons: A Brief Survey and Comparison of Existing Initiatives [2] статья о инициативах публикации данных как общественного блага. Тема актуальная и про частные инициативы, и про государственные и про технологические НКО. Довольно близко к инициативам по общественной цифровой инфраструктуре (Digital Public Infrastructure, DPI)
- Congress should designate an entity to oversee data security, GAO says [3] в США Счетная палата (GAO) рекомендовала Конгрессу выбрать федеральное агентство и дать ему полномочия по защите данных. Сейчас такого агентства нет и это создаёт дополнительные риски, о чём GAO и пишут в своём докладе [4]
- OECD Digital Economy Outlook 2024 (Volume 2) [5] свежий доклад ОЭСР по цифровой экономике. Про данные мало, про многое другое много. Явные акценты на особенностях медиапотребления и на цифровой безопасности.
- How to evaluate statistical claims [6] хороший лонгрид о том как читать статистику
Ссылки:
[1] https://archive.is/ZSzAP
[2] https://medium.com/data-stewards-network/the-emergent-landscape-of-data-commons-a-brief-survey-and-comparison-of-existing-initiatives-abab7bbc4fe1
[3] https://fedscoop.com/congress-data-security-civil-rights-liberties-gao-report/
[4] https://www.gao.gov/assets/gao-25-106057.pdf
[5] https://www.oecd.org/en/publications/oecd-digital-economy-outlook-2024-volume-2_3adf705b-en.html
[6] https://seantrott.substack.com/p/how-to-evaluate-statistical-claims
#data #ai #privacy #statistics #readings
- The Death of Search [1] полезная статья о том как ИИ убивает поиск и что мы потеряем в процессе. Я бы переименовал её в The Death of Google потому что главная поисковая монополия пострадает более других. Но ещё не время пессимистичных прогнозов
- The Emergent Landscape of Data Commons: A Brief Survey and Comparison of Existing Initiatives [2] статья о инициативах публикации данных как общественного блага. Тема актуальная и про частные инициативы, и про государственные и про технологические НКО. Довольно близко к инициативам по общественной цифровой инфраструктуре (Digital Public Infrastructure, DPI)
- Congress should designate an entity to oversee data security, GAO says [3] в США Счетная палата (GAO) рекомендовала Конгрессу выбрать федеральное агентство и дать ему полномочия по защите данных. Сейчас такого агентства нет и это создаёт дополнительные риски, о чём GAO и пишут в своём докладе [4]
- OECD Digital Economy Outlook 2024 (Volume 2) [5] свежий доклад ОЭСР по цифровой экономике. Про данные мало, про многое другое много. Явные акценты на особенностях медиапотребления и на цифровой безопасности.
- How to evaluate statistical claims [6] хороший лонгрид о том как читать статистику
Ссылки:
[1] https://archive.is/ZSzAP
[2] https://medium.com/data-stewards-network/the-emergent-landscape-of-data-commons-a-brief-survey-and-comparison-of-existing-initiatives-abab7bbc4fe1
[3] https://fedscoop.com/congress-data-security-civil-rights-liberties-gao-report/
[4] https://www.gao.gov/assets/gao-25-106057.pdf
[5] https://www.oecd.org/en/publications/oecd-digital-economy-outlook-2024-volume-2_3adf705b-en.html
[6] https://seantrott.substack.com/p/how-to-evaluate-statistical-claims
#data #ai #privacy #statistics #readings
В рубрике полезного чтения про данные, технологии и не только:
- Dismantling ELT: The Case for Graphs, Not Silos [1] размышления автора о том что такое ELT с точки зрения данных которые являются графом. Он там постоянно ссылается на закон Конвея «организации проектируют системы, которые копируют структуру коммуникаций в этой организации» и про необходимость изменения отношения к тому как данные обрабатываются.
- 7 Databases in 7 Weeks for 2025 [2] автор рассказывает о том почему стоит изучить такие базы данных как PostgreSQL, SQlite, DuckDB, Clickhouse, FoundationDB, TigerBeetle и CockroachDB. Подборка хорошая, стоит изучить
- reactable-py [3] код для быстрой визуализации датафреймов. Мне он чем то напомнил проект Datasette [4], но очень отдалённо. Удобно тем что хорошо встраивается в веб страницу и может быть полезно в дата сторителлинге.
- Field Boundaries for Agriculture (fiboa) [5] малоизвестный пока что проект по сбору наборов данных и инструментов для создания данных в сельском хозяйстве, конкретно в определении границ участков. Сами данные публикуют в Source Cooperative, каталоге больших геоданных [6]
- Common Operational Datasets [7] [8] [9] общие операционные наборы достоверных данных необходимые для принятия решений. Термин UN OCHA определяющий ключевые данные необходимые для противодействия стихийным бедствиям. Чем то напоминает концепцию high-value datasets используемую в Евросоюзе.
Ссылки:
[1] https://jack-vanlightly.com/blog/2024/11/26/dismantling-elt-the-case-for-graphs-not-silos
[2] https://matt.blwt.io/post/7-databases-in-7-weeks-for-2025/
[3] https://machow.github.io/reactable-py/get-started/index.html
[4] https://datasette.io
[5] https://github.com/fiboa
[6] https://source.coop/
[7] https://cod.unocha.org
[8] https://data.humdata.org/event/cod/
[9] https://humanitarian.atlassian.net/wiki/spaces/imtoolbox/pages/42045911/Common+Operational+Datasets+CODs
#opendata #opensource #readings #dataviz #dataframes
- Dismantling ELT: The Case for Graphs, Not Silos [1] размышления автора о том что такое ELT с точки зрения данных которые являются графом. Он там постоянно ссылается на закон Конвея «организации проектируют системы, которые копируют структуру коммуникаций в этой организации» и про необходимость изменения отношения к тому как данные обрабатываются.
- 7 Databases in 7 Weeks for 2025 [2] автор рассказывает о том почему стоит изучить такие базы данных как PostgreSQL, SQlite, DuckDB, Clickhouse, FoundationDB, TigerBeetle и CockroachDB. Подборка хорошая, стоит изучить
- reactable-py [3] код для быстрой визуализации датафреймов. Мне он чем то напомнил проект Datasette [4], но очень отдалённо. Удобно тем что хорошо встраивается в веб страницу и может быть полезно в дата сторителлинге.
- Field Boundaries for Agriculture (fiboa) [5] малоизвестный пока что проект по сбору наборов данных и инструментов для создания данных в сельском хозяйстве, конкретно в определении границ участков. Сами данные публикуют в Source Cooperative, каталоге больших геоданных [6]
- Common Operational Datasets [7] [8] [9] общие операционные наборы достоверных данных необходимые для принятия решений. Термин UN OCHA определяющий ключевые данные необходимые для противодействия стихийным бедствиям. Чем то напоминает концепцию high-value datasets используемую в Евросоюзе.
Ссылки:
[1] https://jack-vanlightly.com/blog/2024/11/26/dismantling-elt-the-case-for-graphs-not-silos
[2] https://matt.blwt.io/post/7-databases-in-7-weeks-for-2025/
[3] https://machow.github.io/reactable-py/get-started/index.html
[4] https://datasette.io
[5] https://github.com/fiboa
[6] https://source.coop/
[7] https://cod.unocha.org
[8] https://data.humdata.org/event/cod/
[9] https://humanitarian.atlassian.net/wiki/spaces/imtoolbox/pages/42045911/Common+Operational+Datasets+CODs
#opendata #opensource #readings #dataviz #dataframes
Jack Vanlightly
Dismantling ELT: The Case for Graphs, Not Silos — Jack Vanlightly
ELT is a bridge between silos. A world without silos is a graph. I’ve been banging my drum recently about the ills of Conway’s Law and the need for low-coupling data architectures. In my Curse of Conway and the Data Space blog post, I explored how Conway’s…
Свежий интересный доклад The UK government as a data provider for AI [1] о том используют ли LLM госсайты Великобритании и официальные государственные данные. Результаты таковы что контент с официальных сайтов активно используется, а датасеты из data.gov.uk практически нет. Результат совершенно неудивительный поскольку основные LLM тренировали на бесконечном количестве текстов собранных с помощью Common Crawl или своими ботам или из поискового индекса, как у Google и Microsoft. В общем-то не на данных, строго говоря. Причин этому много, я бы обозначил основной причиной что датасеты для ИИ в государстве никто не готовил и датасеты с большим числом текстов также.
Рекомендации в докладе вполне разумные и включают:
1. Публиковать данные более пригодными для ИИ (AI ready)
2. Сделать ревизию доступности контента для AI краулеров.
3. Создать национальную дата библиотеку для AI
Последний пункт это про создание специализированного каталога данных высокого качества. О таких проектах давно и много где говорят, вероятность появления его в Великобритании растёт, это не первый доклад где я о таком читаю.
Текст доклада опубликован Институтом открытых данных (Великобритания) и у них же в этом году выходило ещё одно исследование From co-generated data to generative AI [2] о том как устроено обучение ИИ на данных краудсорсинга и соцсетей. Ничего революционного, но чтение полезное.
Ссылки:
[1] https://theodi.cdn.ngo/media/documents/The_UK_government_as_a_data_provider_for_AI.pdf
[2] https://wp.oecd.ai/app/uploads/2024/12/From-co-generated-data-to-generative-AI-1.pdf
#opendata #datasets #ai #uk #readings
Рекомендации в докладе вполне разумные и включают:
1. Публиковать данные более пригодными для ИИ (AI ready)
2. Сделать ревизию доступности контента для AI краулеров.
3. Создать национальную дата библиотеку для AI
Последний пункт это про создание специализированного каталога данных высокого качества. О таких проектах давно и много где говорят, вероятность появления его в Великобритании растёт, это не первый доклад где я о таком читаю.
Текст доклада опубликован Институтом открытых данных (Великобритания) и у них же в этом году выходило ещё одно исследование From co-generated data to generative AI [2] о том как устроено обучение ИИ на данных краудсорсинга и соцсетей. Ничего революционного, но чтение полезное.
Ссылки:
[1] https://theodi.cdn.ngo/media/documents/The_UK_government_as_a_data_provider_for_AI.pdf
[2] https://wp.oecd.ai/app/uploads/2024/12/From-co-generated-data-to-generative-AI-1.pdf
#opendata #datasets #ai #uk #readings
Полезные ссылки про данные, технологии и не только:
- The DuckDB Avro Extension [1] новое расширение для DuckDB для поддержки формата файлов Apache Avro. Не то чтобы Avro часто встречается в дикой природе, но во многих корпоративных стеках данных он есть и хорошо что к нему есть расширение. Заодно полезное чтение про внутреннее устройство и специфику этого формата.
- Prototype Fund: a successful story of project replication within the Open Knowledge Network [2] в блоке Open Knowledge Foundation видео с рассказом про Prototype Fund в Германии и Швейцарии. Это специальный фонд для поддержки проектов с открытым кодом, про открытые данные и вообще про технологические аспекты открытости (например, стандарты) в контексте цифровой общей инфраструктуры. Иначе говоря поддержка открытых проектов создаваемых для общественного блага. Жаль этот опыт трудновоспроизводим.
- The History of the Decline and Fall of In-Memory Database Systems [3] приятный текст про "взлет и падение" баз данных работавших только в памяти и о том почему почти все СУБД вернулись к модели постоянного хранения. Спойлер:потому что цены гигабайт на SSD падают быстрее чем цены за гигабайт RAM
- Researchers achieve 96% accuracy in detecting phishing emails with open-source AI [4] вот полезное применение LLM, ловить фишинговые письма. Правда, сдаётся мне что есть способы и попроще, но и этот весьма неплох. Причём 95% точности достигается довольно легковесной моделью, а 96% уже с существенно большими требованиями
- An Open Source Python Library for Anonymizing Sensitive Data [5] статья об анонимизации данных и открытой библиотеке авторов о том как ей пользоваться.
Ссылки:
[1] https://duckdb.org/2024/12/09/duckdb-avro-extension
[2] https://blog.okfn.org/2024/12/05/prototype-fund-a-successful-story-of-project-replication-within-the-open-knowledge-network/
[3] https://cedardb.com/blog/in_memory_dbms/
[4] https://the-decoder.com/researchers-achieve-96-accuracy-in-detecting-phishing-emails-with-open-source-ai/
[5] https://www.nature.com/articles/s41597-024-04019-z
#opensource #ai #rdbms #readings
- The DuckDB Avro Extension [1] новое расширение для DuckDB для поддержки формата файлов Apache Avro. Не то чтобы Avro часто встречается в дикой природе, но во многих корпоративных стеках данных он есть и хорошо что к нему есть расширение. Заодно полезное чтение про внутреннее устройство и специфику этого формата.
- Prototype Fund: a successful story of project replication within the Open Knowledge Network [2] в блоке Open Knowledge Foundation видео с рассказом про Prototype Fund в Германии и Швейцарии. Это специальный фонд для поддержки проектов с открытым кодом, про открытые данные и вообще про технологические аспекты открытости (например, стандарты) в контексте цифровой общей инфраструктуры. Иначе говоря поддержка открытых проектов создаваемых для общественного блага. Жаль этот опыт трудновоспроизводим.
- The History of the Decline and Fall of In-Memory Database Systems [3] приятный текст про "взлет и падение" баз данных работавших только в памяти и о том почему почти все СУБД вернулись к модели постоянного хранения. Спойлер:
- Researchers achieve 96% accuracy in detecting phishing emails with open-source AI [4] вот полезное применение LLM, ловить фишинговые письма. Правда, сдаётся мне что есть способы и попроще, но и этот весьма неплох. Причём 95% точности достигается довольно легковесной моделью, а 96% уже с существенно большими требованиями
- An Open Source Python Library for Anonymizing Sensitive Data [5] статья об анонимизации данных и открытой библиотеке авторов о том как ей пользоваться.
Ссылки:
[1] https://duckdb.org/2024/12/09/duckdb-avro-extension
[2] https://blog.okfn.org/2024/12/05/prototype-fund-a-successful-story-of-project-replication-within-the-open-knowledge-network/
[3] https://cedardb.com/blog/in_memory_dbms/
[4] https://the-decoder.com/researchers-achieve-96-accuracy-in-detecting-phishing-emails-with-open-source-ai/
[5] https://www.nature.com/articles/s41597-024-04019-z
#opensource #ai #rdbms #readings
Свежий годовой отчет Cloudflare о связности интернета и основных трендах [1]. Интересно хотя бы из-за масштаба Cloudflare, его однозначно можно отнести к компании управляющей глобальной критичной инфраструктурой.
Несколько быстрых фактов из их отчета:
- Chrome по прежнему доминирующий браузер в мире с более чем 65.8%. Далее Safari со значимыми 15.5%, Edge с 6.9% и Firefox с 4%
- Google по прежнему доминирует в поиске с 88.5%, но, на втором месте идёт Яндекс с 3.1%. Baidu и Bing от Яндекс'а отстают
- GoogleBot создаёт наибольшую нагрузку на веб сайты чем все остальные боты
- AI краулер Bytespider от Bytedance значительно уменьшил сбор данных в 2024 году, а ClaudeBot от Anthropic существенно подрос
- интернет трафик через StarLink вырос в 3.3 раза. После доступности сервиса StarLink у нескольких стран трафик вырос в десятки и даже сотни раз.
И там ещё много всего любопытного, а также у них есть интересный продукт Cloudflare Radar с открытой аналитикой и данными и API.
Кстати, очень показательный пример [2] дата продукта, дашборда, продукта дата аналитики и тд. Потому что это качественное совмещение визуализации и возможности самостоятельно работать с данными через API.
Ссылки:
[1] https://blog.cloudflare.com/radar-2024-year-in-review/
[2] https://radar.cloudflare.com
#opendata #datasets #analytics #readings
Несколько быстрых фактов из их отчета:
- Chrome по прежнему доминирующий браузер в мире с более чем 65.8%. Далее Safari со значимыми 15.5%, Edge с 6.9% и Firefox с 4%
- Google по прежнему доминирует в поиске с 88.5%, но, на втором месте идёт Яндекс с 3.1%. Baidu и Bing от Яндекс'а отстают
- GoogleBot создаёт наибольшую нагрузку на веб сайты чем все остальные боты
- AI краулер Bytespider от Bytedance значительно уменьшил сбор данных в 2024 году, а ClaudeBot от Anthropic существенно подрос
- интернет трафик через StarLink вырос в 3.3 раза. После доступности сервиса StarLink у нескольких стран трафик вырос в десятки и даже сотни раз.
И там ещё много всего любопытного, а также у них есть интересный продукт Cloudflare Radar с открытой аналитикой и данными и API.
Кстати, очень показательный пример [2] дата продукта, дашборда, продукта дата аналитики и тд. Потому что это качественное совмещение визуализации и возможности самостоятельно работать с данными через API.
Ссылки:
[1] https://blog.cloudflare.com/radar-2024-year-in-review/
[2] https://radar.cloudflare.com
#opendata #datasets #analytics #readings
Полезное чтение про данные технологии и не только:
- Ask HN: Predictions for 2025? [1] предсказания будущего для 2025 года в комментариях на Hacker News, а заодно там же ссылки на прошлые комментарии. Во первых видно как все ошибались в прошлые годы, во вторых виден пессимизм на следующий год
- Logging, the sensible defaults [2] очень коротко о том как надо и как не надо журналировать в больших облачных продуктах. Есть над чем подумать и поменять свои практики тоже
- Open Data Editor 1.2.0 [3] стабильная версия редактора пакетов открытых данных. Полезный инструмент, хотя и пока не так популярный как мог бы быть.
Ссылки:
[1] https://news.ycombinator.com/item?id=42490343
[2] https://gerlacdt.github.io/blog/posts/logging/
[3] https://blog.okfn.org/2024/12/05/announcement-open-data-editor-1-2-0-stable-version-release/
#opendata #prediction #tech #readings
- Ask HN: Predictions for 2025? [1] предсказания будущего для 2025 года в комментариях на Hacker News, а заодно там же ссылки на прошлые комментарии. Во первых видно как все ошибались в прошлые годы, во вторых виден пессимизм на следующий год
- Logging, the sensible defaults [2] очень коротко о том как надо и как не надо журналировать в больших облачных продуктах. Есть над чем подумать и поменять свои практики тоже
- Open Data Editor 1.2.0 [3] стабильная версия редактора пакетов открытых данных. Полезный инструмент, хотя и пока не так популярный как мог бы быть.
Ссылки:
[1] https://news.ycombinator.com/item?id=42490343
[2] https://gerlacdt.github.io/blog/posts/logging/
[3] https://blog.okfn.org/2024/12/05/announcement-open-data-editor-1-2-0-stable-version-release/
#opendata #prediction #tech #readings
Daniel's programming rants
Logging, the sensible defaults
Logging is a major pillar for well-designed applications. It is not only a large help during development but also critical for failure analysis and debugging.
The most effective debugging tool is still careful thought, coupled with judiciously placed print…
The most effective debugging tool is still careful thought, coupled with judiciously placed print…
Подборка чтения про данные, технологии и не только:
- SOAR - крупнейший в мире атлас, каталог и архив карт, привязанных к карте мира. Более 712 тысяч карт по десяткам тематик, особенно интересны исторические карты, на мой взгляд. Поиск скорее неудобный, а вот отображение на карте мира очень неплохо [1]
- Open Science rewarded: Four Projects to receive the National Prize for Open Research Data [2] в Швейцарии есть премия Open Research Data (ORD) которой ежегодно награждаются исследователи делающие проекты и помогающие публиковать и развивать среду открытых исследовательских данных. Среди победителей такой проект как Pathoplexus [3] онлайн сервис и база данных человеческих патогенов включая геномные данные. Открытый код и открытые данные вместе. Проекты других победителей не менее интересны.
- OpenUK New Year Honours List [4] список персон отмеченных за вклад в открытый код и в открытые данные в Великобритании. Ежегодно публикуется НКО OpenUK одна из важных особенностей которой в том что финансируется она не госгрантами, а корпоративными спонсорами: Google, Github, Microsoft, Arm, Red Hat и другими.
- Web Almanac 2024 [5] ежегодный доклад о состоянии веба от HTTP Archive создан по итогам анализа 16.9М сайтов и 83ТБ данных, описан в 19 разделах включая разделы про структурированные данные, размеры веб страниц, шрифты, изображения, разметка и многое другое.
- What happens with legislative initiatives in the committees? [6] дата-сторителлинг в Парламенте Австрии с визуализацией законодательных инициатив, на немецком, но поддаётся автопереводу. К публикации приложены данные и код на языке R.
Ссылки:
[1] https://soar.earth/
[2] https://akademien-schweiz.ch/en/medien/press-releases/2024/offene-wissenschaft-ausgezeichnet-vier-projekte-erhalten-den-nationalen-preis-fur-offene-forschungsdaten/
[3] https://pathoplexus.org/
[4] https://openuk.uk/honours/
[5] https://almanac.httparchive.org/en/2024/
[6] https://www.parlament.gv.at/recherchieren/open-data/showcases/Was-passiert-mit-Gesetzesinitiativen-in-den-Ausschuessen
#opendata #opensource #openaccess #readings #geo #spatial
- SOAR - крупнейший в мире атлас, каталог и архив карт, привязанных к карте мира. Более 712 тысяч карт по десяткам тематик, особенно интересны исторические карты, на мой взгляд. Поиск скорее неудобный, а вот отображение на карте мира очень неплохо [1]
- Open Science rewarded: Four Projects to receive the National Prize for Open Research Data [2] в Швейцарии есть премия Open Research Data (ORD) которой ежегодно награждаются исследователи делающие проекты и помогающие публиковать и развивать среду открытых исследовательских данных. Среди победителей такой проект как Pathoplexus [3] онлайн сервис и база данных человеческих патогенов включая геномные данные. Открытый код и открытые данные вместе. Проекты других победителей не менее интересны.
- OpenUK New Year Honours List [4] список персон отмеченных за вклад в открытый код и в открытые данные в Великобритании. Ежегодно публикуется НКО OpenUK одна из важных особенностей которой в том что финансируется она не госгрантами, а корпоративными спонсорами: Google, Github, Microsoft, Arm, Red Hat и другими.
- Web Almanac 2024 [5] ежегодный доклад о состоянии веба от HTTP Archive создан по итогам анализа 16.9М сайтов и 83ТБ данных, описан в 19 разделах включая разделы про структурированные данные, размеры веб страниц, шрифты, изображения, разметка и многое другое.
- What happens with legislative initiatives in the committees? [6] дата-сторителлинг в Парламенте Австрии с визуализацией законодательных инициатив, на немецком, но поддаётся автопереводу. К публикации приложены данные и код на языке R.
Ссылки:
[1] https://soar.earth/
[2] https://akademien-schweiz.ch/en/medien/press-releases/2024/offene-wissenschaft-ausgezeichnet-vier-projekte-erhalten-den-nationalen-preis-fur-offene-forschungsdaten/
[3] https://pathoplexus.org/
[4] https://openuk.uk/honours/
[5] https://almanac.httparchive.org/en/2024/
[6] https://www.parlament.gv.at/recherchieren/open-data/showcases/Was-passiert-mit-Gesetzesinitiativen-in-den-Ausschuessen
#opendata #opensource #openaccess #readings #geo #spatial
Полезное чтение про данные, технологии и не только:
- Databases in 2024: A Year in Review [1] ежегодный обзор от Andy Pavlo про состояние и развитие СУБД и инструментов работы с данными. Ожидаемо про особенности лицензирования open source баз данных и про рост популярности DuckDB. Приятное чтение, хорошо структурированное, без маркетинга и рекламы.
- new DBMSs released in 2024 [2] список на dbdb.io, включает новые 17 СУБД появившиеся в 2024 году. Можно обратить внимание что большая их часть это key/value базы данных создаваемые как альтернативы Redis, после того как Redis сменили лицензию.
- Why AI Progress Is Increasingly Invisible [3] краткое изложение смысла статьи в том что прогресс в ИИ всё более невидим потому что большинство просто не обладает нужными знаниями чтобы его отслеживать (читать научные статьи, следить за бенчмарками и тд.) и то что основные измерения происходят внутри очень крупных создателей LLM и мы узнаем о прогрессе когда продукты уже появляются в доступе.
- The Well [4] два свежих открытых датасета на 15TB и 100TB с изображениями по физической симуляции и астрономии. Объёмы довольно большие и сравнимые с публикацией датасета ImageNet который активно использовался и используется для развития распознавания изображений
- DuckDB vs. coreutils [5] сравнение DuckDB и инструментов grep/awk/wc. Краткий вывод в том что на маленьких серверах DuckDB не в лидерах, а на больших на десктопах скорее да. Добавлю что раньше проскакивали сравнения что быстрее подсчитать число строк CSV файла через wc или DuckDB, и тогда тоже DuckDB выигрывал. Но вот эти тесты посложнее, и разные версии grep и wc существуют
- The Limits of Data [6] а вот это уже серьёзные размышления о том что данные не решают всех проблем и многое что учитывается с регулировании не измеряемо или измеряемо плохо через данные. Иначе говоря не всё можно поместить в дашборды на основе которых писать новые законы. Дискуссия не нова, но автор хорошо систематизировал и изложил ключевые аспекты.
- ORelly Technology Trends 2025 [7] много разных сторон технологий описано, я бы обратил внимание на снижающуюся популярность Java (-13%), Python (-5.3%), рост востребованности Rust (+9.6%) и Data engineering (+29%) и IT сертификация в целом снижается почти по всем направлениям. Тут надо не забывать что эти тренды ORelly считают по данным их обучающей платформы, а то есть выборка сильно меньше чем у похожих обзоров от Github или StackOverflow, но небесполезная в любом случае.
Ссылки:
[1] https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024-databases-retrospective.html
[2] https://dbdb.io/browse?start-year=2024
[3] https://yangx.top.com/7205359/why-ai-progress-is-increasingly-invisible/
[4] https://www.linkedin.com/feed/update/urn:li:activity:7269446402739515393/
[5] https://szarnyasg.org/posts/duckdb-vs-coreutils/
[6] https://issues.org/limits-of-data-nguyen/
[7] https://ae.oreilly.com/l/1009792/2024-12-06/332nf/1009792/1733515474UOvDN6IM/OReilly_Technology_Trends_for_2025.pdf
#databases #datasets #data #dataregulation #trends #readings
- Databases in 2024: A Year in Review [1] ежегодный обзор от Andy Pavlo про состояние и развитие СУБД и инструментов работы с данными. Ожидаемо про особенности лицензирования open source баз данных и про рост популярности DuckDB. Приятное чтение, хорошо структурированное, без маркетинга и рекламы.
- new DBMSs released in 2024 [2] список на dbdb.io, включает новые 17 СУБД появившиеся в 2024 году. Можно обратить внимание что большая их часть это key/value базы данных создаваемые как альтернативы Redis, после того как Redis сменили лицензию.
- Why AI Progress Is Increasingly Invisible [3] краткое изложение смысла статьи в том что прогресс в ИИ всё более невидим потому что большинство просто не обладает нужными знаниями чтобы его отслеживать (читать научные статьи, следить за бенчмарками и тд.) и то что основные измерения происходят внутри очень крупных создателей LLM и мы узнаем о прогрессе когда продукты уже появляются в доступе.
- The Well [4] два свежих открытых датасета на 15TB и 100TB с изображениями по физической симуляции и астрономии. Объёмы довольно большие и сравнимые с публикацией датасета ImageNet который активно использовался и используется для развития распознавания изображений
- DuckDB vs. coreutils [5] сравнение DuckDB и инструментов grep/awk/wc. Краткий вывод в том что на маленьких серверах DuckDB не в лидерах, а на больших на десктопах скорее да. Добавлю что раньше проскакивали сравнения что быстрее подсчитать число строк CSV файла через wc или DuckDB, и тогда тоже DuckDB выигрывал. Но вот эти тесты посложнее, и разные версии grep и wc существуют
- The Limits of Data [6] а вот это уже серьёзные размышления о том что данные не решают всех проблем и многое что учитывается с регулировании не измеряемо или измеряемо плохо через данные. Иначе говоря не всё можно поместить в дашборды на основе которых писать новые законы. Дискуссия не нова, но автор хорошо систематизировал и изложил ключевые аспекты.
- ORelly Technology Trends 2025 [7] много разных сторон технологий описано, я бы обратил внимание на снижающуюся популярность Java (-13%), Python (-5.3%), рост востребованности Rust (+9.6%) и Data engineering (+29%) и IT сертификация в целом снижается почти по всем направлениям. Тут надо не забывать что эти тренды ORelly считают по данным их обучающей платформы, а то есть выборка сильно меньше чем у похожих обзоров от Github или StackOverflow, но небесполезная в любом случае.
Ссылки:
[1] https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024-databases-retrospective.html
[2] https://dbdb.io/browse?start-year=2024
[3] https://yangx.top.com/7205359/why-ai-progress-is-increasingly-invisible/
[4] https://www.linkedin.com/feed/update/urn:li:activity:7269446402739515393/
[5] https://szarnyasg.org/posts/duckdb-vs-coreutils/
[6] https://issues.org/limits-of-data-nguyen/
[7] https://ae.oreilly.com/l/1009792/2024-12-06/332nf/1009792/1733515474UOvDN6IM/OReilly_Technology_Trends_for_2025.pdf
#databases #datasets #data #dataregulation #trends #readings
Andy Pavlo - Carnegie Mellon University
Databases in 2024: A Year in Review
Andy rises from the ashes of his dead startup and discusses what happened in 2024 in the database game.
Полезное чтение про данные, технологии и не только:
- Digitalizing sewage: The politics of producing, sharing, and operationalizing data from wastewater-based surveillance [1] оцифровка канализации и переходу к слежке через анализ сточных вод. Скрыто за пейволом, но тема важная, и активно развивающаяся. Годится для тем рассказов социальной фантастики про то как полиция выявляет убийц расчленителей и наркоманов, а медики больных по анализу сточных вод в реальном времени. Статья за пэйволом
- AI Is Bad News for the Global South [2] статья о том что ИИ для развивающихся стран не несёт ничего хорошего. Потому что английский язык, потому что gig-экономика включает многих из развивающихся стран, а теперь будет ИИ контент.
- The Access to Public Information: A Fundamental Right [3] книга Alejandra Soriano Diaz, о том что доступ к информации - это фундаментальное право и от него зависят другие права. Увы, книга не в открытом доступе,
- Kickstarting Collaborative, AI-Ready Datasets in the Life Sciences with Government-funded Projects [4] статья о том что государство должно активно софинансировать создание данных/датасетов в медицине и других life sciences. Там же ссылка на Open Dataset Initiative [5] создание открытых научных датасетов по запросу сообществ.
Ссылки:
[1] https://journals.sagepub.com/doi/abs/10.1177/23996544241313454
[2] https://foreignpolicy.com/2024/12/17/ai-global-south-inequality/
[3] https://www.cambridgescholars.com/product/978-1-0364-1521-1
[4] https://fas.org/publication/collaborative-datasets-life-sciences/
[5] https://alignbio.org/datasets-in-detail
#opendata #data #foi #readings #ai
- Digitalizing sewage: The politics of producing, sharing, and operationalizing data from wastewater-based surveillance [1] оцифровка канализации и переходу к слежке через анализ сточных вод. Скрыто за пейволом, но тема важная, и активно развивающаяся. Годится для тем рассказов социальной фантастики про то как полиция выявляет убийц расчленителей и наркоманов, а медики больных по анализу сточных вод в реальном времени. Статья за пэйволом
- AI Is Bad News for the Global South [2] статья о том что ИИ для развивающихся стран не несёт ничего хорошего. Потому что английский язык, потому что gig-экономика включает многих из развивающихся стран, а теперь будет ИИ контент.
- The Access to Public Information: A Fundamental Right [3] книга Alejandra Soriano Diaz, о том что доступ к информации - это фундаментальное право и от него зависят другие права. Увы, книга не в открытом доступе,
- Kickstarting Collaborative, AI-Ready Datasets in the Life Sciences with Government-funded Projects [4] статья о том что государство должно активно софинансировать создание данных/датасетов в медицине и других life sciences. Там же ссылка на Open Dataset Initiative [5] создание открытых научных датасетов по запросу сообществ.
Ссылки:
[1] https://journals.sagepub.com/doi/abs/10.1177/23996544241313454
[2] https://foreignpolicy.com/2024/12/17/ai-global-south-inequality/
[3] https://www.cambridgescholars.com/product/978-1-0364-1521-1
[4] https://fas.org/publication/collaborative-datasets-life-sciences/
[5] https://alignbio.org/datasets-in-detail
#opendata #data #foi #readings #ai
Свежий документ Data Governance in Open Source AI [1] от Open Source Initiative про то как публиковать данные для обучения ИИ с открытым кодом. В документе много всего, важно что они промоутируют отход от чистого определения Open Data и говорят о новом (старом) подходе Data Commons с разными моделями доступа к данным.
Дословно в тексте упоминаются, привожу как есть:
- Open data: data that is freely accessible, usable and shareable without restrictions, typically
under an open license or in the Public Domain36 (for example, OpenStreetMap data);
• Public data: data that is accessible to anyone without authentication or special permissions
(for example, Common Crawl data). Note that this data can degrade as web content
becomes unavailable;
• Obtainable data: data that can be obtained or acquired through specific actions, such as
licensing deals, subscriptions or permissions (for example, ImageNet data);
• Unshareable non-public data: data that is confidential or protected by privacy laws,
agreements or proprietary rights and cannot be legally shared or publicly distributed.
С точки зрения многих в открытых данных всё это звучит как размывание открытости, но с точки зрения практики ИИ в этом есть логика.
Ссылки:
[1] https://opensource.org/blog/reimagining-data-for-open-source-ai-a-call-to-action
#opendata #data #readings
Дословно в тексте упоминаются, привожу как есть:
- Open data: data that is freely accessible, usable and shareable without restrictions, typically
under an open license or in the Public Domain36 (for example, OpenStreetMap data);
• Public data: data that is accessible to anyone without authentication or special permissions
(for example, Common Crawl data). Note that this data can degrade as web content
becomes unavailable;
• Obtainable data: data that can be obtained or acquired through specific actions, such as
licensing deals, subscriptions or permissions (for example, ImageNet data);
• Unshareable non-public data: data that is confidential or protected by privacy laws,
agreements or proprietary rights and cannot be legally shared or publicly distributed.
С точки зрения многих в открытых данных всё это звучит как размывание открытости, но с точки зрения практики ИИ в этом есть логика.
Ссылки:
[1] https://opensource.org/blog/reimagining-data-for-open-source-ai-a-call-to-action
#opendata #data #readings
Open Source Initiative
Reimagining data for Open Source AI: A call to action
The Open Source Initiative (OSI) and Open Future have published a white paper: “Data Governance in Open Source AI: Enabling Responsible and Systematic Access.” This document is the culmination of a global co-design process, enriched by insights from a vibrant…
Полезное чтение про данные, технологии и не только:
- Chart Smarter, Not Harder: Plotly Now Offers Universal DataFrame Support [1] о том как разработчики движка визуализации Plotly многократно ускорили визуализацию графиков используя библиотеку Narwhals поверх Polars и pyArrow. Познавательные цифры и опыт для тех кто сталкивается с медленной отрисовкой графиков.
- Siyuan [2] персональная система управления знаниями и заметками. Китайский аналог Notion и Obsidian. Открытый код под AGPL, бесплатно для личного использования. Много интеграции в китайскую экосистему вроде WeChat и тд
- Requestly [3] расширение для браузера, прокси, для перехвата запросов. Необходимо всем разработчикам работающим с API. Открытый код под AGPL и онлайн сервис за деньги. По сути конкурент Postman
- Maxun [4] ещё один no-code инструмент для скрейпинга сайтов. Облегчает жизнь тем кто не хочет кодировать то что можно не кодировать. Открытый код, AGPL
- VeilStream [5] для разнообразия не вполне обычный коммерческий сервис, прокси для PostgreSQL который принимает запросы от пользователей, а ответы отдаёт отфильтрованными от персональных данных. Меня не покидает ощущение что это несколько, ммм, извращённое решение, но тем не менее. Оно есть и, видимо, кто-то его покупает.
- 10 Ways to Work with Large Files in Python: Effortlessly Handle Gigabytes of Data! [6] статья полностью для джунов, но именно джунам её прочитать обязательно. Там есть небольшая реклама Dask и игнорирование Polars, DuckDB и тд. А если говорить серьёзно, то всё зависит от того какие у тебя большие данные, в каком они состоянии и что с ними планируется делать. К примеру, обработка десятков и сотен гигабайт бинарных данных происходит иначе.
- Python Rgonomics 2025 [7] материал о том как работать в Python тем кто учил R. Полезное чтение для тех кто живёт в двух мирах или переходит с R на Python.
Ссылки:
[1] https://plotly.com/blog/chart-smarter-not-harder-universal-dataframe-support/
[2] https://github.com/siyuan-note/siyuan
[3] https://github.com/requestly/requestly
[4] https://github.com/getmaxun/maxun
[5] https://www.veilstream.com/
[6] https://blog.devgenius.io/10-ways-to-work-with-large-files-in-python-effortlessly-handle-gigabytes-of-data-aeef19bc0429
[7] https://www.emilyriederer.com/post/py-rgo-2025/
#readings #opensource #data #datatools
- Chart Smarter, Not Harder: Plotly Now Offers Universal DataFrame Support [1] о том как разработчики движка визуализации Plotly многократно ускорили визуализацию графиков используя библиотеку Narwhals поверх Polars и pyArrow. Познавательные цифры и опыт для тех кто сталкивается с медленной отрисовкой графиков.
- Siyuan [2] персональная система управления знаниями и заметками. Китайский аналог Notion и Obsidian. Открытый код под AGPL, бесплатно для личного использования. Много интеграции в китайскую экосистему вроде WeChat и тд
- Requestly [3] расширение для браузера, прокси, для перехвата запросов. Необходимо всем разработчикам работающим с API. Открытый код под AGPL и онлайн сервис за деньги. По сути конкурент Postman
- Maxun [4] ещё один no-code инструмент для скрейпинга сайтов. Облегчает жизнь тем кто не хочет кодировать то что можно не кодировать. Открытый код, AGPL
- VeilStream [5] для разнообразия не вполне обычный коммерческий сервис, прокси для PostgreSQL который принимает запросы от пользователей, а ответы отдаёт отфильтрованными от персональных данных. Меня не покидает ощущение что это несколько, ммм, извращённое решение, но тем не менее. Оно есть и, видимо, кто-то его покупает.
- 10 Ways to Work with Large Files in Python: Effortlessly Handle Gigabytes of Data! [6] статья полностью для джунов, но именно джунам её прочитать обязательно. Там есть небольшая реклама Dask и игнорирование Polars, DuckDB и тд. А если говорить серьёзно, то всё зависит от того какие у тебя большие данные, в каком они состоянии и что с ними планируется делать. К примеру, обработка десятков и сотен гигабайт бинарных данных происходит иначе.
- Python Rgonomics 2025 [7] материал о том как работать в Python тем кто учил R. Полезное чтение для тех кто живёт в двух мирах или переходит с R на Python.
Ссылки:
[1] https://plotly.com/blog/chart-smarter-not-harder-universal-dataframe-support/
[2] https://github.com/siyuan-note/siyuan
[3] https://github.com/requestly/requestly
[4] https://github.com/getmaxun/maxun
[5] https://www.veilstream.com/
[6] https://blog.devgenius.io/10-ways-to-work-with-large-files-in-python-effortlessly-handle-gigabytes-of-data-aeef19bc0429
[7] https://www.emilyriederer.com/post/py-rgo-2025/
#readings #opensource #data #datatools
Plotly
Chart Smarter, Not Harder: Plotly Now Offers Universal DataFrame Support
Learn how you can boost Dash data app performance with the new Plotly.py collaboration with Narwhals, a dataframe compatibility layer.