Очень интересное исследование международного рынка специалистов по анализу данных (data analytics) [1] с карьерного саммита дата аналитиков.
По востребованности навыков (требований) в вакансиях:
- SQL значительно набирает популярность, +27% с 2020 года с 32% до 59%
- PowerBI, Tableau, Excel - растут в популярности, на 16%, 23% и 14% соответственно
- у Python +9% популярности, до 25%
- у R +7% популярности до 19%
Я подозреваю что резкий рост популярности SQL не обошёлся без развития modern data stack и конкретно развития dbt.
И, что особенно интересно, всё более исчезает требование по наличию отраслевого опыта, изменения с 35% до 16%.
Там ещё много всяких цифр и графиков, для тех кто рассматривает себя в мировом рынке дата-аналитики будет полезно.
И, дополнением, аналитика по ролям в вакансиях в сообществе dbt [2] на основе анализа около 3 тысяч вакансий. Виден рост роли "analytical engineer" собственно в dbt придуманный и продвигаемый.
Ссылки:
[1] https://www.youtube.com/watch?v=HrSDlSGEtW0&t=8679s
[2] https://www.reddit.com/r/dataengineering/comments/wq0n3n/we_looked_into_how_data_job_postings_in_the_dbt/
#data #analytics #careers
По востребованности навыков (требований) в вакансиях:
- SQL значительно набирает популярность, +27% с 2020 года с 32% до 59%
- PowerBI, Tableau, Excel - растут в популярности, на 16%, 23% и 14% соответственно
- у Python +9% популярности, до 25%
- у R +7% популярности до 19%
Я подозреваю что резкий рост популярности SQL не обошёлся без развития modern data stack и конкретно развития dbt.
И, что особенно интересно, всё более исчезает требование по наличию отраслевого опыта, изменения с 35% до 16%.
Там ещё много всяких цифр и графиков, для тех кто рассматривает себя в мировом рынке дата-аналитики будет полезно.
И, дополнением, аналитика по ролям в вакансиях в сообществе dbt [2] на основе анализа около 3 тысяч вакансий. Виден рост роли "analytical engineer" собственно в dbt придуманный и продвигаемый.
Ссылки:
[1] https://www.youtube.com/watch?v=HrSDlSGEtW0&t=8679s
[2] https://www.reddit.com/r/dataengineering/comments/wq0n3n/we_looked_into_how_data_job_postings_in_the_dbt/
#data #analytics #careers
В рубрике интересных стартапов на данных Whaly [1] французский стартап в области автоматизации BI и аналитики, привлекший $1.9M венчурных инвестиций в июле 2022 г. [2]. Стартап любопытный в том что конкурирует с Looker, но своим рыночным преимуществом указывает что умеет интегрироваться с десятками онлайн сервисов и эта интеграция не требует внешнего ETԼ сервиса. Что, в целом, соответствует тому о чём писал Benn Stancil [3] о том что ETL бизнесу вроде Fivetran недолго осталось царствовать. Whaly продукт весьма любопытный, но бесплатно его не попробовать и ценообразование там какое-то непонятное, всё через созвон с сейлами и в прайс листе указано что
планы начинаются с $460 в месяц. Наверное сервис хороший, но вот этот вот подход с невозможностью бесплатного тестирования мне лично категорически не нравится.
И, признаюсь, я лично, обжёгшись на Gitbook'е и Scaleway очень настороженно отношусь к французским стартапам. Даже когда продукт выглядит интересно, customer service оказывается ужасающим.
Ссылки:
[1] https://whaly.io/
[2] https://www.crunchbase.com/organization/whaly
[3] https://benn.substack.com/p/how-fivetran-fails
#data #datatools #startups #analytics #BI
планы начинаются с $460 в месяц. Наверное сервис хороший, но вот этот вот подход с невозможностью бесплатного тестирования мне лично категорически не нравится.
И, признаюсь, я лично, обжёгшись на Gitbook'е и Scaleway очень настороженно отношусь к французским стартапам. Даже когда продукт выглядит интересно, customer service оказывается ужасающим.
Ссылки:
[1] https://whaly.io/
[2] https://www.crunchbase.com/organization/whaly
[3] https://benn.substack.com/p/how-fivetran-fails
#data #datatools #startups #analytics #BI
В блоге Clickhouse хороший разбор того как локальная версия clickhouse-local может использоваться для аналитики [1]. Фактически это про то что Clickhouse в локальной версии - это прекрасная альтернатива DuckDB. В общем-то и раньше не было сомнений, но тут ещё и хороший текст. Это же, кстати, делает Clickhouse хорошей СУБД для обучения студентов работе с данными.
Впрочем корректнее всего сравнивать DuckDB, Clickhouse и другие подобные базы даже не с СУБД, а с инструментами вроде csvkit, textql и тд. поскольку они заменяют именно их при работе с локальными CSV, JSON и другими файлами. Но и тут clickhouse интересен поддержкой очень большого числа форматов и типов файлов прямо из коробки [2].
Хороший продукт, главное чтобы его бесплатные возможности не "растерялись" при его коммерческом развитии.
Ссылки:
[1] https://clickhouse.com/blog/extracting-converting-querying-local-files-with-sql-clickhouse-local
[2] https://clickhouse.com/docs/en/sql-reference/formats
#data #datatools #analytics
Впрочем корректнее всего сравнивать DuckDB, Clickhouse и другие подобные базы даже не с СУБД, а с инструментами вроде csvkit, textql и тд. поскольку они заменяют именно их при работе с локальными CSV, JSON и другими файлами. Но и тут clickhouse интересен поддержкой очень большого числа форматов и типов файлов прямо из коробки [2].
Хороший продукт, главное чтобы его бесплатные возможности не "растерялись" при его коммерческом развитии.
Ссылки:
[1] https://clickhouse.com/blog/extracting-converting-querying-local-files-with-sql-clickhouse-local
[2] https://clickhouse.com/docs/en/sql-reference/formats
#data #datatools #analytics
ClickHouse
Extracting, Converting, and Querying Data in Local Files using clickhouse-local
Learn how you can use clickhouse-local to analyze and transform your local and remote files using just the power of SQL on your laptop
Свежие картинки по LLMops Market Map от CB Insights [1]. Все эти картинки, симпатичные, но они лишь визуально иллюстрируют рынок AI/LLM/Generative AI и инвестиции в него.
Лично мне среди AI продуктов интереснее всего развитие поисковиков по данным и продукты по автоматизации (ИИзации) аналитики по данным. Уже есть несколько стартапов обещающих автоматизацию построения дашбордов на основе клиентских данных.
Ссылки:
[1] https://www.cbinsights.com/research/large-language-model-operations-llmops-market-map/
#ai #analytics #llmops
Лично мне среди AI продуктов интереснее всего развитие поисковиков по данным и продукты по автоматизации (ИИзации) аналитики по данным. Уже есть несколько стартапов обещающих автоматизацию построения дашбордов на основе клиентских данных.
Ссылки:
[1] https://www.cbinsights.com/research/large-language-model-operations-llmops-market-map/
#ai #analytics #llmops
В рубрике интересных проектов на данных OSS Insight [1] открытая аналитическая платформа по репозиториям в Github с аналитикой по каждому репозиторию, пользователям, языкам разработки и ещё много чему извлеченному из Github. Полезно для вылавливания новых продуктов и понимания их популярности и построения своих дашбордов по продуктам с открытым кодом.
Что интересно - так это всё является ничем иным как демкой работы облачного движка TiDB [2] в виде распределённой SQL базы данных. Причём демки достаточно живой, с демонстрацией конкретных SQL запросов построенных по этой базе, возможностью преобразовывать текст в SQL запросы и тд. В общем-то какое-то количество хайповых фич, но при этом и открытый продукт как демка коммерческого.
Это всё к вопросу о том, например, почему так полезны открытые данные в том числе. Потому что на их основе можно делать вот такие продукты.
Причём понятно почему выбраны данные именно Github'а. Потому что это открытая экосистема понятная всем разработчикам. Это к вопросу о создании его альтернатив, потому что настоящих альтернатив почти нет.
Ссылки:
[1] https://ossinsight.io
[2] https://www.pingcap.com/tidb-serverless/
#opensource #analytics #dataviz #github
Что интересно - так это всё является ничем иным как демкой работы облачного движка TiDB [2] в виде распределённой SQL базы данных. Причём демки достаточно живой, с демонстрацией конкретных SQL запросов построенных по этой базе, возможностью преобразовывать текст в SQL запросы и тд. В общем-то какое-то количество хайповых фич, но при этом и открытый продукт как демка коммерческого.
Это всё к вопросу о том, например, почему так полезны открытые данные в том числе. Потому что на их основе можно делать вот такие продукты.
Причём понятно почему выбраны данные именно Github'а. Потому что это открытая экосистема понятная всем разработчикам. Это к вопросу о создании его альтернатив, потому что настоящих альтернатив почти нет.
Ссылки:
[1] https://ossinsight.io
[2] https://www.pingcap.com/tidb-serverless/
#opensource #analytics #dataviz #github
This media is not supported in your browser
VIEW IN TELEGRAM
Свежий любопытный инструмент для автоматизации работы аналитика: Thread [1], автоматизирует Jupyter Notebook с помощью API OpenAI, позволяет автозаполнять таблицы, генерировать код и визуализацию.
Выглядит симпатично, для многих задач это просто полезно. Как минимум хорошо ускоряет работу опытных аналитиков.
Автор явно создал движок под облачный стартап где такое будет из коробки.
И да, открытый код под лицензией AGPL3. Кстати явный видный тренд применения GPL/AGPL в современном исходном коде, но не от идеалов FSF, а именно для того чтобы не ограничивать себя в создании стартапа и бизнеса, но ограничивать в этом всех остальных.
Ссылки:
[1] https://github.com/squaredtechnologies/thread
#opensource #ai #analytics #dataviz #jupyter
Выглядит симпатично, для многих задач это просто полезно. Как минимум хорошо ускоряет работу опытных аналитиков.
Автор явно создал движок под облачный стартап где такое будет из коробки.
И да, открытый код под лицензией AGPL3. Кстати явный видный тренд применения GPL/AGPL в современном исходном коде, но не от идеалов FSF, а именно для того чтобы не ограничивать себя в создании стартапа и бизнеса, но ограничивать в этом всех остальных.
Ссылки:
[1] https://github.com/squaredtechnologies/thread
#opensource #ai #analytics #dataviz #jupyter
Для тех кто любит заниматься дата сторителлингом (журналисты, аналитики) новый полезный инструмент Closeread [1] позволяющий рассказывать истории внутри HTML документов open source системы документирования Quarto [2].
Quarto сама по себе удобная система и я лично давно смотрю на неё с разных сторон и хочу применить в деле. А Closeread ещё и приближает её к задачам рассказывания историй.
И всё это в Markdown, расширяемо, и тд.
А ещё интересно для публикации научных статей, уже есть примеры их подготовки в Quarto и множество шаблонов [3].
Куда ни посмотри, отличный инструмент.
Ссылки:
[1] https://closeread.netlify.app
[2] https://quarto.org
[3] https://github.com/quarto-journals
#opensource #datajournalism #analytics #datadocs #tools
Quarto сама по себе удобная система и я лично давно смотрю на неё с разных сторон и хочу применить в деле. А Closeread ещё и приближает её к задачам рассказывания историй.
И всё это в Markdown, расширяемо, и тд.
А ещё интересно для публикации научных статей, уже есть примеры их подготовки в Quarto и множество шаблонов [3].
Куда ни посмотри, отличный инструмент.
Ссылки:
[1] https://closeread.netlify.app
[2] https://quarto.org
[3] https://github.com/quarto-journals
#opensource #datajournalism #analytics #datadocs #tools
Вот прям очень интересное исследование от Сбериндекса со многих точек зрения, но главное - это взгляд на проблемы работы с муниципальными данными
#analytics #opendata
#analytics #opendata
Не успела появится профессия BI Engineer как её скоро заменит AI [1]. Полезная статья в блоге Rill о применении AI для корпоративной аналитики.
Это, кстати, вполне реалистичное применение технологий. Вместо построения дашбордов использование естественного языка для получения аналитики. Правда аналитики останутся без работы даже быстрее чем многие другие профессии. Потому что ничто не мешает членам совета директоров хотья прямо на совещании делать промпты на естественном языке к языковой модели которая имеет доступ к корпоративному хранилищу и получать почти моментальные ответы.
Ссылки:
[1] https://www.rilldata.com/blog/bi-as-code-and-the-new-era-of-genbi
#bi #analytics #ai #thoughts
Это, кстати, вполне реалистичное применение технологий. Вместо построения дашбордов использование естественного языка для получения аналитики. Правда аналитики останутся без работы даже быстрее чем многие другие профессии. Потому что ничто не мешает членам совета директоров хотья прямо на совещании делать промпты на естественном языке к языковой модели которая имеет доступ к корпоративному хранилищу и получать почти моментальные ответы.
Ссылки:
[1] https://www.rilldata.com/blog/bi-as-code-and-the-new-era-of-genbi
#bi #analytics #ai #thoughts
Свежий годовой отчет Cloudflare о связности интернета и основных трендах [1]. Интересно хотя бы из-за масштаба Cloudflare, его однозначно можно отнести к компании управляющей глобальной критичной инфраструктурой.
Несколько быстрых фактов из их отчета:
- Chrome по прежнему доминирующий браузер в мире с более чем 65.8%. Далее Safari со значимыми 15.5%, Edge с 6.9% и Firefox с 4%
- Google по прежнему доминирует в поиске с 88.5%, но, на втором месте идёт Яндекс с 3.1%. Baidu и Bing от Яндекс'а отстают
- GoogleBot создаёт наибольшую нагрузку на веб сайты чем все остальные боты
- AI краулер Bytespider от Bytedance значительно уменьшил сбор данных в 2024 году, а ClaudeBot от Anthropic существенно подрос
- интернет трафик через StarLink вырос в 3.3 раза. После доступности сервиса StarLink у нескольких стран трафик вырос в десятки и даже сотни раз.
И там ещё много всего любопытного, а также у них есть интересный продукт Cloudflare Radar с открытой аналитикой и данными и API.
Кстати, очень показательный пример [2] дата продукта, дашборда, продукта дата аналитики и тд. Потому что это качественное совмещение визуализации и возможности самостоятельно работать с данными через API.
Ссылки:
[1] https://blog.cloudflare.com/radar-2024-year-in-review/
[2] https://radar.cloudflare.com
#opendata #datasets #analytics #readings
Несколько быстрых фактов из их отчета:
- Chrome по прежнему доминирующий браузер в мире с более чем 65.8%. Далее Safari со значимыми 15.5%, Edge с 6.9% и Firefox с 4%
- Google по прежнему доминирует в поиске с 88.5%, но, на втором месте идёт Яндекс с 3.1%. Baidu и Bing от Яндекс'а отстают
- GoogleBot создаёт наибольшую нагрузку на веб сайты чем все остальные боты
- AI краулер Bytespider от Bytedance значительно уменьшил сбор данных в 2024 году, а ClaudeBot от Anthropic существенно подрос
- интернет трафик через StarLink вырос в 3.3 раза. После доступности сервиса StarLink у нескольких стран трафик вырос в десятки и даже сотни раз.
И там ещё много всего любопытного, а также у них есть интересный продукт Cloudflare Radar с открытой аналитикой и данными и API.
Кстати, очень показательный пример [2] дата продукта, дашборда, продукта дата аналитики и тд. Потому что это качественное совмещение визуализации и возможности самостоятельно работать с данными через API.
Ссылки:
[1] https://blog.cloudflare.com/radar-2024-year-in-review/
[2] https://radar.cloudflare.com
#opendata #datasets #analytics #readings