Наука и данные
1.66K subscribers
584 photos
11 videos
635 links
Дайджест по полезным и интересным инструментам в науке о данных, машинному обучению и визуализации данных. Создан как записная книжка, которая дополняет страницу https://naukaidannye.netlify.app/
加入频道
The R Manuals. A re-styled Quarto-version of the original R manuals

Если вы хотите погрузиться в "классический R" без "всяких там tidyverse", то проверенный временем набор ссылок The R Manuals послужит одним лучших введений.

Например, разделы страницы описывают ряд вводных вопросов (от простых операций до тонкостей графики), импорт/экспорт данных, установку и администрирование R, написание собственных R-расширений и многое другое.

Напомню, что на русском языке есть хороший онлайн-учебник Введение в язык программирования R (автор Филипп Управителев), который кратко касается схожих вопросов.
ggiraph 🦒

Yan Holtz считает недооцененной библиотеку {ggiraph} для интерактивной визуализации данных, которая сделана на основе {ggplot2} как htmlwidget.

Действительно, его примеры выглядят отлично в галерее r-graph-gallery! Имеется и Python-версия карты из примеров выше (обратите внимание - гистограмма присутствует как легенда).

Также, недавно Yan Holtz запустил новый курс по библиотеке Matplotlib (+Pyodide sandbox Matplotlib Journey) и страницу Dataviz with React fundamentals 🔥 (часть материалов будут в последствии закрыты и будут только за 💰).

Кстати, если вам нравится Matplotlib, то можете посмотреть видео Create Time Series Animations in Python with Matplotlib! (автор Keith Galli)
Circular visualization in R

Предположим, что вы изучаете циклические явления или структуры: сезонный рост заболеваемости, глобальное изменение температуры, филогенетические деревья, приливы и т. д., тогда вам помогут круговые визуализации.

Zuguang Gu создал две библиотеки {circlize} (по которой он написал книгу Circular visualization in R) и {spiralize}, целиком посвященные круговым визуализациям, включая тепловые карты, геномные данные, хордовые диаграммы и многое, многое другое.
Network Science in Archaeology

Проект Online Companion to Network Science in Archaeology является дополнением к книге Network Science in Archaeology [Tom Brughmans & Matthew A. Peeples (2023), Cambridge Manuals in Archaeology], что представляет собой первое всеобъемлющее руководство по сетевому анализу в археологической практике.

Издание предлагает пошаговое описание методов сетевого анализа и повествует о теоретических основах и приложениях в археологических исследованиях, которые проиллюстрированы археологическими примерами, включая сбор и управление сетевыми данными, исследовательский сетевой анализ, вопросы выборки и анализ чувствительности, пространственные сети и визуализацию сетей.

В книге предоставлен код и примеры для воспроизведения с использованием языка программирования R, а также множество других полезных инструментов.
---
Для "сетевиков" также будет интересна реализация алгоритма Смита-Питтмана в библиотеке {ig.degree.betweenness}.
This media is not supported in your browser
VIEW IN TELEGRAM
2025 AI Calendar 📅

Tom Yeh опубликовал gif с рекламой календаря 12 deep learning architectures to study in 2025.

1. January: Multi-Layer Perceptron (MLP)

2. February: Backpropagation

3. March: Autoencoder

4. April: Recurrent Neural Network (RNN)

5. May: Long-Short Term Memory (LSTM)

6. June: Generative Adversarial Network (GAN)

7. July: Residual Network (ResNet)

8. August: Transformer

9. September: Self-Attention

10. October: U-Net

11. November: Reinforcement Learning with Human Feedback (RLHF)

12. December: Contrastive Language-Image Pretraining (CLIP)

Выглядит очень красиво, ничего не сказать, календарь можно заказать в США... но где же тут KANs (Kolmogorov–Arnold Networks)? Или эта тема уже не столь актуальна/модна/молодежна? 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
Data Viz Collective + Geo-Computation

Мы уже видели отличные визуализации, которые Aditya Dahiya делает на R, выполненные на основе ggplot2.

Сейчас он также ведет еще один интересный блог-проект по гео-вычислениям, в котором, в частности, проходит упражнения из известной книги Geocomputation with R. К слову, отмечу еще одну книгу, связанную с пространственными данными: GeoComputation and Spatial Analysis practicals
Вот так задачка! 🙈

Поскольку не так давно мы отметили день математика, отмечу забавный твит, в котором Luis Batalha обнаружил, что Серж Ленг в книге по комплексному анализу предложил в качестве упражнения... доказать гипотезу Римана!

Напомню, гипотеза Римана - это одна из нерешенных (так называемых The Millennium Prize Problem) проблем математики, за решение которой Clay Mathematics Institute предложил выплатить 1 млн USD.

Серж Ленг был в свое время довольно известным математиком и выдающимся педагогом, который написал множество книг по самым различным темам как для младшекурсников, так и серьезных книг для аспирантов. Интересно что он путешествовал с пишущей машинкой и не любил компьютеры, а его бабушка была русской. Когда я был в один из визитов в MPIfM он подарил мне свою книжку и подписал ее. Так вот Серж Ленг был известным оригиналом, например, к "упражнению выше" по гипотезе Римана он приписал: "вы можете спросить совета по решению этой задачи у своего профессора". 😀

Всем хороших выходных! 👋
posit::conf(2025)

Открылась регистрация на конференцию posit::conf(2025), которая пройдет в Атланте, США с 16 по 18 сентября 2025.

Один день будет посвящен воркшопам (которые уже понемногу анонсируются), а последующие два дня будут наполнены докладами и выступлениями.
Hello geoviz 🗺️

JavaScript-библиотека geoviz возможно не столь известна, однако, на мой взгляд, является одной из лучших для создания интерактивных тематических карт. Библиотека совместима с синтаксисом D3 и встраивается в ноутбуки Observable, а, следовательно, теоретически и в Quarto.

📦 страница библиотеки

🔥 страница с примерами

Однозначно нужно пробовать!
Fundamentals of Numerical Computation (Tobin A. Driscoll & Richard J. Braun)

Несомненно, MATLAB оставался лидером в качестве основной среды в исследования численных вычислений, и сейчас он занимает определенную нишу, однако современный ландшафт меняется и сейчас существуют полнофункциональные open source альтернативы MATLAB, например, NumPy языка Python. Помимо Python, язык Julia был разработан с целью отдать приоритет быстрым численным научным вычислениям.

Книга Fundamentals of Numerical Computation изначально была написана для MATLAB, а затем переведена на Julia. Издание интересно как математическим введением в предмет, так и подробным сопровождением кода, начиная от классических тем (линейная алгебра, корни нелинейных уравнений) до уравнений в частных производных.

В R можно посмотреть список ресурсов Numerical Mathematics (Hans W. Borchers, Robin Hankin, Serguei Sokol).
Top 40 New CRAN Packages 4️⃣0️⃣ 🆕 📦

Некоторое время тому назад R Views публиковали список 40 лучших библиотек за месяц, однако с какого-то времени эта практика прекратилась. Оказывается, теперь эти отличные подборки можно почитать на R Works.

Также, еженедельный список интересных R-находок публикуют на R Weekly и можно подписаться на различные рассылки, например, Blaze Data Science with R.
Data Science Learning Community

Девиз Data Science Learning Community (ex R4DS Online Learning Community) - Учимся вместе!

Напомню о том, что сообщество DSLC проводит регулярные онлайн-встречи, организуя "книжные клубы" по прохождению различных книг для R и Python по Data Science и ML.

Записи онлайн-встреч доступны на YouTube. Также у сообщества есть собственный сайт, где представлены ссылки на видео с семинарами по книгам с поддержкой в Slack и календарь событий. Безусловно, можно подписаться и на их Bluesky.
Explainers

Мне нравится интерактивная подача материала и иллюстрации по таким сложным вопросам как искуственные нейронные сети и машинное обучение. Примеры можно посмотреть в известной статье Generative AI exists because of the transformer (FT), The Illustrated Machine Learning или LLM Visualization.

Вот еще один класс "объяснялок" от Polo Club of Data Science:

🔸 CNN Explainer

🔹 Transformer Explainer

🔸 Diffusion Explainer
This media is not supported in your browser
VIEW IN TELEGRAM
Как создать "крутяк"? 🤘

ThePudding объясняет идеи, которые у всех на слуху и обсуждаются в (масс-)культуре с помощью небольших визуальных эссе, они выбирают темы, в которых визуальные эффекты информируют и развлекают. Если вам нравятся визуальные представления - это вам точно понравится.

Роясь в бездне ссылок я наткнулся на забавный набор статей, который выпустила команда ThePudding (а точнее - Ilia Blinderman), эдакий трехсерийный сериал, призванный помочь ознакомиться с инструментами, используемыми для создания визуальных историй, основанных на данных.

Part 1: Working with Data

Part 2: Design

Part 3: Storytelling

Отличные статьи, читайте, отдыхайте. Одним словом, всем хороших выходных! 👋
This media is not supported in your browser
VIEW IN TELEGRAM
How To Craft A Blazingly Fast Graphics Device 🐅

На сколько мы знаем, библиотека {gganimate} делает анимации достаточно медленно, каждый кадр отрисовывается как отдельный ggplot2-объект, а потом эти графики объединяются в один gif. Кроме того, пока не существует кроссплатформенных графических устройств, что тоже вносит определенные трудности в создание анимаций в R.

Hiroaki Yutani сделал доклад на Japan.R (увы, по-японски и записи не было) по созданию анимаций, графическим устройствам, API, а также vellogd: A GPU-powered Interactive Graphics Device for R. Презентация (на английском) доступна в сети, пока это эксперимент, но результат уже сейчас представляет интерес.
How Dense are the World's Biggest Cities? 🏘️

Интересный подход к рассмотрению плотности населения продемонстрировал Jonathan Nolan на семинаре nyhackr, который ведет Jared Lander (Chief Data Scientist of Lander Analytics a New York data science firm).

В частности, Shiny-сайт citydensity.com позволяет сравнивать различные города по плотности заселенности в зависимости от расстояния от центра. В докладе Jonathan поделился идеями и техническими деталями по анализу данных такого рода.
Finding Your Way To R 🏃‍♂️‍➡️

Помимо прочих ресурсов по изучению языка R, можно вспомнить про дорожную карту от RStudio (теперь Posit). Путь к познанию R разделен на три направления, от начинающих до экспертов.

Пусть эти материалы в некоторых моментах требуют обновления, но в целом они могут помочь идейно сориентировать в навигации по экосистеме R.
{tidyplots}

Большое спасибо Александру за ссылку на сайт библиотеки {tidyplots} для создания готовых к публикации графиков для научных статей, автор которого Jan Broder Engler. По мнению автора библиотека:

🕊️ Бесплатная и с открытым исходным кодом
🚀 Простая, интуитивно понятная и быстрая
💾 Содержит демонстрационные наборы данных
🏆 Использует лучшие практики
🌈 Красивая

Галерея графиков tidyplots выглядит неплохо, очень напоминает {ggpubr}, которым я активно пользуюсь, и BBC Visual and Data Journalism cookbook for R graphics.
{statquotes}

Известный нам статистик и самый дружелюбный историк визуальных представлений данных Michael Friendly является автором книг и библиотек R, одна из которых - {statquotes} мне особенно понравилась. Она отображает случайно выбранную цитату по темам, связанным со статистикой, визуализацией данных и Data Science.

Более того, такой цитатник я вставил в Quarto-страницу (подойдет и markdown или LaTeX). Также можно создавать облако слов на основе поиска в базе данных цитат.