Наука и данные
1.77K subscribers
644 photos
12 videos
695 links
Дайджест по полезным и интересным инструментам в науке о данных, машинному обучению и визуализации данных. Создан как записная книжка, которая дополняет страницу https://naukaidannye.netlify.app/
加入频道
Forwarded from Ёжик в матане
Дорогие коллеги, с Праздником!

Кстати, сегодня был учрежден и день математика. 1 декабря для такого дня, наверное, существенно лучше 1 апреля. Поэтому, пусть будет так 😊

Ну а мы начинаем сегодняшнее Воскресенье с весёлой картинки, на которую нас вдохновил похожий мем от MathMatize.

#ёжик_развлекается
Проверьте себя, я только за одним словом залез в Google, да и то потому, что давно статистику не преподавал. 😄
Forwarded from Data Secrets
В честь Дня Математика - математический кроссворд выходного дня. Предупреждаем: он не самый простой 🎩

По горизонтали:

1. Чем выше его значение, тем сильнее пики, чем ниже — тем более плоское распределение.
3. Основной инструмент для обучения моделей через минимизацию функции потерь.
6. В градиентных методах это используется для учета инерции обновления весов.
8. Его работы легли в основу теории цепей, где будущее состояние системы зависит только от текущего.
9. Его вершины — это потенциальные кандидаты на оптимум.
10. Если он равен нулю, строки или столбцы матрицы линейно зависимы.
13. Функция расстояния между распределениями, используемая, например, в байесовском обучении.
14. Самый замечательный термин математики.

По вертикали:

2. Классический пример применения его теоремы — фильтр для определения спама в письмах.
4. Свойство чисел, позволяющее определить равенство остатков при делении. Часто встречается в криптографии и при хэшировании данных.
5. Статистический метод, при котором из одной выборки многократно создаются новые с помощью случайного выбора с возвращением.
7. Мера неопределенности или хаотичности системы.
11. Операция отображения многомерных данных на пространство меньшей размерности. Часто применяется в t-SNE и PCA для визуализации.
12. Он бывает Белла, Жегалкина и даже Лежандра.
15. Без нее градиентный спуск невозможен.

Присылайте догадки в комментарии, только закрывайте спойлерами 🤫
Please open Telegram to view this post
VIEW IN TELEGRAM
R Riffomonas

Pat Schloss (Department of Microbiology & Immunology in the University of Michigan School of Medicine) ведет свобственный YouTube-канал с небольшими роликами, которые помогут в асинхронном режиме улучшить свои навыки в R-программировании.

Например, в одном из недавних видео он рассказывает про разрывы графиков вдоль оси Ox в ggplot2, и я вспомнил о том, что есть аналогичный прием, про который я рассказывал в своем блоге в статье по ggplot2.

Также можно зайти на его страницу Riffomonas чтобы познакомиться с различными материалами по R, разбитыми по темам (Training modules), а также элементами кода в разделе Code Club.
The R Manuals. A re-styled Quarto-version of the original R manuals

Если вы хотите погрузиться в "классический R" без "всяких там tidyverse", то проверенный временем набор ссылок The R Manuals послужит одним лучших введений.

Например, разделы страницы описывают ряд вводных вопросов (от простых операций до тонкостей графики), импорт/экспорт данных, установку и администрирование R, написание собственных R-расширений и многое другое.

Напомню, что на русском языке есть хороший онлайн-учебник Введение в язык программирования R (автор Филипп Управителев), который кратко касается схожих вопросов.
ggiraph 🦒

Yan Holtz считает недооцененной библиотеку {ggiraph} для интерактивной визуализации данных, которая сделана на основе {ggplot2} как htmlwidget.

Действительно, его примеры выглядят отлично в галерее r-graph-gallery! Имеется и Python-версия карты из примеров выше (обратите внимание - гистограмма присутствует как легенда).

Также, недавно Yan Holtz запустил новый курс по библиотеке Matplotlib (+Pyodide sandbox Matplotlib Journey) и страницу Dataviz with React fundamentals 🔥 (часть материалов будут в последствии закрыты и будут только за 💰).

Кстати, если вам нравится Matplotlib, то можете посмотреть видео Create Time Series Animations in Python with Matplotlib! (автор Keith Galli)
Circular visualization in R

Предположим, что вы изучаете циклические явления или структуры: сезонный рост заболеваемости, глобальное изменение температуры, филогенетические деревья, приливы и т. д., тогда вам помогут круговые визуализации.

Zuguang Gu создал две библиотеки {circlize} (по которой он написал книгу Circular visualization in R) и {spiralize}, целиком посвященные круговым визуализациям, включая тепловые карты, геномные данные, хордовые диаграммы и многое, многое другое.
Network Science in Archaeology

Проект Online Companion to Network Science in Archaeology является дополнением к книге Network Science in Archaeology [Tom Brughmans & Matthew A. Peeples (2023), Cambridge Manuals in Archaeology], что представляет собой первое всеобъемлющее руководство по сетевому анализу в археологической практике.

Издание предлагает пошаговое описание методов сетевого анализа и повествует о теоретических основах и приложениях в археологических исследованиях, которые проиллюстрированы археологическими примерами, включая сбор и управление сетевыми данными, исследовательский сетевой анализ, вопросы выборки и анализ чувствительности, пространственные сети и визуализацию сетей.

В книге предоставлен код и примеры для воспроизведения с использованием языка программирования R, а также множество других полезных инструментов.
---
Для "сетевиков" также будет интересна реализация алгоритма Смита-Питтмана в библиотеке {ig.degree.betweenness}.
This media is not supported in your browser
VIEW IN TELEGRAM
2025 AI Calendar 📅

Tom Yeh опубликовал gif с рекламой календаря 12 deep learning architectures to study in 2025.

1. January: Multi-Layer Perceptron (MLP)

2. February: Backpropagation

3. March: Autoencoder

4. April: Recurrent Neural Network (RNN)

5. May: Long-Short Term Memory (LSTM)

6. June: Generative Adversarial Network (GAN)

7. July: Residual Network (ResNet)

8. August: Transformer

9. September: Self-Attention

10. October: U-Net

11. November: Reinforcement Learning with Human Feedback (RLHF)

12. December: Contrastive Language-Image Pretraining (CLIP)

Выглядит очень красиво, ничего не сказать, календарь можно заказать в США... но где же тут KANs (Kolmogorov–Arnold Networks)? Или эта тема уже не столь актуальна/модна/молодежна? 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
Data Viz Collective + Geo-Computation

Мы уже видели отличные визуализации, которые Aditya Dahiya делает на R, выполненные на основе ggplot2.

Сейчас он также ведет еще один интересный блог-проект по гео-вычислениям, в котором, в частности, проходит упражнения из известной книги Geocomputation with R. К слову, отмечу еще одну книгу, связанную с пространственными данными: GeoComputation and Spatial Analysis practicals
Вот так задачка! 🙈

Поскольку не так давно мы отметили день математика, отмечу забавный твит, в котором Luis Batalha обнаружил, что Серж Ленг в книге по комплексному анализу предложил в качестве упражнения... доказать гипотезу Римана!

Напомню, гипотеза Римана - это одна из нерешенных (так называемых The Millennium Prize Problem) проблем математики, за решение которой Clay Mathematics Institute предложил выплатить 1 млн USD.

Серж Ленг был в свое время довольно известным математиком и выдающимся педагогом, который написал множество книг по самым различным темам как для младшекурсников, так и серьезных книг для аспирантов. Интересно что он путешествовал с пишущей машинкой и не любил компьютеры, а его бабушка была русской. Когда я был в один из визитов в MPIfM он подарил мне свою книжку и подписал ее. Так вот Серж Ленг был известным оригиналом, например, к "упражнению выше" по гипотезе Римана он приписал: "вы можете спросить совета по решению этой задачи у своего профессора". 😀

Всем хороших выходных! 👋
posit::conf(2025)

Открылась регистрация на конференцию posit::conf(2025), которая пройдет в Атланте, США с 16 по 18 сентября 2025.

Один день будет посвящен воркшопам (которые уже понемногу анонсируются), а последующие два дня будут наполнены докладами и выступлениями.
Hello geoviz 🗺️

JavaScript-библиотека geoviz возможно не столь известна, однако, на мой взгляд, является одной из лучших для создания интерактивных тематических карт. Библиотека совместима с синтаксисом D3 и встраивается в ноутбуки Observable, а, следовательно, теоретически и в Quarto.

📦 страница библиотеки

🔥 страница с примерами

Однозначно нужно пробовать!
Fundamentals of Numerical Computation (Tobin A. Driscoll & Richard J. Braun)

Несомненно, MATLAB оставался лидером в качестве основной среды в исследования численных вычислений, и сейчас он занимает определенную нишу, однако современный ландшафт меняется и сейчас существуют полнофункциональные open source альтернативы MATLAB, например, NumPy языка Python. Помимо Python, язык Julia был разработан с целью отдать приоритет быстрым численным научным вычислениям.

Книга Fundamentals of Numerical Computation изначально была написана для MATLAB, а затем переведена на Julia. Издание интересно как математическим введением в предмет, так и подробным сопровождением кода, начиная от классических тем (линейная алгебра, корни нелинейных уравнений) до уравнений в частных производных.

В R можно посмотреть список ресурсов Numerical Mathematics (Hans W. Borchers, Robin Hankin, Serguei Sokol).
Top 40 New CRAN Packages 4️⃣0️⃣ 🆕 📦

Некоторое время тому назад R Views публиковали список 40 лучших библиотек за месяц, однако с какого-то времени эта практика прекратилась. Оказывается, теперь эти отличные подборки можно почитать на R Works.

Также, еженедельный список интересных R-находок публикуют на R Weekly и можно подписаться на различные рассылки, например, Blaze Data Science with R.
Data Science Learning Community

Девиз Data Science Learning Community (ex R4DS Online Learning Community) - Учимся вместе!

Напомню о том, что сообщество DSLC проводит регулярные онлайн-встречи, организуя "книжные клубы" по прохождению различных книг для R и Python по Data Science и ML.

Записи онлайн-встреч доступны на YouTube. Также у сообщества есть собственный сайт, где представлены ссылки на видео с семинарами по книгам с поддержкой в Slack и календарь событий. Безусловно, можно подписаться и на их Bluesky.
Explainers

Мне нравится интерактивная подача материала и иллюстрации по таким сложным вопросам как искуственные нейронные сети и машинное обучение. Примеры можно посмотреть в известной статье Generative AI exists because of the transformer (FT), The Illustrated Machine Learning или LLM Visualization.

Вот еще один класс "объяснялок" от Polo Club of Data Science:

🔸 CNN Explainer

🔹 Transformer Explainer

🔸 Diffusion Explainer
This media is not supported in your browser
VIEW IN TELEGRAM
Как создать "крутяк"? 🤘

ThePudding объясняет идеи, которые у всех на слуху и обсуждаются в (масс-)культуре с помощью небольших визуальных эссе, они выбирают темы, в которых визуальные эффекты информируют и развлекают. Если вам нравятся визуальные представления - это вам точно понравится.

Роясь в бездне ссылок я наткнулся на забавный набор статей, который выпустила команда ThePudding (а точнее - Ilia Blinderman), эдакий трехсерийный сериал, призванный помочь ознакомиться с инструментами, используемыми для создания визуальных историй, основанных на данных.

Part 1: Working with Data

Part 2: Design

Part 3: Storytelling

Отличные статьи, читайте, отдыхайте. Одним словом, всем хороших выходных! 👋
This media is not supported in your browser
VIEW IN TELEGRAM
How To Craft A Blazingly Fast Graphics Device 🐅

На сколько мы знаем, библиотека {gganimate} делает анимации достаточно медленно, каждый кадр отрисовывается как отдельный ggplot2-объект, а потом эти графики объединяются в один gif. Кроме того, пока не существует кроссплатформенных графических устройств, что тоже вносит определенные трудности в создание анимаций в R.

Hiroaki Yutani сделал доклад на Japan.R (увы, по-японски и записи не было) по созданию анимаций, графическим устройствам, API, а также vellogd: A GPU-powered Interactive Graphics Device for R. Презентация (на английском) доступна в сети, пока это эксперимент, но результат уже сейчас представляет интерес.