Наука и данные
1.67K subscribers
595 photos
12 videos
648 links
Дайджест по полезным и интересным инструментам в науке о данных, машинному обучению и визуализации данных. Создан как записная книжка, которая дополняет страницу https://naukaidannye.netlify.app/
加入频道
Помните свой первый код на R? 😀

Всем хороших выходных! 👋
Seeing Theory

Веб-сайт Seeing Theory - замечательная визуальная иллюстрация по введению в теорию вероятностей и математическую статистику, дополняющая соответствующую книгу, предварительный pdf-вариант которой можно загрузить.

Сайт Seeing Theory создал Daniel Kunin на D3.js, когда он был студентом в Brown University. Выглядит очень здорово!

Как интересное дополнение можно посмотреть иллюстрацию The Animated Elliptic Curve по введению в эллиптические кривые и криптографию, а также попробовать поработать в новом математическом редакторе corca.app.

Ну а если вы действительно любите красоту математических утверждений - добро пожаловать на Theorem of the Day, галерею прекрасных, порой даже неожиданных формулировок теорем!
Steven Ponce Visualizations

Steven Ponce - аналитик данных, который делает прекрасные визуальные проекты, участвует в челледжах, но самое главное - делится своими наработками включая R-код на своем веб-сайте и на GitHub.

Кстати, похожие визуальные решения обсуждает Наталья Киселева на канале Chatting Charts.
{forgts}: Excel -> {gt} 💥

Как перевести Excel-таблицу в HTML-документ на основе RMarkdown или Quarto? Конечно, можно загрузить таблицу, скажем, с помощью read_excel(), который угадывает расширение Excel-файлов, сформировать код для библиотеки {gt}, а затем заняться улучшением таблицы.

Есть и другой путь: устанавливаем библиотеку {forgts}:

pak::pak("luisDVA/forgts")

и далее указываем путь к нашему Excel файлу

forgts("/path/book.xlsx")

При этом полностью сохраняется форматирование, включая цвет текста, выделения, цвет ячейки и прочее форматирование.
The R Workshop Book

Небольшой вводный курс The R Workshop Book (автор Rebecca L. Barter) от базовых основ R до Tidyverse поможет быстро разобраться с основами языка R и настроить рабочий процесс. Если нужно очень быстрое введение в Tidyverse - подойдет курс от Sophie Lee, который называется Introduction to R with Tidyverse.

Напомню, что больше ссылок на различные курсы можно посмотреть в разделе Курсы сайта с источниками по языку R.
Алгебраическая геометрия это довольно сложная наука и имеет множество связей с другими областями математики, такими как комплексный анализ, топология, теория чисел, комбинаторика. Схемы, пучки, максимальные или простые идеалы, кольца, мотивы - все эти понятия "не то, что вы думаете" для математика.

Нет сомнений в том, что в любой науке, чтобы достигнуть высот, нужно долго и много учиться. Вот пример тому: The Rising Sea - книга, которую собирал Ravi Vakil (Stanford University) на основе трудов Гротендика (в частности, EGA), является введением в алгебраическую геометрию и занимает > 800 страниц!

Давайте предположим, а если бы он включил сюда небольшой "джентельменский набор", скажем, производные категории, "слегка расширил" сведения по теории пересечений, добавил торические многообразия, многообразия Фано + K3-поверхности, элементы теории Ходжа, усилил сведения по коммутативной алгебре... то это "введение" запросто бы утроилось в размере.

Наука, по сути, это "язык жрецов", учиться ему можно всю жизнь.
Модель Солнечной системы в движении. 🔭🪐
Завораживает! 🛸

Пользуясь случаем, передаю ❤️ привет каналу Спутник ДЗЗ! 🛰️ Создатели канала очень уважают язык R, делают публикации, связанные с R... и неравнодушны к каналу Наука и данные. 😉

Всем хороших выходных! 👋
Biological Data Science with R

Книга Biological Data Science with R (автор Stephen D. Turner, Ph.D.) дает стандартное введение в анализ данных с помощью Tidyverse, а также рассматривает описательные статистики данных, анализ выживаемости, визуализацию и аннотирование филогенетических деревьев и анализ данных РНК (RNA-seq) на основе библиотеки DESeq2.
Искренне поздравляю Тараса Евгеньевича Панова с юбилеем! Хочу пожелать ему ❤️ здоровья (которое так нужно)! Ну и конечно замечательных 🔥 научных результатов (помимо тех, которые получены им в том числе и с Виктором Матвеевичем Бухштабером)!

Получается что я с ним знаком уже около 25 лет, как бежит время.
Тарасу Евгеньевичу Панову исполняется сегодня 50 лет

в честь этого в МГУ 11-12 февраля проходит мини-конференция https://www.mathnet.ru/rus/conf2545

а здесь пусть будет обзор https://www.mathnet.ru/rus/rm320 «Действия торов, комбинаторная топология и гомологическая алгебра» Бухштабера и Панова
Pipes: %>% vs |>

Уже было достаточно много различных записей блогов, споров, видео на YouTube, упоминаний и разъяснений по поводу разницы между native pipe и операторов magrittr.

Jan Broder Engler сделал как-то небольшую шпаргалку-переходник с примерами, которой я здесь делюсь.

В большинстве случаев я давно использую |>, но magrittr тоже бывает полезен, скажем, операторы %T>% или %<>%. Есть и более необычные варианты pipe как на странице Design tradeoffs.
Простой способ сделать таблицу как тепловую карту - использовать функцию data_color() из библиотеки gt().


library(gt)
library(palmerpenguins)
library(tidyverse)

penguins |>
head() |>
select(-island, -year) |>
gt() |>
data_color(
method = "numeric",
palette = viridis::plasma(n = 4)
)


Можно посмотреть как работает этот прием в различных темах для веб-страниц, как это делает Carlos Scheidegger в своих экспериментах (+объяснялка) по автоматическому подбору цветовой темы сайта.
Еще одна возможность сделать небольшой предварительный анализ табличных данных в библиотеке {gtExtras} - с помощью функции gt_plt_summary(). Увы, почему-то не со всеми данными получается сделать подобные таблицы, видимо библиотека давно не обновлялась, зато skimr::skim() работает всегда.

library(gtExtras)

iris |>
gt_plt_summary()


Больше примеров по созданию таблиц в R можно посмотреть на сайте The R Graph Gallery.
👉Just a reminder for those who have recently joined our Telegram channel and may not speak Russian.

Explore a carefully curated collection of Data Science resources, with a focus on the R programming language and more, through the RSources web page. While the page was originally designed for Russian-speaking users, we now offer a full English translation to make it accessible to everyone.
Reproducible and Trustworthy Workflows for Data Science

Заметки к курсу по воспроизводимым и надежным рабочим процессам для науки о данных помогут разобраться с концепциями и практиками, связанными с созданием аналитических отчетов и конвейеров анализа данных, вычислительных сред, а также тестирования и развертывания программного обеспечения, написанного для анализа данных.

Охват тем большой, здесь используются как R, так и Python, материал подается с использованием реальных данных и тематических исследований.

Данный курс как-то советовал Ivan Begtin, но материал постоянно обновляется и развивается.
Du Bois Visualization Challenge: 2025

Начался 2025 Du Bois Visualization Challenge в честь наследия W.E.B Du Bois - темнокожего американского активиста за гражданские права, социолога и писателя, путем воссоздания визуализаций Парижской выставки 1900 года с использованием современных инструментов.

Для тех, кто хочет посмотреть, как можно воссоздать визуализации на R, - можно заглянуть в прошлогодний пост на НиД. Что-то из рисунков повторяется из года в год. Добавлю также визуализации от Nicola Rennie (2021 / 2022). Замечательные интерактивные визуализации делал Tom Février (первая + вторая + третья + четвертая). + пост на Chatting Charts.

В этом году на R участвуют и делятся идеями на YouTube Pat Schloss и Andrew Gard, но я буду следить за визуализациями от Антона Мизонова.
Reproducible Medical Research with R

Воспроизводимые научные исследования все больше входят в обиход ученых (см., например, мое небольшое эссе на эту тему). При этом медицинские исследования должны проводиться с особой аккуратностью, поскольку неверные выводы могут нанести большой вред.

Интерактивная книга Reproducible Medical Research with R предназначена для самостоятельного обучения языку R и применения статистических методов в медицинской практике. Книга включает в себя множество примеров для самопроверки вместе с ответами. Конечно, хотелось бы увидеть адаптированную версию на русском языке книг подбных этой или Practical Statistics in Medicine with R.
Экстремальная комбинаторика 👨‍🎓

Андрей Михайлович Райгородский известен как большой популяризатор математики, он записывает видео на YouTube, ездит с лекциями по всей стране (например, я его заметил в Шереметьево в свою последнюю командировку в Москве), был он и у нас в СФУ, пишет отличные книги, одним словом - человек заслуженный.

Увидел, благодаря каналу Непрерывное математическое образование, ссылку на его новый новый курс Экстремальная комбинаторика (или Восемь с половиной катарсисов). Курс бесплатный, если выберу время - попробую пройти.
10 Free GIS Data Sources That Will Make Your Maps AMAZING! 🗺️

Milos Popovic действительно делает "Amazing" карты. Недавно он выпустил новое видео по свободно распространяемым данным, которые можно анализировать на R и включают в себя:

- GADM Boundaries
- OpenStreetMap (OSM)
- ESA World Cover 2021
- Natural Earth
- AWS Terrain Tiles
- Sentinel-2 Imagery
- WorldClim
- Global Biodiversity Information Facility
- Tree Height
- WorldPop

Сюда можно добавить ссылки на источники, опубликованные на канале Спутник ДЗЗ.

Надеюсь, пригодится!
This media is not supported in your browser
VIEW IN TELEGRAM
Dataviz Inspiration 💫

Знаменитый проект Dataviz Inspiration, который Yan Holtz ведет с 2022 года, - это большой список примеров диаграмм, в котором в настоящий момент представлены 195 самых красивых и впечатляющих датавиз-проектов, идеально подходящих для вдохновления. Ссылка на проект уже много раз была в различных TG-каналах, но проект растет, и все равно 🚀. Также он сделал отдельный сайт с новостной рассылкой Dataviz Universe.

Если же вы больше любите мастерить руками, то самый вдохновляющий просто волшебный ❤️ арт-проект, связанный с данными, который я пока видел, - World in Tangible Fragments от Надежды Андриановой (Designing Numbers). Я всегда в восторге от ее проектов!