Наука и данные
1.66K subscribers
578 photos
11 videos
629 links
Дайджест по полезным и интересным инструментам в науке о данных, машинному обучению и визуализации данных. Создан как записная книжка, которая дополняет страницу https://naukaidannye.netlify.app/
加入频道
On bubbles and trees 💫

Teun van den Brand делает просто волшебные дополнения к ggplot2, в частности, библиотека {legendry} теперь позволяет делать пузырьковые легенды для графиков.


library(legendry)

gapminder::gapminder |>
dplyr::filter(year == max(year)) |>
ggplot(aes(gdpPercap, lifeExp, size = pop,
fill = continent)) +
geom_point(pch = 21, alpha = 0.8) +
scale_size_area(
limits = c(0, NA), max_size = 20,
breaks = c(0, 100, 500, 1000)*1e6,
labels = c(0, "100M", "500M", "1B"),
guide = guide_circles(vjust = 1)
) +
scale_fill_discrete(guide =
guide_legend(override.aes =
list(size = 4, alpha = 0.8))) +
scale_x_log10() +
labs(
x = "ВВП на душу населения",
y = "Ожидаемая продолжительность жизни",
fill = "Континент",
size = "Население"
)


Это должно быть по умолчанию в {ggplot2}!
Introduction to Environmental Data Science (Jerry Davis, SFSU Institute for Geographic Information Science)

Книга Introduction to Environmental Data Science посвящена исследованию окружающей среды на основе языка программирования R, в первую очередь, на основе измерения различных показателей в пространственной и временной областях.

Следует отметить, что в книге присутствует пространственный анализ данных и моделирование: начиная от растрового анализа данных до анализа спутниковых изображений, которые включают в себя диапазон электромагнитного спектра от видимого до коротковолнового инфракрасного, что представляет особый интерес. Environmental Data Science book or EDS book - аналогичный ресурс на Python.
30DayMapChallenge 2024 completed! 🗺️

Cédric Vidonne (Information Management Officer at UNHCR - Data visualization, maps and R) поделился своими роскошными картами, которые он сделал для челленджа 30DayMapChallenge, а также кодом. Все выполнено на R!

Вот еще ряд примеров на R, которые сделал Matt Malishev.
Educational Data Analytics Using R 👨‍🎓

Louis Rocconi, Joshua Rosenberg, Sarah Narvaiz (The University of Tennessee, Knoxville) создали небольшой курс на Shiny по анализу образовательных данных. Вот его основные разделы:

1. Введение в R

2. Базовые навыки

3. Основы языка R (типы данных, структуры данных)

4. Обработка данных

5. Tidy Data

6. Описательная статистика

Также вы можете попробовать Shiny-приложение для иллюстрации центральной предельной теоремы (автор James Balamuta) и почитать книгу A Portable Introduction to Data Analysis как несложное введение в статистику.
Ну что товарищи, а вы уже готовитесь встрече Нового Года? 🎄

Всем хороших выходных! 👋
litedown - переосмысленный R Markdown

R Markdown имеет долгую историю, однако с некоторого времени Quarto получил большой толчок, Quarto развивается, для него пишутся расширения... а что же R Markdown?

Yihui Xie, основной автор Knitr и R Markdown, в настоящий момент разрабатывает экспериментальную библиотеку {litedown}. litedown разработан как облегченный аналог R Markdown для минималистов, без Word, без PDF, только HTML + немного LaTeX. Суть в том, что ядро простое и небольшое, и можно включать или отключать большинство функций.

Markdown изначально был придуман для простоты, однако действительно ли litedown прост? С точки зрения разработчика, да, это так, во многом из-за ограниченного объема. С точки зрения пользователя, некоторые функции определенно не так просты.

Посмотрите документацию, попробуйте, я пока голосую за Quarto.
Data Science notes 🔥

Eric Book опубликовал замечательные заметки по Data Science в виде мини-книги. Сюда включено просто огромное количество тем, элементов кода, объяснений, шпаргалок. Причем есть просто 👌 изюминки!

Обратите внимание!
GitHub Wrapped

Каким был ваш год на GitHub?

Сайт GitHub Wrapped предлагает сделать визуальную расшифровку вашей GitHub-активности, попробуйте!
nbsanity

Предположим, что вы используете Jupyter Notebooks как основное техническое средство, объединяющее в одном документе код, визуализации и повествовательный текст. Несмотря на это, при использовании ноутбуков на GitHub, программе просмотра записных книжек на GitHub не хватает функций, необходимых для надлежащего технического взаимодействия.

Hamel Husain представил сервис nbsanity, который превращает любой общедоступный ноутбук на GitHub в веб-страницу, просто изменив URL. nbsanity работает на базе Quarto, который является наиболее эргономичным генератором статических сайтов, доступных для ноутбуков.

Отмечу, что Hamel ведет довольно интересный блог и YouTube-канал.
Best Practices for Data Visualisation

Andreas Krause, Brian Tarran и Nicola Rennie написали небольшое пособие по методам визуализации данных, в первую очередь для авторов публикаций Королевского статистического общества (UK). Тем не менее, информация и советы в нем имеют широкую актуальность и полезны для любой задачи визуализации данных.

Их советы касаются принципов и элементов визуализаций, выбора типов визуализаций, стилизации для публикаций и многого другого.
Дорогие читатели,

Я надеюсь, что многим из вас пригодились ссылки и обзоры, публикуемые в рамках канала Наука и данные. Отличительная особенность ежедневных публикаций и дайджестов НиД - кругозор рассматриваемых вопросов. Кроме того, TG-канал - это отличный повод показать возможности и красоту языка программирования R и издательской системы Quarto, особенно для молодежи, которой достаточно много в подписчиках.

Сейчас конец календарного года, пора отчетов, сессий, защит, время подготовки к Новому Году, тем не менее, если у вас будет минутка рассказать о том, чем помогли записи на канале для написания научной публикации, защиты диссертации, в проекте, или у вас есть идеи, которые можно попробовать воплотить, напишите, почему бы и нет? Мне будет интересна обратная связь.

Также можно написать, выход какой книги вы особенно ждете? У меня есть одна такая.

Уверен, впереди нас ждет множество обзоров, мероприятий и сюрпризов, и один из них будет уже завтра!

Е.Н.
Forwarded from GIS AND PEACE (Bella)
Картографические пятнашки 1️⃣5️⃣

Вы точно занаете "игру в 15": головоломка из пятнадцати квадратных плиток с числами, которые нужно расположить в правильном порядке. Её придумал Ной Чепмэн в 1878 году

А совсем недавно архитектор и дизайнер Ахмад Барклай создал потрясающую версию этой игры, где можно выбрать любимый город и собрать его карту по аналогии с "пятнашками"

Красота 😍

Поделился находкой Евгений друг нашего канала и автор "Науки и данных"

🌎🕊️ GIS_AND_PEACE
Please open Telegram to view this post
VIEW IN TELEGRAM
С последней пятницей уходящего года, уважаемая профессура! 👋
Уважаемые коллеги,

Для каждого из вас уходящий год был своим, со своими трудностями, хорошими впечатлениями и открытиями. Мы успели рассмотреть на канале огромное количество источников, многое еще впереди. Но самое главное, это то, что нас объединяет и заставляет забыть о разногласиях - стремление к знаниям!

Я хочу пожелать, чтобы в ваших семьях был мир, покой и достаток, чтобы вы могли посвятить себя любимому делу. Здоровья вам и вашим близким!

С наступающим Новым Годом!

А мы встретимся в 2025-м! 🎄🎉🥂
...остался только обещанный сюрприз 👇
Rесурсы 🌟

Коллеги, исходя из своих интересов, я сделал небольшой список ресурсов и ссылок, которые сам использую, либо могу рекомендовать по Data Science. Это далеко не все, что существует по R, тем не менее, данная коллекция ресурсов может пригодиться как начинающим, так и активным пользователям.

Отмечу, что тут не все касается только R, например, ссылки на материалы по геопространственному анализу включают Python и Julia.

📍 Rесурсы (русская версия) | RSources (English version)

Напомню, что некоторые примеры работы с R можно посмотреть в блоге Наука и Данные. 💫

Надеюсь, что это может стать поводом для вдохновения и написания собственных замечательных проектов!
Program Evaluation for Public Service 👨‍🎓

Andrew Heiss (Andrew Young School of Policy Studies, Georgia State University), известный нам, например, по материалам курса Data Visualization (актуализированная версия), изучающего принципы графического дизайна на основе R и ggplot2, поделился материалами курса Program Evaluation for Public Service. В этом курсе дается введение в область причинно-следственных связей (causal inference) с использованием R и tidyverse в применении к оценке эффективности социальных программ.

Для того, чтобы войти в курс дела, можно посмотреть подборку С чего начать свой путь в causal inference? и Оценка причинно-следственных связей от наших уважаемых коллег из МГУ им. М.В. Ломоносова, а также Causal Inference in R у нас на канале.
Data Visualization in R 👌

Claus O. Wilke - автор прекрасной книги Fundamentals of Data Visualization, переведенной на русский язык как Основы визуализации данных. Пособие по эффективной и убедительной подаче информации переделал страницу своего курса Data Visualization in R на Quarto: теперь презентации в разделе Slides выполнены на Quarto-версии Reveal.js, а ноутбуки с упражнениями в разделе Worksheets используют WebR, что позволяет запускать код в браузере. Материалы курса дополняются!
Taming LLMs

Коллегам, которые работают с большими языковыми моделями (см. большой свежий обзор), возможно, пригодится книжка Taming LLMs, которая выглядит многообещающе и рассматривает ключевые ограничения и подводные камни реализации, с которыми сталкиваются разработчики при создании приложений на основе LLM. В книге приведены практические примеры на Python, что добавляет ценности. К книге прилагается авторский блог.

Дедлайн написания всех глав - примерно 2 февраля 2025.

Кстати, R библиотека ellmer вышла на CRAN.