Наука и данные
1.76K subscribers
635 photos
12 videos
685 links
Дайджест по полезным и интересным инструментам в науке о данных, машинному обучению и визуализации данных. Создан как записная книжка, которая дополняет страницу https://naukaidannye.netlify.app/
加入频道
Positron: My Key Bindings

Emil Hvitfeldt написал небольшую заметку по клавиатурным сочетаниям в IDE Positron, что может весьма полезным, например, как быстро сгененрировать репрекс, сфокусироваться на определенном окне и т. д.

Напомню также комментарий Анатолия Цыпленкова: в настройках Positron есть возможность включить кеймапы RStudio как описано в разделе Keyboard Shortcuts, они помогут сделать переход из RStudio бесшовным.
Collapse button в Quarto

Emil Hvitfeldt эксклюзивно поделился со мной рецептом, как сделать кнопочку, позволяющую развертывать или сворачивать содержание в книгах на основе Quarto, такую же, как в его книге Feature Engineering A-Z.

Шаг 1. Нужно в корень проекта поместить файл misc.html

Шаг 2. Добавьте в _quarto.yml строки:

format:
html:
include-after-body: [misc.html]


Вся магия происходит в JavaScript. Я модифицировал кнопочку так, как мне нужно, попробуйте и вы! 👇
This media is not supported in your browser
VIEW IN TELEGRAM
Вот так выглядит кнопка "collapse" для содержания на сайте RSources.
ggplot2 extension cookbook 🫖

Gina Reynolds для всех пользователей ggplot2 и R, уже неплохо владеющим языком R, сделала страницу ggplot2 extension cookbook (которая будет дополняться), основная цель которой - предоставить множество примеров расширений для знакомства и развития, которые также могут служить конкретной справкой.

Все сделано пошагово, в последовательной и доступной форме; некоторые приемчики и библиотеки действительно очень интересные! 👌

Небольшое дополнение: tidyplots сделали сайт Use cases с примерами, выглядит довольно стильно, но было бы неплохо, если бы и код к картинкам приложили.
Working with colours in R 🎨

Когда вы создаете визуализацию данных с помощью R (или любого другого программного обеспечения), используется набор цветов по умолчанию. Это не всегда самый эффективный или эстетически приятный набор цветов.

Nicola Rennie в новой статье блога описывает различные способы определения цветов, как сделать правильный выбор цветовых палитр и как создать собственные цветовые схемы в R. Работе с цветом посвящено множество публикаций, но эта - крайне полезная и содержательная.
Advent of SQL with DuckDB and R

Уже давно закончился Advent of Code - популярный календарь с головоломками перед Рождеством (см. также первоклассное видео, в котором автор Eric Wastl рассказывает от том, как он реализовал идею календаря).

François Michonneau решил поделиться своими решениями другого челленджа - Advent of SQL, который он решил используя DuckDB и {dplyr}. Получился довольно обстоятельный пост.
Ghostty 👻

В аккурат перед Новым Годом вышла официальная версия Ghostty - многофункционального кроссплатформенного (macOS + Linux) эмулятора терминала, который использует собственный интерфейс.

На Ghostty уже вышло множество обзоров, возможно, однажды я тоже попробую его (пока я на iTerm2 + fish shell), вариантов сейчас очень много. В общем, посвящается любителям Neovim, tmux, Lazygit и всем клавиатурно-настроенным программистам.
Please open Telegram to view this post
VIEW IN TELEGRAM
Make LaTeX great again!

Hadley Wickham запустил свою линейку футболок для всех... любителей LaTeX (см. Learn LaTeX in 30 minutes) из Техаса! У него давно была такая идея и лишь недавно он ее воплотил:

LaTex + Texas = \LaTeXas!

Жаль, не могу приложить ссылки на продажу футболки, увы, линк из поста Hadley у меня не работает.

Может и нам свой мерч запустить? Уже была не так давно идея с Tidyverse-гексами! :)

Всем хороших выходных! 👋
This media is not supported in your browser
VIEW IN TELEGRAM
Визуализация изменения внешнего вида Сатурна с Земли в R 🪐🔭

Сатурн имеет уникальный трехмерный вид благодаря своей обширной системе колец и осевому наклону в 26,7 градуса. У вас могут быть годы, когда кольца заметно видны при наблюдении с Земли, сменяющиеся периодами, когда они почти полностью исчезают.

Можно ли мы точно смоделировать его появление с Земли, учитывая определенную дату в будущем или прошлом? Tyler Morgan-Wall сделал такого рода моделирование с 2020 по 2030 год в R и rayverse. Все подробности можно почитать в его статье.
Fancy Components 😎

Если вы хотите разбавить свой веб-сайт красивыми компонентами, возможно вам пригодятся симпатичные решения от fancy components с открытым кодом на основе React, TypeScript, Tailwind CSS и Motion (Formerly Framer Motion).

Если еще больше хочется погрузиться в мир веб-разработки, то в этом могут помочь замечательные руководства от Traversy Media.
Шахматы ♟️ + R = ❤️

Wolfgang Viechtbauer использует R для создания... последовательности шахматных ходов с помощью библиотеки chesstrainer. Это особенно полезно для обучения дебютам, но может также использоваться для создания шахматных головоломок.
lofifonts ✔️

Библиотека {lofifonts} позволяет создавать интересные изображения на основе растровых и векторных шрифтов. Получается довольно необычно, все это потом можно анимировать или создавать 3D-изображения.


library(lofifonts)

txt <- " Наука \n и данные"
coords <- bitmap_text_coords(txt, "spleen-12x24")

library(grid)
grid.newpage()
grid.rect(
x = coords$x * 2,
y = coords$y * 2,
width = 1.6,
height = 1.6,
default.units = 'mm',
gp = gpar(fill = viridis::turbo(nrow(coords),
direction = -1),
col = NA)
)
LLMs/genAI + R roundup

Luis D. Verde Arregoitia внимательно следит за прогрессом библиотек R, связанных с LLM (большими языковми моделями), он сделал список обновляемых ресурсов по LLM + R.

Например, Simon Couch в начале 2025 сделал релиз библиотеки gander как контекстно-зависимого помощника в IDE RStudio либо Positron, позволяющий искать контекст в файлах и внутри среды R (имена переменных, объекты, определения функций и т. д.).

gander опирается на другую уже известную библиотеку ellmer (ранее elmer), на которую Алексей Селезнев сделал отличный обзор. Возможно в R появится и библиотека для работы с RAG (Retrieval Augmented Generation) в 2025-м, будем следить за развитием темы.
Algorithms

Веб-сайт algorithmsbook.com содержит три прекрасных книги по введению в алгоритмы:

1. Algorithms for Optimization

2. Algorithms for Decision Making

3. Algorithms for Validation

Этот трехтомник предназначен для студентов старших курсов, аспирантов и для профессионалов в технических областях. Материал требует некоторой математической зрелости и предполагает предварительное знакомство с многомерным математическим анализом, линейной алгеброй и вероятностными концепциями.

Все книги сопровождаются кодом на языке программирования Julia.
cowsay 🐮

Забавная библиотека {cowsay} позволяет печатать сообщения, предупреждения или строки символов с различными животными и другими созданиями.


library(cowsay)

goldfish <- animals[["goldfish"]]
cat(goldfish)

/`-._
/_,.._`:-
,.-' , `-:..-')
: o ):'; _ {
-._ '__,.-'\`-.)
\\ \,.-'

cow_greedy <- animals[["cow_greedy"]]
cat(cow_greedy)

^__^
($$)\ ________
(__)\ )\ /\
||------w|
|| ||
Не буду сильно иронизировать в год "зеленого питона" 🐍, но все-таки не удержусь, простите меня, пожалуйста, заранее. 🙏

Bruno Rodrigues сравнил "питонистов", открывающих для себя tidyverse (в 2038 году)... с советскими крестьянами, впервые слушающими радио (в 1928-м). 😄

Всем хороших выходных! 👋
Российская база бухгалтерской отчетности

Наши коллеги из Института проблем правоприменения при ЕУСПб проделали большую работу и недавно опубликовали сводную Российскую базу бухгалтерской отчетности. Это большой информационный ресурс, который будет ежегодно обновляться и включает в себя не только все годовые неконсолидированные отчетности российских организаций, но и сведения об организациях, не подавших отчетность несмотря на такую обязанность. Существует возможность загружать данные по годам, а не только единой базой, это тоже можно сделать.

Коллеги из канала Если быть точным провели свое небольшое мини-исследование на основе этих данных и показали, как это можно использовать в при анализе различных социально-экономических показателей.
Map Mania 🗺

Map Mania - прекрасный блог для всех любителей картографии!

Также мне понравился небольшой симпатичный проект AllmapsHere, который определяет, где вы находитесь в настоящий момент, если бы это происходило на старинной карте.
city roads 🌏

Напомню о существовании замечательного сервиса city roads.

Назовите город и на этом веб-сайте отобразятся все дороги в пределах данного города. Мы такое уже видели у Насти, но готовы смотреть еще и еще!

Отмечу, что и в R можно без особого труда сделать подобную карту.
tmap 4.0 🌏

На CRAN вышел новый долгожданный релиз 4.0 библиотеки tmap для создания тематических карт! 🎉 Это действительно существенное изменение библиотеки, которая была полностью переписана и теперь содержит множество новых функций, измененный синтаксис и обновленные наборы данных. Новый синтаксис уже используется в книге Geocomputation with R.

Но самое приятное - это расширения с новыми типами слоев (глифы) в tmap.glyphs , возможность работать с сетевыми данными в tmap.networks 🔥 через sfnetworks и создание deck.gl 3D-карт в tmap.deckgl 🌟 (пока как proof-of-concept, поскольку deckgl уже 2 года как не обновляли).