Наука и данные
1.77K subscribers
644 photos
12 videos
695 links
Дайджест по полезным и интересным инструментам в науке о данных, машинному обучению и визуализации данных. Создан как записная книжка, которая дополняет страницу https://naukaidannye.netlify.app/
加入频道
Quarto Website Workshop

Все ближе релиз Quarto 1.6 и Charlotte Wickham (основной разработчик веб-страницы https://quarto.org/) провела небольшой практический семинар, состоящий из 4-х лекций по созданию веб-сайтов на Quarto.

Докладчице помогал Emil Hvitfeldt - автор страницы Slidecraft 101 по советам и руководствам Quarto, а также автор множества расширений Quarto.

Темами видео-обзоров стали:

1. Build a homepage
2. Add pages and navigation
3. Customize with CSS/SCSS
4. Add listings

Материалы очень доступны и отлично построены!

А для тех, кому хочется разобраться с построением дэшбордов, можно посмотреть серию видео Quarto dashboards video series от Mine Çetinkaya-Rundel.
OSMnx 2.0.0 + sfnetworks 1.0.0 🗺️

Если вы занимаетесь анализом графов дорожных сетей, то, конечно, основным программным инструментом здесь является геопространственный граф, структура которого учитывает географические координаты и географические проекции. Вы можете загрузить и смоделировать пешеходные, автомобильные или велосипедные сети с помощью нескольких строк кода, а затем проанализировать и визуализировать их. С помощью геопространственных графов можно легко работать с контурами зданий, данными о высоте, ориентации улиц, скоростью/временем в пути и маршрутизацией.

Основные библиотеки для такого рода сетевого анализа

📦 OSMnx в Python

📦 {sfnetworks} (Tidy Geospatial Networks in R)

получили обновления, обзавелись новыми веб-страницами, новым функционалом, конечно, кое-что в синтаксисе также изменилось.
Машинное и глубокое обучение

Онлайн книга Машинное и глубокое обучение разбита на две части: машинное обучение, в которой рассматриваются основные задачи и понятия машинного обучения, методы их решения, оценка качества результатов и способы интерпретации моделей машинного обучения и глубокое обучение, где изучаются нейронные сети, способы их эффективной настройки и архитектуры для решения различных задач.

В каждой мини-главе даются краткие определения основных понятий на основе лекционных материалов, читаемых автором курсов на факультете вычислительной математики и кибернетики (ВМК) в МГУ им. М.В.Ломоносова, а также в магистратуре Т-Банка для студентов МФТИ.

Автор книги Виктор Владимирович Китов - внук Анатолия Ивановича Китова, пионера российской кибернетики и информатики, выдающегося советского и российского ученого, создателя научной школы, академика РАЕН, работавшего долгое время заведующим кафедрой вычислительной техники и программирования в РЭУ им. Г. В. Плеханова.
Вышел Quarto 1.6 🎉

Что нового?

▫️ Появился альбомный вид для элементов документов:


::: {.landscape}

Эта часть имеет альбомный вид.

:::


▫️ В Reveal.js презенациях можно нажать G для перехода к нужному слайду по номеру, также теперь есть вертикальная прокрутка слайдов.

▫️ Конструкция {{< contents >}} позволяет переопределить порядок содержимого документа.

▫️ Поддержка _brand.yml - нового вида YAML-файлов для хранения метаданных, определяющих внешний вид сайта: логотипы, цвета, шрифты и т. д. Отличное нововведение, которому посвящен отдельный сайт BRAND.YML.
BRAND.YML

brand.yml - это файл метаданных Quarto, с помощью которого можно создавать единый стиль для веб-документов и унифицированную фирменную тематику, причем не только в Quarto, но и в Shiny, более того, для всех инструментов, создаваемых Posit с открытым исходным кодом. Это могут быть логотипы, цвет, шрифты и т. д. Для BRAND.YML создан веб-сайт, см. также документацию Quarto.

James J Balamuta уже сделал пример кастомизации на основе Stanford's University identity guidelines, а Garrick Aden-Buie Branded theming for Shiny for Python apps.

Отмечу также несколько 🔥 Quarto-расширений:

▫️ {quarto-password} для добавления паролей на веб-страницы

▫️ {Tabby} - наборы вкладок для блоков кода

▫️ {quarto-custom-callout} - кастомизация выносных блоков

▫️ {Quarto Wizard} - управление проектами Quarto

▫️ {peeky} - проверка и извлечения файлов из приложений Shinylive

▫️ R/exams - добавление тестов в RMarkdown/Quarto-документы
Lumo: a clean quarto template

Yan Holtz разработал для HTML-страниц Quarto собственный шаблон, который называется Lumo. Выглядит симпатично, но предупреждаю, что нужно "немножко бубном поработать" для красивого результата.

▪️ Страница шаблона

▪️ Страница с примером

▪️ GitHub репозиторий
Если быть точным (специально для канала Наука и данные) ♥️

Основу любого Data Science исследования составляют данные, и без хороших источников данных тут никак. Какое-то время назад я пользовался данными по РФ, предоставляемыми платформой ИНИД. Теперь очень много полезной информации я получаю из каталогов Если быть точным - уникального Telegram-канала (уже с 9000 подписчиков!), ведущего собственные мини-исследования по актуальным злободневным темам: это вопросы демографии, заболеваемости, социально-экономические показатели и многое, многое другое.

Если бы точным - это не только Telegram канал, но и веб-страница, содержащая, помимо исследований, оригинальные наборы данных.

Обратите внимание на их последний датасет Муниципальная статистика по России, содержащий множество социально-экономических показателей муниципальных образований начиная с 2005 года по 2024 год. Набор данных был недавно обновлен; для удобства показатели разбиты по разделам.

Рекомендую!
R + Python Reactable 🎉

Отличные новости! Коллеги, которые программируют на Python, теперь также могут приобщиться к популярным R-библиотекам. Для создания статических таблиц одной из лучших библиотек R является {gt}, недавно вышел ее Python-аналог, который называется Great Tables. Для динамических таблиц в R существует (помимо прочих) прекрасная библиотека {reactable}, и теперь также появилась ее Python-альтернатива, которая называется reactable-py.

Так в R скоро не останется козырей! 🤔

Библиотека {reactable} в R - одна из самых любимых мной библиотек для создания интерактивных таблиц, это связано с огромными возможностями кастомизации, а также настраиваемой локализацией таблиц (см. мой блог-пост по reactable).
This media is not supported in your browser
VIEW IN TELEGRAM
Matplotlib в браузере 📈🐍

Yan Holtz создал страницу Matplotlib Journey, где можно с помощью Pyodide рисовать онлайн Matplotlib графики.
The Hadleyverse

Хотите знать, как выглядит Hadleyverse (от Hadley + tidyverse)? С помощью простого сервиса skircle.me можно построить "круг общения" для любого пользователя социальной сети Bluesky.

Дело в том, что разработчикам, чтобы быстро обмениваться короткими новостями, нужны социальные сети, и долгое время X (он же Twitter) был лидером среди новостных систем сообщений, однако после того как Twitter был продан и его алгоритмы стали на сторону политических ботов, R-мир переехал на Mastodon, но надолго там не закрепился и частично мигрировал на Bluesky. В Quarto можно вставлять Bluesky-комментарии с помощью специального расширения.

Например, из Bluesky можно узнать о том, что Hadley Wickham пишет краткую историю tidyverse и поучаствовать в обсуждении.

Увы, сейчас в социальном R-мире из-за перебежек на платформы все стало разрозненно и не столь насыщенно как прежде.
R/Pharma video 📺

На Youtube стали доступными более 60 видео с конференции R/Pharma! Конференция представляет собой научно-отраслевое коллегиальное мероприятие, посвященное использованию R в разработке фармацевтических препаратов. Есть очень стоящие доклады.

В качестве дополнения можно посмотреть плейлист конференции Øredev 2024.
Projection Wizard 🗺️

Projection Wizard - это веб-приложение (недавно приложение обновилось до версии 2.1), которое помогает картографам выбрать подходящую проекцию для своей карты.

В зависимости от протяженности и свойств искажения карты приложение возвращает список предлагаемых картографических проекций с дополнительными параметрами проекции, если это необходимо. Рядом с каждой проекцией есть ссылки PROJ и WKT, которые открывают всплывающее окно с текстовой строкой, доступной для копирования в буфер обмена.

Также интересно посмотреть изменения проекций в Surface Area of a Sphere. Я уверен, наберется множество других аналогичных сайтов и приложений.
This media is not supported in your browser
VIEW IN TELEGRAM
{camcorder} 📽️

Библиотека {camcorder} языка R позволяет записывать последовательно все этапы визуализации и преобразовывать их в gif. Это полезно, когда необходимо продемонстрировать процесс создания графиков с помощью {ggplot2}.

Много примеров такого характера создано с помощью {camcorder} для проекта TidyTuesday (например, такими известными авторами, как Cédric Scherer, Georgios Karamanis и Nicola Rennie).
Вот несколько интересных библиотек, на которые можно обратить внимание:

📦 {cocoon} - форматирование статистической информации в документах

📦 {ggalign} - расширение ggplot2 для группировки нескольких диаграмм

📦 {legendry} - аннотирование ggplot2-графиков вдоль координатных осей

📦 {tidyplots} - упрощение создания графиков для научных публикаций (+статья)

📦 {scatterbar} - отображение пропорциональных данных

📦 {tidyprompt} - написание промптов в tidy-стиле

📦 {webshot2} + статья = скриншоты в R

📦 {Ridian} - R в Obsidian (+видео)

📦 {isocubes} + {oblicubes} для построения изометрических 3D-изображений в духе Minecraft

Всем хороших выходных! 👋
Forwarded from Data-comics
R-щики! Футболка из R-гексиков! 😍

David Schoch - большой поклонник популярных R-стикеров! И в своей любви он дошёл до того, что собрал из них полотно для футболке!
Теперь издалека будет видно, что вы серьёзный R-специалист
😎👌

Как её сделать, сказано тут!
Жду селфяш на стиле, коллеги! Вы знаете, к кому я обращаюсь!
😎👌

https://blog.schochastics.net/posts/2024-10-29_hexshirt-making-of/index.html

#rstats
Advent of Code 2024 🌲

Ежегодно с 2015 года Eric Wastl публикует список ежедневных задачек по программированию. По сути, Advent of Code - это вариант предрождественского календаря (от нем. Adventskalender - традиционный в Европе календарь для отслеживания времени от периода до прихода Рождества).

Для решения этих программных головоломок не требуется большого мастерства. Тем не менее, люди используют их в качестве подготовки к собеседованию, обучения в компании, для университетских курсовых работ, соревнований на скорость или просто для того, чтобы бросить вызов друг другу.

Самое главное - для решения задач не нужен навороченный компьютер и решать задачи можно на любом языке программирования, который вам нравится (R!).

Примеры решения задач прошлых лет на R:

✔️ Ella Kaye’s solutions and notes

✔️ Emil Hvitfeldt’s solutions

✔️ Jack Davison’s solutions

✔️ Jonathan Carroll’s solutions

✔️ David Robinsons's Advent of Code functions

Happy coding!
Forwarded from Ёжик в матане
Дорогие коллеги, с Праздником!

Кстати, сегодня был учрежден и день математика. 1 декабря для такого дня, наверное, существенно лучше 1 апреля. Поэтому, пусть будет так 😊

Ну а мы начинаем сегодняшнее Воскресенье с весёлой картинки, на которую нас вдохновил похожий мем от MathMatize.

#ёжик_развлекается
Проверьте себя, я только за одним словом залез в Google, да и то потому, что давно статистику не преподавал. 😄
Forwarded from Data Secrets
В честь Дня Математика - математический кроссворд выходного дня. Предупреждаем: он не самый простой 🎩

По горизонтали:

1. Чем выше его значение, тем сильнее пики, чем ниже — тем более плоское распределение.
3. Основной инструмент для обучения моделей через минимизацию функции потерь.
6. В градиентных методах это используется для учета инерции обновления весов.
8. Его работы легли в основу теории цепей, где будущее состояние системы зависит только от текущего.
9. Его вершины — это потенциальные кандидаты на оптимум.
10. Если он равен нулю, строки или столбцы матрицы линейно зависимы.
13. Функция расстояния между распределениями, используемая, например, в байесовском обучении.
14. Самый замечательный термин математики.

По вертикали:

2. Классический пример применения его теоремы — фильтр для определения спама в письмах.
4. Свойство чисел, позволяющее определить равенство остатков при делении. Часто встречается в криптографии и при хэшировании данных.
5. Статистический метод, при котором из одной выборки многократно создаются новые с помощью случайного выбора с возвращением.
7. Мера неопределенности или хаотичности системы.
11. Операция отображения многомерных данных на пространство меньшей размерности. Часто применяется в t-SNE и PCA для визуализации.
12. Он бывает Белла, Жегалкина и даже Лежандра.
15. Без нее градиентный спуск невозможен.

Присылайте догадки в комментарии, только закрывайте спойлерами 🤫
Please open Telegram to view this post
VIEW IN TELEGRAM
R Riffomonas

Pat Schloss (Department of Microbiology & Immunology in the University of Michigan School of Medicine) ведет свобственный YouTube-канал с небольшими роликами, которые помогут в асинхронном режиме улучшить свои навыки в R-программировании.

Например, в одном из недавних видео он рассказывает про разрывы графиков вдоль оси Ox в ggplot2, и я вспомнил о том, что есть аналогичный прием, про который я рассказывал в своем блоге в статье по ggplot2.

Также можно зайти на его страницу Riffomonas чтобы познакомиться с различными материалами по R, разбитыми по темам (Training modules), а также элементами кода в разделе Code Club.