Small Data Science for Russian Adventurers
11.3K subscribers
307 photos
3 videos
13 files
708 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
加入频道
#метод
Многие коллеги хвалили т.н. синтетический случайный лес, сегодня был повод в нём разобраться, поскольку готовил соответствующую лекцию. Оказалось, что термином Synthetic RF называется стекинг над случайными лесами, построенными с разными значениями параметра nodesize... Я всегда делал стекинг над RF с разными глубинами деревьев, наверняка это тоже как-то называется;)
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4279689/
#метод
С помощью SVM можно решать задачи классификации, регрессии и поиска аномалий. Реализации всех этих алгоритмов есть, например, в scikit-learn. А вот чего нет, так это SVM-кластеризации, хотя такая существует...
* http://hanj.cs.illinois.edu/pdf/aistat13_qgu.pdf
* https://www.jmlr.org/papers/volume2/horn01a/horn01a.pdf
* https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-S7-S18
#метод
Если Вы захотите запихнуть в Трансформер что-то более экзотическое, чем последовательность, то потребуется придумать подходящий Positional Encoding (который бы ещё и структуру учитывал). Что-то мало статей на этот счёт, например, как лучше кодировать позицию, если подаём 2 связных текста (например, текст и его перевод). Из забавных работ по PE в нестандартных ситуациях нашёл эту - Novel positional encodings to enable tree-based transformers - скармливаем трансформеру дерево!
https://papers.nips.cc/paper/2019/file/6e0917469214d8fbd8c517dcdc6b8dcf-Paper.pdf
#метод
Из относительно последних интересных вещей в детекции объектов - на нескольких датасетах SOTA получена не с помощью новых методов, а с помощью аугментации. На картинке понятна идея - скопировать и вставить;)
Golnaz Ghiasi et al «Simple Copy-Paste is a Strong Data Augmentation Methodfor Instance Segmentation» // https://arxiv.org/pdf/2012.07177v1.pdf