Small Data Science for Russian Adventurers

#метод
Многие коллеги хвалили т.н. синтетический случайный лес, сегодня был повод в нём разобраться, поскольку готовил соответствующую лекцию. Оказалось, что термином Synthetic RF называется стекинг над случайными лесами, построенными с разными значениями параметра nodesize... Я всегда делал стекинг над RF с разными глубинами деревьев, наверняка это тоже как-то называется;)
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4279689/

PubMed Central (PMC)

Synthetic learning machines

Using a collection of different terminal nodesize constructed random forests, each generating a synthetic feature, a synthetic random forest is defined as a kind of hyperforest, calculated using the new input synthetic features, along with the original ...

2.67K views14:59

Small Data Science for Russian Adventurers

#метод
С помощью SVM можно решать задачи классификации, регрессии и поиска аномалий. Реализации всех этих алгоритмов есть, например, в scikit-learn. А вот чего нет, так это SVM-кластеризации, хотя такая существует...
* http://hanj.cs.illinois.edu/pdf/aistat13_qgu.pdf
* https://www.jmlr.org/papers/volume2/horn01a/horn01a.pdf
* https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-S7-S18

3.03K viewsedited 17:30

Small Data Science for Russian Adventurers

#метод
Если Вы захотите запихнуть в Трансформер что-то более экзотическое, чем последовательность, то потребуется придумать подходящий Positional Encoding (который бы ещё и структуру учитывал). Что-то мало статей на этот счёт, например, как лучше кодировать позицию, если подаём 2 связных текста (например, текст и его перевод). Из забавных работ по PE в нестандартных ситуациях нашёл эту - Novel positional encodings to enable tree-based transformers - скармливаем трансформеру дерево!
https://papers.nips.cc/paper/2019/file/6e0917469214d8fbd8c517dcdc6b8dcf-Paper.pdf

2.85K viewsedited 10:23

Small Data Science for Russian Adventurers

#метод
Из относительно последних интересных вещей в детекции объектов - на нескольких датасетах SOTA получена не с помощью новых методов, а с помощью аугментации. На картинке понятна идея - скопировать и вставить;)
Golnaz Ghiasi et al «Simple Copy-Paste is a Strong Data Augmentation Methodfor Instance Segmentation» // https://arxiv.org/pdf/2012.07177v1.pdf

3.21K views15:24

About

Blog

Apps

Platform