Small Data Science for Russian Adventurers

#CATBoost
За что я не люблю катбуст - за постоянные сюрпризы и невозможность простого использования в стандартных пайплайнах. Есть же самая популярная ML-библитека scikit-learn и многие другие библиотеки в неё нормально интегрируются (xgboost, lightgbm и т.п.). Вот сейчас, в готовый код вставил
import catboost as cb
cb.CatBoostClassifier(subsample=0.6, iterations=50, learning_rate=0.3, depth=4, silent=True, random_seed=1)
и всё вывалилось с ошибкой "CatBoostError: You can't change params of fitted model." на строке
model.set_params(**{'random_seed': t});
Что, правда? После стольких лет разработки - нельзя динамически менять параметры?!
Поковырялся в исходниках - ошибка появляется после if self.is_fitted() (т.е. обученную модель не трогают).
Любой другой современный бустинг, имеющий в python-имплементации sklearn-совместимую функуцию нормально бы отработал, только надо было бы написать
model.set_params(**{'random_state': t});

1.6K viewsedited 10:00

#соревнование
Какой-то очередной хакатон по теме цифровизации индустрии туризма с призовым фондом ~ 1млн руб.
https://travelhack.moscow/#

business.russpass.ru

Moscow Travel Hack 2024

1.3K views16:39

Small Data Science for Russian Adventurers

#статья
Самый типичный вопрос при изучении метрических алгоритмов - какая метрика лучше? Хотя разные метрики, в целом, некорректно сравнивать, есть такая обзорная работа. Интересно, что в журнальном варианте она вышла в прошлом году, хотя её первая версия была залита на Arxiv ещё в 2017. Эксперименты в ней можно критиковать, но лучше, чем ничего...
https://arxiv.org/abs/1708.04321

arXiv.org

The K-nearest neighbor (KNN) classifier is one of the simplest and most common classifiers, yet its performance competes with the most complex classifiers in the literature. The core of this...

1.2K views13:16

Small Data Science for Russian Adventurers

#DL
Очень нравятся ресурсы, которые демонстрируют некоторые DL-методы, пусть и в упрощённом стиле. Например, как из этой подборки (очень удобно давать студентам, которые про DL раньше не слышали):
https://pikabu.ru/story/21_sayt_gde_mozhno_protestirovat_rabotu_neyrosetey_6697786

Пикабу

21 сайт, где можно протестировать работу нейросетей

Убийцы свободного времени

2.1K views15:05

Small Data Science for Russian Adventurers

#книга
Почти про каждую тему в ML можно сделать отдельный курс. Это часто имеет смысл, например, если делать идеальную бакалаврскую программу по анализу данных, в ней могли бы быть отдельные курсы по регрессии, кластеризации и т.п. Вот неплохой конспект лекций "A Comprehensive Guide to Machine Learning" - тут много об одном и том же - линейная регрессия во всех проявлениях (вероятностная постановка, добавление весов объектов и т.п.), но этим книжка и хороша - не везде есть подробности:
http://snasiriany.me/files/ml-book.pdf

1.8K viewsedited 20:51

Small Data Science for Russian Adventurers

#юмор
Терминология от Яна Лекуна;)
https://mobile.twitter.com/ylecun/status/1220384666085138432

Twitter

Yann LeCun

@SuryaGanguli @SussilloDavid Yeah, and way say PCA when you really mean "two-layer linear auto-encoder with a bottleneck"

1.3K viewsedited 19:13

Small Data Science for Russian Adventurers

#интересно
Известные популяризаторы решают задачи... а это, действительно, занятно;)
https://youtu.be/6WetHl8VN1I

YouTube

Форт Боярд Математиков: Побединский, Wild Mathing, Савватеев, Трушин, Гарвард Оксфорд, Математик МГУ

Подписка: https://yangx.top/flesspro

Фантастическая пятёрка математиков - Алексей Савватеев, Борис Трушин, Дмитрий Побединский, Владимир Зубков (Гарвард Оксфорд) и Андрей Павликов (Математик МГУ, Хитман) - попала в замок Злого Духа (Wild Mathing). Выход из него…

1.4K views20:49

Small Data Science for Russian Adventurers

#данные
Для тех, кому нужны датасеты - обновление известного поиска:
https://blog.google/products/search/discovering-millions-datasets-web/

Google

Discovering millions of datasets on the web

Dataset Search launches publicly with an index of 25 million datasets, helping scientists, journalists, students, data geeks to find data.

1.5K views14:26

Small Data Science for Russian Adventurers

#работа
Много всего про soft-skills. Вроде, местами неплохие материалы попадаются...
https://vc.ru/learn/101011-samaya-bolshaya-podborka-po-prokachke-soft-skills-hvatit-na-vsyu-zhizn

vc.ru

Самая большая подборка по прокачке soft skills. Хватит на всю жизнь — Образование на vc.ru

Чтобы развивать инновационную среду в компании, нужно начать с развития собственных навыков. Конечно, вы слышали про soft skills и уже знаете шутку, что за hard skills вас берут на работу, а за soft skills увольняют. Но что вас точно удивит, так это количество…

1.7K views12:02

Small Data Science for Russian Adventurers

#данные
Мероприятие, посвящённое открытым данным:
opendataday.ru/msk

opendataday.ru

День открытых данных 2025

Присоединяйтесь к нам, чтобы отметить силу открытых данных и их потенциал для позитивных изменений в мире! #OpenDataDay #ODD2025 #BetterTogetherThanAlone

1.4K views20:26

Small Data Science for Russian Adventurers

#блог
https://dyakonov.org/2020/01/28/%D0%B8%D1%82%D0%BE%D0%B3%D0%B8-onetwotrip-contest/

Анализ малых данных

Итоги OneTwoTrip Contest

Недавно завершилось соревнование «OneTwoTrip Contest» на платформе Boosters. Здесь представлено некоторое саммари результатов.…

2.4K viewsedited 17:52

Small Data Science for Russian Adventurers

#соревнование
Конкурс "VoicePrivacy" при конференции Interspeech 2020:
https://www.voiceprivacychallenge.org/

1.3K viewsedited 07:16

Small Data Science for Russian Adventurers

#статья
Статья со ссылкой на соответствующий сервис. Идея - облегчить трансферное обучения. Если Вы решаете задачу, в которой мало данных, то стандартный приём - взять предобученную на большом наборе данных нейросеть и "дотьюнить" её на Вашу задачу. Авторы задались вопросами: как выбрать подходящий большой датасет для первичного обучения нейросети, можно ли из него выделить подвыборку, максимально релевантную нашей задаче. Они даже сделали сервис с подобным функционалом;)
https://arxiv.org/abs/2001.02799

1.7K viewsedited 10:41

Small Data Science for Russian Adventurers

#математика
К вопросу о том, что в классической математике "совсем свежего": например, тропическая геометрия - она появилась уже в этом веке, всякие тропические полукольца применяются в экономике (считается, что с их помощью лучше формализуются процессы типа объединения компаний и т.п.), а также в ИИ (например, в т.н. Weighted Finite-State Transducers). Бегло ознакомиться с тропической геометрией можно с помощью этой небольшой книги:
https://www.mccme.ru/dubna/2006/notes/Kazaryan.pdf

3.1K viewsedited 12:52

Small Data Science for Russian Adventurers

#конференции
Конференция «Оптимизация и приложения» в Черногории в конце сентября
http://agora.guru.ru/display.php?conf=optima-2020

2.0K views21:15

Small Data Science for Russian Adventurers

#книга
Фантастика! Новая книга Нассима Талеба Статистические последствия тяжелых хвостов: преасимптотика, эпистемология и приложения просто выложена на Arxiv-е. Можно читать не дожидаясь, пока какое-нибудь модное издательство переведёт;)
https://arxiv.org/abs/2001.10488

5.9K viewsedited 07:19

Small Data Science for Russian Adventurers

#визуализация
Как сделать визуализацию огромной коллекции бабочек (всем, кто в душе немного Хемуль ;)
https://marian42.de/article/butterflies/

Marian's Blog

Visualizing 150000 butterflies from the Natural History Museum

Visualizing 150000 butterflies from the Natural History Museum - Personal blog about game development, programming and making

1.6K views11:40

Small Data Science for Russian Adventurers

#книга
Небольшая брошюра от "Касперского" про использование ML в кибербезопасности:
https://media.kaspersky.com/en/enterprise-security/Kaspersky-Lab-Whitepaper-Machine-Learning.pdf

1.7K views19:30

Small Data Science for Russian Adventurers

#вакансия
Нужен человек, хорошо разбирающийся в прикладной дискретной оптимизации (в идеале - желающий работать и в DS) на проекты, в которых упрощённая математическая постановка задач выглядит так:
1) оптимизация разборки и сборки составов (условно: есть поезда с вагонами ABBBC, BAAC, AACCC, надо их превратить в поезда с вагонами AAAAA, BBBB, CCCCC + куча всяких условий на то, когда каждый из поездов вида XXXX должен быть готов и т.п.)
2) оптимизация нескольких коммивояжёров (есть транспортные средства, которые в совокупности в течение дня должны посетить все заранее заданные пункты и вернуться на базу, желательно использовать минимальное число транспортных средств + есть ограничения на перемещения каждого из них).
Можно в личке задать вопросы, резюме на [email protected] (в теме письма напишите: «вакансия на задачи оптимизации»)

1.5K viewsedited 10:21

Small Data Science for Russian Adventurers

#визуализация
Следим за эпидемией...
https://gisanddata.maps.arcgis.com/apps/opsdashboard/index.html?fbclid=IwAR0p969bUhyvZpETpmPgrAP_oFhlp1-p9PmWUFa9GDUSg6-8GcRFrbBVJOQ#/bda7594740fd40299423467b48e9ecf6

1.3K views19:15

Small Data Science for Russian Adventurers

#интересно
Вчерашняя красивая новость про то, как искусственно сделать пробки. Я про это как раз рассказываю в рамках одного из своих курсов. Раз уж это сделал художник, то можно было бы пойти дальше и пробками чертить на Гугл-карте узоры, но потребовалось бы существенно больше ресурсов...
https://tjournal.ru/internet/140483-nemeckiy-hudozhnik-sozdal-virtualnye-probki-v-google-maps-on-vozil-po-dorogam-telezhku-s-99-telefonami

Немецкий художник создал виртуальные пробки в Google Maps. Он возил по дорогам тележку с 99 телефонами — Интернет на TJ

Автор обманул алгоритмы Google, чтобы продемонстрировать влияние виртуальных карт на реальный мир.

1.3K views04:29

About

Blog

Apps

Platform