Small Data Science for Russian Adventurers
11.2K subscribers
300 photos
3 videos
13 files
702 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
加入频道
#интересно
Ещё из коллекции довольно известных ресурсов, но которые здесь пока не упоминались. Очень няшное объяснение теории игр (не всей, конечно, а только одной задачи). Красиво и интерактивно сделано, будет понятно всем, даже если Вы не любите математику, но любите играть и спорить;)
https://notdotteam.github.io/trust/
Всех читателей канала с Новым годом!

Побольше новых знаний, интересного досуга, полезных проектов, больших доходов и крепкого здоровья!

«Новый год не был бы Новым годом, если бы не было о чём сожалеть» (Вильям Томас).

П.С. На фото - как генеративная модель видит новогодний праздник для читателей канала;)
#книги
Несколько книг в свободном доступе по SQL и бизнес-аналитике (половина в процессе написания)
https://dataschool.com/books/
#видео
Выложен в виде коротких нарезок самый нестандартный мини-курс на ВМК "Как уйти с тропы леммингов". Про планирование карьеры, выгорание, здоровье, конкуренцию и т.п.

Автор - Дмитрий Ватолин, известный постами на Хабре, в частности:
- К вопросу о математических способностях студентов или как учить переполненный мозг
- О русской науке замолвите слово или за что я люблю Тинькофф, часть 1

Если кто-то посмотрит, интересно услышать мнение в комментариях;)
#интересно
Шмидхубер написал очередную версию истории искусственного интеллекта.
https://people.idsia.ch/~juergen/deep-learning-history.html
#код
Демки разных методов, есть код на Python, R, Julia и Matlab. Ничего сверхполезного вроде нет, но для новичков будет в самый раз.
http://www.numerical-tours.com/
#визуализация

Из лучших визуализаций прошлого года мне больше всего понравились:

* анализ крупнейшего наводнения в Австралии
https://www.smh.com.au/interactive/2022/lismore-flooding/

* яркая статистика гонок F1 (правда за 2021 год), даже со звуковыми эффектами
https://f1.obumbratta.com/
#книга
Сет Вейдман "Глубокое обучение: Лёгкая разработка проектов на питон"
По задумке книга такая, как и должна быть: сначала показывается, как сделать нейросеть «с нуля», причём отдельно по модулям, потом переходят к Pytorch. Мне только не понравилось, что предлагаемые способы реализации не имитируют высокоуровневые способы самого Pytorch. Лучше бы было просто разбираться, что внутри у nn.Linear, nn.Dropout и т.п. Потенциальна полезна для новичков, которые знают питон.
#интервью
Иногда просят "что-то прокомментировать" или "дать экспертное мнение". Интересно, что когда соглашаешься, то в 90% случаев потом это мнение куда-то пропадает. В сентябре меня попросили кратко (за 2-3 предложения) ответить на "модные вопросы по ИИ". Удивительно, но тут мои комментарии таки проникли в сеть, правда через 4 месяца (сам случайно нашёл в рекомендациях vk;)

Оригинал скриншота взял здесь.
#интервью
Я в канале уже давал ссылки на видеоинтервью с представителями ВШЭ, МФТИ и т.д. Для поддержание баланса - интервью с деканом мехмата МГУ (с руководителями мехмата интервью вообще большая редкость: до 2006го Лупанов интервью не давал, потом 13 лет на факультете не было декана, Шафаревича тоже особо не слышно, хотя в интернете много его онлайн-лекций).
https://youtu.be/hwW_t9ojglo
#забавно
В прошлом году на reddit-е в разделе ML cамая популярная заметка - об "ИИ", который наказывает, если человек отвлекается от работы.
В лидерах также машинный перевод speech2speech и прикреплённая картинка с типами ML-статей.
А уже потом идут Stable Diffusion, ArcaneGAN и т.п.
#интересно
Многие знают про игру "Жизнь", в которой наблюдают за поведением клеточного автомата. Есть много обобщений, например "непрерывная жизнь". В ней получаются очень красивые визуализации, можно посмотреть, например, здесь.
#забавно
Игра, в которой надо стрелять в противников, описывая уравнение кривой полёта снаряда, т.е., исходя из желаемой траектории, Вы учитесь придумывать для неё уравнение.
www.graphwar.com

Кстати, аналогичное и в стиле ML можно сделать (итерационно делить своих/чужих, выбирая классификатор и гиперпараметры, за ошибки - штрафы).
ChatGPT Cheat Sheet-1.pdf
721.6 KB
#обзор
Подборка затравок и ответов ChatGPT. Удобна для ответа на вопрос "а что она вообще может?"
#новости
Президент в прошлом году побывал на конференции Artificial Intelligence Journey 2022, и вот по итогам подписал перечень поручений.

Там много интересного: обязательные программы по ИИ, рейтинги вузов, премии учёным и поддержка компаний, открытые данные. Вообще, примечательно, что всё это по итогу конференции.
Из забавного: в официальных документах впервые появилось слово «датасет», вот точная цитата: «формирование открытых баз больших данных (дата-сетов) обезличенных медицинских данных пациентов в целях их использования для развития технологий искусственного интеллекта в здравоохранении». Так скоро и «переобучение» появится;)
#книга
Есть такая немного старенькая (2016 года), но классная книга «Как стать современным учёным». Очень полезна, причём не важно, в какой области Вы специализируетесь. В ней кратко и по делу:
- как и где читать статьи,
- как и где их публиковать,
- как их писать, выкладывать код и данные,
- как докладывать о результатах и многое другое.
Много ссылок на конкретные инструменты, начиная с волшебного Overleaf, заканчивая платформами для личного блога (хотя некоторые инструменты уже устарели и нет учёта последних трендов типа онлайн-конференций). Всем молодым исследователям рекомендую хотя бы посмотреть;)
#код
Забавляет, что в библиотеках, которыми пользуется DS сообщества, при более-менее стандартных именах функций на ровном месте возникают несогласованности. Например, конкатенация матриц / датафреймов / тензоров:
в нумпае - numpy.concatenate,
в пандасе - pandas.concat,
в пайторче - torch.cat.

Некоторые особенности разного именования вызваны разными концепциями средств программирования (например, пометка inplace-методов с помощью аргумента inplace или с помощью знака подчёркивания).

Некоторые просто авторские (например, последний слой предобученных нейросетевых моделей: fc / classifier / head).

Но вот зачем конкатенацию по-разному называть? :)
Чему равно X? [0.485, 0.456, 0.406], [0.229, 0.224, X]
Anonymous Quiz
15%
0.22
14%
0.222
9%
0.224
19%
0.225
3%
0.23
41%
ничего не понимаю
#забавно
Заинтересовался темой - как генерировать бессмысленные входы для нейронок, которые не воспринимались бы ей бессмысленными. Отсюда родилась игра - придумать последовательность букв, которая не является словом русского языка, но переводится переводчиком в слово английского языка, это свойство сохраняется при удалении любого количества букв из последовательности.
Тут можно ещё конкретизировать:
- какие буквы допустимо удалять,
- потребовать, чтобы все слова в переводах были разными,
- потребовать, чтобы при добавлении любой буквы, это свойство уже терялось,
- найти максимальное по длине / по числу задействованных букв слово
и т.п.
Пример с гугл-переводчиком на картинке, с ним правда есть совсем вырожденная стратегия в составлении подобных слов:(