Предварительная подготовка данных в Python [2 тома] [2023]
В двухтомнике представлены материалы по применению классических методов машинного обучения в различных промышленных задачах. Первый том посвящен инструментам Python – основным библиотекам, классам и функциям, необходимым для предварительной подготовки данных, построения моделей машинного обучения, выполнения различных стратегий валидации. В конце первого тома разбираются задачи с собеседований по SQL, Python, математической статистике и теории вероятностей. Во втором томе рассматривается сам процесс предварительной подготовки данных, а также некоторые метрики качества и ряд полезных библиотек и фреймворков (H2O, Dask, Docker, Google Colab).
Издание рассчитано на специалистов по анализу данных, а также может быть полезно широкому кругу специалистов, интересующихся машинным обучением.
📚 Книги
@data_math
В двухтомнике представлены материалы по применению классических методов машинного обучения в различных промышленных задачах. Первый том посвящен инструментам Python – основным библиотекам, классам и функциям, необходимым для предварительной подготовки данных, построения моделей машинного обучения, выполнения различных стратегий валидации. В конце первого тома разбираются задачи с собеседований по SQL, Python, математической статистике и теории вероятностей. Во втором томе рассматривается сам процесс предварительной подготовки данных, а также некоторые метрики качества и ряд полезных библиотек и фреймворков (H2O, Dask, Docker, Google Colab).
Издание рассчитано на специалистов по анализу данных, а также может быть полезно широкому кругу специалистов, интересующихся машинным обучением.
📚 Книги
@data_math
👍10🔥3❤1
Media is too big
VIEW IN TELEGRAM
Математика для Data Science: где и как учить?
В этом ролике автор поделится бесплатными ресурсами для изучения математики, необходимой для Data Science, и сделает их разбор.
00:00 Введение
00:34 Школьная математика
02:00 Статистика
03:00 Теория вероятностей
03:20 Линейная алгебра
04:07 Матанализ
05:00 Лучшие ресурсы
05:30 Создаем базу ресурсов вместе
Смотреть это видео на youtube: youtu.be/6ajAbghWzrs
В этом ролике автор поделится бесплатными ресурсами для изучения математики, необходимой для Data Science, и сделает их разбор.
00:00 Введение
00:34 Школьная математика
02:00 Статистика
03:00 Теория вероятностей
03:20 Линейная алгебра
04:07 Матанализ
05:00 Лучшие ресурсы
05:30 Создаем базу ресурсов вместе
Смотреть это видео на youtube: youtu.be/6ajAbghWzrs
👍20🔥4❤3
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
1. Движение и детерминизм. Панта Рей
2. Векторные поля. Гонка лего
3. Немного механики. Яблоко и луна
4. Колебания
5. Бильярды. Бык Дюэма
6. Хаос и подкова. Смейл в Копакабане
7. Странные аттракторы. Эффект Бабочки
8. Статистика. Мельница лоренца
9. Хаотическая или нет Cовременные Исследования
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2🤗1
Изучение красоты чистой математики новыми способами.
https://www.deepmind.com/blog/exploring-the-beauty-of-pure-mathematics-in-novel-ways
https://www.deepmind.com/blog/exploring-the-beauty-of-pure-mathematics-in-novel-ways
Deepmind
Exploring the beauty of pure mathematics in novel ways
More than a century ago, Srinivasa Ramanujan shocked the mathematical world with his extraordinary ability to see remarkable patterns in numbers that no one else could see. The self-taught mathematician from India described his insights as deeply intuitive…
❤3👍3😍1
🔥 Бесплатный курс: Прикладная математика для машинного обучения
Курс направлен на студентов без математического бэкграунда. Будут изложены основные понятия необходимые для понимания методов, на которых строится машинное обучение и модели нейронных сетей. Также целью курса является разъяснить как могут быть преобразованы и представлены данные для последующего обучения моделей на них.
Курс состоит из 13 лекций и 13 семинаров. На лекциях излагаются теоретические основы перечисленных тем, с простыми примерами. На семинарах планируется разбор, демонстрация и практика применения программных реализаций и алгоритмов обозначенных теоретических объектов.
После освоения курса от слушателя ожидается в первую очередь понимание того, что из себя представляют как представлять свои данные численно, и как они обрабатываются моделями машинного обучения численно. Одновременно с этим, курс не ставит перед собой цель, обучить всех строгому выводу каждой формулы и каждой теоремы, только понимание требующееся для прикладного использования.
https://teach-in.ru/course/applied-mathematics-for-machine-learning/about
@data_math
Курс направлен на студентов без математического бэкграунда. Будут изложены основные понятия необходимые для понимания методов, на которых строится машинное обучение и модели нейронных сетей. Также целью курса является разъяснить как могут быть преобразованы и представлены данные для последующего обучения моделей на них.
Курс состоит из 13 лекций и 13 семинаров. На лекциях излагаются теоретические основы перечисленных тем, с простыми примерами. На семинарах планируется разбор, демонстрация и практика применения программных реализаций и алгоритмов обозначенных теоретических объектов.
После освоения курса от слушателя ожидается в первую очередь понимание того, что из себя представляют как представлять свои данные численно, и как они обрабатываются моделями машинного обучения численно. Одновременно с этим, курс не ставит перед собой цель, обучить всех строгому выводу каждой формулы и каждой теоремы, только понимание требующееся для прикладного использования.
https://teach-in.ru/course/applied-mathematics-for-machine-learning/about
@data_math
🔥26👍7❤5
Для обучения компьютерной математике исследователи объединяют подходы искусственного интеллекта
«Они будут говорить о единорогах, но забудут, что у них один рог, или расскажут вам историю, а после изменят детали», — рассказывает о больших языковых моделях (LLM — Large Language Model) Джейсон Рут из IBM Research.
Это больше, чем просто ошибки — LLM изо всех сил пытаются распознать свои ошибки, что ограничивает их производительность. Эта проблема не присуща системам искусственного интеллекта.
Модели машинного обучения, основанные на методе обучения с подкреплением, позволяют компьютерам учиться на своих ошибках и становиться вундеркиндами в таких играх, как шахматы и го. Хотя эти модели, как правило, более ограничены в своих возможностях, они представляют собой обучение такого рода, которого LLM еще не освоили.
«Не хочется создавать языковую модель, которая просто говорит как человек», — сказал Юхуай (Тони) Ву из Google AI. «Мы хотим, чтобы она понимала, о чем говорит».
Ву — соавтор двух недавних статей, где предлагается способ достижения этой цели. На первый взгляд, речь идет об очень конкретном приложении: обучении систем ИИ выполнять математические операции. В первой статье описывается обучение LLM переводу обычных математических выражений в формальный код, который компьютер может запускать и проверять. Во второй статье LLM обучили не только понимать математические задачи на естественном языке, но и решать их с помощью системы под названием Minerva.
В совокупности статьи предлагают форму будущей архитектуры ИИ, где LLM могут учиться рассуждать с помощью математического мышления.
«Есть глубокое обучение, обучение с подкреплением, AlphaGo, а теперь и языковые модели, — говорит об этом Сиддхартха Гэдгил, математик из Индийского института науки в Бангалоре, работающий с математическими системами ИИ. — Технология развивается во многих разных направлениях, и все они могут работать вместе».
📌 Читать дальше
«Они будут говорить о единорогах, но забудут, что у них один рог, или расскажут вам историю, а после изменят детали», — рассказывает о больших языковых моделях (LLM — Large Language Model) Джейсон Рут из IBM Research.
Это больше, чем просто ошибки — LLM изо всех сил пытаются распознать свои ошибки, что ограничивает их производительность. Эта проблема не присуща системам искусственного интеллекта.
Модели машинного обучения, основанные на методе обучения с подкреплением, позволяют компьютерам учиться на своих ошибках и становиться вундеркиндами в таких играх, как шахматы и го. Хотя эти модели, как правило, более ограничены в своих возможностях, они представляют собой обучение такого рода, которого LLM еще не освоили.
«Не хочется создавать языковую модель, которая просто говорит как человек», — сказал Юхуай (Тони) Ву из Google AI. «Мы хотим, чтобы она понимала, о чем говорит».
Ву — соавтор двух недавних статей, где предлагается способ достижения этой цели. На первый взгляд, речь идет об очень конкретном приложении: обучении систем ИИ выполнять математические операции. В первой статье описывается обучение LLM переводу обычных математических выражений в формальный код, который компьютер может запускать и проверять. Во второй статье LLM обучили не только понимать математические задачи на естественном языке, но и решать их с помощью системы под названием Minerva.
В совокупности статьи предлагают форму будущей архитектуры ИИ, где LLM могут учиться рассуждать с помощью математического мышления.
«Есть глубокое обучение, обучение с подкреплением, AlphaGo, а теперь и языковые модели, — говорит об этом Сиддхартха Гэдгил, математик из Индийского института науки в Бангалоре, работающий с математическими системами ИИ. — Технология развивается во многих разных направлениях, и все они могут работать вместе».
📌 Читать дальше
🔥8❤4👍2👎1😁1
Дифференциальные уравнения — это мощный инструмент, который используется во многих областях науки и техники. От физики и химии до экономики и биологии, они предоставляют основу для моделирования различных процессов.
Дифференциальные уравнения описывают динамику системы, позволяя нам понять, как система меняется со временем или в ответ на различные воздействия.
Одной из ключевых библиотек, которую мы будем использовать, является SymPy.
SymPy — это библиотека Python для символьных математических вычислений, которая позволяет нам проводить аналитическое решение дифференциальных уравнений.
Для численного решения дифференциальных уравнений мы будем использовать библиотеку SciPy.
SciPy — это основная библиотека для научных вычислений в Python, которая предоставляет множество функций для численного решения дифференциальных уравнений, включая различные методы, такие как метод Эйлера и метод Рунге-Кутты.
• Чтобы начать работу с этими библиотеками, вам нужно их установить. Это можно сделать, используя менеджер пакетов Python pip:
pip install sympy scipy fipy matplotlib
• Читать дальше
@data_math
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍8❤1🥰1
✍🏻Математика для Data Scientist’а: 3 меры измерения расстояния
• Манхэттенское расстояние (Manhattan Distance), которое также называют мерой такси или городского квартала, вычисляет расстояние между векторами с действительными значениями. Тогда манхэттенское расстояние относится к расстоянию между двумя векторами на однородной сетке, если они могут двигаться только под прямым углом. При расчете расстояния не используется диагональное движение. Хотя манхэттенское расстояние кажется приемлемым для многомерных данных, это мера менее интуитивно понятна, чем евклидово расстояние. Мера с большей вероятностью даст более высокое значение расстояния, чем евклидово расстояние, поскольку оно не является кратчайшим из возможных. Однако, если набор данных имеет дискретные и/или двоичные атрибуты, манхэттенское расстояние работает хорошо, поскольку учитывает реальные пути в пределах возможных значений.
• Расстояние Чебышева (Chebyshev distance) определяется как наибольшая разница между двумя векторами по любому координатному измерению, т.е. это просто максимальное расстояние по одной оси. Эту меру также часто называют расстоянием шахматной доски, поскольку минимальное количество ходов, необходимых королю для перехода с одного поля на другое, равно расстоянию Чебышева. Это расстояние обычно используется в очень конкретных случаях использования, что затрудняет его использование в качестве универсальной меры расстояния, в отличие от евклидова расстояния или косинусного подобия. Поэтому рекомендуется расстояние Чебышева только в определенных случаях. Например, для определения минимального количества ходов в играх, допускающих неограниченное 8-стороннее движение. Также расстояние Чебышева часто используется в складской логистике, например, для определения времени, необходимому мостовому крану для перемещения объекта.
• Расстояние Минковского (Minkowski distance) - более сложная мера, используемая в нормированном векторном пространстве (n-мерное реальное пространство), где расстояния могут быть представлены как вектор, имеющий длину. При использовании этой меры есть нулевой вектор, который имеет нулевую длину, а все другие имеют положительную, вектор может умножаться на число (скалярный коэффициент), а кратчайшим расстоянием между двумя точками является прямая линия. Также здесь можно использовать параметр p, чтобы управлять показателями расстояния, похожих на другие меры, например, p = 1 используется для Манхэттенского расстояния, p = 2 – для Евклидова, а p = ∞ для расстояния Чебышева. Поэтому, чтобы работать с расстоянием Минковского, нужно понимать назначение, достоинства и недостатки манхэттенской, евклидовой и меры Чебышева. А поиск правильного значения параметра p может быть неэффективным с вычислительной точки зрения, он дает гибкость в отношении метрики расстояния и в случае верного подбора может быть огромным преимуществом.
• Манхэттенское расстояние (Manhattan Distance), которое также называют мерой такси или городского квартала, вычисляет расстояние между векторами с действительными значениями. Тогда манхэттенское расстояние относится к расстоянию между двумя векторами на однородной сетке, если они могут двигаться только под прямым углом. При расчете расстояния не используется диагональное движение. Хотя манхэттенское расстояние кажется приемлемым для многомерных данных, это мера менее интуитивно понятна, чем евклидово расстояние. Мера с большей вероятностью даст более высокое значение расстояния, чем евклидово расстояние, поскольку оно не является кратчайшим из возможных. Однако, если набор данных имеет дискретные и/или двоичные атрибуты, манхэттенское расстояние работает хорошо, поскольку учитывает реальные пути в пределах возможных значений.
• Расстояние Чебышева (Chebyshev distance) определяется как наибольшая разница между двумя векторами по любому координатному измерению, т.е. это просто максимальное расстояние по одной оси. Эту меру также часто называют расстоянием шахматной доски, поскольку минимальное количество ходов, необходимых королю для перехода с одного поля на другое, равно расстоянию Чебышева. Это расстояние обычно используется в очень конкретных случаях использования, что затрудняет его использование в качестве универсальной меры расстояния, в отличие от евклидова расстояния или косинусного подобия. Поэтому рекомендуется расстояние Чебышева только в определенных случаях. Например, для определения минимального количества ходов в играх, допускающих неограниченное 8-стороннее движение. Также расстояние Чебышева часто используется в складской логистике, например, для определения времени, необходимому мостовому крану для перемещения объекта.
• Расстояние Минковского (Minkowski distance) - более сложная мера, используемая в нормированном векторном пространстве (n-мерное реальное пространство), где расстояния могут быть представлены как вектор, имеющий длину. При использовании этой меры есть нулевой вектор, который имеет нулевую длину, а все другие имеют положительную, вектор может умножаться на число (скалярный коэффициент), а кратчайшим расстоянием между двумя точками является прямая линия. Также здесь можно использовать параметр p, чтобы управлять показателями расстояния, похожих на другие меры, например, p = 1 используется для Манхэттенского расстояния, p = 2 – для Евклидова, а p = ∞ для расстояния Чебышева. Поэтому, чтобы работать с расстоянием Минковского, нужно понимать назначение, достоинства и недостатки манхэттенской, евклидовой и меры Чебышева. А поиск правильного значения параметра p может быть неэффективным с вычислительной точки зрения, он дает гибкость в отношении метрики расстояния и в случае верного подбора может быть огромным преимуществом.
👍12👌3🤔2❤1
Конспекты лекций, материалы семинаров и домашние задания (теоретические, практические, соревнования) по курсу "Машинное обучение", проводимому на бакалаврской программе "Прикладная математика и информатика" Факультета компьютерных наук Высшей школы экономики.
Записи лекций и семинаров
▪Полный плейлист
▪Вводная лекция
▪Линейная регрессия
▪Линейная регрессия и градиентное обучение
▪Продвинутые градиентные методы, линейная классификация
▪Метрики качества классификации (+небольшое продолжение)
▪Логистическая регрессия (+продолжение)
▪Метод опорных векторов, многоклассовая классификация
▪Решающие деревья
▪Решающие деревья (продолжение), разложение ошибки на смещение и разброс
▪Случайные леса, градиентный бустинг
▪Градиентный бустинг (продолжение)
▪Стекинг. Обучение без учителя и кластеризация.
▪Визуализация, обучение представлений
▪Рекомендательные системы
@data_math
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤5🔥4🙏1
📖Предварительная подготовка данных в Python (1 том)
Автор: Артем Груздев
Первый том посвящен инструментам Python – основным библиотекам, классам и функциям, необходимым для предварительной подготовки данных, построения моделей машинного обучения, выполнения различных стратегий валидации. В конце первого тома разбираются задачи с собеседований по SQL, Python, математической статистике и теории вероятностей.
#python #math
📚Книга
@data_math
Автор: Артем Груздев
Первый том посвящен инструментам Python – основным библиотекам, классам и функциям, необходимым для предварительной подготовки данных, построения моделей машинного обучения, выполнения различных стратегий валидации. В конце первого тома разбираются задачи с собеседований по SQL, Python, математической статистике и теории вероятностей.
#python #math
📚Книга
@data_math
👍12🔥6🤝2🥰1
Zenkov_-_Chislennye_metody.pdf
3 MB
Алгебра и теория чисел. Часть 1
Б. М. Веретенников, м. М. Михалева
Алгебра и теория чисел часть 2
Б.М. Веретенников а.Б. Веретенников м.М. Михалева (2019)
Методы оптимальных решений
О. Я. Шевалдина, а. В. Зенков, о. Ю. Жильцова, е. А. Трофимова, д. В. Гилёв, н. В. Кисляк (2020)
Ряды фурье. Интегральные преобразования фурье и радона
В. А. Волков (2014)
Численные методы учебное пособие
А.В. Зенков (2016)
#математика #math #алгебра
@data_math
Б. М. Веретенников, м. М. Михалева
Алгебра и теория чисел часть 2
Б.М. Веретенников а.Б. Веретенников м.М. Михалева (2019)
Методы оптимальных решений
О. Я. Шевалдина, а. В. Зенков, о. Ю. Жильцова, е. А. Трофимова, д. В. Гилёв, н. В. Кисляк (2020)
Ряды фурье. Интегральные преобразования фурье и радона
В. А. Волков (2014)
Численные методы учебное пособие
А.В. Зенков (2016)
#математика #math #алгебра
@data_math
🔥12👍6❤2🤗2