Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
⚡️Свершилось: канал с книгами только по Data Science
Мы создали для вас канал, куда будем публиковать самые полезные книги только для специалистов по Data Science. Подписывайтесь!
👉 Книги для дата сайентистов | Data Science
Мы создали для вас канал, куда будем публиковать самые полезные книги только для специалистов по Data Science. Подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
У нас есть классификатор, который делит письма на «спам» и «не спам». Что будет с метрикой precision, если мы повысим порог классификации?
Anonymous Quiz
38%
вероятно, увеличится
29%
вероятно, уменьшится
17%
точно увеличится
15%
точно уменьшится
✍️ Разбор сложных задач недели
1️⃣ Если мы имеем дело с дисбалансом классов, то использовать метрику Accuracy — плохая идея. Эта метрика отражает долю объектов, для которых модель правильно предсказала класс. Однако представьте, что в данных 80% объектов представлены классом 0, а 20% — классом 1. Тогда верно угаданных объектов класса 0 с высокой вероятностью будет много, а верно угаданных объектов класса 1 — мало. Но Accuracy всё равно получится высокой.
2️⃣ При L2-регуляризации мы добавляем к функции потерь штрафную часть, представленную суммой квадратов весов модели, умноженных на гиперпараметр регуляризации. Природа полученной функции не даёт регуляризации занулить веса полностью. Поэтому мы отметаем второй вариант в этом квизе.
Также стоит помнить, что L2-регуляризация штрафует большие веса сильнее, чем малые. В результате, этот метод приведёт веса коррелирующих признаков примерно к равным значениям, каждое из которых будет соответствовать приблизительно половине веса, который мог бы получиться у единственного признака.
3️⃣ Python умеет работать с комплексными числами. Если добавить к цифре букву j, то ошибки не будет. Когда мы создаём две переменные a и b и присваиваем им значение 1+2j, Python создаёт два отдельных объекта. Они расположены по разным адресам в памяти, что можно проверить, применив к a и b функцию id(). В свою очередь, оператор is сравнивает идентификаторы объектов, то есть проверяет, указывают ли две переменные на один и тот же объект в памяти.
4️⃣ Метрику Precision можно интерпретировать как долю объектов, названных моделью положительными и при этом действительно являющимися положительными. По формуле количество истинно положительных объектов (TP) мы делим на сумму истинно положительных объектов (TP) и ложно положительных объектов (FP).
Precision = TP / (TP + FP)
При изменении порога классификации соотношение TP и FP меняется. Если мы поднимем этот порог, то, скорее всего, количество FP объектов уменьшится, а следовательно значение Precision увеличится. С уверенностью мы это утверждать не можем, но чаще всего бывает именно так.
#разбор_задач
1️⃣ Если мы имеем дело с дисбалансом классов, то использовать метрику Accuracy — плохая идея. Эта метрика отражает долю объектов, для которых модель правильно предсказала класс. Однако представьте, что в данных 80% объектов представлены классом 0, а 20% — классом 1. Тогда верно угаданных объектов класса 0 с высокой вероятностью будет много, а верно угаданных объектов класса 1 — мало. Но Accuracy всё равно получится высокой.
2️⃣ При L2-регуляризации мы добавляем к функции потерь штрафную часть, представленную суммой квадратов весов модели, умноженных на гиперпараметр регуляризации. Природа полученной функции не даёт регуляризации занулить веса полностью. Поэтому мы отметаем второй вариант в этом квизе.
Также стоит помнить, что L2-регуляризация штрафует большие веса сильнее, чем малые. В результате, этот метод приведёт веса коррелирующих признаков примерно к равным значениям, каждое из которых будет соответствовать приблизительно половине веса, который мог бы получиться у единственного признака.
3️⃣ Python умеет работать с комплексными числами. Если добавить к цифре букву j, то ошибки не будет. Когда мы создаём две переменные a и b и присваиваем им значение 1+2j, Python создаёт два отдельных объекта. Они расположены по разным адресам в памяти, что можно проверить, применив к a и b функцию id(). В свою очередь, оператор is сравнивает идентификаторы объектов, то есть проверяет, указывают ли две переменные на один и тот же объект в памяти.
4️⃣ Метрику Precision можно интерпретировать как долю объектов, названных моделью положительными и при этом действительно являющимися положительными. По формуле количество истинно положительных объектов (TP) мы делим на сумму истинно положительных объектов (TP) и ложно положительных объектов (FP).
Precision = TP / (TP + FP)
При изменении порога классификации соотношение TP и FP меняется. Если мы поднимем этот порог, то, скорее всего, количество FP объектов уменьшится, а следовательно значение Precision увеличится. С уверенностью мы это утверждать не можем, но чаще всего бывает именно так.
#разбор_задач
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.
В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги
👉Подписаться👈
В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги
👉Подписаться👈
На каком графике отображена более высокая среднеквадратическая ошибка (MSE)?
Anonymous Quiz
38%
Левый
62%
Правый
Какой размер батча будет более эффективным при выполнении градиентного спуска для большого набора данных?
Anonymous Quiz
72%
Небольшие батчи или даже батчи, состоящие из одного объекта (SGD)
28%
Полный батч
Каков будет результат выполнения кода выше?
Anonymous Quiz
16%
Ошибка, так как pivot_table не может обрабатывать нечисловые значения в индексах
30%
DataFrame с мультииндексами из 'A' и 'B' и значениями из 'C'
42%
DataFrame с индексами из 'A', столбцами 'X' и 'Y' и значениями из 'C'
12%
DataFrame с индексами из 'A' и одним столбцом с суммой значений 'C' для уникальных значений в 'A'
Самые полезные каналы для программистов в одной подборке!
Сохраняйте себе, чтобы не потерять 💾
🔥Для всех
Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
#️⃣C#
Библиотека шарписта
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel
☁️DevOps
Библиотека devops’а
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
🐘PHP
Библиотека пхпшника
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты
🐍Python
Библиотека питониста
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты
☕Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков
👾Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту
🦫Go
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go
🧠C++
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++
💻Другие профильные каналы
Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
💼Каналы с вакансиями
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности
📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈
🤖Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT
Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *
* Организация Meta запрещена на территории РФ
Сохраняйте себе, чтобы не потерять 💾
🔥Для всех
Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
#️⃣C#
Библиотека шарписта
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel
☁️DevOps
Библиотека devops’а
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
🐘PHP
Библиотека пхпшника
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты
🐍Python
Библиотека питониста
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты
☕Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков
👾Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту
🦫Go
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go
🧠C++
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++
💻Другие профильные каналы
Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
💼Каналы с вакансиями
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности
📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈
🤖Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT
Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *
* Организация Meta запрещена на территории РФ
Какова вычислительная сложность стандартного алгоритма умножения матриц? Допустим, у нас есть две квадратные матрицы A и B, каждая размером n×n
Anonymous Quiz
59%
O(n^{2})
28%
O(n^{3})
12%
O(n)
Хардкорный вышмат для тех, кто интересуется ML, AI, DS
Начать с бесплатных вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/73163e69
Что будет на демо?
– Вводный урок от CPO курса
– Лекции со всеми преподавателями МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск.
– Практические задания и дополнительные материалы!
⚡️Переходите и активируйте – https://proglib.io/w/73163e69
Начать с бесплатных вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/73163e69
Что будет на демо?
– Вводный урок от CPO курса
– Лекции со всеми преподавателями МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск.
– Практические задания и дополнительные материалы!
⚡️Переходите и активируйте – https://proglib.io/w/73163e69
Сегодня проверка на знания об округлении чисел в Python. Что выведет код выше?
Anonymous Quiz
40%
-2 -1 -1
17%
-2 -2 -1
28%
-1 -1 -2
15%
-2 -1 -2
✍️ Сегодня воскресенье, а это значит, что мы разберём сложные задачи недели
1️⃣ У метода numpy.where следующие параметры:
▪️condition — условие, которое проверяется, результатом является булев массив того же размера, что и входной массив;
▪️x, y (опционально) — массивы, из которых выбираются элементы. Если условие истинно, numpy.where возвращает соответствующие элементы из x, в противном случае возвращает элементы из y.
Поэтому в задаче в результирующий массив на места True попали все элементы меньше 4 из arr, а на места False — -1. Сумма array([ 1, 2, 3, -1, -1]) равна 4.
2️⃣ pivot_table создаёт сводную таблицу в Pandas. В данном примере:
▪️index='A' определяет, что значения столбца 'A' используются в качестве индексов для сводной таблицы.
▪️columns='B' определяет, что из значений 'B' получатся столбцы сводной таблицы.
▪️values='C' определяет, что значения, которые будут агрегированы, берутся из столбца 'C'.
▪️fill_value=0 указывает, что если какое-либо значение отсутствует, то вместо NaN используется 0.
3️⃣ В стандартном алгоритме умножения матриц, чтобы получить элемент результирующей матрицы, мы производим n умножений и n-1 сложений. То есть каждое такое скалярное произведение занимает O(n). Результирующая матрица содержит n^2 элементов. Так, общее количество операций умножения (и приблизительно столько же операций сложения) равно n^2 * n = n^3. Поэтому вычислительная сложность получается O(n^3).
4️⃣ Рассмотрим все приведённые виды округлений:
▪️math.floor() округляет вниз к ближайшему целому числу;
▪️math.trunc() просто отбрасывает всё, что стоит после точки;
▪️math.ceil() округляет вверх к ближайшему целому числу.
Поэтому результат будет -2 -1 и -1
#разбор_задач
1️⃣ У метода numpy.where следующие параметры:
▪️condition — условие, которое проверяется, результатом является булев массив того же размера, что и входной массив;
▪️x, y (опционально) — массивы, из которых выбираются элементы. Если условие истинно, numpy.where возвращает соответствующие элементы из x, в противном случае возвращает элементы из y.
Поэтому в задаче в результирующий массив на места True попали все элементы меньше 4 из arr, а на места False — -1. Сумма array([ 1, 2, 3, -1, -1]) равна 4.
2️⃣ pivot_table создаёт сводную таблицу в Pandas. В данном примере:
▪️index='A' определяет, что значения столбца 'A' используются в качестве индексов для сводной таблицы.
▪️columns='B' определяет, что из значений 'B' получатся столбцы сводной таблицы.
▪️values='C' определяет, что значения, которые будут агрегированы, берутся из столбца 'C'.
▪️fill_value=0 указывает, что если какое-либо значение отсутствует, то вместо NaN используется 0.
3️⃣ В стандартном алгоритме умножения матриц, чтобы получить элемент результирующей матрицы, мы производим n умножений и n-1 сложений. То есть каждое такое скалярное произведение занимает O(n). Результирующая матрица содержит n^2 элементов. Так, общее количество операций умножения (и приблизительно столько же операций сложения) равно n^2 * n = n^3. Поэтому вычислительная сложность получается O(n^3).
4️⃣ Рассмотрим все приведённые виды округлений:
▪️math.floor() округляет вниз к ближайшему целому числу;
▪️math.trunc() просто отбрасывает всё, что стоит после точки;
▪️math.ceil() округляет вверх к ближайшему целому числу.
Поэтому результат будет -2 -1 и -1
#разбор_задач