МФТИ 2022 | Науки о данных
169 subscribers
33 photos
40 links
加入频道
Что такое нейросеть?

По сути, это симуляция человеческого мозга. Действия человека обусловлены биологическими нейронами, а действия нейросети — искусственными. Искусственные повторяют модель биологических. Они так же накапливают, передают информацию и способны образовывать новые связи — обучаться.

Самую простую нейронную сеть, однослойный перцептрон, нетрудно написать самому, если есть базовые знания C++. В перцептроне всего три типа элементов: первый принимает информацию, второй — обрабатывает и создает ассоциации, а третий выдает результат.

Простейший организм, а уже умеет распознавать предметы на картинках и отвечать на вопросы с вариантами «да» или «нет». Если научить.
👍7
Эволюция нейросетей

Перцептрон создали еще в 1950-х. За 70 лет нейросети проделали огромный путь вслед за развитием компьютера. Чем мощнее становилась техника, тем умнее — нейросеть. Ведь для решения сложных задач нужно больше нейронов.

В конце концов мощностей одного компьютера стало маловато. Нейронные сети перекочевали в облако. Сейчас реальность такова, что под них создают специальные компьютеры — нейрокомпьютеры. И эти компьютеры работают со специальными облачными технологиями.
👍3
Как работает искусственный нейрон?

Нейроны в мозге человека — это клетки, которые накапливают и передают информацию в виде электрических и химических импульсов.

У нейронов есть:
▪️ аксон — основная часть клетки;
▪️ дендрит — длинный отросток, который работает как «провод» для нервного импульса.

Искусственный нейрон — это код, в котором аксон представлен в виде ячейки с ограниченным диапазоном значений. Информация о как бы «нервных импульсах» хранится в виде математических формул и чисел.

Один из нейронов передает другому какую-либо вычисленную информацию, тот получает ее, обрабатывает и затем передает результат уже своих вычислений дальше. Информация распространяется по сети, коэффициенты внутри нейронов меняются — происходит процесс обучения.



📌 Это только начало разбора нейронных сетей. Скоро мы расскажем про их особенности, задачи и попробуем ответить на главный вопрос: смогут ли нейронные сети заменить человека?
👍3
Как Python-пакеты помогают дата-сайентистам
В 2022 году Python второй раз стал самым популярным языком, согласно рейтингу Tiobe.
Это основной инструмент специалистов по анализу данных и машинному обучению. В том числе благодаря пакетам Python, которые открывают специалистам новые возможности.
Узнайте, что это за инструмент и как он поможет вам в работе.


Для чего нужны Python-пакеты?
В больших проектах код делят на файлы — модули. А их уже группируют «по смыслу» и выделяют в отдельную группу — пакеты.
Такая иерархия помогает:
лучше понимать код;
проще управлять проектом;
использовать нужные пакеты для других проектов.


Какие задачи решают Python-пакеты?
Самые разные: от вычислений и визуализации данных до построения сложных моделей DS и ML.
Разберем несколько популярных пакетов.


🔸 NumPy расширяет возможности Python для различных вычислений.
Чем хорош пакет:
подходит и для простых, и для сложных научных расчетов;
поддерживает многомерные массивы;
позволяет выполнять преобразования данных;
поддерживает работу с разными типами данных.


🔸 Pandas — один из лучших инструментов для исследования данных.
Чем хорош пакет:
поддерживает объект DataFrame для работы с индексированными массивами;
подходит для работы с большими наборами данных;
может работать с различными источниками данных.


🔸 Matplotlib — самый известный пакет для визуализации данных.
Чем хорош пакет:
помогает просто и удобно строить графики и диаграммы;
позволяет глубоко настраивать графические представления данных;
поддерживает API для интеграции объектов в приложения;
имеет множество встроенных методов для выполнения вычислений на многомерных массивах.


🔸 Scikit-Learn имеет почти все, что нужно специалистам для машинного обучения.
Чем хорош пакет:
позволяет создавать спам-детекторы и системы классификации изображений;
поддерживает алгоритмы регрессии;
подходит для создания ML-моделей с учителем и без учителя;
поддерживает механизмы кросс-валидации для оценки моделей.


Знание пакетов Python необходимо хорошему дата-сайентисту, чтобы делать свою работу быстрее и эффективнее.
Уже работаете в сфере анализа данных и знаете хорошие Python-пакеты? Посоветуйте свои любимые начинающим дата-сайентистам.
👍5
Как насчет того, чтобы познакомиться с базовыми задачами аналитиков по машинному обучению? И разобрать пример из нашей программы и проверить свои знания?
Но для начала нужно вспомнить, что такое датасет...

Датасет — это массив данных, где информация об объектах подается в виде структуры с разными связями между ними. Как это выглядит, мы показали на карточке.

Датасет MNIST
— коллекцию рукописных цифр — часто используют для знакомства с задачами машинного обучения, в частности с одной из задач компьютерного зрения — классификацией изображений.
Ваше задание* — построить классификатор цифр из датасета MNIST. То есть научить машину определять принадлежность объекта к одному из классов.
Подсказка: используйте язык программирования Python, а в качестве модели возьмите классификатор на основе метода опорных векторов (Support Vector Machine (SVM)).

Задача сложная, но разрешимая.
Проявите свои навыки на практике!

Готовый код вместе с разбором решения и его визуализацией от преподавателя курса «Глубокое обучение в науках о данных» программы МФТИ «Науки о данных» Яромира Шпилевского вы найдете по ссылке: https://drive.google.com/file/d/1G0G4QOnClQ2xO1bnsOIMk1MpS6IZVnWo/view?usp=sharing


*Пример задачки из модуля "Глубокое обучение в науках о данных"
🔥1
Что такое нейросеть, как она эволюционировала и чем искусственный нейрон отличается от биологического, мы разобрали в прошлых постах.

В новой серии публикаций расскажем:
какими бывают нейросети;
как они ошибаются (совсем как люди);
равны ли нейросети машинному обучению;
и смогут ли заменить человека в скором будущем.
Виды нейронных систем

Человек легко отличит мандарин от лимона, разложит фрукты по разным пакетам и придумает, что с ними делать: лимон в чай, мандарин — во фруктовый салат. Нейросети пока не такие сообразительные: одни хороши для сортировки фруктов, а другие отлично смешивают салат в нужных пропорциях. Поэтому нейросеть выбирают под конкретную задачу.


— Однонаправленные нейросети — распознают и прогнозируют

Это простейшие структуры, у которых нет «памяти». Они работают в одном направлении, как оригинальный перцептрон. Смогут отличить лимон от мандарина и дать примитивный прогноз: если лимон, значит кислый.


— Рекуррентные нейросети — анализируют

Могут себе это позволить, потому что обладают «памятью». Они передают данные в двух направлениях и, получая новую информацию, не забывают о старой. Однонаправленная нейросеть перевела бы lemon tree как «лимон дерево», а рекуррентная поймет контекст и выдаст верный перевод: «лимонное дерево».

Задачи для рекуррентной сети можно сформулировать так: это работа с большим объемом данных, которые надо разбить на более мелкие и обработать. С учетом связей между ними.


— Сверточные нейросети — распознают сложные изображения и звуки

Картинки лимонов и мандаринов по отдельности им не интересны, эти нейросети готовы изучить целый натюрморт в малейших деталях, потому что их структура уподобляется структуре зрительной коры человека. Сверточные нейросети многослойны. Чем больше в сети слоев, тем более абстрактные детали она способна заметить и определить.
Нейросети тоже ошибаются

Как и человеческий мозг, нейросети закрыты. Мы не понимаем, по каким критериям программа «решает», что на картинке изображен человек или кот. Это одна из особенностей нейросетей.

Еще одна особенность нейросетей — ошибаются. И ошибаются чаще, чем люди. Объяснение простое: в современных нейросетях содержится примерно 10 миллиардов нейронов, а в теле человека — 86 миллиардов.


Ошибки возникают, потому что нейросети:

забывчивы
Плохо реагируют на разнообразие ситуаций. Если ситуации часто меняются, нейросеть будет подстраиваться под каждую и путаться. Точность решений упадет.

переобучены (overfitting)
То есть максимально погружены в контекст в границах своего обучения, но не умеют обобщать знания и на их основе делать новые выводы.

непредсказуемы
Это прямое следствие закрытости нейросети. Но с непредсказуемостью борются: точность решений можно повысить, если использовать подходящую архитектуру.
Нейронные сети = машинное обучение?

Нет. Нейросети относят к глубокому обучению (Deep Learning). А глубокое обучение — это только часть машинного обучения.

В стандартном машинном обучении программе предварительно рассказывают, как выглядит то, что она должна сделать. По каким конкретным признакам отличить мужчину от женщины.

При обучении нейросети такой задачи не стоит. Признаки сеть находит сама. Необходимо лишь задать коэффициенты и результаты, соответствующие каждому возможному исходу.


Значит ли это, что нейросеть лучше стандартного ML?

Отчасти. Нейросети более гибкие, чем другие модели машинного обучения, и лучше приспосабливаются. Но они же, с другой стороны, непредсказуемы и ошибаются. Об этих недостатках мы рассказывали вам в прошлом посте.
Нейронная сеть сможет заменить человека?
Частично уже заменяет. Искусственный интеллект ассистирует хирургам, вычисляет подозреваемых на камерах видеонаблюдения, пишет фантастические картины, предсказывает поведение рынка.

! Но нейросети ошибаются.
Цена ошибки может быть велика. Поэтому искусственный интеллект сейчас работает только под контролем человека. Помогает ему и освобождает от рутинных задач.

В творчестве нейросеть тоже не заменяет человека.
Она хоть и генерирует контент, но делает это машинально, без мыслей. За красивой картинкой и более-менее связным текстом не стоит никакого авторского замысла.

Что изменится в будущем, мы не знаем. Но вы можете внести свой вклад в развитие нейросетей, если освоите их работу. Сейчас это направление востребовано как никогда.
👍4
Как большие данные используют в управлении и программировании — кратко про Data-driven подход

Концепция Data driven (дословно — «управляемый данными») родом из 90-х. Раньше она касалась только программирования, но потом, с ростом объема данных и развитием рынка digital, проникла и в другие сферы: управление, маркетинг, дизайн.

На этой неделе разберем, что такое Data-driven подход в программировании и управлении.
👍2
Data-driven подход в программировании

Data-driven programming или программирование, управляемое данными — это метод, в котором входные данные определяют работу программы, а операторы данных могут описывать шаблоны данных и соответствующие им правила обработки.

— Пример работы Data-driven programming можно увидеть в текстовом редакторе sed (Stream EDitor). Редактор получает входной поток (обычно файл) построчно, редактирует каждую строку согласно правилам, определённым в sed-скрипте с использованием простого языка sed, и затем выводит результат в выходной поток.
👍2
Data-driven подход в управлении

Data-driven подход в управлении (Data-Driven Decision-Making) — это способ принимать управленческие решения, основываясь на больших данных, а не на интуиции и личном опыте сотрудников. Последняя тактика больше характерна для подхода HiPPO (Highest Paid Person’s Opinion — «мнение самого высокооплачиваемого сотрудника»).


— В «Сибуре», крупнейшей интегрированной нефтегазохимической компании России, когда-то действовал принцип «глубокого колодца», когда специалисты имели доступ только к информации, необходимой для выполнения их обязанностей. Это считалось правильным, но мешало проводить более масштабную аналитику и, как следствие, тормозило бизнес.

Когда «Сибур» внедрил в работу Data-driven Decision-Making, сотрудникам открылся доступ к 80% ранее скрытой информации. Они начали качественнее проверять гипотезы, моделировать различные ситуации на рынке и рассчитывать целесообразность инвестиций или запуска новых продуктов.
👍1
Как работает Data-driven компания

Главным образом Data-driven компания корректно собирает, проверяет, обрабатывает данные и использует для бизнеса. В таком бизнесе обязательно работают data-аналитик — он собирает данные, — и отдел маркетинга, который ставит четкое ТЗ на сбор конкретной информации. У руководства хватает компетенций соотносить результаты исследований с бизнес-целью.

— Сбер уже несколько лет использует Data driven для анализа поведения заемщиков. Интерактивная анкета, которую создал банк для сбора информации, позволяет выявить один из важных психологических параметров — уравновешенность или импульсивность клиента. На основе данных банк принимает решение: какой кредит выдавать и выдавать ли его вообще.
🔥1
Спасибо, что были с нами в 2022 году!

Мы вместе изучали новые технологии, разбирались в сложных терминах, решали задачки, делились опытом и даже поступали. В общем, погружались в IT с головой.

Этот канал закрывается, но мы не прощаемся. Готовим для вас еще больше интересной информации на нашем общем канале @skillfactory_university. Присоединяйтесь, если хотите:
— разобраться в инновационных технологиях;
— погрузиться в новые направления IT;
— проверить свои цифровые навыки на практике;
— получать подборки полезных IT-ресурсов;
— быть в курсе изменений рынка.

Спойлер: в январе на канале выйдет подборка конспектов по книгам из разных направлений IT. Найдется полезный материал для каждого.
А еще мы проведем опрос, чтобы точно знать, какие знания вы хотите получить в 2023 году. Поэтому присоединяйтесь и пишите свои пожелания.


О чем уже рассказали в канале:
Почему важно читать технотексты
Какие руководители нужны бизнесу в IT
Что скрывает шифр? Игра-практикум для кибербезопасников

Оставайтесь с нами, чтобы вливаться в IT-среду!
С наступающими праздниками!
👍2
Новый набор в магистратуры — мы вы дождались!
Открыт прием документов на онлайн-магистратуру “Науки о данных | МФТИ”, старт в сентябре 2023 года.

Погрузитесь в Data Science и выберите трек развития: Big Data, Artificial Intelligence или Machine Learning.
Получите опыт работы на реальных бизнес-задачах и диплом магистра от ведущего технического вуза России*.

Оставляйте заявку на поступление на сайте программы. Куратор свяжется с вами, чтобы подробнее рассказать о процессе обучения и этапах поступления, ответить на вопросы и поделиться ссылкой на актуальный чат для абитуриентов.


*В общих рейтингах лучших университетов мира THE и QS МФТИ занимает 1 место среди технических вузов России.
Здравствуйте! Мы серьезно относимся к обратной связи от наших студентов, поэтому нам потребовалось время, чтобы изучить комментарии под постом, провести работу над некоторыми ошибками. Хотим рассказать о важных моментах подробнее.

О программе. «Науки о данных» — совместная разработка Skillfactory и МФТИ. Учебный материал создали авторы, а методисты скорректировали и составили его в нужной последовательности. Контент прошел несколько этапов проверки: на качество продакшена, видео и его содержание. Но иногда все же остаются недочеты, которые мы стараемся оперативно устранять. Для этого каждую неделю встречаемся обсудить фидбэк и провести health-трекинг образовательных метрик.

О ситуации с тестом. Тест по дисциплине «Инжиниринг данных» мы обновляли два раза, так как два вопроса имели субъективную (авторскую) трактовку. Студенты заметили это, дали нам обратную связь, которую мы передали автору теста. В итоге два спорных вопроса удалили.

О хакатоне. Во время мероприятия, действительно, произошла ошибка: проект одной из команд добавили не в ту папку. В тот же день это обнаружили и исправили. К сожалению, в презентацию для финальной защиты эти правки не внесли, и команда оказалась в другом списке. Координатор честно рассказал об этом в «Пачке» и был на связи со студентами. Эту ситуацию мы подробно разбирали и на ретро команд. В итоге в процесс организации и проведения учебной практики были внесены изменения. Об ошибке также сообщили индустриальным партнерам и принесли извинения от сетевой команды магистратур. Партнеры отнеслись к ситуации с пониманием и готовы продолжать сотрудничество.

О математике. Мы пересмотрели подход и к вступительным экзаменам, и к обучению. Сейчас при поступлении проверяем базовые знания, а на программе даем углубленные. Для текущих групп открыли доступ к блоку с высшей математикой, а для новых добавили семь недель математики.

О трудоустройстве. Мы не обещаем, что студент найдет работу за пару дней. Мы говорим, что поможем построить карьерный трек и подготовиться к трудоустройству. Для этого добавили в программу реальные бизнес-задачи, стажировки и хакатоны, чтобы студенты получали опыт уже во время обучения и выходили на рынок более подготовленными. Также у нас есть Центр карьеры, где специалисты помогают оформить резюме и портфолио, готовят к собеседованиям, поддерживают во время активного поиска работы.

Да, пока не все идеально, но мы работаем над ошибками, улучшаем программы. Поэтому нам важна обратная связь, в том числе и негативная. Это помогает расти, делать обучение на программах еще продуктивнее и комфортнее для наших студентов.

Если у вас есть желание оставить обратную связь – пишите нам сюда. И спасибо за развивающий фидбек.
😢6👍42👎2