EasyData
954 subscribers
152 photos
10 videos
22 files
80 links
Добро пожаловать!
Меня зовут Мария Жарова, и это мой блог про науку о данных

Лайфхаки из будней MLщика, полезности по Data Science и ответы на вопросы, которые волнуют новичков и не только🌝

Автор @NaNCat
加入频道
Алгоритмы_с_примерами_на_Python.pdf
13.6 MB
Доброго вечера, друзья!
Как думаете, нужно ли в Data Science знание алгоритмов и структур данных? Наверное, первое, что приходит в голову - это, конечно, собеседования😁 Во многих компаниях обязательным этапом в процессе найма является та самая секция лайф-кодинга.
А вообще, знание алгоритмов и структур данных помогает лучше понимать, как работают различные методы машинного обучения (например, те же «деревянные» модели) + практика и привычка писать оптимальный код пригодится в анализе и при обработке данных.

Ловите новую книгу издательства O’Reilly «Алгоритмы с примерами на Python», в ней автор понятно рассказывает про самые известные структуры данных и алгоритмы над ними, разбирает их сложность - и всё это, конечно, с примерами на питоне(!)🥰 В книге также есть задачи для самостоятельного решения.

Хорошего вечера!❄️☃️

#python@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩116
Привет, друзья!
Совместно со SkillFactory записали несколько мини-подкастов с ответами на самые популярные вопросы по Data Science👇
Всем удачи в поиске работы мечты❤️🍀🤗

#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
7😍2🔥1
Как подготовиться к собеседованию на позицию дата-сайентиста?
9
У меня медицинское образование. Как сделать это преимуществом в Data Science?
8
Что нужно сделать, чтобы стартовать в профессии?
8
Обещали мемы, но ещё ни разу их не скидывали - исправляемся!🙈
Только это не простые шутки, а из питоновской библиотеки pyjokes😁
Всего в пару строчек кода можно получить случайный анекдот не выходя из редактора кода. Смотрите пример на скрине, а кому лень перепечатывать - подробнее в файле с кодом:)

PS: за идею и хорошее настроение спасибо студенту курса по Data Science, которые поделился этой забавной штукой в своём дипломе😊

#мем@data_easy
#python@data_easy
10🔥4👍2
Всем уютного вечера!☕️❄️
В продолжение темы "популярные вопросы про IT и DS" оформили ещё больше ответов в виде статьи🌈

🟥 Содержание для привлечения внимания😎

#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥52
Доброе утро🌞
Часто мы слышим фразы «модель обучалась на XXX данных», «модель плохо обучилась», «я обучил модель»😁
А ведь неспроста этот процесс так называли! Попробуйте сравнить обучение ребенка в школе и обучение ML-модели: в принципе, термин оправдывает свой истинный смысл🤔

#полезный_ии@data_easy
🔥54
Друзья, всем привет!
Осень подходит к концу, но впереди ещё немало интересных data-событий как для новичков, так и для профи😎
Анонс на ближайшие пару-тройку недель:

🎄с 22 по 24 ноября пройдёт нашумевшая конференция AI Journey (Илона Маска официально пригласили выступить:)). В любом случае, мероприятие будет онлайн, регистрация не требуется.
Программу можно посмотреть здесь.

🎄 5-6 декабря состоится YaTalks - главная конференция Яндекса для IT-сообщества. В анонсе технические доклады о разработке и ML, научно-популярные лекции и выступления об управлении командами.
Формат участия онлайн и офлайн (в Москве и Белграде).
Зарегистрироваться можно здесь.

🎄6 декабря в 17:00 состоится онлайн-лекция для новичков про ML от Тинькофф, зарегистрироваться можно тут (надо пролистать в самый конец).

🎄с 27 ноября по 1 декабря пройдёт бесплатный онлайн-интенсив по языковым моделям от создателей YandexGPT.
Посмотреть программу и зарегистрироваться можно здесь.

💫 Для тех, кто ищет работу или стажировку, есть такое:
💳 One day offer от Сбера 25 ноября
❤️ Intern code battle от Яндекса

🥹 А ещё 22 ноября в 19:00 приглашаю на IT-рентген, который в этот раз пройдёт с участием Сергея Мезенцева (а я расскажу про data science)😊

Продуктивной недели☃️
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥8
Forwarded from Deleted Account
This media is not supported in your browser
VIEW IN TELEGRAM
12🔥9👍3
Доброе утро!☕️
Хорошие новости - недавно в отчете британского аналитического центра Autonomy сообщили, что при помощи искусственного интеллекта человечество сможет перейти на 4-дневную рабочую неделю к 2033 году (с сохранением прежней зарплаты!)😋

Была исследована зависимость производительности от внедрения ИИ. И получилось, что можно легко сократить рабочую неделю с 40 до 32 часов, если внедрить в процесс языковые модели по типу chatGPT. Наибольший потенциал для этого, по мнению исследований, имеют бюрократы и чиновники.

Более того, пару дней назад Билл Гейтс заявил, что в ближайшем будущем мы вообще сможем перейти даже на 3-дневную рабочую неделю, если правильно будем использовать ИИ😳

Очевидно, у технологий есть огромные преимущества, а как их использовать - решать нам. Кстати, недавно прошла презентация DevDay, на которой были представлены новые инструменты для пользователей chatGPT. Из наиболее интересного: API для внедрения технологий компании в собственные приложения, конструктор ботов, более быстрая модель GPT-4 Turbo.

Как минимум это значит, что теперь можно легко создавать собственных чат-ботов. Достаточно загрузить в интерфейс информацию о продуктах или переписки с клиентами, и модель дообучится под Вашу цель. Так можно создавать любых ассистентов, вот несколько примеров, представленных компанией:
📍Game Time — поможет разобраться в правилах настольной игры.
📍Creative Writing Coach — тренер письма.
📍Tech Support Advisor - технический консультант, может предложить пошаговые решения проблем.
📍Sous Chef — посоветует рецепт из продуктов, которые есть дома.
📍Sticker Whiz - позволяет сгенерировать стикеры и заказать их печать с доставкой до двери.
📍Math Mentor - учитель математики для детей.

Ставьте 🔥, если хотите инструкцию как создать своего чат-бота😎

Всем продуктивной недели💪

#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍4👏3
ML_cheatlist.pdf
7.5 MB
Good morning!🌅
Если готовитесь к интервью (или просто хотите освежить знания и поупражняться в английском), держите небольшую шпаргалку по популярным разделам ML (список тем на первой страничке). Довольно легко читается + в конце интересный бонус про часть soft-skills собеседований.

Хорошего дня и с последним днём осени!☃️🎄

#карьера@data_easy
10🔥6👍4
Работая над DS-проектом, мы, конечно, хотим добиться высоких метрик: много времени уделяем анализу, EDA, очистке данных, подбираем нужную модель и гиперпараметры к ней...
А как часто вы задумываетесь о самих данных? Во время работы над учебными кейсами проблем обычно не возникает, т.к. они даются нам в самом задании. Но в реальных проектах (а иногда в тестовых заданиях и на хакатонах), когда мы имеем только постановку задачи, данные приходится искать самим...
И от них, на самом деле, многое зависит: не все датасеты обладают ранжирующей способностью, т.е. признаки могут быть никак не связаны с целевой переменной. Отсюда метрики будут всегда получаться низкими, как бы мы не предобрабатывали данные и не старались обучить модель☹️
К счастью, в Интернете можно найти множество открытых датасетов для задач на любой вкус (и комментарии/статистику использования к ним😊).
Наиболее известные и проверенные ресурсы:
📁 Kaggle: здесь можно найти соревнования (с данными) и просто датасеты. Обращайте внимание на комментарии и число голосов на соответствующих страницах (никем не опробованные данные могут оказаться бесполезными).
📁 Google dataset search: работает как обычный поисковик гугл, только для поиска данных. В целом, он охватывает и датасеты с Kaggle, и из государственных источников, научных экспериментов и т.д. При выборе ориентироваться можно на число ссылок в статьях, ну, или смотреть уже в самом источнике:)
📁 UCI Machine Learning Repository: а это подборка от Калифорнийского университета. Удобно, что данные здесь разделены по типу ML-задач: для временных рядов, классификации, регрессии или рекомендательных систем. Можно даже найти датасеты, которые уже очищены и готовы к использованию😎

Удачи в дата-исканиях!✌️

#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_easy
🔥84👍4
Всем привет!
Хочу поделиться отличной библиотекой Cleanlab, которая помогает улучшить данные: автоматически очистить и найти проблемы в них🐈

Вот несколько примеров, что можно сделать в пару строк с этой библиотекой:
Найти потенциально неверно размеченные строки в датасетах
Обработать пропуски, дубликаты, проверить дрейф в данных
Настроить и протестировать модель (кстати, использовать можно совершенно любую! но если она будет совместима со sklearn, методы библиотеки сработают "из коробки")

Быстрые ссылки:
❤️ Репозиторий на GitHub
❤️ Документация с инструкциями оформления кода для различных задач
❤️ Краткое описание на pypi (здесь можно найти много быстрых ссылок на примеры, частые вопросы и научные статьи)

Всем хорошего вечера и данных❤️

#аналитика@data_easy
#classic_ml@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍5🔥4😍3
Head_First_GIT.pdf
127.7 MB
Какой инструмент объединяет всех программистов?👀
С помощью него мы можем создавать большие проекты, удобно работать в команде, версионировать код…

Конечно, это git (не путать с GitHub:))
И помимо git + {add, commit -m “:)”, push} у него есть ещё масса полезных свойств, которые подробно описаны на 466 страницах книги Р. Ганди.
Здесь вы найдёте всё про основы Git, свойства ветвлений, слияние, коммиты, устройство репозитория, отмену действий и исправление ошибок🐈
Также в отдельном разделе рассказывается про командную работу, методы и советы по эффективной организации взаимодействия.

Всем слияний без конфликтов👨‍💻

#mlops@data_easy
#лайфхаки@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
👍105🔥3🐳1🤪1
Replit.pdf
2.5 MB
Поздравляю всех программистов! Нейросети добрались и до нас 🚀
Наверняка, многие уже пробовали попросить ChatGPT написать какой-то код? Мне он выдавал действительно рабочие варианты далеко не всегда:)
Теперь есть полноценная онлайн-среда разработки Replit (правда, она была ей и до этого), но недавно в неё добавилась функция "Code with AI" - генерация кода по запросу. От обычного ChatGPT она отличается тем, что эта модель обучена конкретно под кодинг - соответственно, работает она гораздо лучше (смогла решить задачу с leetcode medium верно с первой попытки)

Так что, у StackOverflow появился конкурент🙃 Инструкцию по первому запуску как всегда держите в pdf🤖

Приятной работы🤗

#полезный_ии@data_easy
🔥206👍2🤯1