Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.24K photos
111 videos
64 files
4.64K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
加入频道
Хардкорный курс по математике для тех, кто правда любит математику!

Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/584771bd

Что вас ждет:

– Вводный урок от CPO курса

– Лекции с преподавателями ВМК МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск

– Практические задания для закрепления материала и ссылки на дополнительные материалы.

⚡️ Переходите и начинайте учиться уже сегодня – https://proglib.io/w/584771bd
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1
✍️ Гайд по Self-Supervised Learning

В отличие от обучения с учителем (supervised learning), которое требует наличия размеченных данных, self-supervised learning позволяет использовать огромные объёмы неразмеченных данных.

Этот документ представляет подробное руководство по этому типу обучения:

▪️рассказывает о различных методах и подходах;
▪️включает практические советы по настройке гиперпараметров, выбору архитектур и оптимизаторов;
▪️рассказывает о применении self-supervised learning к различным типам данных, в том числе видео, аудио и временным рядам.

🔗 Ссылка на гайд
👍4👾2
Свежий #дайджест по Data Science и машинному обучению

✍️ Простые способы ускорения обучения PyTorch-моделей
В новой статье на «Хабре» рассказывается о контейнеризации, профилировщике PyTorch, распределителе памяти, оптимизации обучения в системах с несколькими GPU и с избыточностью данных и др.

✍️ Руководство по разработке приложений с использованием LLM
Это хороший пост, объясняющий как запускать локальные LLM, а также раскрывающий все сопутствующие термины.

✍️ Как делать аннотации к графикам с помощью Matplotlib и Python
Короткая статья для новичков.

✍️ Большое тестирование видеокарт для машинного обучения
Новая статья на «Хабре» посвящена тестированию видеокарт для задач машинного обучения. Автор рассматривает различные видеокарты, их производительность, стоимость и эффективность в задачах обучения и инференса.

✍️ Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art LLM
В этой статье авторы рассказали, что LLM не способны решить простую загадку.
🤩1
🐍🏗️ Основы архитектуры для джунов: построение масштабируемых и чистых приложений на Python

Когда речь идёт о создании масштабируемых и поддерживаемых приложений, понимание таких важных понятий, как принципы чистого кода, архитектурные паттерны и SOLID практики проектирования, имеет решающее значение. Они позволяют сохранить ясность кодовой базы и возможность её сопровождения по мере роста проектов.

О том, как реализовать эти принципы в Python, читайте в нашей новой статье.

🔗 Ссылка на статью
🔗 Зеркало
👍31👏1
🐍 Вопросы по Python с собеседований на ML-специалиста

Этот GitHub-репозиторий включает 15 вопросов с упором на темы в Python, касающиеся анализа данных и машинного обучения. Вот некоторые:

▪️Как Python управляет памятью?
▪️Что такое декораторы? Приведите пример?
▪️Назовите Python-библиотеки, наиболее используемые в машинном обучении.
▪️Расскажите подробнее про NumPy.
▪️Дайте краткий обзор Pandas.

🔗 Ссылка на репозиторий
🤩5👍31
13 ресурсов, чтобы выучить математику

Некоторые разработчики утверждают, что математика не обязательна, в то время как другие считают, что без её фундаментальных знаний невозможно стать программистом. Если вас мучает ее математическое незнание, то скорее читайте нашу статью.

🔗 Статья

Чтобы лучше разбираться в математике, прикрепляем наш курс:
🔵 Математика для Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
3
✍️ Что вы знаете про N-грамные языковые модели?

N-грам (n-gram) языковые модели — это статистические модели, которые предсказывают следующее слово после N-1 слов, основываясь на вероятности их сочетания. Сам по себе N-gram представляет собой последовательность из определённого количества слов. Например, если речь идёт о двух словах, то мы использует биграмы. В такой модели вероятность каждого слова зависит только от предыдущего слова.

Эти модели часто используются в задачах обработки естественного языка (NLP), в том числе в автозаполнении текста, проверке орфографии, машинном переводе. Чем больше значение N, тем точнее модель может предсказывать контекст, но при этом растут вычислительные затраты и требуется больше данных для обучения.

#вопросы_с_собеседований
👍101
Forwarded from Библиотека программиста | программирование, кодинг, разработка
😌 5 техник для снятия стресса на работе

Чувствуете, что стресс мешает вашему рабочему процессу? Не отчаивайтесь! Мы подготовили для вас пять простых и доступных техник, которые помогут справиться с ним.

🔗 Читать статью
🔗 Зеркало
👍8
🚀 Вышел NumPy 2.0.0

Это первый значительный релиз библиотеки с 2006 года. Из главных новведений:

▫️оптимизации производительности,
▫️изменения в ABI, Python API и C-API, нарушающие обратную совместимость,
▫️введено сохранение точности скалярных выражений, например, np.float32(3) + 3 теперь вернёт значение с типом float32, а не float64. Если же в выражении несколько типов, то для результата будет использован тип с наивысшей точностью. Так np.array([3], dtype=np.float32) + np.float64(3) вернёт значение с типом float64.

🔗 Подробности по этой ссылке
🔥12😁4👍3
✍️ Метрики оценки качества моделей и анализ ошибок в машинном обучении. Подробное руководство

Эту статью на «Хабре» можно использовать в качестве шпаргалки по метрикам. Охватывает:

▫️bias-variance decomposition для анализа ошибок моделей.
▫️точность, precision, recall, F1-score.
▫️ROC-AUC.

🔗 Ссылка на статью
🎉8
🗣️ «Иногда решение не в изменении системы, а в изменении отношения заказчика». Интервью с системным аналитиком

Системный аналитик Ярослав Атрохов рассказал нам об особенностях работы с заказчиками, многозадачности, сложностях профессии и важности команды.

Обновлённую статью можно прочесть по этой ссылке👈
1
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
📊«Мои мысли о Python in Excel»

На «Хабре» опубликовали перевод поста автора книги O’Reilly Python for Excel. Он протестировал Python in Excel — новую функцию Microsoft, которая позволяет писать Python-код прямо в Excel.

Вот вкратце выводы разработчика:

▪️С новой функцией мы получили альтернативу языку формул Excel;
▪️Интеграция ячеек ноутбуков Jupyter внутри сетки Excel была ошибочным решением;
▪️Python in Excel не подходит ни для новичков в Python, ни для интерактивного анализа данных;
▪️На данный момент у функции слишком много ограничений (невозможно использовать собственные пакеты и нельзя подключаться к веб-API);

🔗 Читать статью целиком
5👍2
👪 Истоки линейной регрессии и загадка её названия

Линейную регрессию принято изучать одной из первых, когда речь заходит про машинное обучение. Однако эта модель полностью статистическая и появилась в науке давным-давно. 

🔹Регрессия пришла к нам из работ Сэра Фрэнсиса Гальтона, английского исследователя (а ещё основоположника учения евгеники), жившего в 19 веке. В ходе изысканий он обнаружил следующий феномен: «размер потомков не стремится к размеру родительских особей; он всегда стремится к среднему значению — становится меньше, если родители были большими, и больше, если родители были очень маленькими». 

Сначала Гальтон назвал это явление реверсией. Однако вскоре стало ясно, что происходит нечто иное, чем однонаправленный генетический процесс. Гальтон проанализировал взаимосвязь роста 930 детей со средним ростом их родителей и пришёл к выводу, что средний рост для тех и для других равен примерно 68,2 дюймам (173 см). Затем он рассмотрел ситуацию, в которой средний рост родителей находился в промежутке от 70 до 71 дюйма, а значит рост их детей соответствовал приблизительно 69,5 дюймам. Это означало, что рост детей отличался от среднего роста всех детей на меньшую величину, чем рост их родителей от среднего роста всех родителей. То есть происходила регрессия показателя. Отсюда, собственно, и пошёл известный нам термин.
👏16🔥5🥰21
👾 Сооснователь OpenAI запустил новую компанию — Safe Superintelligence Inc. (SSI)

Об этом Илья Суцкевер сообщил в X. В программном заявлении компании говорится, что «создание безопасного сверхинтеллекта — важнейшая техническая задача современности». И именно этим займутся в SSI.

Компания открыла офисы в Пало-Альто (Калифорния, США) и Тель-Авиве (Израиль). Сейчас она находится в поиске талантов.
🌚7
🚀 Meta* выпустила сразу 4 новых модели и датасет

Команда Meta Fundamental AI Research (FAIR) решила поделиться нескольими своими проектами. Все они доступны любому желающему.

🔹Meta Chameleon
Это семейство мультимодальных больших языковых моделей (LLM).

🔹Multi-Token Prediction
Модель, способная предсказывать сразу несколько токенов за раз.

🔹JASCO
Модель для генерации аудио. Может принимать на вход аккорды, ритмы и др.

🔹AudioSeal
Модель для добавления водяных знаков на сгенерированный аудиоконтент.

🔹PRISM
Датасет, содержащий предпочтения людей и их отзывы на беседы с 21 разными LLM.

🔗 Прочесть обо всё подробнее можно здесь

*организация, деятельность которой запрещена на территории РФ
4👍1
🚩🚩🚩 Что для вас красные флаги во время интервью/собеседования? Иными словами, какие вещи могут оттолкнуть вас от работодателя?

👇Пишите в комментариях👇

#интерактив
Forwarded from Библиотека программиста | программирование, кодинг, разработка
❤️🙏 Помните историю автора «Библиотеки программиста» Станислав Герасимов? Станислав — инвалид с детства. В статье он рассказывал, как получил диплом и строит карьеру в IT.

❗️ В обновленной статье читайте продолжение его истории. И самое главное: очень скоро он отправляется на операцию и ему нужна ваша помощь.
🙏5😁2🔥1
🤼‍♀️ «Я тебя с вертухи сломаю, если ещё раз заговоришь об ИИ»

Бывалый дата-сайентист поделился своим разочарованием от того, как сейчас обстоят дела в этой сфере.

Поэтому с глубочайшим сожалением должен объявить, что следующий человек, который начнёт говорить мне о реализации ИИ, получит от меня сеанс живительных процедур над позвоночником; иными словами, я сломаю ему нафиг шею.


Автор считает, что:
▪️в сфере много мошенничества;
▪️многие люди слишком сильно верят в ИИ и не понимают, как он работает;
▪️вокруг ИИ много хайпа.

👉 В подробностях можно прочитать в переводе поста на «Хабре»
🔗 Ссылка на оригинал
🌚8😁5👍3