Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.23K photos
111 videos
64 files
4.64K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
加入频道
❤️ Подборка лучших книг для дата сайентистов

Все эти книги доступны в нашем канале «Книги для дата сайентистов | Data Science».

▪️Communicating with Data (2023)
В книге рассказывается, как эффективно работать с данными, анализировать и визуализировать их.
▪️Data Science Bookcamp (2021)
Описывает пять DS-проектов. На их примере автор разбирает распространённые проблемы, такие как отсутствие данных, бардак в данных и плохой выбор алгоритма.
▪️Learning Data Science (2023)
Книга даёт фундаментальные навыки как в программировании, так и в статистике.
▪️R for Data Science (2023)
В книге объясняется, как работать с помощью R и RStudio, а также tidyverse — коллекции пакетов R.
▪️Data Science from Scratch: First Principles with Python, Second Edition (2019)
Содержит ускоренный курс по Python, основы линейной алгебры, статистики и теории вероятностей, а также основы машинного обучения.
👍15🔥5
🤖 Искусственный интеллект объяснит предсказания нейронной сети

Интерпретация результатов работы нейронных сетей — это нерешённая задача. И она становится всё труднее по мере того, как модели увеличиваются и усложняются.

👨‍⚕️Исследователи из MIT предложили новый подход, который использует ИИ-алгоритм для проведения экспериментов на других моделях и объяснения их поведения. Этот алгоритм они назвали «automated interpretability agent» (AIA). Он способен выдавать объяснения результатов работы других ИИ в нескольких формах: языковое описание того, что система делает и в каких местах она ошибается, а также код для воспроизведения поведения системы.

Новый подход также включает набор тестов FIND для оценки методов интерпретации.

📖Прочесть статью исследователей
👍7👾2🔥1
cheat_sheet_rag.pdf
11.3 MB
✏️ Шпаргалка по RAG (Retrieval-Augmented Generation)

RAG — это способ улучшить ответы большой языковой модели (LLM), предоставляя ей доступ к конкретным документам.

🦙 Шпаргалка от создателей LlamaIndex рассказывает, как устроен простейший RAG и какие существуют методы его улучшения.

🔗Ссылка на шпаргалку и статью
👍9
👨‍🎓 Очень много туториалов по машинному обучению на Python

На GitHub обнаружили репозиторий с инструкциями, охватывающими обширный список тем. На каждую тему есть Jupyter Notebook с кодом и подробными объяснениями.

Вот какие темы можно найти:
▪️глубокое обучение: разные виды нейронных сетей,
▪️развёртывание моделей,
▪️извлечение информации из дополнительных источников для LLM,
▪️временные ряды,
▪️A/B-тестирование,
▪️классический ML,
▪️большие данные,
▪️скрипты на Python.

🔗 Ссылка на репозиторий
👍157
✏️Что такое коэффициент детерминации в машинном обучении

Также известен как R-квадрат. Он измеряет долю дисперсии, объяснённую моделью, в общей дисперсии целевой переменной.

👉В контексте линейной регрессии, например, R-квадрат показывает, насколько хорошо линия регрессии аппроксимирует реальные точки данных.

Значение коэффициента детерминации варьируется от 0 до 1. Чем ближе к единице, тем лучше модель объясняет данные.

Стоит учитывать, что высокий R-квадрат не всегда означает, что модель будет хорошо работать на новых данных.

✔️ Пример расчёта коэффициента детерминации в scikit-learn:
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print(r2_score(y_true, y_pred)) # -> 0.948...
👍14🥱51🤔1
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
👍2
🧑‍💻 Особенности работы в айти: результаты опроса подписчиков

В декабре мы провели среди вас опрос, изучили результаты и сделали аналитическую статью на vc.ru.

Вот некоторые выводы:

🧔‍♂️ В основном наша аудитория состоит из мужчин — 92,1% опрошенных. Женщин, соответственно, всего 7,9%.
🐍 В ТОП-10 специальностей входят питонисты — их 12,4%. Дата-инженерами или дата-сайентистами себя назвали 3.7% респондентов.
👨‍🎓 25% аудитории — самоучки, у которых нет профильного образования, и они не заканчивали никаких платных курсов.
💲 У разработчиков с опытом менее года преобладают зарплаты до 90 000 рублей (88%). Если опыта 1-3 года, то доля получающих 150 000+ увеличивается до 53,6%.
💰 Опытные и образованные Python-разработчики (15,44%) также входят в шестёрку самых высокооплачиваемых специалистов.

🔗 Полный отчёт можно прочесть по этой ссылке

💬 Пишите, какие ещё подобные материалы вам было бы интересно почитать
👍3🔥2👾2😁1
🤖 Гайд: пишем Transformer с нуля

Отличный Jupyter-блокнот, в котором пошагово описан процесс создания собственной модели Transformer. Каждый кусок кода сопровождается подробным комментарием.

Автор начинает с предобработки текста и заканчивает полной сборкой работающей архитектуры. За основу он взял классическую статью Attention Is All You Need и видео Андрея Карпаты Let's build GPT: from scratch, in code, spelled out.

🔗 Ссылка на гайд
👍2431
😵‍💫 Чат-бот без галлюцинаций (ну, почти)

Команда Stanford's Open Virtual Assistant Lab создала WikiChat, который опирается на информацию из Wikipedia при генерации ответов. Это, по заверениям авторов, позволяет добиться 97.9% фактической точности при обсуждении свежих тем (на 55% лучше, чем у GPT-4.

Также благодаря дистилляции WikiChat получил значительный прирост в скорости работы.

👩‍💻 Репозиторий проекта на GitHub
💬 Онлайн-демо
📖 Исследовательская статья
👍103
☁️ Облачные среды для ML-разработки

🔵
Google Colaboratory
Скорее всего, вам известна эта платформа для выполнения кода Python в браузере. Бесплатная версия даёт доступ к GPU и TPU, но количество вычислительных единиц ограничено. Также недавно в Colab появился ИИ-помощник, что ускоряет написание кода.
- максимум 12 часов работы ноутбуков.
- около 80 ГБ дискового пространства.
Kaggle Notebooks
У Kaggle тоже есть своя бесплатная среда разработки. Предлагает:
- 12 часов работы для CPU- и GPU-сессий, а также 9 часов — для TPU-сессий.
- 20 ГБ дискового пространства.
- поддержка R.
🔵 Deepnote
Бесплатная версия поддерживает только до пяти проектов. Также можно опробовать Team-версию в течение двух недель.
- 5 ГБ RAM и 2vCPU для бесплатной версии.
- Поддержка Python, SQL и R.
- ИИ-помощник.
- Фишки для командной работы.
Amazon SageMaker
Можно попробовать бесплатно, но в этом случае доступ к GPU не предоставляется. Зато SageMaker позволяет создавать, обучать и развёртывать модели машинного обучения, используя блокноты, отладчики, конвейеры, MLOps и многое другое.
🔵 Yandex DataSphere
Это среда для ML-разработки полного цикла. В DataSphere можно не только проводить вычисления и обучать модели, но и запускать обученные модели в эксплуатацию. В качестве IDE предоставляет Jupyter Notebook. Для работы нужно подключить платёжный аккаунт.
9
💬 Сколько времени вы посвящаете самообразованию в области DS/ML?

👾 — стараюсь заниматься почти каждый день хотя бы час
🤩 — я сейчас в активной стадии обучения, уделяю этому по несколько часов в день
👍 — иногда (возможно, раз в две недели) узнаю что-то новое
🤔 — в основном работаю, на обучение времени не хватает
❤️ — свой вариант (делитесь в комментариях)

#интерактив
👾52🤔39🤩36👍312😁1
🎉 Python и неопытные программисты: наши лучшие статьи за 2023 год

За 2023 год «Библиотека программиста» опубликовала 227 статей, и Питон второй год подряд в ТОПе.

Вот 5 самых популярных материалов (сохраняй, если не читал):

🐛 9 признаков неопытного программиста
😢 Обратная сторона медали: 9 причин, почему тебе не нужно идти в IT
🚩 Кому не подходит работа в IT: 6 красных флагов
🐍📚 ТОП-15 книг по Python для начинающих и опытных разработчиков в 2023 году
🐍 Самоучитель по Python для начинающих. Часть 11: Функции с позиционными и именованными аргументами

Ещё больше итогов года, а также ссылки на «Самоучитель по Python для начинающих» здесь 👈
👍3😁3🥱1
Объясните, как работает градиентный бустинг?

Градиентный бустинг используется для задач как классификации, так и регрессии. Это алгоритм, который объединяет прогнозы слабых моделей для создания сильной модели.

Основные шаги градиентного бустинга:
👣 Инициализация слабой модели, например простого дерева решений.
👣 Вычисление ошибки, которую она допустила, то есть разницы между предсказанным и реальным целевым значением.
👣 Добавление новой слабой модели, которая будет учиться исправлять ошибку, совершённую предыдущей моделью.
👣 Итоговое объединение всех предсказаний.

✔️Вот простой пример: допустим, что предсказание первой модели на 5 больше настоящего значения. Если бы следующая новая модель выдавала ответ -5, то сумма ответов этих двух моделей оказалась бы идеальной.

Почему «градиентный»? Потому что каждая очередная модель в ансамбле обучается предсказывать отрицательный градиент (или антиградиент) функции потерь на основе предсказания предыдущей модели.

#вопросы_с_собеседований
👍15
🎨OpenAI запустила GPT Store

Два месяца назад компания провела презентацию, на которой анонсировала запуск площадки с кастомизированными чат-ботами. Вчера состоялся её официальный запуск. GPT Store стал доступен пользователям ChatGPT Plus, Team и Enterprise.

Сама OpenAI тоже представила кастомизированные боты. Среди них нам наиболее интересными показались следующие:
🧑‍💻 Code Tutor от Khan Academy — для улучшения навыков программирования
🔢 CK-12 Flexi — для изучения математики и науки

Вот ещё несколько полезных пользовательских GPT:
✏️ Math Solver — для пошагового решения математических задач
👩‍💻 Machine Learning — ассистент для изучения ML и DS

OpenAI обещает запустить монетизацию кастомизированных GPT в первом квартале года.

🔗 GPT Store
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍32🤩2😁1
🛠️ NumPy 2 на подходе: как сделать так, чтобы код не поломался

На 1 февраля 2024 года запланирован пре-релиз NumPy 2.0, а финальный релиз состоится ещё примерно через 6-8 недель. Стоит учитывать, что ваш код может перестать работать, если вы решите обновиться.

👉В статье автор рассказывает, почему именно могут произойти поломки, как избежать обновления до NumPy 2 и как проапгрейдить код для поддержки нового релиза.
👍6
💬 Представьте, что вы на собеседовании, и вам задают такой вопрос: «Как бы вы создали ленту с рекомендациями для сайта, которая предполагает взаимодействие пользователя с контентом?»

👇Делитесь в комментариях своими вариантами ответов
🤔6
Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы

#️⃣C#

Библиотека шарписта
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Библиотека Data Science — полезные статьи, новости и обучающие материалы
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие профильные каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика

💼Каналы с вакансиями

Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

🤖Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ
👍3🥱2🤔1