Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.23K photos
111 videos
64 files
4.64K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
加入频道
А расскажите, как у вас обстоят дела с Kaggle?

❤️ — я активный участник соревнований
👍 — иногда захожу в поисках чего-то интересного, беру датасеты оттуда
👾 — заходил только во время обучения/в самом начале карьерного пути
🎉 — вообще никогда этим не интересовался/не сталкивался

#интерактив
👍59👾51🎉113👏3🤔1🤯1🤩1
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
👍3👏1
Самый быстрый камбэк в истории — Альтмана вернули на пост CEO OpenAI

Об этом сообщил официальный аккаунт OpenAI в X. Также компания заявила об изменениях в составе совета директоров. В него войдут Брет Тейлор (председатель), Ларри Саммерс и Адам Д'Анджело. Соучредитель Грег Брокман тоже возвращается в компанию.

Сэм Альтман прокомментировал новость так:

Я люблю OpenAI, и всё, что я сделал за последние несколько дней, было ради того, чтобы сохранить эту команду и её миссию. Когда в воскресенье вечером я решил присоединиться к Microsoft, было ясно, что это лучший путь для меня и команды. C новым советом директоров и поддержкой Cатьи, я с нетерпением жду возвращения в OpenAI и продолжения нашего сильного партнёрства с Microsoft
😁15👍1🔥1👏1
Что такое метод главных компонент (Principal Component Analysis, PCA)

Метод используется для понижения размерности данных и выявления наиболее информативных признаков. Дело в том, что между признаками нередко может наблюдаться некоторая зависимость, тогда их можно скомбинировать и уменьшить избыточность данных.

Как использовать PCA:
🔸 Первым делом нужно стандартизировать данные, так как метод очень чувствителен к этому.
🔸 Далее нужно вычислить ковариационную матрицу по матрице признаков.
🔸 Затем следует найти собственные значения и собственные векторы получившейся матрицы. Вклад признака тем сильнее, чем больше соответствующее собственное число.
🔸 Сортируем и выбираем те собственные векторы, которые соответствуют наибольшему вкладу. Эти векторы определяют новые оси в пространстве признаков.

PCA реализован, например, в Scikit-learn. На картинке показано, как использовать метод на стандартном датасете Iris.
👍16🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Создатели Stable Diffusion представили свою первую опенсорсную модель для генерации видео

Stable Video Diffusion может быть легко адаптирована к различным задачам, включая генерацию нескольких ракурсов на базе одного изображения благодаря файн-тюнингу на соответствующем датасете.

Предварительная версия Stable Video Diffusion позволяет создавать короткие видеоролики на 14 и 25 кадров с частотой от 3 до 30 кадров в секунду. Утверждается, что новая модель превосходит другие системы для генерации роликов, например, Pika.

🧑‍💻 Код модели в репозитории на GitHub
🤗 Веса для локального запуска модели на Hugging Face
📃 Статья команды Stability AI
👍6🤯4🔥32👏2
Отличное визуальное руководство по NumPy

Также поможет уложить в голове матричные операции.

🔗 Смотреть полное руководство на сайте Solothought.com
👍10👏1
🔥 Это мы смотрим: Андрей Карпаты опубликовал лекцию «Введение в большие языковые модели»

Андрей Карпаты — один из ведущих специалистов OpenAI и экс-разработчик автопилота Tesla. Вчера на YouTube появилась его часовая лекция о том, как работают большие языковые модели (LLM), лежащие в основе нашумевших чат-ботов. Затрагиваются темы файн-тюнинга, улучшения моделей и их взлома. Всё должно быть понятно и новичку 👌

🕛 Некоторые тайм-коды:
00:11:22 Как работают LLM
00:25:43 Законы масштабирования LLM
00:33:32 Мультимодальность моделей
00:35:00 Про перспективы LLM
00:46:14 Про взломы

Также Карпаты опубликовал слайды презентации
👍96🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
🧠Полезные каналы по Data Science

Напоминаем про наши каналы по Data Science, в которых мы готовимся к собеседованиям проверяем себя на практических задачках — специально для специалистов по Data Science и тех, кто хочет ими стать👨‍🏫

Подписывайтесь:
👉Библиотека собеса по Data Science — тут мы готовимся к интервью
👉Библиотека задач по Data Science — тут решаем задачи, проходим тесты и изучаем код
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3😁21
🔢 Как научиться решать сложные задачи

Нам может не даваться решение сложных математических задач по многим причинам: от стереотипов до негативного школьного опыта. К счастью, это можно исправить. В карточках перечислили лучшие на наш взгляд книги, которые помогут понять, полюбить и подтянуть математику.

Ещё больше книг, а также курсы, игры, методики и приложения — в нашей статье 👈
🔥11👍1👏1
🤖📜 Искусственный интеллект: краткая история

Впервые люди задумались о мыслящих машинах ещё в античности — у древних греков, например, был миф о гигантском бронзовом автоматоне Талосе. Позднее философы и вовсе решили, что мышление — это механический процесс, а значит его можно имитировать.

Подробнее о том, как мы докатились до создания искусственного интеллекта, читайте в статье 👀
👍3🔥21
🧑‍💻 Библиотека Comgra для дебаггинга и анализа нейросетей, написанных на PyTorch

Comgra фиксирует внутренние процессы нейронной сети, визуализирует граф вычислений и предоставляет графический интерфейс для изучения различных частей сети. Библиотека позволяет проверять наличие выбросов, смотреть как отдельные точки данных, так и сводную статистику, сравнивать градиенты и многое другое.

Установка — pip install comgra

📖 Репозиторий Comgra на GitHub
👍13🔥3👏1
🔥 -50% на курс по математике + курс по machine learning в подарок

😲 В честь черной пятницы курс «Математика для Data Science» со скидкой 50%!

14 990 рублей 29 990 рублей до 30 ноября

🐣 На курсе вы получите все необходимые знания для старта карьеры в DS или аналитике.

Что еще вас ждет на курсе:

▪️ Полугодовая программа от преподавателей ВМК МГУ;

▪️ Бессрочный доступ ко всем материалам курса;

▪️ Развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.

🎁 Но это еще не все!

⚡️При покупке курса по математике, вы получите курс по machine learning в подарок!

👉 Переходите на сайт и изучайте подробности – https://proglib.io/w/053478fb

До встречи на обучении 🙌
👍2
🤖🔥 200 тысяч токенов для контекстного окна и экспериментальные возможности: представлен чат-бот Claude 2.1

Это один из главных конкурентов ChatGPT от компании Anthropic. Напомним, что у модели GPT-4 контекстное окно составляет 128 тысяч токенов, то есть намного меньше, чем у свежей Claude 2.1. Однако, следует отметить, что 200 тысяч токенов доступны только для платных подписчиков Claude Pro.

Помимо расширения контекстного окна, у модели Anthropic на 50% снижено количество искажений и ошибочных ответов.

🔑 API-ключ можно получить по заявке. В настоящее время есть лимит запросов для организаций — не более одного за раз. Но Anthropic пишет, что может обсудить расширение лимита с желающими.

Ещё одна из интересных особенностей Claude 2.1 — возможность искать дополнительную информацию в вебе или в ваших базах данных. Реализовать это можно также через API. Доступ к этим экспериментальным функциям тоже нужно запросить отдельно.

👩‍💻 Документация Claude 2.1
✏️ Подать заявку на ранний доступ к функциям API
👍5🔥4👏2