Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.24K photos
111 videos
64 files
4.64K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
加入频道
Forwarded from Библиотека программиста | программирование, кодинг, разработка
🐱🎨🙏🤖 10 самых странных языков программирования, о которых вы никогда не слышали

Эзотерические языки разрабатывают в концептуальных, экспериментальных и развлекательных целях. Их общая черта — максимально запутанный и странный синтаксис, понятный только посвященным. В этой подборке — языки, которые выбрали бы Ходор, доктор Лектер, Малевич, Джеймс Бонд, Терминатор и Луи Армстронг, если бы решили войти в айти.

👉 Читать статью
👉 Зеркало
👍211🔥1😁1
🦾🤖 Подборка бесплатных курсов по Machine Learning и Data Science

На днях Microsoft выпустила новый бесплатный курс по генеративным моделям для начинающих. Курс рассказывает базовые принципы работы с большими языковыми моделями и ИИ-агентами. Мы решили добавить ещё несколько курсов, которые помогут погрузиться в отрасль.

🔹 Machine Learning for Beginners — A Curriculum
Ещё один курс от Microsoft. Включает 26 уроков и 52 упражнения. Покрывает такие темы, как построение регрессионных моделей, обработка данных, методы кластеризации, введение в обработку естественного языка.
🔹Data Science for Beginners — A Curriculum
Не можем не добавить в подборку дополнительный курс от Microsoft для тех, кто хочет быть дата-сайентистом, а не ML-инженером. Этот курс рассказывает об SQL, библиотеках для анализа и визуализации данных, деплое и эксплуатации моделей.
🔹Открытый курс по машинному обучению
Создан сообществом OpenDataScience. Охватывает основные темы: от анализа датасета до различных ML-алгоритмов.
🔹Курсы на Kaggle
Это, своего рода, классика. Рекомендуем ознакомиться тем, кто ещё этого не сделал.
🔥73👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 OpenAI будет разрабатывать модели для роботов

На днях компания объявила о коллаборации со стартапом Figure, который создаёт человекоподобных роботов. Стартап заинтересован в том, чтобы научить своих роботов навыкам понимания языка и рассуждений.

Коллаборация с OpenAI — это не единственное, чего добился Figure в последнее время. Также он привлёк финансирование от Microsoft, NVIDIA, Джеффа Безоса и многих других.
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍53
🧮📐 15 гениев, которые изменили мир математики навсегда

В нашей новой статье читайте о том, как 15 величайших математических умов в истории, от древнегреческого гения Фалеса до современного революционера Мандельброта, своими открытиями в алгебре, геометрии, теории чисел и других областях навсегда изменили облик математики и мира.

🔗 Читать статью
🔗 Зеркало
👍10🎉52🔥2👏2
🎨 Почему Илон Маск подал в суд на OpenAI

В пятницу стало известно, что предприниматель решил судиться со стартапом, стоящим за ChatGPT. Маск утверждает, что OpenAI предал собственную миссию — работать во благо людей, а не ради собственного заработка.

По словам Илона, Сэм Альтман и Грег Брокман обратились. к нему в 2015 году с предложением создать открытую некоммерческую компанию. Однако сейчас, по мнению Маска, стартап полностью сосредоточен лишь на заработке денег.

Представители OpenAI отвергают все обвинения, а некоторые и вовсе говорят, что Илон просто расстроен своим неучастием в делах компании сейчас.

👀 Стоит отметить, что Маск — соучредитель OpenAI, но покинул совет директоров компании в 2018 году. Недавно предприниматель основал собственный ИИ-стартап xAI.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔53👍2😁1
Вам дали список чисел. Напишите функцию, которая вернёт выбросы

Выброс — это результат измерения, выделяющийся из общей выборки. Простейшие способы определения выбросов основаны на манипуляциях с межквартильным расстоянием. Рассмотрим такой алгоритм:

✔️ Вычислим квартили.
Так мы получим Q1 (первый квартиль) и Q3 (третий квартиль). Тогда IQR — это размах между первым и третьим квартилями (Q3 - Q1).
✔️ Определим выбросы.
Как правило, выбросами считаются точки данных, которые находятся ниже Q1 - 1.5 * IQR или выше Q3 + 1.5 * IQR.

Вот пример функции, реализующей такой алгоритм:
import numpy as np

def find_outliers(data):
sorted_data = sorted(data)

Q1 = np.percentile(sorted_data, 25)
Q3 = np.percentile(sorted_data, 75)

IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers = [x for x in sorted_data if x < lower_bound or x > upper_bound]

return outliers


#вопросы_с_собеседований
Please open Telegram to view this post
VIEW IN TELEGRAM
23👍14🔥41
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
👍1
🚀 GPTFast — библиотека для ускорения работы с моделями Transformers в 6-7 раз

Как поясняют авторы проекта, GPTFast изначально был набором методик, разработанных PyTorch Team, для ускорения инференса Llama-2-7b. Эти методики обобщили на другие модели Hugging Face.

Для того, чтобы начать работу с GPTFast, нужно:
▫️убедиться, что вы используете версию Python 3.10 или выше,
▫️ вы на устройстве Cuda,
▫️ вы настроили виртуальное окружение,
▫️ вы установили библиотеку — pip install gptfast.

🔗 Подробности — в репозитории проекта
7👍1
Обучение нейросети YandexGPT пересказу видео

На Хабре поделились рассказом, как Яндекс реализовал пересказ видео любой длины в Браузере.

В статье рассказали:
◾️ Почему для суммаризации видео не подошла дообученная статейная модель YandexGPT,
◾️ Про достоинства и недостатки подходов LoRa и Fine-tune,
◾️ С какими сложностями столкнулись при обработке длинных видео и как нашли решение.

🔗 Ссылка
🔥62
🧠 Знания — сила! Что должен изучить каждый программист?

Мы запускаем опрос среди наших читателей, чтобы выяснить, какие ключевые компетенции необходимо развивать программисту на текущий момент. Какие направления стоит изучать в первую очередь? Уровень каких знаний влияет на зарплату в отрасли?

Мы проанализируем ваши ответы и составим ТОП-лист навыков, которые не помешает освоить каждому программисту и разработчику для успешного карьерного роста!

👉 Пройти опрос
🧠 Лучше GPT-4? Представлено новое поколение моделей Claude

Компания Anthropic выпустила линейку моделей Claude 3: Claude 3 Haiku, Claude 3 Sonnet и Claude 3 Opus. Opus и Sonnet уже доступны для использования на сайте claude.ai и через Claude API. Haiku добавят чуть позже.

Разработчики утверждают, что лучшая модель Opus превосходит другие LLM в ряде задач и демонстрирует почти человеческий уровень понимания и скорости в сложных задачах. Кроме того, модели Claude 3 могут обрабатывать картинки и графики.

▶️ Напомним, что компанию Anthropic основали бывшие сотрудники OpenAI. Пока неясно, каковы реальные возможности Claude 3. Модели следует тестировать.

🔗 Попробовать модели можно здесь
7👍1
💬📊 Какую библиотеку для построения графиков вы используете чаще всего?

❤️ — Matplotlib
👍 — Seaborn
🔥 — Plotly
👾 — ggplot2

#интерактив
98👍57🔥27👾72😁1🤩1
Хардкорный курс по математике для тех, кто правда любит математику!

Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/100f1763

Что вас ждет:

– Вводный урок от CPO курса

– Лекции с преподавателями ВМК МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск

– Практические задания для закрепления материала и ссылки на дополнительные материалы.

⚡️ Переходите и начинайте учиться уже сегодня – https://proglib.io/w/100f1763
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
👓 Анализ более 300 соревнований по ML: что люди используют для победы

Реддитор создал сайт со списком соревнований по машинному обучению, собранных с разных платформ, и провёл детальный анализ тех, что проводились в 2023 году. Вот основные выводы автора:

🐍 Большинство победителей соревований использовали Python. Лишь один написал код на C++ для решения оптимизационной проблемы, а другой — на R для анализа временных рядов.
🦾 92% решений по глубокому обучению были написаны на PyTorch. TensorFlow использовали только 8% участников. Около 20% победителей соревнований, применивших PyTorch, выбрали PyTorch Lightning.
👀 В соревнованиях по компьютерному зрению модели на базе CNN (свёрточных нейронок) побеждали чаще, чем модели на базе Transformer.
👅 Люди начали активно использовать генеративные LLM. Их применяют для создания синтетических обучающих данных, классификации и др.
🏆 Одними из самых популярных алгоритмов по-прежнему остаются LightGBM, XGBoost, и CatBoost.
👍22❤‍🔥8🥱42👏2