Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.23K photos
111 videos
64 files
4.64K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
加入频道
👀 Итоги недели в мире ИИ и обзоры новых сервисов: новый чип LPU от Groq в 12.5 раз быстрее GPU от NVIDIA

У нас вышла очередная статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬Новости

▫️ Выяснилось, что генерация одной минуты видео нашумевшей моделью Sora (OpenAI) занимает более одного часа.
▫️Компания Groq выпустила новый чип LPU (Language Processing Unit), который обеспечивает феноменально высокую скорость работы с большими языковыми моделями. Так, чат-бот Groq, работающий на собственном железе, генерирует в среднем 500 токенов в секунду, а ChatGPT-3.5 на GPU — не больше 40.
▫️ИИ-генератор кода, разрабатываемый стартапом Magic, теперь поддерживает контекст до 3,5 млн токенов и демонстрирует недоступный ранее уровень логики.

🛠 Инструменты

▫️Zenfetch Personal AI — создаёт ИИ-ассистента и личную интерактивную базу знаний на основе любого сохранённого из веба контента — статей, PDF-файлов, фото и YouTube-видео.
▫️AdGen — генератор рекламных креативов.
▫️Sheet Savvy AI — ассистент для работы с данными в таблицах Google Sheets.
▫️Swizzle — браузерный ИИ-конструктор фуллстек-приложений: сделает бэкенд, фронтенд, авторизацию и базу данных.

Сделай сам

Статья о том, как создать NotesGPT — веб-приложение для работы с голосовыми заметками и сделанными на их основе списками дел.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉53👍1
💬 А как вы относитесь к платным курсам по Data Science и Machine Learning?

Блогер опросил больше тысячи айтишников о том, как они попали в профессию. Платные курсы помогли только 10% респондентов (да, к выборке есть вопросы, и этот результат не отражает истину)


А проходили ли вы платные курсы? Нашли ли вы работу после этого? Делитесь в комментариях

❤️ — проходил платные курсы, они оказались мне полезны, у меня нет претензий
👾 — проходил платные курсы, в целом нормально, но цена кажется слишком высокой за такие материалы
🤔 — проходил платные курсы, они оказались совсем бесполезны
👍 — учился только по бесплатным материалам

#интерактив
👍4829👾27🤔5😁2
Forwarded from Библиотека программиста | программирование, кодинг, разработка
🐱🎨🙏🤖 10 самых странных языков программирования, о которых вы никогда не слышали

Эзотерические языки разрабатывают в концептуальных, экспериментальных и развлекательных целях. Их общая черта — максимально запутанный и странный синтаксис, понятный только посвященным. В этой подборке — языки, которые выбрали бы Ходор, доктор Лектер, Малевич, Джеймс Бонд, Терминатор и Луи Армстронг, если бы решили войти в айти.

👉 Читать статью
👉 Зеркало
👍211🔥1😁1
🦾🤖 Подборка бесплатных курсов по Machine Learning и Data Science

На днях Microsoft выпустила новый бесплатный курс по генеративным моделям для начинающих. Курс рассказывает базовые принципы работы с большими языковыми моделями и ИИ-агентами. Мы решили добавить ещё несколько курсов, которые помогут погрузиться в отрасль.

🔹 Machine Learning for Beginners — A Curriculum
Ещё один курс от Microsoft. Включает 26 уроков и 52 упражнения. Покрывает такие темы, как построение регрессионных моделей, обработка данных, методы кластеризации, введение в обработку естественного языка.
🔹Data Science for Beginners — A Curriculum
Не можем не добавить в подборку дополнительный курс от Microsoft для тех, кто хочет быть дата-сайентистом, а не ML-инженером. Этот курс рассказывает об SQL, библиотеках для анализа и визуализации данных, деплое и эксплуатации моделей.
🔹Открытый курс по машинному обучению
Создан сообществом OpenDataScience. Охватывает основные темы: от анализа датасета до различных ML-алгоритмов.
🔹Курсы на Kaggle
Это, своего рода, классика. Рекомендуем ознакомиться тем, кто ещё этого не сделал.
🔥73👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 OpenAI будет разрабатывать модели для роботов

На днях компания объявила о коллаборации со стартапом Figure, который создаёт человекоподобных роботов. Стартап заинтересован в том, чтобы научить своих роботов навыкам понимания языка и рассуждений.

Коллаборация с OpenAI — это не единственное, чего добился Figure в последнее время. Также он привлёк финансирование от Microsoft, NVIDIA, Джеффа Безоса и многих других.
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍53
🧮📐 15 гениев, которые изменили мир математики навсегда

В нашей новой статье читайте о том, как 15 величайших математических умов в истории, от древнегреческого гения Фалеса до современного революционера Мандельброта, своими открытиями в алгебре, геометрии, теории чисел и других областях навсегда изменили облик математики и мира.

🔗 Читать статью
🔗 Зеркало
👍10🎉52🔥2👏2
🎨 Почему Илон Маск подал в суд на OpenAI

В пятницу стало известно, что предприниматель решил судиться со стартапом, стоящим за ChatGPT. Маск утверждает, что OpenAI предал собственную миссию — работать во благо людей, а не ради собственного заработка.

По словам Илона, Сэм Альтман и Грег Брокман обратились. к нему в 2015 году с предложением создать открытую некоммерческую компанию. Однако сейчас, по мнению Маска, стартап полностью сосредоточен лишь на заработке денег.

Представители OpenAI отвергают все обвинения, а некоторые и вовсе говорят, что Илон просто расстроен своим неучастием в делах компании сейчас.

👀 Стоит отметить, что Маск — соучредитель OpenAI, но покинул совет директоров компании в 2018 году. Недавно предприниматель основал собственный ИИ-стартап xAI.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔53👍2😁1
Вам дали список чисел. Напишите функцию, которая вернёт выбросы

Выброс — это результат измерения, выделяющийся из общей выборки. Простейшие способы определения выбросов основаны на манипуляциях с межквартильным расстоянием. Рассмотрим такой алгоритм:

✔️ Вычислим квартили.
Так мы получим Q1 (первый квартиль) и Q3 (третий квартиль). Тогда IQR — это размах между первым и третьим квартилями (Q3 - Q1).
✔️ Определим выбросы.
Как правило, выбросами считаются точки данных, которые находятся ниже Q1 - 1.5 * IQR или выше Q3 + 1.5 * IQR.

Вот пример функции, реализующей такой алгоритм:
import numpy as np

def find_outliers(data):
sorted_data = sorted(data)

Q1 = np.percentile(sorted_data, 25)
Q3 = np.percentile(sorted_data, 75)

IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers = [x for x in sorted_data if x < lower_bound or x > upper_bound]

return outliers


#вопросы_с_собеседований
Please open Telegram to view this post
VIEW IN TELEGRAM
23👍14🔥41
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
👍1
🚀 GPTFast — библиотека для ускорения работы с моделями Transformers в 6-7 раз

Как поясняют авторы проекта, GPTFast изначально был набором методик, разработанных PyTorch Team, для ускорения инференса Llama-2-7b. Эти методики обобщили на другие модели Hugging Face.

Для того, чтобы начать работу с GPTFast, нужно:
▫️убедиться, что вы используете версию Python 3.10 или выше,
▫️ вы на устройстве Cuda,
▫️ вы настроили виртуальное окружение,
▫️ вы установили библиотеку — pip install gptfast.

🔗 Подробности — в репозитории проекта
7👍1
Обучение нейросети YandexGPT пересказу видео

На Хабре поделились рассказом, как Яндекс реализовал пересказ видео любой длины в Браузере.

В статье рассказали:
◾️ Почему для суммаризации видео не подошла дообученная статейная модель YandexGPT,
◾️ Про достоинства и недостатки подходов LoRa и Fine-tune,
◾️ С какими сложностями столкнулись при обработке длинных видео и как нашли решение.

🔗 Ссылка
🔥62