Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.24K photos
111 videos
64 files
4.64K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
加入频道
🤖 Стартап Илона Маска x.ai опубликовал исходный код Grok-1

Разработчики выложили в открытый доступ веса и архитектуру большой языковой модели Grok-1. Это версия, полученная на фазе предобучения, которая была завершена в октябре 2023 года. Это значит, что данная модель не была тонко настроена ни под какую специфическую задачу, в том числе диалог.

Итак, вот особенности Grok-1:
🔹Содержит 314 млрд параметров.
🔹Использует технику Mixture-of-Experts.
🔹Для обучения использовали кастомный стек на основе JAX и Rust.

🔗 Изучить код внимательнее можно в этом репозитории
🤗 Карточка модели на Hugging Face

👉Подробности и контекст
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥2👍1
🌲Выжимаем из Random Forest максимум: увеличиваем полноту при 100% точности

Автор новой статьи на Хабре описывает любопытный способ добиться увеличения точности и сохранения полноты моделей Random Forest. Предложенная им методика заключается в обрезке деревьев решений до наиболее эффективных ветвей.

Шаги алгоритма такие:
▪️Выбираются ветви деревьев, где преобладает целевой класс.
▪️Их эффективность проверяется на новых данных.
▪️Отобранные ветви применяются для классификации новых объектов.

🔗 Читать статью полностью
🔥5🤩2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
📊 Основные типы распределений вероятностей в примерах

На «Хабре» опубликовали отличный материал с примерами распределений, которые могут встретиться вам в работе. Упор в статье делается не на функции и формулы, а на вид графиков на конкретных примерах.

Среди рассмотренных распределений:
▫️биномиальное,
▫️Пуассона,
▫️экспоненциальное,
▫️Вейбулла,
▫️гамма-распределение,
▫️бета-распределение,
▫️гипергеометрическое,
▫️нормальное,
▫️Стьюдента,
▫️Хи-квадрат,
▫️Фишера.

🔗 Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍4
This media is not supported in your browser
VIEW IN TELEGRAM
☄️ Подборка новостей из мира искусственного интеллекта

🔥 NVIDIA представила мощнейшний чип для ИИ — Blackwell
По заверениям компании, процессор позволяет строить и запускать генеративные модели с триллионами параметров. При этом чип потребляет в 25 раз меньше энергии, чем его предшественники. NVIDIA также привела результаты тренировки модели, сравнимой с GPT-4. Так, раньше требовалось 8000 процессоров H100 и 90 дней при мощности 15MW. Теперь нужны лишь 2000 новых карт B100 и 90 дней при мощности 4MW.

🔄 Ollama стала поддерживать графические карты AMD
Ollama — это открытый проект, который позволяет запускать большие языковые модели, такие как Llama 2 и Mistral, локально. Обновление с поддержкой AMD доступно на Linux и Windows.

🆒 Представлен Devin — «первый ИИ-разработчик»
Авторы проекта утверждают, что он установил новую планку в бенчмарках по кодингу. Вот что Devin может делать:
▫️Учиться применять незнакомые ему технологии;
▫️Построить и внедрить приложение от начала до конца;
▫️Автономно находить и исправлять баги;
▫️Обучать и файн-тюнить собственные ИИ-модели.
В интернете уже полно шуток про то, что Devin наконец заменит программистов, как все того ждали. Однако, похоже, что всерьёз бояться не стоит.

😈 Figure и OpenAI показали робота с интегрированной GPT-моделью
В опубликованном видео робот Figure 01 поддерживает разговор с инженером, выполняет его команды и рассуждает, когда его просят об этом.

🤗 Hugging Face запустил собственный проект по роботам
Обещают, что он будет по-настоящему открытым. Уже начался поиск инженеров на проект.
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍1
👀 Подробная статья о квантизации нейросетевых моделей от ML-разработчика Яндекса

Квантизация – это переход от типа данных с большим числом бит, например, float32 к типу с меньшим числом, такому как int8. Квантизованные модели требуют меньше вычислительных ресурсов и работают быстрее, а значит, экономят деньги и улучшают пользовательский опыт. Автор статьи рассказал о методах квантизации, с какими данными предстоит работать и подсказал, в какой момент лучше квантизовать модель.

🔗 Подробнее
👍6😁1
🐍 Итоги недели в мире Python и обзоры новых инструментов

У нас есть еженедельная рассылка о последних открытиях и тенденциях в мире Python. Мы опубликовали новый выпуск на 📰.

Ниже — небольшая часть выпуска, а целиком читайте здесь 👈

😏 Мнение: пора переключаться с бэкенда на ИИ

Общемировой тренд — увеличение спроса на ИИ-разработчиков. И у Python-специалистов есть огромное преимущество — они без особых усилий могут переключиться с бэкенда на машинное обучение. Автор этой публикации рассказал, с чего проще всего начать — с изучения супервостребованной RAG-технологии.

🎩 Hatchet — эффективная альтернатива Celery

Hatchet — это новая система распределения задач для управления сложными процессами. Она позволяет создавать отказоустойчивые процессы, решающие проблемы параллелизма, справедливости распределения задач и ограничения скорости обработки. Обо всех преимуществах Hatchet читайте в рассылке.

🌐 Niquests — продвинутая альтернатива Requests

Новая библиотека лишена некоторых недостатков старой, а также имеет дополнительные фичи. Какие — подробно рассказываем в статье на vc.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Forwarded from Библиотека программиста | программирование, кодинг, разработка
🆕 Nvidia и гуманоидные роботы: новая эра искусственного интеллекта

Nvidia представила Project GR00T — платформу искусственного интеллекта для гуманоидных роботов — и анонсировала новый компьютер Jetson Thor для работы с генеративными ИИ.

🔗Подробнее
🔥4
🐍 Задача про умножение матриц

Условие: Вам даны две матрицы, нужно написать функцию для их умножения. Матрицы могут быть квадратными или прямоугольными.

Решение: Напишем решение на чистом Python
def matrix_multiply(A, B):
# Сначала проверим, можем ли мы вообще перемножить эти матрицы
if len(A[0]) != len(B):
raise ValueError("Number of A columns must equal number of B rows.")

# Инициализируем результирующую матрицу, заполненную нулями
result = [[0 for _ in range(len(B[0]))] for _ in range(len(A))]

# Перемножим матрицы
for i in range(len(A)):
for j in range(len(B[0])):
for k in range(len(B)):
result[i][j] += A[i][k] * B[k][j]

return result

# Проверим функцию на примере
A = [[1, 2, 3],
[4, 5, 6]]

B = [[7, 8],
[9, 10],
[11, 12]]

result = matrix_multiply(A, B)
for row in result:
print(row)


#программирование
#линейная_алгебра
👍14😁53🥱1
👨‍💼👩‍💼👨‍🎤Как делить пользователей на группы в АБ-тестах: ошибки и рекомендации

Автор статьи на «Хабре» описывает подходы к делению выборки для АБ-тестирования. Он описывает разные методы с их плюсами и минусами:

▪️случайное присвоение пользователям значения группы;
▪️применение псевдослучайных хэш-функций.

🔗 Читать статью
👍53
🧠🤖 Как создать память для вашего чат-бота на Python с
помощью графов знаний


Хотите, чтобы ваш чат-бот давал более точные и релевантные ответы, избегая «галлюцинаций»? Графы знаний в помощь!

В статье и туториале разбираем, что такое графы и как создать память на примере данных из Википедии.

🔗 Читать статью
🔗 Зеркало
👍83🥰21
This media is not supported in your browser
VIEW IN TELEGRAM
🐍🎩 Hatchet: новый король распределения задач, который затмит Celery

Ваша система распределения задач тормозит проект? Пора переходить на Hatchet! Этот инновационный менеджер очередей решает проблемы, с которыми не справляются устаревшие инструменты.

Hatchet позволяет создавать отказоустойчивые процессы, решающие проблемы параллелизма, справедливости распределения задач и ограничения скорости обработки.

👉Обо всех преимуществах Hatchet рассказали в статье👈
🔗 Зеркало
🤩75👾1
🆕 Вышел первый международный рейтинг Global Generative AI Landscape 2024 с ведущими мировыми ИИ-разработками

Туда попали две российские нейросети — текстовая YandexGPT и мультимодальная YandexART. Сообщество дата-саентистов, ML-экспертов и энтузиастов в сфере ИИ AIPort провели исследование по 62 странам, которые больше всего инвестируют в развитие ИИ (согласно глобальному индексу искусственного интеллекта Tortoise).

Яндекс также стал одной из 11 компаний со всего мира, разрабатывающих более одного типа GenAI-моделей. В этом списке такие компании, как Open AI, Google, Microsoft, Meta.

👉 Читать статью
👍6🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
🎮👾 Подборка материалов по машинному обучению для игр

🎓 Machine Learning for Games Course
На Hugging Face недавно запустили вводный курс по использованию ML в играх. Уроки выходят постепенно, на данный момент доступна первая часть. Следите за расписанием курса.

😺 NVIDIA показала демо-версию детективной игры Covert Protocol на базе Inworld AI
Видео мы прикрепили к посту. Демо показывает, как ИИ-инструменты позволяют NPC адаптироваться к действиям игрока и выдавать реплики в зависимости от контекста. NVIDIA пообещала опубликовать исходный код Covert Protocol в ближайшее время.

📖 Google DeepMind создал новый ИИ, способный неплохо играть в компьютерные игры. На что он способен?
Статья на «Хабре», разбирающая агента SIMA для игр.

👀 Code Bullet
Это YouTube-канал со множеством забавных видео, в которых автор пытается использовать разные ML-алгоритмы в играх. Залипнуть можно надолго.
👍84
Forwarded from Библиотека программиста | программирование, кодинг, разработка
📈 По просьбе подписчиков «Библиотеки программиста» мы провели опрос и выяснили, что у большинства айтишников зарплата в 2023 году выросла.

⚡️ Как выглядит доход среднего айтишника и какие факторы окажут влияние на динамику ИТ-зарплат в 2024 году — расскажем в статье на VC.

👉 Читать

P. S. Свои предложения для исследований пишите в комменты👇
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
⚡️Proglib запускает канал про ИИ-помощников

Будем максимально подробно рассказывать про все существующие нейросети-помощники, которые генерируют текст или код — с пошаговыми инструкциями, промтами, инструментами и лайфхаками.

⭐️ChatGPT
⭐️Gemini
⭐️Claude
⭐️Bing
И другие!

👉Подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
📈 Гайд по предварительной обработке данных для машинного обучения

На «Хабре» опубликовали большую статью с описанием процесса предобработки данных перед кластеризацией.

Рассматриваются такие темы:
▪️Выявление и обработка аномальных наблюдений;
▪️Анализ и исключение дубликатов;
▪️Анализ и обработка пропусков.

🔗 Читать статью со всем подробностями
8🔥4👍2🥱1
🧠 Бесплатные курсы по ИИ от NVIDIA

▪️Generative AI Explained
Это вводный курс длительностью 2 часа, который объясняет, как работают генеративные модели.
▪️Building A Brain in 10 Minutes
Совсем короткий урок, рассказывающий о том, как устройство биологического мозга вдохновило исследователей на создание нейросетей.
▪️Augment your LLM Using Retrieval Augmented Generation
Объясняет, что такое Retrieval Augmented Generation (RAG).
▪️Accelerate Data Science Workflows with Zero Code Changes
Курс продолжительностью один час рассказывает о том, как ускорить обработку данных и ML-workflows с помощью GPU.
▪️Building RAG Agents with LLMs
Самый долгий курс из списка — рассчитан на 8 часов. Расскажет про LLM-агентов, векторные базы данных и LangChain.
🔥10👍5
Какие допущения есть у линейной регрессии?

Линейная регрессия — это, в сущности, статистический метод, который позволяет описать связь между переменными. Этот метод валиден, если выполняются четыре предположения:

1️⃣ Между независимой переменной x и зависимой переменной y существует линейная зависимость.
2️⃣ Между последовательными остатками (или разницей между фактическими и предсказанными значениями) нет корреляции. Это чаще всего случается в данных временных рядов.
3️⃣ Должна соблюдаться гомоскедастичность. То есть дисперсия остатков обязана быть одинаковой. Иными словами, разность между реальным и предсказанным значениями, должна оставаться в определённом известном диапазоне.
4️⃣ Остатки должны быть нормально распределены.

#вопросы_с_собеседований
12👍2😁1