Machine learning Interview
24.3K subscribers
1.01K photos
65 videos
12 files
677 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
加入频道
🌐 Optuna — фреймворк для оптимизации гиперпараметров в ML. Этот Python-фреймворк использует алгоритмы вроде TPE и CMA-ES для эффективного поиска оптимальных значений, сокращая время экспериментов в разы.

Главная фишка — define-by-run API: пространство параметров описывается прямо в коде обучения, включая условные ветвления. Например, можно динамически выбирать между SVM и RandomForest, параллельно оптимизируя их гиперпараметры. Для визуализации есть Optuna Dashboard — веб-интерфейс с графиками важности параметров.

🤖 GitHub

@machinelearning_interview
🧠 7️⃣ лучших Python-фреймворков для создания AI-агентов

Агенты — это системы, которые используют LLM (Large Language Models) как движок рассуждений: они принимают решения, выбирают действия и обрабатывают их результаты, чтобы достичь цели. Сегодня вы можете собрать собственную мультиагентную систему всего за несколько минут, благодаря Python-фреймворкам нового поколения.

Ниже — 7 популярных фреймворков, которые помогут вам легко интегрировать LLM с внешними инструментами, API и данными.

🔹 1. LangChain
Один из самых популярных фреймворков для построения приложений с LLM. Предлагает модуль Agents для создания и тестирования агентов, а также множество интеграций с API и базами знаний.

- GitHub: https://github.com/langchain-ai/langchain

🔹 2. Microsoft AutoGen
Открытый фреймворк от Microsoft для построения мультиагентных систем с возможностью коллаборации и автоматического решения задач. Поддерживает динамические сценарии, натуральный язык и масштабируемость.

- GitHub: https://github.com/microsoft/autogen

🔹 3. CrewAI
Лёгкий и быстрый фреймворк, написанный с нуля, без зависимости от LangChain. Поддерживает абстракции «экипажей» (Crews) и «потоков» (Flows) для создания сложных, управляемых агентных сценариев.

- GitHub: https://github.com/joaomdmoura/crewAI

🔹 4. Haystack (от Deepset)
Фреймворк с модульной архитектурой, поддержкой Retrieval-Augmented Generation (RAG) и интеграцией с OpenAI, Hugging Face и Elasticsearch. Идеален для создания готовых к продакшену систем.

- GitHub: https://github.com/deepset-ai/haystack

🔹 5. SmolAgents (от Hugging Face)
Минималистичный фреймворк (~10 тыс строк кода) для создания мощных агентов без лишней сложности. Поддерживает OpenAI, Anthropic и другие модели, а также Code Agents.

- GitHub: https://yangx.top/machinelearning_interview/1446

🔹 6. LangGraph
Фреймворк низкого уровня для управления долговременными агентами со состоянием. Обеспечивает сохранение, аудит, человеческий контроль и глубокую интеграцию с LangChain.

- GitHub: https://github.com/langchain-ai/langgraph

🔹 7. OpenAI Agents SDK
Лёгкий SDK от OpenAI для построения мультиагентных сценариев. Поддерживает OpenAI API и 100+ других LLM, включает Guardrails, Tracing и Handoffs между агентами.

- GitHub: https://github.com/openai/openai-agents-python

🔍 Заключение
Разработка ИИ-агентов теперь проще как никогда. Эти фреймворки открывают путь к построению умных систем, которые взаимодействуют друг с другом, принимают решения, управляют инструментами и работают с данными — автономно и безопасно.

🚀 Хотите начать? Просто выберите подходящий инструмент — и стройте собственную армию LLM-агентов уже сегодня!
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 One RL to See Them All

MiniMax-AI представили Orsta-7B и Orsta-32B — мощные мультимодальные модели, обученные по новой методике V-Triune:

🔧 V-Triune объединяет:
• форматирование данных на уровне задач,
• расчет награды через кастомные верификаторы,
• мониторинг метрик по источникам.

💥 Результаты?
📈 Orsta-32B даёт **+14.1% прирост** на MEGA-Bench Core по сравнению с QwenVL-2.5!
От OCR и распознавания объектов до визуального рассуждения и математических задач — одна RL-схема покрывает всё.

📦 Модели уже доступны:
- huggingface.co/collections/One-RL-to-See-Them-All/one-rl-to-see-them-all-6833d27abce23898b2f9815a
- github.com/MiniMax-AI/One-RL-to-See-Them-All

Открытая, мощная, готовая к запуску.

#AI #Orsta #MiniMax #VisionLanguage #RLHF #VLM #Multimodal #OpenSource #HuggingFace
🔥 Стартует новая видеосерия от PyTorch Compiler! 🎬

В первом эпизоде Avik Chaudhuri разбирает ключевые принципы, лежащие в основе модели программирования для PyTorch Export — и демонстрирует их через наглядные примеры.

🧠 Что такое Export в PyTorch?

Это механизм, который создаёт представление модели в виде промежуточного IR-кода (Intermediate Representation) заранее (ahead-of-time). Это позволяет:
- 📦 Повысить надёжность и предсказуемость исполнения
- ⚙️ Упростить оптимизацию и трансформации
- 🚀 Запускать модели на различных типах железа (CPU, GPU, мобильные устройства и пр.)

Почему это важно?

По сравнению с предыдущими решениями вроде TorchScript и FX, PyTorch Export даёт:
- более высокий уровень безопасности
- лучшую совместимость с различными окружениями
- поддержку более сложных моделей

🛠️ Экспортированные модели можно запускать через:
• ONNX
• TensorRT
• ExecuTorch
• AOTInductor
и другие продвинутые backend-рантаймы.

📺 Смотреть первый выпуск: https://www.youtube.com/watch?v=bAoRZfJGzZw

@machinelearning_interview
🧠 Байесовская очистка данных от дневного bias с помощью нелинейной регрессии

Снова измерения температуры 📈 — и снова проблема: каждый день датчик даёт случайное смещение (bias). Нам нужно не просто его найти, а сделать это более надёжно — с учётом неопределённости.

🔁 Уточнённые цели

1. Оценить дневной bias через байесовскую регрессию
2. Использовать нелинейный тренд вместо скользящего среднего
3. Построить интервалы доверия для оценённой температуры
4. Визуализировать, насколько хорошо работает очистка

📦 Шаг 1. Генерация данных (как раньше)


import pandas as pd
import numpy as np

np.random.seed(42)
days = pd.date_range("2023-01-01", periods=10, freq="D")
true_temp = np.sin(np.linspace(0, 3 * np.pi, 240)) * 10 + 20
bias_per_day = np.random.uniform(-2, 2, size=len(days))

df = pd.DataFrame({
"datetime": pd.date_range("2023-01-01", periods=240, freq="H"),
})
df["day"] = df["datetime"].dt.date
df["true_temp"] = true_temp
df["bias"] = df["day"].map(dict(zip(days.date, bias_per_day)))
df["measured_temp"] = df["true_temp"] + df["bias"] + np.random.normal(0, 0.5, size=240)

📐 Шаг 2. Построим нелинейную модель тренда (например, полиномиальную регрессию)


from sklearn.linear_model import Ridge
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

# Модель полиномиальной регрессии степени 6
X_time = np.arange(len(df)).reshape(-1, 1)
y = df["measured_temp"].values

model = make_pipeline(PolynomialFeatures(degree=6), Ridge(alpha=1.0))
model.fit(X_time, y)

df["trend_poly"] = model.predict(X_time)
df["residual"] = df["measured_temp"] - df["trend_poly"]


🧮 Шаг 3. Байесовская оценка bias (через среднее и стандартную ошибку)


bias_stats = df.groupby("day")["residual"].agg(["mean", "std", "count"])
bias_stats["stderr"] = bias_stats["std"] / np.sqrt(bias_stats["count"])
df["bias_bayes"] = df["day"].map(bias_stats["mean"])
df["bias_stderr"] = df["day"].map(bias_stats["stderr"])

# Восстановим очищенную температуру
df["restored_bayes"] = df["measured_temp"] - df["bias_bayes"]


📊 Шаг 4. Оценка качества и визуализация


from sklearn.metrics import mean_squared_error
rmse = mean_squared_error(df["true_temp"], df["restored_bayes"], squared=False)
print(f"📉 RMSE (после байесовской очистки): {rmse:.3f}")


📈 Визуализация с доверительными интервалами


import matplotlib.pyplot as plt

for day in df["day"].unique():
day_data = df[df["day"] == day]
stderr = day_data["bias_stderr"].iloc[0]

plt.fill_between(day_data.index,
day_data["restored_bayes"] - stderr,
day_data["restored_bayes"] + stderr,
alpha=0.2, label=str(day) if day == df["day"].unique()[0] else "")

plt.plot(df["true_temp"], label="True Temp", lw=1.5)
plt.plot(df["restored_bayes"], label="Restored Temp (Bayes)", lw=1)
plt.legend()
plt.title("Восстановление температуры с доверительными интервалами")
plt.xlabel("Time")
plt.ylabel("°C")
plt.grid(True)
plt.show()

Вывод

✔️ Нелинейная регрессия даёт лучшее приближение тренда, чем скользящее среднее
✔️ Байесовская оценка даёт не только среднюю оценку bias, но и доверительные интервалы
✔️ Модель учитывает неопределённость и шум — ближе к реальной инженерной задаче
✔️ RMSE почти сравнивается с дисперсией шума → bias эффективно устраняется
Forwarded from Machinelearning
✔️ Релиз DeepSeek R1-0528

Главное:
• Глубокое рассуждение — на уровне моделей Google
• Улучшена генерация текста — более естественно, структурировано и аккуратно
• Уникальный стиль reasoning — не просто быстро, а вдумчиво и последовательно
• Может работать над одной задачей 30–60 минут, удерживая контекст

Новая модель показывает результат почти на уровне o3 (High) на бенчмарк LiveCodeBench.

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

@ai_machinelearning_big_data

#DeepSeek #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Устроиться аналитиком в Яндекс за выходные

7–8 июня проводим Weekend Offer Analytics. До 3 июня оставьте заявку на участие, 7 июня пройдите два технические собеседования, а 8 июня познакомьтесь с командами и получите офер.

В мероприятии участвует 12 команд: Алиса и Умные устройства, Игры, R&D, Рекламные технологии, Поиск и Суперапп, Безопасность, Коммерческий департамент, Автономный транспорт, Ecom-сценарии Поиска, Качество Поиска, Международный Поиск, Карты. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.

Узнать подробности и зарегистрироваться можно здесь.
⚙️ Полный гид по GPU-экосистеме — без воды и маркетинга

Если ты путаешься в CUDA, OpenCL, SYCL и HIP — этот гайд от ENCCS расставит всё по полочкам. Это не просто обзор, а чёткое объяснение, как устроен мир GPU-программирования сегодня.

🧠 Что ты узнаешь:

🔹 Как и почему GPU радикально отличается от CPU
🔹 Из чего состоит стек GPU-технологий:
 — CUDA и его аналоги (HIP, SYCL, OpenCL)
 — Директивы: OpenMP, OpenACC
🔹 Какие языки и стандарты поддерживают какую архитектуру
🔹 NVIDIA, AMD, Intel — кто что умеет и чем отличается
🔹 Модели памяти, исполнения, и что влияет на производительность

📌 Гайд подходит для:
• Разработчиков HPC и научных расчётов
• Инженеров ML/AI, желающих копнуть глубже
• Всех, кто хочет разобраться в низкоуровневом GPU-стеке без маркетингового тумана

📖 Читать:
https://enccs.github.io/gpu-programming/2-gpu-ecosystem/

🔥 Один из самых понятных и системных разборов GPU-мира на сегодня.

#GPU #CUDA #OpenCL #HIP #SYCL #HPC #AI #HighPerformanceComputing
🔥 DeepSeek R1 (0528) — компактная MLX-версия!

А вот и 4-битная квантованная версия DeepSeek R1 специально под MLX.

Модель запускается локально на Mac с Apple Silicon без танцев с бубном и GPU.

Установка:

pip install mlx-lm


from mlx_lm import load, generate

model, tokenizer = load("mlx-community/DeepSeek-R1-0528-4bit")

prompt = "hello"

if tokenizer.chat_template is not None:
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(
messages, add_generation_prompt=True
)

response = generate(model, tokenizer, prompt=prompt, verbose=True)


👉 huggingface.co/mlx-community/DeepSeek-R1-0528-4bit

#DeepSeek
Исследователи Яндекса разработали и выложили в опенсорс один из крупнейших датасетов для развития рекомендательных систем — YaMBDa

Датасет включает 4,79 миллиардов обезличенных пользовательских действий в Яндекс Музыке. Он включает в себя только числовые идентификаторы, что позволяет сохранить конфиденциальность.

Открытые датасеты такого масштаба от коммерческих компаний — редкость. При этом даже те, что есть (LFM-1B, LFM-2B) со временем стали недоступны из-за лицензионных ограничений, а популярные датасеты от Steam или Netflix Prize фокусировались лишь на обратной связи и содержали несколько десятков млн взаимодействий.

Поэтому, во-первых, у большинства исследователей попросту не было доступа к web‑scale‑сервисам, следовательно — и возможности протестировать алгоритмы в условиях, приближенных к реальности. А во-вторых, многие датасеты не позволяли разделить выборку на train и test по хронологии: это критично, когда речь идет об алгоритмах, которые должны предсказывать будущее, а не анализировать прошлое.

YaMBDa (YAndex Music Billion-interactions DAtaset) решает обе проблемы. Его можно использовать не только для оценки качества стримминговых систем, но и для e-commerce, соцсетей и других задач рекомендаций. Датасет доступен в трех вариантах: полная версия содержит почти 5 млрд данных, а уменьшенные — 500 млн и 50 млн. Можно выбрать версию, которая соответствует задачам и вычислительным ресурсам. Используя этот датасет, разработчики, исследователи и молодые ученые смогут тестировать и улучшать алгоритмы в продуктах, где используются рекомендательные системы.
“A Brief Introduction to Neural Networks” — это один из самых понятных и тщательно структурированных гайдoв по нейронным сетям от David Kriesel.

📘 Что внутри:
• Биология → формальные модели
• Обучение с учителем и без
• Персептроны, рекуррентные сети, SOM (карты Кохонена)
• Обратное распространение ошибки, Hebbian learning и не только
• Много схем, математики и объяснений "на пальцах"

💻 Хочешь поиграться с примерами? Всё можно попробовать на практике с фреймворком SNIPE (на Java), который идёт вместе с гайдом.

🔗 Читать/скачать (EN):
https://dkriesel.com/en/science/neural_networks

@machinelearning_interview
📦 Новые возможности для ML

На конференции Data&ML2Business представили обновления Yandex Cloud AI Studio: теперь можно дообучать эмбеддинги, работать с PDF и таблицами, использовать рефразер для уточнения запросов и использовать модели через совместимый с OpenAI API.

Все эти возможности требуют надёжной инфраструктуры для хранения и обработки данных — и здесь в игру вступает YTsaurus. Это платформа для хранения и обработки эксабайтных данных, которую Яндекс изначально разрабатывал для внутренних задач. Теперь она доступна бизнесу как управляемый сервис в Yandex Cloud, с поддержкой как облачного, так и on-premise развертывания.

🛠 Что внутри:
• Распределённая файловая система + MapReduce
• Интеграция с Yandex Managed Spark
• Поддержка SQL-запросов, потоковой обработки и ML-задач
• Техническая поддержка развёртывания под enterprise

Также вышел редактор для кастомизации визуализаций в DataLens (на JS) и витрина готовых дашбордов - удобно для внутренних BI-решений.

🤖 Хабр

@machinelearning_interview
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 EPiC

Метод эффективного обучения управления камерой с использованием точного сопоставления видео и опорных точек.

Github
Прокачай навыки общения с ИИ с мощной базой знаний от экспертов Anthropic — всё, что нужно для уверенного промпт-инжиниринга и уменьшения ошибок при работе с нейросетями.

🔍 Что внутри:
• Подробный разбор структуры промптов: от скелета до ключевых формулировок
• Частые ошибки при взаимодействии с ИИ — и как их избежать
• Реальные кейсы на основе Claude
• Примеры качественных запросов + десятки готовых промптов
• Всё это — абсолютно БЕСПЛАТНО

Начни понимать ИИ не просто лучше — мастерски:

Github
Forwarded from Machinelearning
🌟 PlayDiffusion: инпейнт для речи.

Те, кто работает с синтезом речи, знают, что авторегрессионные трансформерные модели, хоть и хороши для генерации речи из текста с нуля, но создают кучу проблем, когда нужно редактирование. Стандартные методы, в виде полной перегенерации предложения, обходятся дорого по ресурсам и часто приводят к изменению интонации или ритма.

Замена отдельного слова обычно оставляет неприятные «склейки» на границах, а перегенерация с середины фразы может испортить уже существующую часть. Все это бьет по естественности и связности звучания.

PlayAI выпустила PlayDiffusion 1.0 – диффузионную модель для редактирования речи, которая умеет изменять нужные участки аудио, сохраняя при этом общую гладкость и характеристики голоса. Причем модель пригодна как для реальной речи, так и для аудио, сгенерированного другими TTS-моделями.

В PlayDiffusion аудиопоток кодируется в дискретное пространство, превращаясь в более компактную последовательность токенов. Затем, тот сегмент, который требует модификации маскируется.

После этого задействуется сама диффузионная модель. Она, опираясь на обновленный текстовый контент, «восстанавливает» замаскированную область, убирая шум. На выходе последовательность токенов снова преобразуется в полноценный звук с помощью декодера BigVGAN.

Чтобы добиться таких результатов, PlayAI взяли за основу текстовую трансформерную архитектуру и внесли несколько ключевых модификаций:

🟢Во-первых, это некаузальное маскирование, позволяющее модели одновременно учитывать прошлые, настоящие и будущие токены, в отличие от стандартных GPT-подобных моделей.

🟢Во-вторых, используется кастомный BPE-токенизатор всего на 10 000 текстовых токенов, что резко сокращает размер таблицы эмбеддингов и ускоряет вычисления.

🟢В-третьих, модель учитывает характеристики диктора с помощью предобученной эмбеддинг-модели, которая преобразует аудиозаписи переменной длины в векторы фиксированного размера.

Интересно, что если замаскировать вообще всю аудиодорожку, PlayDiffusion может работать как TTS. В отличие от авторегрессионных моделей, которые генерируют каждый токен последовательно, опираясь на предыдущие, диффузионные модели генерят все токены одновременно, а затем уточняют их за фиксированное число шагов.

Например, для генерации 20 секунд аудио кодеком на 50 Гц авторегрессионной модели потребуется 1000 шагов. PlayDiffusion же способен выдать все 1000 токенов сразу и уточнить их всего за 20 итераций – это до 50 раз эффективнее по количеству шагов генерации.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Модель
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #TTS #Inpainting #PlayDiffusion #PlayAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 AGI уже в 2025?

Сэм Альтман (OpenAI) и Илон Маск (xAI) — дали самые смелые прогнозы в индустрии.

Оба уверенно заявляют: AGI появится до конца 2025 года.

🧠 Альтман: "Теперь мы уверены, что знаем, как построить AGI"
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Видение идеального ИИ от Сэма Альтмана (OpenAI):

> "Крошечная модель с сверхчеловеческим мышлением, контекстом на 1 триллион токенов и доступом ко всем возможным инструментам."

Звучит как научная фантастика? Возможно.
Но это именно то, к чему стремится OpenAI.

🤔 Интересно — не об этом ли «крошечном сверхразумном» ИИ пойдёт речь в загадочном устройстве от OpenAI, над которым команда работает последние месяцы?

📱 Миниатюрная железка, подключённая к облаку, которая не просто отвечает, а понимает, планирует и действует.
А сегодня o3-pro уже начинает появляться у некоторых пользователей.

Похоже, запуск пошёл — держитесь крепче.
Сегодня тот самый день.

@machinelearning_interview - мл карьера