288K subscribers
3.98K photos
691 videos
17 files
4.56K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
⭐️ Яндекс выпустил в опенсорс Perforator — первую в России открытую систему непрерывного профилирования с подобным широким функционалом.

Perforator анализирует производительность сервисов и помогает компаниям существенно оптимизировать затраты на серверную инфраструктуру. Система уже помогла Яндексу сократить нагрузку на серверах крупных сервисов — Поиска и Рекламы.

Ключевые преимущества:

1️⃣ Аналитика от Perforator помогает снизить затраты на серверы до 20% без потери производительности.
2️⃣ Инструмент работает без необходимости модификации исходного кода и использует возможности eBPF для сбора данных прямо в ядре Linux.
3️⃣ Решение позволяет проводить глубокую аналитику и визуализировать полученные данные с помощью flamegraph.
4️⃣ Поддерживает C++, C, Go, Rust (скоро Python и Java).

🏅 Perforator может применяться в 95% российских компаний, у которых есть свои или арендованные серверы. Инструмент поможет значительно сократить расходы на инфраструктуру без потери производительности.

📄 Статья: https://habr.com/ru/companies/yandex/articles/875070/
📕 Paper

@ai_machinelearning_big_data


#news #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5214🔥7😭6👌3❤‍🔥1
⭐️ Mistral AI только что дропнули Small 3!

Вот все, что вам нужно знать:

- 24B параметров
- 81% точности на MMLU и задержка 150 токенов/с
- Позиционируется как замена GPT-40-mini
- Конкурирует с Llama 3.3 70B и Qwen 32B
- в 3 раза быстрее, чем Llama 3.3 70B
- Лицензия Apache 2.0
- Доступны как предварительно обученные, так и настроенные контрольные точки
- без RL и без синтетических данных
- Доступно на la Plateforme, HF и других провайдерах

Великолепная маленькая модель, которая дополняет другие более крупные модели, такие как DeepSeek-R1.

HF: https://huggingface.co/mistralai/Mistral-Small-24B-Instruct-2501
Blog: https://mistral.ai/news/mistral-small-3/

@ai_machinelearning_big_data

#mistral #llm #ml #ai
👍4815🔥11
🐫Tülu 3 (ну и название) 405B - еще один релиз!

Модель с открытым исходным кодом (и нет, это не китайская модель), которая превосходит по производительности DeepSeek-V3! на нескольких бенчмарках

Блог: https://allenai.org/blog/tulu-3-405B
Потестить можно тут: https://playground.allenai.org/?model=tulu3-405b
Technical report: https://allenai.org/blog/tulu-3-technical
Hugging Face: https://huggingface.co/collections/allenai/tulu-3-models-673b8e0dc3512e30e7dc54f5

@ai_machinelearning_big_data

#llm #ml #ai #opensource
1👍45🔥1210
🐋 DeepClaude

Высокопроизводительный LLM-интерфейс, который позволяет использовать возможности рассуждений DeepSeek R1 и творческие способности Claude с помощью единого и простого API и удобного иинтерфейса.

Особенности
🚀 Нулевая задержка - Очень быстрые ответы на базе высокопроизводительного API, написанного на Rust.
⚙️ Гибкая настройка соответствии с вашими потребностями
🌟 Открытый исходный код
🤖 Двойная мощь ИИ - объедините рассуждения DeepSeek R1 с и возможностями Claude

⭐️ DeepClaude объединяет обе модели, чтобы обеспечить:

- Новая SOTA 64,0% на бенчмарке aider polyglot
- 14-кратное снижение затрат по сравнению с предыдущей SOTA
- Повышенную точность генерации кода для различных языков программирования

git clone https://github.com/getasterisk/deepclaude.git
cd deepclaude

Github
Docs

@ai_machinelearning_big_data


#DeepSeek #Claude #llm #ml #ai #DeepClaude #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
50🔥22👍19🐳6👏3🥰1😁1
🔥🔥🔥Разработчики SmolVLM выложили в опенсорс код для обучения SmolVLM с нуля на 256 H100!

Вдохновленные DeepSeek R1, они выложили в открытый доступ полный код для обучения модели и веса!

Теперь вы можете обучать любой из SmolVLM или создавать свои собственные VLM!

Запустить обучение для SmolVLM 256M очень просто:
./vision/experiments/pretraining/vloom/tr_341_smolvlm_025b_1st_stage/01_launch . sh

Код: https://github.com/huggingface/smollm/tree/main/vision
SmolVLM: https://github.com/huggingface/smollm/tree/main

@ai_machinelearning_big_data


#SmolVLM #llm #opensource #ml #ai
👍60🔥289
🖥 OpenAI o3-mini теперь доступен в ChatGPT и по API.

Про-пользователи получат неограниченный доступ к o3-mini.

Бесплатные пользователи могут попробовать o3-mini в ChatGPT, выбрав кнопку Reason под сообщением.

Платные пользователи также могут выбрать o3-mini-high в меню выбора моделей, чтобы получить версию с более высоким уровнем интеллекта, которой требуется немного больше времени для ответов.

o3-mini превосходит предыдущие модели на бенчмарке GPQA Diamond, в математике (AIME) и в кодингке (Codeforces).

o3-mini — хорошая модель, но DeepSeek r1 имеет примерно такую же производительность, но при этом дешевле.

Chatgpt:
System Card

@ai_machinelearning_big_data


#openai #chatgp #ai #release #ml #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥14🤣145😭3
🌟 Stable Flow: инпейнт без обучения.

Stable Flow - метод редактирования изображений без предварительного обучения на основе flow-based моделей (FLUX).

Метод основывается на идее определения "жизненно важных слоев" в DiT, которые критически важны для формирования изображения. Эти слои определяются перебором слоев путем измерения отклонений в содержании изображения.

Редактирование изображения выполняется путем параллельной генерации, где признаки из траектории генерации исходного изображения инжектируются в траекторию редактируемого изображения. Такая стратегия раньше применялась в моделях на архитектуре UNet, теперь адаптирована для DiT.

Инъекция происходит только в vital layers, что дает стабильность редактирования, сохраняя нередактируемые области нетронутыми. Это дает возможность выполнять различные типы редактирования: нежесткие деформации, добавление объектов, замену объектов и изменение сцены, используя один и тот же механизм.

Для инпейнта реальных изображений применяется инверсия, выполняемая с помощью солвера Euler Ordinary Differential Equation (ODE), с добавлением метода "подталкивания" вне распределения. Этот метод заключается в небольшом скалярном возмущении чистого латентного пространства, что позволяет улучшить точность реконструкции и ограничить изменения в процессе редактирования.

Пользовательское исследование подтвердило, что Stable Flow превосходит SDEdit, P2P+NTI, Instruct-P2P, MagicBrush, MasaCTRL по 4 категориям: соответствие текстовому запросу, сохранение исходного изображения, реалистичность и общее качество редактирования.

⚠️ Для запуска кода Satble Flow необходим токен HuggingFace

⚠️ Проект поддерживает возможность CPU offload, он включается ключом --cpu_offload при инференсе.

▶️Локальная установка и инференс:

# Clone repo
git clone https://github.com/snap-research/stable-flow.git
cd stable-flow

# Create conda env
conda env create -f environment.yml
conda activate stable-flow

# Batch image inference
python run_stable_flow.py \
--hf_token YOUR_PERSONAL_HUGGINGFACE_TOKEN \
--prompts "A photo of a dog in standing the street" \
"A photo of a dog sitting in the street" \
"A photo of a dog in standing and wearing a straw hat the street" \
"A photo of a mink"

# Image editing inference
python run_stable_flow.py \
--hf_token YOUR_PERSONAL_HUGGINGFACE_TOKEN \
--input_img_path inputs/bottle.jpg \
--prompts "A photo of a bottle" \
"A photo of a bottle next to an apple"



🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #StableFlow
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥33👍2614🦄1
LitGPT

20+ производительных LLM, написанных с нуля, с подробным описанием, инструкциями, файнтюнигу и деплою.

Особенности:
🟢 Модели написаны с нуля
🟢 Нет абстракций
🟢 Подходит для обучения новичков
🟢 Flash attention
🟢 FSDP
🟢 LoRA, QLoRA, Adapter
🟢 Уменьшение памяти GPU (fp4/8/16/32)
🟢 1-1000+ GPU/TPUs
🟢 20+ LLMs

Установка:


pip install 'litgpt[all]'

Пример:

from litgpt import LLM

llm = LLM.load("microsoft/phi-2")
text = llm.generate("Fix the spelling: Every fall, the familly goes to the mountains.")
print(text)
# Corrected Sentence: Every fall, the family goes to the mountains.


Github
Docs
Video

@ai_machinelearning_big_data



#LitGPT #tutorial #llm #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
47👍33🔥13
⭐️ Ночью OpenAI выпустила Deep Research — ИИ-агента для проведения исследований анализа и поиска информации.

Вводите промпт и ChatGPT найдет, проанализирует и синтезирует сотни онлайн-ресурсов, чтобы создать развернутый отчет за 10 минут работы, вместо нескольких часов, которые потребовались бы человеку.

Основные моменты:

— Уже доступен для пользователей Pro.
— Агент предоставит полный список источников, а также прокомментирует каждый из них;
— Хорошо подходит для решения задач, связанных с поиском в интернете.
Набрал 26.6 % на «Последнем экзамене человечества».
🟢Подробнее

⭐️WeatherNext продвинутый искусственный интеллект от Google DeepMind для прогнозирования погоды с открытым исходным кодом!

ИИ превосходит существующие методы как по точности, так и по вычислительной эффективности, предлагая обновления прогнозов в реальном времени четыре раза в день через Google Cloud, BigQuery и Earth Engine.
Исследователи могут получить доступ как к текущим, так и к историческим прогнозам для анализа и планирования.

Внутри 2 мощных инструмента:
WeatherNext Graph:
- Формирует единый сверхточный прогноз.
- Обновления происходят каждые 6 часов.
- Предсказания делаются на 10 дней вперёд.
- Выдает прогнозы с максимальной точностью.

WeatherNext Gen:
- Генерирует ансамблевые прогнозы из 50 вероятных сценариев.
- Обновление прогноза происходит каждые 12 часов.
- Модель позволяет лучше оценивать риски экстремальных погодных явлений.

Преимущества над традиционными методами:
- Более высокая скорость обработки данных.
- Значительное повышение точности по сравнению с физическими моделями.
- Опенсорс
🟢Blog

⭐️ Вышло пятичасовое интервью от Lex Fridman с Dylan Patel и Nathan Lambert (Ai2).

Внутри много интересного о DeepSeek, Китае, OpenAI, NVIDIA, xAI, Google, Anthropic, Meta, Microsoft, TSMC, Stargate, строительстве мегакластеров, RL, ризонинге и множестве других тем на передовых ИИ тематик.

Очень интересная и наполненная техническими деталями беседа.
🟢 YouTube 🟢Podcast

⭐️ Ряд интересных обновлений в Qwen Chat!

- Новая модель: Qwen2.5-Plus теперь обновлен до qwen-plus-0125-exp, с новыми методами пост-тренинга. Разрыв с Qwen2.5-Max значительно сократился.
- Гибкие режимы: Убрали все ограничения на переключение между режимами в течение одной сессии! С.
- Неограниченный ввод: Поддержка текстов длиной более 10 000 символов
- Возможность загружайть файлы txt, pdf, docx, xlsx, pptx, md и другие. Теперь длинный ввод не требует усилий.
🟢Попробовать

⭐️ Open-R1: Большой гайд посвященный экспериментам, инструментами, исследованиям и разборам DeepSeek R1!

Резюме самых интересных открытий за первую неделю с момента появления DS.
🟢HF 🟢Github:

⭐️ Гонка ИИ продолжается. Самый богатый человек Индии хочет построить крупнейший в мире центр обработки данных, в пять раз превышающий по мощности крупнейший датацентр Microsoft

Компания Reliance Group Мукеша Амбани, один из крупнейших и наиболее влиятельных индийских конгломератов, строит крупный центр обработки данных в Джамнагаре - небольшом городке в штате Гуджарат, где уже расположены крупные нефтеперерабатывающие и нефтехимические предприятия Reliance.
По сообщениям Bloomberg, общая мощность центра обработки данных, который может стать крупнейшим в мире, составит 3 гигаватта, что значительно увеличит текущую мощность индийских центров обработки данных, которая оценивается менее чем в 1 гигаватт.

Таким образом, он будет в пять раз больше, чем 600-мегаваттный центр Microsoft в Бойдтоне, штат Вирджиния.
🟢Подробнее

⭐️ Google представили метахранилище для Lakehouse!

Метахранилище - это высокомасштабируемый сервис метаданных во время выполнения, который работает с несколькими движками: BigQuery, Apache Spark, Apache Hive и Apache Flink, и поддерживает открытый формат таблиц Apache Iceberg
🟢Подробнее


@ai_machinelearning_big_data


#DeepSeek #opensource #ai #ml #llm #machinelearning #guide #news #chatgpt #openai #google #deepmind #qwen #DataAnalytics #ainews #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10226🔥10👀2