Машинное обучение RU
17.5K subscribers
1.42K photos
177 videos
11 files
1.89K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
加入频道
🌟 UltraPixel — новый подход для получения изображений сверхвысокого разрешения

Группа исследователей из Гонконгского университета науки и технологий (HKUST) совместно с Huawei Noah’s Ark Lab разработали принципиальной новую методику создание изображений в сверхвысоком разрешении (до 6000 px).
Новая архитектура основана на совокупности диффузионных патчей, принципов технологии ScaleCrafter для управления расширением сверточных блоков, ResAdapter для точной настройки базовой модели T2I и адаптация энтропии внимания на уровне внимания сети шумоподавления.
В качестве исходной генеративной модели используется StableCascade

На сегодняшний день, исследователи дорабатывают механизм сохранения детализации для достижения максимального фотореалистичного результата. В ближайшее время планируется публикация кода и необходимых сопутствующих моделей для инференса и самостоятельной тренировки.
О требуемых вычислительных ресурсах для запуска пайплайна не сообщается.


🟡 Страничка UltraPixel
🟡 Arxiv

@machinelearning_ru

#Text2Image #UltraHiRes #Diffusion #Ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🔥1
Forwarded from Machinelearning
⚡️ Stable Diffusion 3.5 Large.

Stability AI опубликовала Stable Diffusion 3.5 Large - модель text-to-image с 8 млрд. параметров.

В основе SD 3.5 Large - архитектура Multimodal Diffusion Transformer (MMDiT). Модель использует три предобученных текстовых энкодера:

🟢OpenCLIP-ViT/G;
🟢CLIP-ViT/L;
🟢T5-xxl.

OpenCLIP-ViT/G и CLIP-ViT/L имеют контекстную длину 77 токенов, а T5-xxl - 77/256 токенов.

Модель доступна по API в сервисах - Stability AI, Replicate и Deepinfra.

Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или Diffusers.

⚠️ Инференс квантованной NF4-версии на ограниченных VRAM

⚠️ Подробные инструкции по файнтюну и тренировке LoRA для Stable Diffusion 3.5 Large.

▶️Локальный запуск инференса на Diffusers:

# install Diffusers
pip install -U diffusers


# Inference
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
"A happy woman laying on a grass",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("woman.png")


📌 Лицензирование:

🟢Модель доступна под лицензией Stability Community License, которая разрешает бесплатное использование для исследовательских, некоммерческих и коммерческих целей организациями или частными лицами с годовым доходом менее 1 млн. долл. США.

🟠Для получения коммерческой лицензии для организаций с годовым доходом более 1 млн. долл. США необходимо связаться со Stability AI.


🟡Страница проекта
🟡Arxiv
🟡Модель


@ai_machinelearning_big_data

#AI #ML #Diffusion #SDL #StabilityAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥1
🌟 Pusa-VidGen — новый подход к генерации видео с точным управлением движением

Обычно в генерации видео модели обрабатывают весь ролик "размазанным" шумом — как бы в целом.

А тут модель управляет шумом отдельно для каждого кадра, и делает это с помощью векторизованных "timesteps" (временных шагов) — более гибко, точно и эффективно.

Новая модель генерации видео на базе Mochi1-Preview и поддерживает:

🔹 Text-to-Video
🔹 Image-to-Video
🔹 Frame Interpolation
🔹 Video Transitions
🔹 Looping, удлинение видео и многое другое

Эффективность:
16× H800 GPU
0.1k GPU-часов
Обучение: 500 итераций, batch size 32
По заявления разработчиков - стоимость обучения всего 100$ 🤯

Github
Paper
Dataset
Model

#diffusion #videogen #pusa #opensource #AI #text2video #mochi1 #fvdm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥2