226K subscribers
3.88K photos
661 videos
17 files
4.5K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
🌟 EchoMimic: реалистичная портретная анимация изображений на основе звука с помощью редактируемых маркеров-ориентиров.

EchoMimic - проект инновационного подхода, комбинирующий использование аудиодорожки и маркеры лиц для создания динамичных портретов сохраняя реалистичность исходного иpображения.

Mетод EchoMimic построен на моделях Stable Diffusion и использует модули Reference U-Net, Landmark Encoder и Audio Encoder для кодирования референсных изображений, характеристик лиц и аудио соответственно. На финальном этапе, Attention Layers декодирует временную динамику для создания последовательностей согласованных по времени видео.

Согласно проведенным в ходе разработки бенчмаркам, EchoMimic демонстрирует лучшие результаты по сравнению с другими проектами, такими как: SadTalker, AniPortrait, V-Express и Hallo в различных наборах данных, достигая высоких показателей по метрикам FID, FVD, SSIM и E-FID.

🖥 Локальный запуск возможен в ComfyUI или отдельный UI-интерфейс.
Рекомендованные ресурсы - от 16 GB VRAM, но EchoMimic работает и на 8 GB VRAM (увеличивается время инференса).

⚠️ В процессе установки скачиваются дополнительные модели:
🟢sd-vae-ft-mse;
🟢sd-image-variations-diffusers;
🟢audio_processor(whisper).

⚖️ Лицензирование: Apache-2.0

🖥 GitHub [ Stars: 492 | Issues: 6 | Forks: 50 ]
🟡Страница проекта
🟡Модели на HF
🟡Arxiv

@ai_machinelearning_big_data

#Image2Animate #LipSync #ML #Diffusers #EchoMimic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍188🔥43😁2