289K subscribers
3.97K photos
694 videos
17 files
4.56K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
🌟 EchoMimic: реалистичная портретная анимация изображений на основе звука с помощью редактируемых маркеров-ориентиров.

EchoMimic - проект инновационного подхода, комбинирующий использование аудиодорожки и маркеры лиц для создания динамичных портретов сохраняя реалистичность исходного иpображения.

Mетод EchoMimic построен на моделях Stable Diffusion и использует модули Reference U-Net, Landmark Encoder и Audio Encoder для кодирования референсных изображений, характеристик лиц и аудио соответственно. На финальном этапе, Attention Layers декодирует временную динамику для создания последовательностей согласованных по времени видео.

Согласно проведенным в ходе разработки бенчмаркам, EchoMimic демонстрирует лучшие результаты по сравнению с другими проектами, такими как: SadTalker, AniPortrait, V-Express и Hallo в различных наборах данных, достигая высоких показателей по метрикам FID, FVD, SSIM и E-FID.

🖥 Локальный запуск возможен в ComfyUI или отдельный UI-интерфейс.
Рекомендованные ресурсы - от 16 GB VRAM, но EchoMimic работает и на 8 GB VRAM (увеличивается время инференса).

⚠️ В процессе установки скачиваются дополнительные модели:
🟢sd-vae-ft-mse;
🟢sd-image-variations-diffusers;
🟢audio_processor(whisper).

⚖️ Лицензирование: Apache-2.0

🖥 GitHub [ Stars: 492 | Issues: 6 | Forks: 50 ]
🟡Страница проекта
🟡Модели на HF
🟡Arxiv

@ai_machinelearning_big_data

#Image2Animate #LipSync #ML #Diffusers #EchoMimic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍188🔥43😁2
🔥Дайджест новостей

🔷 Исследовательская группа из Microsoft и МiT предложила новую парадигму «Аксиоматического обучения», позволяющую трансформер-моделям с 67 миллионами параметров достигать возможностей вывода, сравнимых с GPT-4.

Исследование включает в себя создание набора данных на основе причинно-следственных моделей и непосредственное обучение LLM изучению аксиом, а не полагаться на большие объемы данных.
В ходе практического эксперимента обучили модель Transformer всего с 67 миллионами параметров, используя простые причинно-следственные цепочки в качестве обучающих данных. По результатам проведенных оценок, эта модель превзошла более крупные языковые модели в выводе сложных причинно-следственных связей, соперничая с GPT-4. Arxiv.org


👀 Вышел релиз Supervision-0.22.0 от Roboflow с инструментом визуализации ключевых точек лица и тела и поддержкой Florence 2.

Новая версия Supervision интегрирует Mediapipe (поддерживаются как устаревшие, так и современные конвейеры), предоставляя разработчикам более удобный инструмент для визуализации и анализа данных ключевых точек лица и тела.
Добавлена поддержка результатов анализа модели Florence 2. Сюда входит детальное обнаружение объектов, распознавание текста с предложениями регионов, сегментация и многое другое. Supervision changelog


🔍 Superposition Prompting: улучшение и ускорение поиска RAG

Superposition Prompting - это новая методология, которая устраняет ограничения LLM при работе с длинными контекстами. Она позволяет LLM обрабатывать несколько входных документов параллельно, отбрасывая ненужные пути, что приводит к повышению эффективности и точности.
Метод совместим с предварительно обученными LLM и повышает производительность в различных тестах ответов на вопросы.
Superposition Prompting сокращает время вычислений в 93 раза и одновременно повышают точность на 43% в наборе данных NaturalQuestions-Open с использованием модели MPT-7B, настроенной с помощью инструкций, по сравнению с традиционным RAG. Apple Machine Learning Research

@ai_machinelearning_big_data

#digest #news #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2613🔥63
🌟 BigVGAN — универсальный нейросетевой вокодер от NVIDIA

Прежде всего, вокодер — это метод синтеза речи, основанный на знании механизмов ее образования и восприятия; с помощью вокодера, например, можно сжимать запись речи в 2-3 раза с сохранением разборчивости.

Несмотря на недавний прогресс в области вокодеров на основе GAN, в которых модель генерирует нужную форму волны на основе акустических особенностей, синтезировать звук высокой точности для разных дикторов в различных условиях записи всё ещё сложно.

Чтобы это исправить, NVIDIA на днях опубликовала BigVGAN, универсальный вокодер, который из коробки подходит для использования в различных сценариях.
Весь сопутствующий код выложен на GitHub под MIT лицензией

🖥 GitHub
🟡 Пример полученных аудио
🟡 Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍125
🌟 WizardLM-2 8x22B — большая производительная модель семейства WizardLM второго поколения.

WizardLM-2 - набор моделей от Microsoft AI, построенный на базе Mixtral с улучшенной по сравнению с первым поколением производительностью, расширенными возможности и более глубоким пониманием сложных задач.

WizardLM-2 8x22B: флагманская модель.
Благодаря сочетанию экспертной архитектуры (MoE) и 141 миллиарду параметров модель показывает конкурентную производительность в сравнении с лидирующими проприетарными аналогами.
По оценкам бенчмарка MT-Bench 8x22B превосходит существующие современные модели с открытым исходным кодом.

⚠️ Внимание! Модель имеет размер около 300Gb

WizardLM-2 использует формат системных промптов Vicuna и поддерживает композитные диалоги.
Пример системного промпта:
A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful,
detailed, and polite answers to the user's questions.
USER: Hi ASSISTANT: Hello.</s>
USER: Who are you?
ASSISTANT: I am WizardLM.</s>


⚖️ Лицензирование: Apache-2.0 license

🟡 Модель на Huggingface
🖥 Код для демо инференса

@ai_machinelearning_big_data

#LLM #WizardLM-2 #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍1392
🌟 RTMW(3D): Многообъектная 2D- и 3D-оценка позы всего тела в реальном времени.


RTMW (набор моделей оценки позы всего тела нескольких человек в реальном времени), - это серия моделей, предназначенных для решения тонкостей оценки позы всего тела.
RTMW основан на исследованиях RTMPose и включает в себя новые методы обработки информации о позе и различных частей тела.

Для решения ключевой проблемы оценки локальных областей низкого разрешения (например, стопы, кисти рук) были применены техники:
- PAFPN - пирамидальная сеть функций частичного агрегирования;
- HEM - модуль иерархического кодирования для повышения разрешения локальных участков;
- FPN - метод, улучшающий разрешение отдельных объектов за счет агрегирования функций с разных уровней сетевой пирамиды.

Таким образом, архитектура моделей RTMW состоит из принципов RTMPose и объединяет модули PAFPN и HEM и FPN. Одновременное использование этих модулей значительно повышает точность оценки позы всего тела.

Для оценки 3D позы всего тела была разработана модель RTMW3D, которая использует прогнозирование оси Z для головы декодера и устанавливает новую корневую точку для человеческого скелета.
Применение техники смещения оси упрощает процесс обучения модели и позволяет применять ее в задачах, связанных с высокой интенсивностью динамики объекта оценки, например, спортивное состязательное видео.

RTMW и RTMW3D тестировались на общедоступных наборах данных (COCO-WholeBody и H3WB) и показали хорошие результаты производительности и точности, в том числе в задаче оценки 3D поз всего тела.

🟢Модели RTMW c описанием различий, вариантами форматов и прямой загрузкой на странице проекта rtmpose
🟢Модели RTMW3D на странице проекта rtmpose3d

⚠️ Внимательно ознакомьтесь с материалами общего репозитория mmpose в ветках соответствующих проектов и документацией перед началом использования.

⚖️ Лицензирование: Apache-2.0 license

🟡Arxiv
🖥Open-Mmlab [Stars: 5.3K | Issues: 189 | Forks:1.2K ]

@ai_machinelearning_big_data

#3D #Posetracking #ML #MMPose
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
17👍13🔥422
🌟 Дайджест новостей

👨🏻‍💻 Исследователи разработали метод улучшения способности ИИ к сложным рассуждениям.

Команда MetaFAIR разработала метод "System 2 distillation", позволяющий обучать языковые модели решению сложных задач без промежуточных шагов. Этот подход улучшает способности ИИ к рассуждению и планированию, сохраняя при этом скорость и эффективность. Результаты показывают значительное повышение производительности моделей на сложных задачах, сравнимое или превосходящее точность исходных методов System 2, но с меньшими вычислительными затратами. Venturebeat.com


💪 Разарботчики LLamы готовится представить самую мощную на сегодняшний день модель Llama-3 23 июля

Модель будет флагманской в линейке Llama-3: 405 миллиардов параметров.
Ожидается, что новая модель превзойдет GPT-4 по производительности и будет обладать мультимодальными возможностями, включая обработку текста и изображений. Llama-3 разрабатывается с использованием конституционного ИИ для повышения безопасности и этичности. Theinformation.com


🖥 Microsoft анонсировала систему RUBICON, которая оценивает качество общения между людьми и системами искусственного интеллекта, улучшая взаимодействие в конкретных областях, таких как разработка программного обеспечения.

RUBICON - специально разработанная система для обсуждения конкретных предметных областей в средах разработки программного обеспечения. Она устраняет ограничения существующих механизмов обратной связи и направлен на то, чтобы обновления ИИ-помощников существенно улучшали взаимодействие с пользователем.
Структура системы основана на SPUR, а новый алгоритм выбора определяет высококачественные рубрики, повышая точность прогнозирования в практических приложениях. Microsoft.com

📱NEXA AI разработала Octoplanner, высокоэффективную среду оптимизации агентов искусственного интеллекта для периферийных устройств.

Структура платформы Octoplanner разделяет планирование и выполнение действий, применяя методы точной настройки модели, в частности методы LoRA и Multi-LoRA, чтобы значительно снизить вычислительные затраты и потребление энергии. Octoplanner имеет модульная конструкцию, что делает ее подходящим для периферийных устройств с ограниченными ресурсами. такими как мобильные телефоны. Nexa4ai.com

🚥 Исследователи из Института науки о свете (MPISL, Эрланген, Германия) предложили новый оптический подход к созданию более эффективных нейронных сетей.

Метод позволяет реализовать нейронную сеть с помощью оптической системы, что может сделать машинное обучение более энергоэффективным и экономичным . Ключевая особенность подхода заключается в том, что входной сигнал изменяет передачу света, а не просто накладывается на световое поле. Это позволяет избежать сложных физических взаимодействий и высоких мощностей лазера, необходимых для реализации математических функций.
Авторы предполагают, что их подход может использоваться для классификации изображений с той же точностью, что и цифровые нейронные сети. Заявленный метод значительно упрощает экспериментальные требования и может быть применен к различным физическим системам, открывая новые возможности для нейроморфных устройств. Optics.org

@ai_machinelearning_big_data

#news #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥742
⚡️ FP8 LLMs: набор квантированный моделей с увеличенной эффективностью и производительностью под vLLM

FP8- это формат квантования, предоставляющий для моделей баланс между точностью и эффективностью. Он обеспечивает нерегулярное представление диапазона и масштабирование для каждого тензора на GPU, что позволяет достичь прироста производительности и сокращения потребления памяти.
Этот современный формат обещает революцию в развертывании LLM, значительно улучшая эффективность инференеса без ущерба для качества модели:

🟢В плотных моделях (70В) ITL (среднее время генераций каждого токена в выводе) сокращается двукратно, а в МоЕ- моделях до 1.6х;
🟢3-х кратное улучшение пропускной способности в сценариях, где снижение потребления VRAM приводит к возможности увеличения размера пакетов обработки.

Реализация поддержки FP8 стала возможна благодаря усилиям сервисов Neuralmagic.com и Anyscale.com, которые активно поддерживают open-soure сообщество.

В репозитории выложены Instruct FP8 версии моделей:

🟢Llama-3 (8B,70B);
🟢Mixtral (7B, 22B);
🟢Qwen2 (1,5B, 7b, 72B);
🟢Mistral 7B
🟢Llama-2 7B
🟢Phi-3 (mini-128K, medium-128K)
🟢Gemma-2 9b-it

⚠️ Представленный набор моделей предназначен для запуска в среде vLLM (версии от 0.5 и выше) и ее реализациях, поддерживающих технологии разреженности и быстрого инференса:

🟢nm-vllm: форк vLLM от сервиса Neuralmagic.com;
🟢DeepSparse: среда выполнения для CPU-only систем;
🟢SparseML: тулкит с возможностью инференса, который позволяет создавать разреженные модели и конвертировать их в .onnx формат.

vLLM - open-source среда для быстрого вывода и использования LLM, основанная на методе PagedAttention.
PagedAttention - алгоритм внимания, вдохновленный классической идеей виртуальной памяти и подкачки в операционных системах. Его использование снижает нагрузку на VRAM, связанную со сложными алгоритмами выборки. Экономия памяти может достигать до 55%.
Более подробно про vLLM и алгоритм PagedAttention можно прочитать на странице проекта


🟡Страница проекта Neuralmagic
🟡Модели на HF
🟡Arxiv Page Attention
🖥GitHub vLLm
🖥GitHub nm-vllm

@ai_machinelearning_big_data

#FP8 #LLM #vLLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍14101
🌟 Simplicits: революционный подход к симуляции эластичности 3D объектов, независимый от сетки и геометрии.

Существующие инструменты для симуляции эластичных объектов часто ограничены в использовании и могут работать только с определенными типами 3D-моделей. Это создает трудности при моделировании деформации объектов разной геометрии и упругости.

Проект Simplicits предлагает сделать 3D-моделирование еще проще и универсальнее. Его главная особенность в том, что он может работать с любыми типами 3D-геометрии, выполняя моделирование изменяющихся во времени эластодинамических свойств объектов.
На вход подается 3D-модель в состоянии покоя, а на выходе получается набор данных, описывающих, как эта модель будет двигаться и деформироваться.

Метод, заложенный в Simplicits использует "функцию занятости" - математическое описание того, какие точки находятся внутри 3D-объекта, а какие снаружи. Такую функцию можно построить практически для любой 3D-модели.
Далее Simplicits применяет алгоритм линейного смешивания скиннинга (LBS). Это позволяет описать, как будет деформироваться поверхность объекта при движении. Важно, что все вычисления производятся без использования сетки из треугольников, как, например, в традиционных методах симуляции.
Вместо этого применяются спрогнозированные на основе карт деформации нейронные поля, обрабатывающие веса скиннинга для симуляции динамического движения, что делает процесс более гибким и управляемым.

Разработчики провели множество тестов Simplicits на самых разных 3D-объектах - от простых лент до сложных сцен с использованием Gaussian Splatting и NeRFs. Результаты показали, что система успешно справляется даже с объемными деформациями и множеством видов контакта поверхностей при движении, например - столкновениями объектов.

Simplicits - это важный шаг вперед в области 3D-моделирования. Он делает создание реалистичных трехмерных анимаций более доступным как для профессионалов, так и для начинающих пользователей, что предоставляет новые горизонты в таких сферах, как компьютерная графика, виртуальная реальность и компьютерные игры.

🟡 Страница проекта
🟡 Статья
🟡 Demo Видео

@ai_machinelearning_big_data

#Paper #3D #Simulation #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍238🔥41❤‍🔥1
Дайждест новостей:

📱 YouTube Music тестирует радио, созданное ИИ и запустит звуковой поиск

YouTube Music представляет две новые функции, которые помогут пользователям находить новую музыку.
Функция «разговорного радио», созданная ИИ, которая поможет пользователям создавать собственные радиостанции, описывая тип музыки, которую они хотят слушать. Эта функция уже доступна некоторым пользователям с подпиской Premium в США.
Новая функция распознавания песен, которая дает возможность пользователям искать в каталоге приложения, напевая или проигрывая части песни.
Эта функция доступна всем пользователям YouTube Music на iOS и Android. Techcrunch.com

💠 Google тестирует сервис создания видеопрезентаций, где помощником выступает Gemini

Google запустил новое приложение Vids, которое использует Gemini AI для автоматического создания видеоконтента, сценариев и озвучки на основе вводимых пользователем данных. Это позволяет каждому создавать профессионально выглядящие видеопрезентации без особых навыков редактирования.Theverge.com

🖥 Microsoft представила AI для электронных таблиц

Исследователи Microsoft опубликовали новое исследование, представляющее SpreadsheetLLM и SheetCompressor.
Это новые платформы, разработанные, чтобы помочь специалистам по LLM лучше понимать и обрабатывать информацию в электронных таблицах.
SpreadsheetLLM может обрабатывать как структурированные, так и неструктурированные данные в таблицах, включая несколько таблиц одновременно с различными форматами данных.
SheetCompressor — это платформа, которая сжимает электронные таблицы для сокращения количества токенов до 25 раз при сохранении важной информации.
Используя электронные таблицы в качестве «источника знаний », SpreadsheetLLM может значительно уменьшить галлюцинации ИИ, повысив надежность выдачи языковых моделей. Arxiv.org

🖥 Запустилась бета-версия LlamaCloud, сервиса Llamaindex.ai, предназначенного для улучшения рабочих процессов RAG.

LlamaCloud призван помочь разработчикам тратить меньше времени на настройку конвейеров обработки данных, позволяя им быстрее итерировать над разработкой приложений на основе LLM.
Возможности LlamaCloud:
- LlamaParse: продвинутый инструмент анализа документов, поддерживающий множество форматов;
- Управляемая загрузка данных: простое подключение к источникам данных и системам хранения
- Продвинутый поиск: семантический поиск, переранжирование, фильтрация по метаданным;
- Интерактивная платформа для тестирования и настройки стратегий загрузки и поиска
- Масштабируемость и безопасность для промышленных нагрузок.
llamaindex.ai

ℹ️ Исследователи из MIT и лаборатории Watson MIT-IBM представили методику оценки надежности базовых моделей перед их развертыванием.

Эта методика включает обучение ансамбля немного отличающихся базовых моделей и использование алгоритма для оценки согласованности представлений, которые каждая модель изучает на основе одной и той же точки тестовых данных.
Методику можно использовать для принятия решения о том, следует ли применять модель в определенных условиях без необходимости проведения реальных испытаний, что особенно полезно в сценариях, где наборы данных недоступны из-за проблем с конфиденциальностью. News.mit.edu

@ai_machinelearning_big_data

#news #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍156🥰1