288K subscribers
3.96K photos
682 videos
17 files
4.55K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
🌟 ASAL: автоматизированный поиск искусственной жизни с использованием VLM для исследования открытых систем.

ASAL (Automated Search for Artificial Life) - метод автоматизации поиска симуляций искусственной жизни (ALife). В его оcнове лежит использование VLM для оценки и анализа результатов симуляций.

Традиционные техники симуляции базируются на ручном проектировании и методах проб и ошибок, ограничивая возможности для открытий новых форм жизни. ASAL не имеет таких ограничений и предлагает 3 алгоритма поиска:

🟢контролируемый поиск целевых симуляций (Supervised Target);

🟢поиск открытых систем с временной новизной ( Open-Endedness);

🟢исследование всего разнообразия симуляций (Illumination).

ASAL использует CLIP и DINOv2 для оценки видео, созданных в ходе симуляций, количественно анализируя качественные феномены в ALife. Метод был успешно применен к субстратам Boids, Particle Life, Game of Life, Lenia и Neural Cellular Automata.

В проведенных экспериментах ASAL обнаружил ранее неизвестные формы жизни в Lenia и Boids, а также Cellular Automata, демонстрирующие открытую динамику, подобную Game of Life.

Также, эти эксперименты показали, что ASAL способен находить симуляции, соответствующие как единичным, так и последовательным целям. Например, поиск последовательности "одна клетка", а затем "две клетки" приводит к обнаружению правил, способствующих самовоспроизведению.

Для поиска открытых систем в Life-like CA использовался полный перебор, где Game of Life вошла в 5% наиболее открытых систем. Для визуализации разнообразия был разработан алгоритм освещения на основе генетического алгоритма, позволивший создать "атласы" для Lenia и Boids.

▶️Локальная установка и запуск настроенного блокнота со всеми тремя алгоритмами:

# Clone repo
git clone https://github.com/SakanaAI/asal.git
cd asal

# Create conda env
conda env create -f environment.yaml

# Install requirements
pip install -r requirements.txt

# Running ASAL
asal.ipynb


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ASAL #SakanaAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2813🔥4
✔️ OCTAVE: модель для генерации голоса и личности от Hume AI

Hume AI представила OCTAVE (Omni-Capable Text and Voice Engine), модель нового поколения для работы с речью и языком. OCTAVE способна не только генерировать голос, но и создавать уникальные личности, воспроизводя язык, акцент, выражения и характер на основе коротких образцов от 5 секунд.

Модель может имитировать пол, возраст, интонацию и стиль речи, а также создавать несколько взаимодействующих ИИ-персонажей в режиме реального времени. OCTAVE поддерживает в качестве ввода текст и аудио, сохраняя уровень понимания языка, сравнимый с моделями аналогичного размера.
Hume AI предоставляет доступ OCTAVE ограниченному числу своих партнеров и планирует расширить доступ в ближайшие месяцы, после проведения оценки ее безопасности и эффективности.
hume.ai

✔️ Gaxos Labs расширяет возможности ИИ для 3D с помощью Meshy.

Gaxos.ai Inc. объявила об успешной интеграции Meshy 4 в свое ИИ-решение для разработчиков игр - Gaxos Labs. Meshy 4 позволяет художникам, дизайнерам и разработчикам точно настраивать топологию сетки, ограничивать количество полигонов и создавать 3D-модели более высокого качества.

Используя генеративную геометрию Meshy 4, пользователи могут легко переключаться между сетками на основе четырехугольников или треугольников, чтобы соответствовать конкретным требованиям своего проекта. Такая свобода позволяет разработчикам адаптировать 3D-активы к своим потребностям, будь то более гладкие поверхности для персонажей и анимации или сложные детали для окружения.
globenewswire.com

✔️ Olympian Motors и NVIDIA совместно разрабатывают первую ИИ-платформу для электромобилей.

Olympian Motors объявила о расширении сотрудничества с NVIDIA для разработки платформы Olympus — открытой, модульной и управляемой ИИ платформы для электромобилей. Партнерство подразумевает использование NVIDIA DRIVE AGX Orin и создание нового протокола разработки и развертывания ИИ-моделей и приложений для электромобилей.

Платформа Olympus обеспечит легкий и стандартизированный доступ к инфраструктуре данных автомобиля, датчикам и блокам обработки данных и к сетям связи. Разработчики получат модульную операционную систему и облако, чтобы развертывать модели машинного обучения и активно участвовать в развитии экосистемы электромобилей. Платформа Olympus будет представлена вместе с моделями Model 84 и Centaur VAN.
msn.com

✔️ VoxelSensors представит инновационное решение контекстуального интеллекта на CES 2025.

Бельгийский стартап VoxelSensors объявил о собственной разработке, которое позволит искусственному интеллекту взаимодействовать с людьми более естественно, как в реальном мире. Решение VoxelSensors собирает данные с носимых устройств от первого лица, что позволяет создавать модели контекстуального интеллекта, способные понимать и помогать пользователю в реальных условиях.

Компания использует комбинацию датчиков SPAES и модуля PERCEPT для сбора данных, которые важны для интерпретации опыта пользователя. Датчики SPAES обеспечивают высокую точность, меньшую задержку и более низкое энергопотребление по сравнению с существующими аналогами.
voxelsensors.com

✔️ PIMIC анонсировал чип Clarity NC100 на базе ИИ для шумоподавления окружающей среды.

Clarity NC100, чип шумоподавления окружающей среды на основе глубокой нейронной сети (DNN), который устанавливает новый стандарт производительности и эффективности ИИ на периферии. Эта технология обеспечивает ультимативное подавление шума в сложных условиях, будь то сильный ветер или промышленные условия, всего с одним микрофоном, потребляя при этом всего 150 мкА.

PIMIC представит образцы Clarity NC100 на выставке CES 2025 в Лас-Вегасе, интегрированные с цифровым микрофоном AI, разработанным компанией ZillTek.
embedded.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍269🔥7🥰1
⚡️ QVQ-72B-Preview: VLM с ризонингом от Qwen.

QVQ-72B-Preview - экспериментальная VLM на основе Qwen2-VL-72B , разработанная Qwen, со способностями к аналитическому мышлению и новым уровнем когнитивных навыков.

Проведенная в Qwen оценка QVQ-72B-Preview на бенчмарках MMMU, MathVista, MathVision и OlympiadBench показала результат 70.3 на MMMU, 71.4 на MathVista, 35.9 в MathVision и 20.4 на наборе OlympiadBench, подчеркнув ее способность к комплексному пониманию и рассуждению в мультидисциплинарных задачах.

⚠️ Несмотря на высокие результаты, QVQ-72B-Preview - предварительная версия модели, которая имеет ограничения:

🟠возможность смешения языков и переключения между ними;
🟠склонность к зацикливанию в логических рассуждениях;
🟠постепенная потеря концентрации на визуальном контенте при многоступенчатом рассуждении, что может приводить к галлюцинациям.

Неофициальные квантованные версии QVQ-72B-Preview в формате GGUF с диапазоном разрядностей от 1-bit (23.7GB) до 8-bit (77.26GB) и MLX-версии от mlx community в разрядностях от 4-bit до 16-bit.

📌Лицензирование: Qwen License.


🟡Статья
🟡Модель
🟡Demo
🟡Набор GGUF
🟡Набор MLX
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #Qwen #Reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍126
🌟 MiniVLA: компактная Vision-Language-Action модель для робототехники.

AI-лаборатория Стенфордского университета представила модель MiniVLA — усовершенствованную версию Vision-Language-Action (VLA), компактную альтернативу OpenVLA.

Отличительная особенность MiniVLA - сокращенное в 7 раз количество параметров (1 млрд. против 7 миллиардов у OpenVLA), что дает значительное ускорение процессов обучения и инференса.

В архитектуре MiniVLA используется тот же ViT для обработки изображений, что и в OpenVLA, однако в качестве языковой модели используется Qwen 2.5 0.5B вместо Llama 2 7B.

Обучение языковой модели основано на датасете Llava-1.5-Instruct VQA, аналогично базовой модели Prismatic VLM в OpenVLA. Несмотря на уменьшение размера, MiniVLA демонстрирует сопоставимую с OpenVLA производительность в рамках бенчмарка Libero-90 (61.4% против 62%).

Одно главных усовершенствований MiniVLA - применение векторного квантования (VQ) для кластеризации действий (action chunking). Вместо дискретного представления действий, модель прогнозирует их последовательности, которые кодируются в виде M кодовых индексов с помощью VQ-BeT5. Это существенно повышает производительность на Libero-90.

Так, MiniVLA с VQ h8 (action chunks) достигает 77% успеха, в то время как базовая модель MiniVLA и OpenVLA демонстрируют 61.4% и 62% соответственно.

MiniVLA поддерживает подачу на вход нескольких изображений, что позволяет использовать "историю изображений" и серию снимков с носимых целевым роботом камер. Мульти-кадровая возможность способствует повышению производительности на Libero-90: модель MiniVLA с VQ h8 и историей изображений (history=2) достигает 82% успешности, а с кадрами с новимой камеры — 82.1%.

По сделанным замерам производительности, MiniVLA показывает в 2.5 раза более высокую скорость инференса, чем OpenVLA (12.5Hz против 5Hz) на одном GPU NVIDIA L40s.

▶️В репозитории на HF опубликованы несколько вариантов MiniVLA:

🟢Prism with Qwen 2.5 0.5B backbone
🟢MiniVLA 1B Wrist VQ
🟢MiniVLA VQ 1B
🟢MiniVLA Image History (T=2) VQ 1B
🟢MiniVLA 1B
🟢MiniVLA 1B VQ Trained on Bridge V2


📌Лицензирование: MIT License.


🟡Статья
🟡Набор моделей
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLA #MiniVLA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍328🔥5
✔️ AGUVIS: платформа для автономных агентов GUI на основе компьютерного зрения.

Salesforce Research представил AGUVIS, фреймворк, использующий компьютерное зрение для автономных агентов GUI пользователя, работающего с web, mobile и PC-интерфейсами. AGUVIS использует единые визуальные данные и согласованное пространство действий для повышения обобщаемости в GUI-средах.

Модель обладает возможностями планирования и рассуждения и использует набор траекторий агентов GUI с многомодальным основанием. AGUVIS показал среднюю точность 89,2% в GUI-задачах, превзойдя другие методы, и снижение затрат на вывод на 93% по сравнению с GPT-4o.
Веса модели и код инференса - в планах, код для тренировки, траектории планирования и рассуждений доступны на Github.
aguvis-project.github.io

✔️ Google повела итоги года в области ИИ: 60 главных анонсов 2024 года.

Google подвела итоги 2024 года, отметив значительный прогресс в области развития технологий ИИ. За год было сделано 60 крупных анонсов: в начале 2024 года были представлены обновления для Gemini, Chrome, Pixel и Search и функция Circle to Search. В феврале дебютировала модель Gemini 1.5, а Bard стал Gemini. В марте акцент был сделан на использовании ИИ в здравоохранении, а в мае на конференции Google I/O были представлены новые продукты и функции на базе ИИ.

В течение года Google запустила новые инструменты для Google Workspace, образования, перевода, поиска и покупок. В декабре была представлена Gemini 2.0, модель нового поколения наступающей агентной эры ИИ.
blog.google

✔️ Лазерный искусственный нейрон имитирует функции нервных клеток со скоростью света.

Исследователи Университета Гонконга разработали лазерный искусственный нейрон, который полностью имитирует функции, динамику и обработку информации биологического градиентного нейрона. Новая разработка достигает скорости обработки сигнала в 10 ГБод, что в миллиард раз быстрее, чем у биологических аналогов.

Лазерный градиентный нейрон преодолевает ограничения скорости фотонных версий спайковых нейронов и имеет потенциал для еще более быстрой работы. Ученые использовали его для создания системы резервуарных вычислений, которая демонстрирует исключительную производительность в задачах распознавания образов и прогнозирования последовательностей. Тестовая среда обработала данные 100 миллионов сердечных сокращений или 34,7 миллиона рукописных цифровых изображений всего за одну секунду.
eurekalert.org

✔️ xAI выпустила мобильное приложение Grok для iOS с возможностью генерации изображений.

xAI выпустила Grok для iOS, которое в настоящее время находится на стадии бета-тестирования в Австралии и некоторых других регионах. Приложение имитирует основные функции Grok и использует модель искусственного интеллекта Grok-2.

Приложение может переписывать и обобщать текст, отвечать на вопросы и создавать изображения на основе текстовых запросов, а также получать доступ к данным из интернета и X в режиме реального времени. Одной из отличительных особенностей Grok - возможность генерации изображений, которая не имеет таких строгих ограничений, как у некоторых конкурентов, и позволяет анализировать изображения, загруженные пользователями.
techradar.com

✔️ Соучредитель Anthropic прогнозирует "еще более резкий" прогресс в развитии ИИ в 2025 году.

Джек Кларк, соучредитель Anthropic, в своей публикации на LinkedIn предположил, что в 2025 году темпы развития ИИ значительно ускорятся, благодаря сочетанию традиционных методов масштабирования моделей и масштабирования вычислительных ресурсов во время выполнения, используемое в моделях o-серии OpenAI. Кларк уверен, что сочетание традиционного масштабирования с новыми методами приведет к "еще более резким" достижениям в области ИИ в 2025 году.

Anthropic пока не выпустила модель, конкурирующую с o-серией OpenAI или Gemini от Google. Их модель Opus 3.5 была отложена из-за высоких затрат, но она помогла в разработке Sonnet 3.5.
the-decoder.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥106😁2
📌Cовременные методов позиционного кодирования в Transformers: от простых целых чисел до RoPE.

Познавательная статья Кристофера Флитвуда, ML-инженера HuggingFace об эволюции методов позиционного кодирования в моделях-трансформерах, начиная с простых подходов и заканчивая Rotary Positional Encoding (RoPE), используемым в современных моделях, таких как Llama 3.2.

Самовнимание, ключевой механизм трансформеров, требует обогащения позиционной информацией, поскольку оно является перестановочно инвариантным, то есть не учитывает порядок токенов в последовательности.

Без позиционной информации модели не могут различать одинаковые токены, находящиеся в разных позициях, что делает невозможным определение отношений между словами в предложении.

В статье описываются желательные свойства идеальной схемы позиционного кодирования: уникальность кодирования для каждой позиции, линейная зависимость между закодированными позициями, обобщение на более длинные последовательности, детерминированный процесс генерации и возможность расширения на множественные измерения.

Начальные методы, например, добавление целочисленного значения позиции к эмбеддингу токена, были признаны несостоятельными из-за проблем с диапазоном значений и низкой разделительной способностью. Альтернативой стало бинарное позиционное кодирование, которое, однако, не обеспечивало достаточной гладкости и непрерывности для оптимизации.

Синусоидальное позиционное кодирование, описанное в «Attention is all you need», стало важным шагом вперед.

Оно использует синусоидальные и косинусоидальные функции с разными частотами для кодирования позиции, позволяя модели изучать отношения между позициями.

RoPE кодирует относительные позиции, применяя матрицу вращения к парам компонентов векторов запросов (q) и ключей (k), что позволяет модели эффективно кодировать позиционную информацию без изменения нормы векторов. Это достигается путем умножения пар элементов векторов на матрицу вращения.

RoPE также может быть расширен для работы с многомерными данными, например, изображениями, путем независимого кодирования позиций в разных измерениях.


🔜 Статья на HuggingFace


@ai_machinelearning_big_data

#AI #ML #LLM #RoPE #Huggingface #Blogpost
Please open Telegram to view this post
VIEW IN TELEGRAM
👍276🔥3🤔2
🌟 DepthLab: инпейнт карт глубины на основе диффузионных моделей.

DepthLab - диффузионный механизм инпейнта карт глубины с двумя параллельными ветвями для задач заполнения 3D-сцен, генерации сцен на основе текстовых промптов, реконструкции с использованием DUST3R и заполнение глубины LiDAR.

Первая ветвь, Reference U-Net извлекает признаки из RGB-изображений, которые служат условием для второй ветви.

Вторая ветвь, Estimation U-Net, обрабатывает имеющиеся данные о глубине и маску, определяющую области, требующие восстановления. Признаки RGB, полученные из Reference U-Net, последовательно интегрируются в Estimation U-Net, что позволяет управлять процессом восстановления.

Взаимодействие между ветвями Reference U-Net и Estimation U-Net реализуется механизмом cross-attention, который использует CLIP encoder.

Архитектура DepthLab опирается на наработки Marigold и Stable Diffusion V2. Кодирование RGB-изображений и карт глубины в латентное пространство осуществляется VAE. Маска также кодируется с помощью VAE, что позволяет сохранить детальную информацию о форме и границах.

Обучение DepthLab проводилось на двух синтетических датасетах: Hypersim (54 тысячи обучающих образцов) и Virtual KITTI (20 тысяч обучающих образцов). Для расширения обучающей выборки использовались случайные искажения изображений и несколько стратегий маскирования: штрихи, окружности, квадраты и их комбинации.

Оценка качества восстановления проводилась на 5 наборах: NYUv2, KITTI, ETH3D, ScanNet, DIODE. В качестве метрик использовались абсолютная относительная ошибка (AbsRel) и точность в пределах δ1 = 1.25.

Результаты тестов демонстрируют, что DepthLab превосходит как дискриминативные (DiverseDepth, MiDaS, LeReS, Omnidata, HDN, DPT, DepthAnything, DepthAnythingV2), так и генеративные (Marigold, DepthFM, GeoWizard) методы в постоении карт глубины.


Для локального инференса потребуются модели:

🟢Marigold checkpoint;
🟢Энкодер CLIP-ViT-H-14-laion-2B;
🟢Набор чекпоинтов DepthLab.

▶️Локальная установка и инференс:

# Clone repo
git clone https://github.com/Johanan528/DepthLab.git
cd DepthLab

# Create conda env
conda env create -f environment.yaml
conda activate DepthLab

# Run inference
cd scripts
bash infer.sh



🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DepthLab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍288🔥4❤‍🔥1🤣1
✔️ Deepseek V3.

Deepseek выпустила свою самую мощную языковую модель Deepseek V3, которая, по предварительным тестам, конкурирует с ведущими проприетарными моделями. Новая модель построена на архитектуре MoE и содержит 671 млрд. параметров, из которых 37 млрд. активных. Deepseek V3 обучалась на 14,8 трлн. токенов, что почти вдвое больше, чем у V2.

Deepseek V3 обрабатывает 60 токенов в секунду, это в 3 раза быстрее, чем V2. Модель показала высокие результаты в тестах на логическое мышление, в MATH 500 (90,2%) и программировании (Codeforces и SWE). Deepseek утверждает, что V3 сопоставима с GPT-4o и Claude-3.5-Sonnet по производительности. В отрытом доступе модель можно найти на HF, а попробовать - в демо-чате.
deepseek.com

✔️ Смартфоны с ИИ могут компенсировать спад в центрах обработки данных.

СEO Advantest, поставщика Nvidia, считает, что спрос на смартфоны с ИИ может помочь защитить полупроводниковый сектор от резкого спада клиентских расходов на центры обработки данных. Снижение темпов роста инвестиций в центры обработки данных крупными технологическими компаниями, такими как Google и Microsoft, может иметь серьезные последствия для цепочки поставок. В то время как спрос на телефоны с искусственным интеллектом пока был "довольно медленным", он может быстро возрасти.
pymnts.com

✔️ ИИ в 2025 году: прогноз от Forbes.

В 2025 году мир ИИ ожидает ряд изменений, которые коснутся как технологий, так и бизнеса. Разработчик Llama начнет взимать плату за использование своих моделей для крупных компаний. Это неизбежно из-за огромных затраты обучения моделей, так как поддержание конкурентоспособности требует миллиардных инвестиций. При этом, индивидуальные разработчики и стартапы смогут продолжать пользоваться Llama бесплатно.

Законы масштабирования будут применяться не только к языковым моделям, но и к робототехнике и биологии. В этих областях ожидается значительный прогресс, поскольку исследования только начинаются. Веб-агенты станут массовым явлением, выполняя за пользователей онлайн-задачи. Начнут появляться серьезные проекты по размещению дата-центров с ИИ в космосе для получения доступа к "бесплатной" солнечной энергии.
С безопасностью ИИ произойдет первый реальный инцидент, который покажет, что системы ИИ могут действовать непредсказуемо. ИИ достигнет нового уровня в распознавании речи, пройдя тест Тьюринга для голоса. И наконец, системы ИИ будут способны самостоятельно разрабатывать более совершенные ИИ, что разгонит развитие в этой области кратно.
forbes.com

✔️ Microsoft и OpenAI определяют AGI на основе прибыли, а не технических достижений.

Согласно отчету The Information, Microsoft и OpenAI имеют внутреннее определение AGI, основанное на прибыльности проекта. По этому определению, OpenAI достигнет AGI только тогда, когда их системы смогут приносить не менее 100 млрд. долларов прибыли. Это отличается от общепринятых технических и философских определений AGI.

В этом году OpenAI понесет миллиардные убытки и не ожидает прибыли до 2029 года. Это важная деталь, так как Microsoft потеряет доступ к технологиям OpenAI, когда стартап достигнет AGI. Ходят слухи, что OpenAI может объявить о достижении AGI раньше, чтобы ограничить доступ Microsoft, но этот отчет означает, что Microsoft может иметь доступ к моделям OpenAI в течение десятилетия или более.
theinformation.com

✔️ Nvidia B300: новые ускорители с увеличенной на 50% производительностью и TDP 1400 Вт

Nvidia готовится к выпуску B300 второго поколения на архитектуре Blackwell, которые обеспечат на 50% более высокую производительность по сравнению с серией B200. Увеличение производительности достигается при TDP 1400 Вт, что всего на 200 Вт больше, чем у GB200. Процессоры B300 будут использовать память 12-Hi HBM3E с пропускной способностью 8 ТБ/с.

Помимо увеличенной производительности и памяти, B300 получит сетевой адаптер 800G ConnectX-8, который имеет 2х большую пропускную способность, чем 400G ConnectX-7, и 48 линий PCIe. Nvidia изменит подход к поставкам, продавая B300 только на модуле SXM Puck.
tomshardware.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2812😢5🔥3😁2🤣1
📌Эксперты назвали основные тренды в развитии ИИ

В пятерку глобальных ИИ-трендов вошли мультимодальные ИИ, активное использование открытого кода, гиперперсонализация ИИ, развитие ИИ-агентов и автономные системы.

Особенность мультимодального ИИ в возможности обрабатывать сразу и текст, и изображения, и аудио с видео. По словам эксперта, кульминацией мультимодальности станут VLM-модели, обучающиеся не на текстах, а на видеофайлах.

Также в будущем разработчики ИИ будут активнее использовать опенсорсные модели обучения и выкладывать новые модели в Open Source. Развитие открытого кода позволит увеличить скорость разработки инновационных продуктов и создания более доступных технологий, отметил техдиректор Яндекс Поиска Алексей Гусаков.

🔜 Статья

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍216🔥3
🌟 PAR: метод параллелизации в генерации изображений и видео.

Авторегрессионное моделирование использует последовательный принцип "токен за токеном" с отличными результатами, но, с развитием качества генерации и размеров моделей, требует больших вычислительных ресурсов, замедляя процесс инференса.

Анализ зависимостей между токенами выявил закономерность, что токены, пространственно удаленные друг от друга, обладают более слабыми взаимосвязями. Так родилась теория о возможности их параллелизации, которая получила название PAR (Parallelized Autoregressive Visual Generation).

PAR предлагает разделение изображения на локальные сегменты, в которых начальные токены генерируются последовательно для формирования глобальной структуры. Затем выполняется параллельная генерация токенов в сегментах.

Такой подход дает ускорение процесса генерации изображений и видео в 3,6 раза при сохранении сопоставимого качества, и до 9,5 раз при минимальном снижении качества.

PAR может интегрироваться в стандартные архитектуры авторегрессионных моделей, не требуя их модификации, при этом используется механизм переупорядочивания токенов и набор обучаемых эмбеддингов, чтобы поддержать плавность перехода между последовательным и параллельным режимами генерации.

Эксперименты с PAR проводились на наборах ImageNet и UCF-101, с токенизаторами VQGAN и MAGVIT-v2. Качества итоговых изображений оценивалось метриками FID и IS, а для видео - метрикой FVD.

В результате, PAR с набором ImageNet показал сокращение количества шагов генерации в 3,9 раза и ускорение в 3,6 раза при сопоставимом уровне качества. В кейсе с более интенсивной параллелизацией количество шагов сократилось в 11,3 раза, а ускорение в 9,5 раз с минимальным снижением качества.

С датасетом UCF-101 PAR-4x (реализация с четырьмя параллельными токенами) показала ускорение в 3,8 раза при незначительном ухудшении качества, а PAR-16x (16 токенов) - в 12,6 раза, также при минимальных изменениях метрики FVD.

⚠️ Код проекта обещают опубликовать в ближайшее время.


🟡Страница проекта
🟡Arxiv
🖥GitHub (Coming soon)


@ai_machinelearning_big_data

#AI #ML #PAR #Parallelization
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2111🔥2