🌟 Дайджест новостей
👨🏻💻 Исследователи разработали метод улучшения способности ИИ к сложным рассуждениям.
Команда MetaFAIR разработала метод "System 2 distillation", позволяющий обучать языковые модели решению сложных задач без промежуточных шагов. Этот подход улучшает способности ИИ к рассуждению и планированию, сохраняя при этом скорость и эффективность. Результаты показывают значительное повышение производительности моделей на сложных задачах, сравнимое или превосходящее точность исходных методов System 2, но с меньшими вычислительными затратами. Venturebeat.com
💪 Разарботчики LLamы готовится представить самую мощную на сегодняшний день модель Llama-3 23 июля
Модель будет флагманской в линейке Llama-3: 405 миллиардов параметров.
Ожидается, что новая модель превзойдет GPT-4 по производительности и будет обладать мультимодальными возможностями, включая обработку текста и изображений. Llama-3 разрабатывается с использованием конституционного ИИ для повышения безопасности и этичности. Theinformation.com
🖥 Microsoft анонсировала систему RUBICON, которая оценивает качество общения между людьми и системами искусственного интеллекта, улучшая взаимодействие в конкретных областях, таких как разработка программного обеспечения.
RUBICON - специально разработанная система для обсуждения конкретных предметных областей в средах разработки программного обеспечения. Она устраняет ограничения существующих механизмов обратной связи и направлен на то, чтобы обновления ИИ-помощников существенно улучшали взаимодействие с пользователем.
Структура системы основана на SPUR, а новый алгоритм выбора определяет высококачественные рубрики, повышая точность прогнозирования в практических приложениях. Microsoft.com
📱NEXA AI разработала Octoplanner, высокоэффективную среду оптимизации агентов искусственного интеллекта для периферийных устройств.
Структура платформы Octoplanner разделяет планирование и выполнение действий, применяя методы точной настройки модели, в частности методы LoRA и Multi-LoRA, чтобы значительно снизить вычислительные затраты и потребление энергии. Octoplanner имеет модульная конструкцию, что делает ее подходящим для периферийных устройств с ограниченными ресурсами. такими как мобильные телефоны. Nexa4ai.com
🚥 Исследователи из Института науки о свете (MPISL, Эрланген, Германия) предложили новый оптический подход к созданию более эффективных нейронных сетей.
Метод позволяет реализовать нейронную сеть с помощью оптической системы, что может сделать машинное обучение более энергоэффективным и экономичным . Ключевая особенность подхода заключается в том, что входной сигнал изменяет передачу света, а не просто накладывается на световое поле. Это позволяет избежать сложных физических взаимодействий и высоких мощностей лазера, необходимых для реализации математических функций.
Авторы предполагают, что их подход может использоваться для классификации изображений с той же точностью, что и цифровые нейронные сети. Заявленный метод значительно упрощает экспериментальные требования и может быть применен к различным физическим системам, открывая новые возможности для нейроморфных устройств. Optics.org
@ai_machinelearning_big_data
#news #digest
👨🏻💻 Исследователи разработали метод улучшения способности ИИ к сложным рассуждениям.
Команда MetaFAIR разработала метод "System 2 distillation", позволяющий обучать языковые модели решению сложных задач без промежуточных шагов. Этот подход улучшает способности ИИ к рассуждению и планированию, сохраняя при этом скорость и эффективность. Результаты показывают значительное повышение производительности моделей на сложных задачах, сравнимое или превосходящее точность исходных методов System 2, но с меньшими вычислительными затратами. Venturebeat.com
💪 Разарботчики LLamы готовится представить самую мощную на сегодняшний день модель Llama-3 23 июля
Модель будет флагманской в линейке Llama-3: 405 миллиардов параметров.
Ожидается, что новая модель превзойдет GPT-4 по производительности и будет обладать мультимодальными возможностями, включая обработку текста и изображений. Llama-3 разрабатывается с использованием конституционного ИИ для повышения безопасности и этичности. Theinformation.com
RUBICON - специально разработанная система для обсуждения конкретных предметных областей в средах разработки программного обеспечения. Она устраняет ограничения существующих механизмов обратной связи и направлен на то, чтобы обновления ИИ-помощников существенно улучшали взаимодействие с пользователем.
Структура системы основана на SPUR, а новый алгоритм выбора определяет высококачественные рубрики, повышая точность прогнозирования в практических приложениях. Microsoft.com
📱NEXA AI разработала Octoplanner, высокоэффективную среду оптимизации агентов искусственного интеллекта для периферийных устройств.
Структура платформы Octoplanner разделяет планирование и выполнение действий, применяя методы точной настройки модели, в частности методы LoRA и Multi-LoRA, чтобы значительно снизить вычислительные затраты и потребление энергии. Octoplanner имеет модульная конструкцию, что делает ее подходящим для периферийных устройств с ограниченными ресурсами. такими как мобильные телефоны. Nexa4ai.com
🚥 Исследователи из Института науки о свете (MPISL, Эрланген, Германия) предложили новый оптический подход к созданию более эффективных нейронных сетей.
Метод позволяет реализовать нейронную сеть с помощью оптической системы, что может сделать машинное обучение более энергоэффективным и экономичным . Ключевая особенность подхода заключается в том, что входной сигнал изменяет передачу света, а не просто накладывается на световое поле. Это позволяет избежать сложных физических взаимодействий и высоких мощностей лазера, необходимых для реализации математических функций.
Авторы предполагают, что их подход может использоваться для классификации изображений с той же точностью, что и цифровые нейронные сети. Заявленный метод значительно упрощает экспериментальные требования и может быть применен к различным физическим системам, открывая новые возможности для нейроморфных устройств. Optics.org
@ai_machinelearning_big_data
#news #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥7❤4⚡2
FP8- это формат квантования, предоставляющий для моделей баланс между точностью и эффективностью. Он обеспечивает нерегулярное представление диапазона и масштабирование для каждого тензора на GPU, что позволяет достичь прироста производительности и сокращения потребления памяти.
Этот современный формат обещает революцию в развертывании LLM, значительно улучшая эффективность инференеса без ущерба для качества модели:
Реализация поддержки FP8 стала возможна благодаря усилиям сервисов Neuralmagic.com и Anyscale.com, которые активно поддерживают open-soure сообщество.
В репозитории выложены Instruct FP8 версии моделей:
⚠️ Представленный набор моделей предназначен для запуска в среде vLLM (версии от 0.5 и выше) и ее реализациях, поддерживающих технологии разреженности и быстрого инференса:
vLLM - open-source среда для быстрого вывода и использования LLM, основанная на методе PagedAttention.
PagedAttention - алгоритм внимания, вдохновленный классической идеей виртуальной памяти и подкачки в операционных системах. Его использование снижает нагрузку на VRAM, связанную со сложными алгоритмами выборки. Экономия памяти может достигать до 55%.
Более подробно про vLLM и алгоритм PagedAttention можно прочитать на странице проекта
@ai_machinelearning_big_data
#FP8 #LLM #vLLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍14❤10⚡1
Существующие инструменты для симуляции эластичных объектов часто ограничены в использовании и могут работать только с определенными типами 3D-моделей. Это создает трудности при моделировании деформации объектов разной геометрии и упругости.
Проект Simplicits предлагает сделать 3D-моделирование еще проще и универсальнее. Его главная особенность в том, что он может работать с любыми типами 3D-геометрии, выполняя моделирование изменяющихся во времени эластодинамических свойств объектов.
На вход подается 3D-модель в состоянии покоя, а на выходе получается набор данных, описывающих, как эта модель будет двигаться и деформироваться.
Метод, заложенный в Simplicits использует "функцию занятости" - математическое описание того, какие точки находятся внутри 3D-объекта, а какие снаружи. Такую функцию можно построить практически для любой 3D-модели.
Далее Simplicits применяет алгоритм линейного смешивания скиннинга (LBS). Это позволяет описать, как будет деформироваться поверхность объекта при движении. Важно, что все вычисления производятся без использования сетки из треугольников, как, например, в традиционных методах симуляции.
Вместо этого применяются спрогнозированные на основе карт деформации нейронные поля, обрабатывающие веса скиннинга для симуляции динамического движения, что делает процесс более гибким и управляемым.
Разработчики провели множество тестов Simplicits на самых разных 3D-объектах - от простых лент до сложных сцен с использованием Gaussian Splatting и NeRFs. Результаты показали, что система успешно справляется даже с объемными деформациями и множеством видов контакта поверхностей при движении, например - столкновениями объектов.
Simplicits - это важный шаг вперед в области 3D-моделирования. Он делает создание реалистичных трехмерных анимаций более доступным как для профессионалов, так и для начинающих пользователей, что предоставляет новые горизонты в таких сферах, как компьютерная графика, виртуальная реальность и компьютерные игры.
@ai_machinelearning_big_data
#Paper #3D #Simulation #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤8🔥4⚡1❤🔥1
Дайждест новостей:
📱 YouTube Music тестирует радио, созданное ИИ и запустит звуковой поиск
YouTube Music представляет две новые функции, которые помогут пользователям находить новую музыку.
Функция «разговорного радио», созданная ИИ, которая поможет пользователям создавать собственные радиостанции, описывая тип музыки, которую они хотят слушать. Эта функция уже доступна некоторым пользователям с подпиской Premium в США.
Новая функция распознавания песен, которая дает возможность пользователям искать в каталоге приложения, напевая или проигрывая части песни.
Эта функция доступна всем пользователям YouTube Music на iOS и Android. Techcrunch.com
💠 Google тестирует сервис создания видеопрезентаций, где помощником выступает Gemini
Google запустил новое приложение Vids, которое использует Gemini AI для автоматического создания видеоконтента, сценариев и озвучки на основе вводимых пользователем данных. Это позволяет каждому создавать профессионально выглядящие видеопрезентации без особых навыков редактирования.Theverge.com
🖥 Microsoft представила AI для электронных таблиц
Исследователи Microsoft опубликовали новое исследование, представляющее SpreadsheetLLM и SheetCompressor.
Это новые платформы, разработанные, чтобы помочь специалистам по LLM лучше понимать и обрабатывать информацию в электронных таблицах.
SpreadsheetLLM может обрабатывать как структурированные, так и неструктурированные данные в таблицах, включая несколько таблиц одновременно с различными форматами данных.
SheetCompressor — это платформа, которая сжимает электронные таблицы для сокращения количества токенов до 25 раз при сохранении важной информации.
Используя электронные таблицы в качестве «источника знаний », SpreadsheetLLM может значительно уменьшить галлюцинации ИИ, повысив надежность выдачи языковых моделей. Arxiv.org
🖥 Запустилась бета-версия LlamaCloud, сервиса Llamaindex.ai, предназначенного для улучшения рабочих процессов RAG.
LlamaCloud призван помочь разработчикам тратить меньше времени на настройку конвейеров обработки данных, позволяя им быстрее итерировать над разработкой приложений на основе LLM.
Возможности LlamaCloud:
- LlamaParse: продвинутый инструмент анализа документов, поддерживающий множество форматов;
- Управляемая загрузка данных: простое подключение к источникам данных и системам хранения
- Продвинутый поиск: семантический поиск, переранжирование, фильтрация по метаданным;
- Интерактивная платформа для тестирования и настройки стратегий загрузки и поиска
- Масштабируемость и безопасность для промышленных нагрузок.
llamaindex.ai
ℹ️ Исследователи из MIT и лаборатории Watson MIT-IBM представили методику оценки надежности базовых моделей перед их развертыванием.
Эта методика включает обучение ансамбля немного отличающихся базовых моделей и использование алгоритма для оценки согласованности представлений, которые каждая модель изучает на основе одной и той же точки тестовых данных.
Методику можно использовать для принятия решения о том, следует ли применять модель в определенных условиях без необходимости проведения реальных испытаний, что особенно полезно в сценариях, где наборы данных недоступны из-за проблем с конфиденциальностью. News.mit.edu
@ai_machinelearning_big_data
#news #digest
YouTube Music представляет две новые функции, которые помогут пользователям находить новую музыку.
Функция «разговорного радио», созданная ИИ, которая поможет пользователям создавать собственные радиостанции, описывая тип музыки, которую они хотят слушать. Эта функция уже доступна некоторым пользователям с подпиской Premium в США.
Новая функция распознавания песен, которая дает возможность пользователям искать в каталоге приложения, напевая или проигрывая части песни.
Эта функция доступна всем пользователям YouTube Music на iOS и Android. Techcrunch.com
💠 Google тестирует сервис создания видеопрезентаций, где помощником выступает Gemini
Google запустил новое приложение Vids, которое использует Gemini AI для автоматического создания видеоконтента, сценариев и озвучки на основе вводимых пользователем данных. Это позволяет каждому создавать профессионально выглядящие видеопрезентации без особых навыков редактирования.Theverge.com
Исследователи Microsoft опубликовали новое исследование, представляющее SpreadsheetLLM и SheetCompressor.
Это новые платформы, разработанные, чтобы помочь специалистам по LLM лучше понимать и обрабатывать информацию в электронных таблицах.
SpreadsheetLLM может обрабатывать как структурированные, так и неструктурированные данные в таблицах, включая несколько таблиц одновременно с различными форматами данных.
SheetCompressor — это платформа, которая сжимает электронные таблицы для сокращения количества токенов до 25 раз при сохранении важной информации.
Используя электронные таблицы в качестве «источника знаний », SpreadsheetLLM может значительно уменьшить галлюцинации ИИ, повысив надежность выдачи языковых моделей. Arxiv.org
LlamaCloud призван помочь разработчикам тратить меньше времени на настройку конвейеров обработки данных, позволяя им быстрее итерировать над разработкой приложений на основе LLM.
Возможности LlamaCloud:
- LlamaParse: продвинутый инструмент анализа документов, поддерживающий множество форматов;
- Управляемая загрузка данных: простое подключение к источникам данных и системам хранения
- Продвинутый поиск: семантический поиск, переранжирование, фильтрация по метаданным;
- Интерактивная платформа для тестирования и настройки стратегий загрузки и поиска
- Масштабируемость и безопасность для промышленных нагрузок.
llamaindex.ai
Эта методика включает обучение ансамбля немного отличающихся базовых моделей и использование алгоритма для оценки согласованности представлений, которые каждая модель изучает на основе одной и той же точки тестовых данных.
Методику можно использовать для принятия решения о том, следует ли применять модель в определенных условиях без необходимости проведения реальных испытаний, что особенно полезно в сценариях, где наборы данных недоступны из-за проблем с конфиденциальностью. News.mit.edu
@ai_machinelearning_big_data
#news #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍15❤6🥰1
SEED-Story - это инструмент на базе проекта SEED-Х для создания истории из изображений и текстов в заранее определенном стиле. Такая история может содержать до 25 эпизодов.
Методика, используемая в SEED-Story основана на комбинации из предварительно обученных моделей, которые помогают создавать реалистичные изображения и текст, специальной адаптации, чтобы обеспечивать согласованность персонажей и стилей в изображениях и мультимодальном механизме внимания, для сохранения важных деталей текста и изображений.
SEED-Story обучалась на специальном детализированном датасете StoryStream, который основан на нескольких мультипликационных сериалах.
⚠️ Для использования SEED-Story потребуется 40GB VRAM (с учетом возможности самостоятельной тренировки) м набор дополнительных моделей:
⚠️ GradioUI к SEED-Story находится в разработке, и, по словам разработчиков будет представлен в ближайшее время (сроки не сообщаются).
⚖️ Лицензирование кода: Apache-2.0 license
@ai_machinelearning_big_data
#MLLM #VisualStorytelling #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍8🥰2
LongVA – техника визуальной обработки длинных видео, которая может обрабатывать более 1000 кадров и 200К визуальных токенов с помощью концепции Long Context Transfer.
Принцип Long Context Transfer состоит в изменении метода обучения: сначала обучают языковую модель только на данных "изображение-текст", а затем используют краткие данные изображений для согласования модальностей. Модель, обученная таким образом, может напрямую понимать мультикадровые видео, исключая необходимость в обучении на датасетах длинных видео.
В независимом тестировании на Video-MME, предложенном USTC, LongVA заняла седьмое место и достигла уровня SoTA для модели 7B.
В тестировании MLVU - второе место после GPT-4o и была признана самой мощной открытой моделью.
Для лабораторного тестирования метода был разработан специальный тест Visual Needle-In-A-Haystack (V-NIAH), состоящий из пяти вопросов с ответами на основе изображений.
Каждый из пяти изображений были вставлены в качестве отдельного кадра в тестовое многочасовое видео.
Проверка на тестовых пяти вопросах (с подсказкой по локализации в формулировке вопроса) показала, что LongVA проходит этот тест пределах 2000 кадров при плотности 144 токена на кадр.
Этот тест доступен в репозитории проекта наряду с инструкциями по запуску LongVA в локальных средах и инструментами для самостоятельной тонкой настройки (тренировки) модели.
👉 Весь набор предлагаемых инструментов репозитория прошел проверку на выполнение с CUDA 11.8 на 1хA100-SXM-80G
⚖️ Лицензирование кода: Apache-2.0 license
⚖️ Лицензирование моделей: Qwen2 license
@ai_machinelearning_big_data
#ML #VLM #VQA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24❤7🔥4
С помощью StyleSplat пользователи могут стилизовать несколько объектов в одной сцене, применяя к каждому объекту разные стили с большой точностью.
StyleSplat спроектирован так, чтобы быть легким и эффективным, при этом давая возможность контролировать масштаб шаблонов стиля, регулируя такие параметры, как размер изображения стиля или слои, используемые для извлечения объектов.
В основе проекта применяется техника, которая использует гауссово пятно для передачи стиля трехмерных объектов. Такой подход устраняет ограничения других существующих методов, предоставляя улучшенный контроль и настройку при создании 3D.
StyleSplat выполняется в три основных этапа:
1. Сегментации видео DEVA (DEVA) и Segment Anything (SAM) для получения согласованных 2D-масок по всей сцене. Эти маски обеспечивают точный выбор объекта и служат основой для последующих шагов.
2. Гауссовская группировка, в которой каждому 3D-гауссову вектору присваивается уникальный и обучаемый компактный вектор признаков.
Оптимизируя эти векторы вместе с коэффициентами сферических гармоник, выполняется уточняющая сегментация трехмерных гауссиан, что позволяет более точно выбирать объекты.
3. Перенос 3D-стиля. Это этап тонкой настройки совмещает коэффициенты сферических гармоник выбранных гауссиан с изображением эталонного стиля. Этот этап гарантирует, что будут стилизованы только выбранные объекты, а остальная часть сцены останется нетронутой.
По сравнению с аналогичным решением S2RF, StyleSplat превосходит его по точности и визуальной достоверности.
S2RF часто приводит к обесцвечиванию нецелевых областей, тогда как использование сегментированных 3D-гауссиан в StyleSplat обеспечивает точную и изолированную передачу стиля.
@ai_machinelearning_big_data
#3D #Gaussian #ML #Styletransfer
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤3🔥1😁1