Machinelearning

🌟 OmniParser: инструмент для распознавания UI в структурированный формат от Microsoft.

OmniParser - инструмент для анализа скриншотов пользовательского интерфейса, разработанный для улучшения работы агентов UI на основе LLM.

Он преобразует скриншоты в структурированный формат, выделяя интерактивные области и описывая функции элементов(кнопки, иконки, значки и т.д) и не требует исходного HTML или иерархии представлений.

OmniParser состоит из двух моделей:

🟢Модель обнаружения интерактивных элементов, основанная на YOLOv8 и обученная на датасете из 67 тысяч скриншотов веб-страниц с аннотациями кликабельных областей.

🟢Модель описания функций элементов UI, основанная на BLIP-2, обученная на 7 тысячах пар "элемент-описание", созданных с помощью GPT-4o.

OmniParser был протестирован в бенчмарках ScreenSpot, Mind2Web и AITW, где превзошел агентов на основе GPT-4V и модели, обученные на данных графических интерфейсов (SeeClick, CogAgent и Fuyu).

⚠️ OmniParser может испытывать трудности с распознаванием повторяющихся элементов, текста и с определением точных границ кликабельных областей.

На сегодняшний день занимает первое место в трендах среди 1078 938 моделей.

▶️Локальная установка и запуск в Gradio UI :

# Create conda env
conda create -n "omni" python==3.12
conda activate omni

# Install requirement
pip install -r requirement.txt

# Run Gradio UI
python gradio_demo.py
📌Лицензирование: MIT License.

🟡

Страница проекта

🟡

Набор моделей

🟡

Arxiv

🖥

Github

@ai_machinelearning_big_data

#AI #ML #Microsoft #YOLO8 #BLIP #OmniParser

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20❤18🔥6🎉4

10.6K views17:35

Machinelearning

🌟 TinyTroupe: мультиагентное моделирование личностей.

TinyTroupe - экспериментальная библиотека Python от Microsoft, которая симулирует поведение людей с определенными личностями, интересами и целями. Эти агенты, TinyPerson, могут слушать нас и друг друга, отвечать и жить своей жизнью в симулированных средах TinyWorld.

Симуляция реалистичного имитационного поведения достигается за счет использования возможностей LLM (GPT-4) . С помощью TinyTroupe можно создать свои собственные сценарии и изучать, как личности с разными характерами будут взаимодействовать и реагировать в разных ситуациях.

Библиотека TinyTroupe помогает понять поведенческие факторы персоналий, но не пытается напрямую им помочь (в отличие от виртуальных помощников). Вместо этого она создает специальные инструменты, которые работают только в смоделированных условиях. TinyTroupe отличается от других ролевых инструментов тем, что она направлена на решение реальных бизнес-задач и повышение эффективности проектов, а не просто на игру.

Как и любая мультиагентная система, TinyTroupe предоставляет 2 ключевые абстракции:

🟢

TinyPerson - агенты (смоделированные личности) с определенными чертами характера, интересами и целями.

🟢

TinyWorld - среда, в которой агенты существуют и взаимодействуют.

Обе сущности настраиваются через различные параметры в config.ini, там же - тип API (Azure OpenAI Service или OpenAI API), параметры модели и уровень логирования.

TinyTroupe предлагает ряд утилит, которые облегчают создание симуляций и извлечение ценной информации из них:

🟠

TinyPersonFactory для генерации новых TinyPerson с использованием LLM;

🟠

TinyTool - симулированные инструменты, которые могут использоваться TinyPerson;

🟠

TinyStory для создания и управления историей, рассказываемой через симуляции;

🟠

TinyPersonValidator для проверки поведения TinyPerson;

🟠

ResultsExtractor и ResultsReducer для извлечения и сокращения результатов взаимодействия между агентами.

Чтобы получить представление о том, на что способен TinyTroupe, в репозитории опубликовано несколько примеров его использования. Эти примеры находятся в папке examples/, и, на выбор, можно просмотреть предварительно скомпилированные Jupyter-блокноты, либо запустить их самостоятельно локально.

⚠️ TinyTroupe находится на ранней стадии разработки и API библиотеки может меняться.

⚠️ Для использования TinyTroupe нужен OpenAI API Key или Azure OpenAI Service API KEY.

▶️Установка:

# Create & activate conda env
conda create -n tinytroupe python=3.10
conda activate tinytroupe

# Clone the repository
git clone https://github.com/microsoft/tinytroupe
cd tinytroupe

# Create and run TinyPerson
from tinytroupe.examples import create_lisa_the_data_scientist

lisa = create_lisa_the_data_scientist() # instantiate a Lisa from the example builder
lisa.listen_and_act("Tell me about your life.")

📌 Лицензирование: MIT License.

🖥

Github

@ai_machinelearning_big_data

#AI #ML #Microsoft #TinyTroupe #Рersonalities

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍31🔥14❤7❤‍🔥2🤔2

10.8K views13:30

Machinelearning

🌟 MatterSim: DL-модель для предсказания свойств материалов от Microsoft.

MatterSim - усовершенствованная модель глубокого обучения в области материаловедения, предназначенная для моделирования свойств материалов в широком диапазоне элементов, температур и давлений. Она способна точно предсказывать свойства материалов по всей периодической таблице в диапазоне температур от 0 до 5000K и давления до 1000GPa.

MatterSim использует архитектуру M3GNet, которая включает в себя двух- и трехчастичные взаимодействия. Модель обучается с использованием функции потерь, учитывающей энергию на атом, вектор силы на каждом атоме и напряжение.

Особенность MatterSim - способность к активному и непрерывному обучению. Модель способна оценивать неопределенность своих прогнозов и выбирать структуры для активного обучения, что полезно для повышения точности моделирования сложных систем. MatterSim может быть настроена для моделирования на произвольном уровне теории.

Модель демонстрирует высокую точность в предсказании свободной энергии Гиббса и 10-кратное улучшение точности по сравнению с универсальными силовыми полями, обученными на траекториях релаксации на наборах данных MPF-TP и Random-TP.

Модель может быть точно настроена для атомистических симуляций на желаемом уровне теории или для прямых предсказаний "структура-свойство"с сокращением требований к данным до 97%.

▶️В релизе представлены 2 версии модели:

🟢

MatterSim-v1.0.0-1M - мини-версия модели, которая работает быстрее;

🟢

MatterSim-v1.0.0-5M - увеличенная версия, которая является более точной.

⚠️ Рекомендуется устанавливать MatterSim с помощью mamba или micromamba, поскольку conda может работать значительно медленнее при разрешении зависимостей в environment.yaml.

▶️ Установка и использование на примере ASE калькулятора:

# Install package with the latest version
pip install git+https://github.com/microsoft/mattersim.git

# Create env via mamba
mamba env create -f environment.yaml
mamba activate mattersim
uv pip install -e .
python setup.py build_ext --inplace

# Minimal example using ASE calculator
import torch
from ase.build import bulk
from ase.units import GPa
from mattersim.forcefield import MatterSimCalculator

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Running MatterSim on {device}")

si = bulk("Si", "diamond", a=5.43)
si.calc = MatterSimCalculator(device=device)
print(f"Energy (eV)                 = {si.get_potential_energy()}")
print(f"Energy per atom (eV/atom)   = {si.get_potential_energy()/len(si)}")
print(f"Forces of first atom (eV/A) = {si.get_forces()[0]}")
print(f"Stress[0][0] (eV/A^3)       = {si.get_stress(voigt=False)[0][0]}")
print(f"Stress[0][0] (GPa)          = {si.get_stress(voigt=False)[0][0] / GPa}")

📌Лицензирование: MIT License.

🟡

Модель

🟡

Документация

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #DL #Mattersim #Microsoft

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍28🔥15❤6👏1

12.3K views13:00

Machinelearning

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ TRELLIS: универсальная модель для генерации 3D-контента от Microsoft.

TRELLIS - модель для создания высококачественных 3D-объектов на основе текстового промпта или изображения с помощью унифицированного представления Structured LATent (SLAT), которое декодирует данные в форматы: Radiance Fields, 3D-гауссианы и полигональные сетки.

SLAT обладает универсальностью, используя комбинацию из разреженной 3D-сетки и плотных визуальных признаков, извлеченных моделью DINOv2 из входного изображения.

TRELLIS использует модифицированные rectified flow transformers, адаптированные для работы с SLAT. Обучение набора моделей TRELLIS, размерами до 2 млрд. параметров, выполнялось на датасете из 500 тыс. разнообразных 3D-объектов.

Пока в открытый доступ опубликована только Image-to-3D версия - TRELLIS-image-large с 1.2 млрд. параметров. Остальные вариации модели для генерации 3D по тексту: TRELLIS-text-base (342М), TRELLIS-text-large (1.1В) и TRELLIS-text-xlarge (2В) и код для их трейна будут представлены позже (сроки не указаны).

⚠️ Для локального запуска TRELLIS-image-large рекомендуется NVIDIA GPU с VRAM 16GB или больше.

▶️Установка и запуск c WebUI (Gradio):

# Clone repo
git clone --recurse-submodules https://github.com/microsoft/TRELLIS.git
cd TRELLIS

# Create conda env and install dependencies
. ./setup.sh --new-env --basic  --flash-attn --diffoctreerast --spconv 
--mipgaussian --kaolin --nvdiffrast

# Install web demo via Gradio
. ./setup.sh --demo

# Run WebUI
python app.py

📌Лицензирование: MIT License.

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #ImageTo3D #Trellis #Microsoft

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤23👍18🔥5🥰3🤩1

9.96K views14:15

Machinelearning

🌟 VidTok: Универсальный токенизатор видео от Microsoft.

VidTok – универсальный и открытый видео токенизатор, демонстрирующий высокую производительность как в непрерывной, так и в дискретной токенизации.

Токенизация видео, преобразующая исходные данные в компактные латентные токены - важнейший шаг для задач генерации и понимания видео. VidTok предлагает ряд улучшений, которые позволяют ему превзойти существующие методы: модельную архитектуру, методы квантования и стратегии обучения.

В архитектуре VidTok пространственное и временное сэмплирование обрабатываются раздельно, используя 2D свертки для пространственных модулей и оператор AlphaBlender для временных, при этом сохраняя 3D свертки для слияния информации.

Для дискретной токенизации используется конечное скалярное квантование (FSQ), которое оптимизирует неявный кодовый словарь, улучшая стабильность обучения. Эффективность обучения достигается двухэтапной стратегией: предварительное обучение на видео с низким разрешением, а затем дообучение декодера на видео с высоким разрешением.

VidTok обучался на датасете видеоданных с разным разрешением (400 000 видео 480p и 10 000 видео 1080p). Производительность измерялась с использованием метрик PSNR, SSIM, LPIPS и FVD, результаты показали превосходство VidTok по сравнению с другими токенизаторами как в дискретной, так и в непрерывной токенизации.

При сравнении с MAGVIT-v2, OmniTokenizer, CV-VAE, Open-Sora и Cosmos-Tokenizer, VidTok достиг лучших показателей, с меньшим размером модели.

▶️ В открытый доступ опубликованы 12 чекпоинтов, расшифровка нейминга:

🟢

vidtok - базовое название;

🟢

kl или fsq - тип регуляризации и квантования латентного пространства;

🟢

causal или noncausal - тип обработки временной информации (покадрово или все кадры сразу);

🟢

488 или 41616 - компрессионное соотношение (VCR), которое определяет степень сжатия видео по времени, высоте и ширине. Например, 4x8x8 и 4x16x16;

🟢

4chn, 8chn или 16chn - количество каналов в латентном пространстве для непрерывных токенизаторов. Чем больше каналов - тем качественней видео;

🟢

262144, 32768 или 4096 - размер codebook для дискретных токенизаторов с использованием FSQ. Чем больше - тем точнее представлятся информация.

▶️Локальная установка и пример запуска как для непрерывной, так и для дискретной токенизации и как для каузальных, так и для некаузальных моделей:

# Clone repo
git clone https://github.com/microsoft/VidTok
cd VidTok

# Create conda env
conda env create -f environment.yaml
conda activate vidtok

# Inference 
import torch
from scripts.inference_evaluate import load_model_from_config

cfg_path = "configs/vidtok_kl_causal_488_4chn.yaml"
ckpt_path = "checkpoints/vidtok_kl_causal_488_4chn.ckpt"
is_causal = True

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")    
# load pre-trained model
model = load_model_from_config(cfg_path, ckpt_path)
model.to(device).eval()
# random input
num_frames = 17 if is_causal else 16
x_input = (torch.rand(1, 3, num_frames, 256, 256) * 2 - 1).to(device)  # [B, C, T, H, W], range -1~1
# model forward
_, x_recon, _ = model(x_input)
assert x_input.shape == x_recon.shape

📌Лицензирование: MIT License.

🟡

Набор моделей

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Microsoft #VidTok

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26❤7🔥4

13.5K views17:01

Machinelearning

🔥 Microsoft только что выпустила Phi-4 LLM, обученный на 9,4 триллионах токенов.

Лицензия MIT!

🤗 HF: https://huggingface.co/microsoft/phi-4

🧠

Demo: https://huggingface.co/spaces/Tonic/Phi-4

@ai_machinelearning_big_data

#phi4 #llm #Microsoft

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍68❤18🔥11🤔2🤬1😐1

25.5K views19:25

Machinelearning

⚡Microsoft на высоте!

rStar-Math SoTA для решения математических задач с точностью 90,0% (по сравнению с 58,8% Qwen2.5-Math-7B) и 86,4% (по сравнению с 41,4% Phi3-mini-3.8B), 🔥

превосходя o1-preview на 4,5% и 0,9%, решает 53,3% задач математической олимпиады США, попадая в 20% лучших математиков старшей школы

Код будет опубликован в ближайшее время! 🤗

https://huggingface.co/papers/2501.04519с

@ai_machinelearning_big_data

#microsoft #llm

❤64👍36🔥23🤔4❤‍🔥1🤩1

15.8K viewsedited 09:46

Machinelearning

📄 ML NEWS

🤖

Microsoft Research только что опубликовали новую версию AutoGen - суперпопулярного фреймворка для работы с агентами с открытым исходным кодом

AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями.
▪ Github

🖥 Google представил архитектуру Titans, которая возможно станет очень важным элементом развития больших языковых моделей (LLM) в 2025 году.

Архитектура состоит из 3х типов памяти:
- Краткосрочная память – для оперативной обработки данных.
- Долгосрочная память – для всей сохранения значимой информации.
- Постоянная память – для фиксации важной информации.
По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов.
▪Подробнее

🖥 ChatGPT теперь таск-менеджер:
ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи.

Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения.
▪Подробнее

📱

DeepSeek V3 вышел на айфонах
Приложение доступно AppStore бесплатно и работает очень быстро
▪Скачать можно здесь.

⚡️ Выпущена новая открытая модель Omni!
MiniCPM-o 2.6 - мультимодальная модель с 8B параметрами, работающая на edge девайсах.
- 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B)
- Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass
- Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса
▪ Model

👩‍💻 Stable point-aware 3D от Stability AI

Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению.
▪Github

@ai_machinelearning_big_data

#news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍36❤26🔥8

19.4K views07:15

Machinelearning

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

🧬

Крутой проект от Microsoft: MatterGen - новый ИИ, который создает химические материалы на основе промптов.

В отличие от традиционных методов скрининга, он генерирует новые материалы, используя диффузионную модель, изменяя такие свойства, как химический состав, механическая прочность или магнитные характеристики.

Результат экспериментально подтвержден успешным синтезом материалов.

→ MatterGen представляет собой переход от традиционных методов проб и ошибок и вычислительного скрининга, напрямую генерируя новые материалы в соответствии с конкретными проектными заданиями, что значительно сокращает время создания и потребность в ресурсах.

→ Модель построена на основе специализированной диффузионной архитектуры и учитывает 3D-геометрию и наличие материалов, используя обучающий набор из более чем 608 000 стабильных соединений из известных баз данных материалов.

→ Модель превосходит традиционный скрининг, особенно в неисследованных материалов, что подтверждается ее способностью генерировать стабильные материалы со специфическими свойствами, выходящими за рамки существующих известных материалов.

→ Экспериментальная проверка подтвердила успешный синтез материала TaCr2O6, в точности совпадающий с предсказаниями модели, продемонстрировав практическую пригодность MatterGen в создании реальных материалов.

→ Выпущенная под лицензией MIT, модель MatterGen вместе с обучающими наборами данных предоставляет исследователям развивать и расширять этот инновационный подход.

📌 Читать

@ai_machinelearning_big_data

#microsoft #tech #MatterGen

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥69👍22❤11🥰3👾3👏1

15.4K views17:05

Machinelearning

🚀rStar-Math от Microsoft - техника, которая позволяет улучшать небольшие модели, такие как Qwen-7B и Phi3-mini, позволяя им работать на уровне OpenAI o1 и выше в решении математических задач.

Ключевые моменты:

🔗Пошаговое рассуждение (Monte Carlo Tree Search ): Модель симулирует глубокое мышление, анализируя каждый шаг решения для повышения точности.

Проверка решений через код: На каждом шаге генерируется текстовое объяснение и код на Python, который автоматически проверяется, чтобы отсеивать ошибки.

Самообучение: Модели улучшают друг друга за счет итеративного обучения в 4 итерации, что значительно повышает их росту производительности на тестах. Обучение на основе предпочтений: Модель вознаграждения процессов (PPM) сравнивает шаги рассуждения, чтобы улучшать их без ручного вмешательства, выбирая лучшие траектории.

Большие данные для обучения: Используется 747 000 математических задач с проверенными решениями для тренировки модели.

📊 Результаты:

🤯Точность Qwen2.5-Math-7B на тесте MATH выросла с 58,8% до 90,0%.

🤯🤯Phi3-mini-3.8B улучшилась с 41,4% до 86,4%.

🤯🤯🤯Модель решает 53,3% задач USA Math Olympiad, что соответствует уровню топ-20% среди старшеклассников.

Технология сочетает глубокое рассуждение, автоматическую проверку и самообучение для достижения высоких результатов.

◾️GitHub

@ai_machinelearning_big_data

#rstar #microsoft #mah

❤29👍25🔥15🐳2😁1

15K viewsedited 16:07

About

Blog

Apps

Platform