TRELLIS - модель для создания высококачественных 3D-объектов на основе текстового промпта или изображения с помощью унифицированного представления Structured LATent (SLAT), которое декодирует данные в форматы: Radiance Fields, 3D-гауссианы и полигональные сетки.
SLAT обладает универсальностью, используя комбинацию из разреженной 3D-сетки и плотных визуальных признаков, извлеченных моделью DINOv2 из входного изображения.
TRELLIS использует модифицированные rectified flow transformers, адаптированные для работы с SLAT. Обучение набора моделей TRELLIS, размерами до 2 млрд. параметров, выполнялось на датасете из 500 тыс. разнообразных 3D-объектов.
Пока в открытый доступ опубликована только Image-to-3D версия - TRELLIS-image-large с 1.2 млрд. параметров. Остальные вариации модели для генерации 3D по тексту: TRELLIS-text-base (342М), TRELLIS-text-large (1.1В) и TRELLIS-text-xlarge (2В) и код для их трейна будут представлены позже (сроки не указаны).
⚠️ Для локального запуска TRELLIS-image-large рекомендуется NVIDIA GPU с VRAM 16GB или больше.
# Clone repo
git clone --recurse-submodules https://github.com/microsoft/TRELLIS.git
cd TRELLIS
# Create conda env and install dependencies
. ./setup.sh --new-env --basic --flash-attn --diffoctreerast --spconv
--mipgaussian --kaolin --nvdiffrast
# Install web demo via Gradio
. ./setup.sh --demo
# Run WebUI
python app.py
@ai_machinelearning_big_data
#AI #ML #ImageTo3D #Trellis #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23👍18🔥5🥰3🤩1
Тест, который проверяет, насколько хорошо модели могут понимать и анализировать сложные данные о клетках.
Система 2-х нейросетей, которая помогает диагностировать заболевания по рентгенограммам грудной клетки и предсказывает, на какие области изображения врачи обращают внимание.
Модель, которая помогает врачам более точно анализировать снимки сердца, сделанные с помощью ультразвука, даже если снимки сделаны под разными углами.
Метод для улучшения способности рассуждать и давать точные ответы, используя комбинацию генерации и поиска информации для обогащения своих знаний.
Алгоритм, который помогает выбрать лучшие источники информации для решения сложных медицинских задач.
Модель классификации, которая помогает сделать прогнозы о глазных заболеваниях более справедливыми и точными.
Показатель, который помогает оценить, насколько эффективно модель использует ресурсы.
Метод оценки качества автоматически сгенерированных рентгенологических отчетов, который учитывает точность описания патологических изменений, их локализации и степени выраженности.
Набор данных и система для имитации реальной клинической практики, где каждый случай включает подробную информацию о пациенте и требует активного сбора информации и принятия решений на основе предыдущих шагов.
Метод, который помогает создавать краткие и точные отчеты о состоянии пациентов в электронных медкартах, используя запросы, связанные с пациентом, для руководства процессом.
Фреймворк, который может автоматически создавать медицинские заключения на основе разговоров между врачом и пациентом, используя специальную архитектуру.
Исследование проблемы демографической предвзятости популярных современных LLM в различных медицинских задачах.
Статья о том, как использовать эмбединги для классификации медицинских текстов без необходимости обучения на медицинских данных.
Концепция системы для безопасного и эффективного управления электронными медицинскими картами, позволяя пациентам, врачам и администраторам взаимодействовать с системой на различных устройствах.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28❤11🔥7
ShowUI-2B - VLM на базе Qwen2-VL-2B, которая оптимизирована для взаимодействия с GUI. Она обладает глубоким пониманием пользовательских интерфейсов и навигации по ним на веб- и мобильных платформах.
Модель обрабатывает комбинацию визуальных и текстовых данных для создания соответствующих действий GUI. Она интерпретирует скриншоты и текстовые инструкции для определения точек и последовательности взаимодействия.
В качестве входных данных ShowUI-2B может принимать: скриншоты интерфейсов,
текстовые инструкции (или запросы), системные промпты, определяющие области действия и
последовательности действий.
Результат инференса модели: координаты расположения элементов пользовательского интерфейса [x,y], действия (щелчок, ввод, выбор и т.д.), значения для ввода текста и
целевые позиции для взаимодействия.
Для мобильных интерфейсов ShowUI-2B обрабатывает касания, свайпы и ввод текста.
Прикладные сферы применения :
ShowUI-2B продемонстрировала высокую эффективность в задачах zero-shot grounding (75.1% точности) и навигации по GUI на различных платформах (Web, Mobile, Online).
⚠️ Модель поддерживает интеграцию с Computer Use OOTB, проектом Desktop GUI Agent, который позволяет управлять действиями на PC с помощью LLM, запущенной локально или через API.
# Clone the Repository
git clone https://github.com/showlab/ShowUI.git
cd ShowUI
# Install Dependencies
pip install -r requirements.txt
# Start the GradioUI
python app.py
# Go to local URL: http://127.0.0.1:7860
@ai_machinelearning_big_data
#AI #ML #VLM #ShowUI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥11❤4
Исследователь Яндекса разработал сервис для запуска языковых моделей с 8 млрд параметров на пользовательских девайсах.
Автор написал инференс модели Llama 3.1 8B, работающий в браузере на WebAssembly без использования GPU. Для этого он применил технологию сжатия нейросетей AQLM, которую разработала команда Yandex Research вместе с университетами ISTA и KAUST.
Для примера, скорость ответов нейросети на MacBook Pro M1 составила 1,5 токена в секунду или 3–4 символа.
@ai_machinelearning_big_data
#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥10❤5🥱1
EuroLLM - проект, финансируемый ЕС, цель которого создание набора LLM, способных понимать и генерировать текст на всех языках Европейского Союза, а также на некоторых других распространенных не-ЕС языках:
Болгарский, хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, немецкий, греческий, венгерский, ирландский, итальянский, латышский, литовский, мальтийский, польский, португальский, румынский, словацкий, словенский, испанский, шведский, арабский, каталанский, китайский, галисийский, хинди, японский, корейский, норвежский, русский, турецкий и украинский.
⚠️ Ко всем моделям неофициально выпущены квантованные версии в GGUF-формате, ссылки доступны в карточке модели на HF.
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "utter-project/EuroLLM-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "English: My name is EuroLLM. Portuguese:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
@ai_machinelearning_big_data
#AI #ML #LLM #EuroLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍13❤6🗿2
LG AI Research опубликовала 3 новые инструктивные двуязычные (английский и корейский) модели EXAONE 3.5 с контекстным окном в 32 тыс. токенов:
Разработчики EXAONE 3.5 улучшили эффективность обучения моделей. На этапе предварительного обучения из наборов данных удалялись дубликаты и личная информация, что позволило повысить качество ответов моделей и оптимизировать использование ресурсов. На этапе постобработки применялись методы SFT и DPO, чтобы улучшить способность моделей понимать инструкции и предпочтения пользователей.
Для повышения надежности оценки производительности EXAONE 3.5 был проведен тщательный процесс деконтаминации. Метод деконтаминации был взят из глобальной модели, а его эффективность оценивалась путем многократного сравнения обучающих данных с тестовыми наборами данных.
К каждой модели, LG AI выпустил квантованные версии в форматах AWQ и GGUF.
⚠️ EXAONE 3.5 - инструктивные модели, поэтому рекомендуется использовать системные промпты, представленные в примере кода инференса.
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "%Prompt%"
messages = [
{"role": "system", "content": "You are EXAONE model from LG AI Research, a helpful assistant."},
{"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
)
output = model.generate(
input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=128,
do_sample=False,
)
print(tokenizer.decode(output[0]))
@ai_machinelearning_big_data
#AI #ML #LLM #EXAONE #LG
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤8👍4
Эксперты Andreessen Horowitz ожидают рост спроса на ядерную энергию для обеспечения растущих потребностей центров обработки данных искусственного интеллекта. Появятся новые профессии, требующие навыков в области аппаратного и программного обеспечения, робототехники и автоматизации.
XR-устройства получат развитие как инструменты для разработчиков, создающих приложения для реального мира. В сфере здравоохранения ИИ будет использоваться для демократизации доступа к медицинской информации и решения кадрового кризиса. Ожидается рост популярности периферийного ИИ и создание крупных вычислительных центров для обучения и развертывания моделей ИИ.
a16z.com
Китайский интернет-гигант Baidu совместно с партийным приложением Xuexi разработал инструмент на основе искусственного интеллекта, который помогает чиновникам создавать политически корректные документы. Xuexi – это приложение, посвященное жизни и идеям Си Цзиньпина.
Новый инструмент проверяет документы на соответствие идеям Си Цзиньпина и гарантирует, что ссылки на его высказывания взяты из проверенных источников. Инструмент также может использоваться для создания документов с цитированием государственной статистики и политики.
theregister.com
Алексис Конно, один из разработчиков Advanced Voice Mode для ChatGPT, основал стартап WaveForm, который занимается созданием системы AI-аудио, способной улавливать больше нюансов речи, чем существующие технологии. WaveForm, получивший начальное финансирование в размере 40 млн. долл. от Andreessen Horowitz, стремится создать систему, которая пройдет "речевой тест Тьюринга", то есть сможет имитировать человеческую речь настолько точно, что пользователи не смогут отличить ее от живого собеседника. В настоящее время WaveForm, состоящий из 5 сотрудников, находится на стадии разработки своих моделей.
axios.com
Ultralytics YOLO11, модель, предназначенная для обнаружения объектов, была скомпрометирована в результате атаки на цепочку поставок. Вредоносный код, внедренный в версии 8.3.41 и 8.3.42, устанавливал криптомайнер на устройства пользователей, скачавших библиотеку с через Python Package Index (PyPI). Ultralytics, используемая в популярных проектах SwarmUI и ComfyUI, загружалась более 260 000 раз за сутки. Вредоносный код запускал майнер XMRig, подключающийся к пулу "connect.consrensys[.]com:8080".
Разработчики Ultralytics удалили скомпрометированные версии и выпустили обновление 8.3.43, устраняющее уязвимость. Расследование показало, что атака, возможно, была осуществлена через два вредоносных запроса на внесение изменений в код от пользователя из Гонконга. В настоящее время проводится полный аудит безопасности для предотвращения подобных инцидентов в будущем.
bleepingcomputer.com
Компания OpenAI на онлайн-стриме анонсировала запуск Sora – инструмента для создания видео по текстовому запросу. Sora доступна подписчикам ChatGPT Plus и Pro, с ограничениями по региону (недоступна на территории ЕС и Великобритании), количеству генераций и качеству видео. Plus-пользователи смогут создавать до 5 видео в месяц длиной до 5 секунд в разрешении до 720p.
Pro-подписка позволяет сгенерировать до 500 коротких видео длиной до 20 секунд в разрешении до 1080p. Sora предлагает различные инструменты для редактирования и управления процессом создания видео: Storyboard для покадровой режиссуры и функции для добавления начала, концовки и объединения нескольких видео.
openai.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥9❤6
Репозиторий на Github c набором ipynb-туториалов по Prompt Engineering для освоения методов создания оптимальных промптов для модели Qwen2.5-14B.
Руководство разделено на 9 глав с практическими упражнениями и приложением с "продвинутыми" методами. В каждой главе есть "Example Playground" для экспериментов с примерами и наблюдения за изменениями в инференсе Ollama.
Руководство использует модель Qwen 2.5-14B, но все материалы подходят и для модели Qwen 2.5-7B.
Начальный уровень
Средний уровень
Продвинутый уровень
Приложение: За пределами стандартных подсказок
@ai_machinelearning_big_data
#AI #ML #LLM #Github #Tutorial #Ollama
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23🔥16👍13👏1