Большой набор медицинских изображений с текстовыми описаниями, на которой можно обучать и модели для работы с медицинскими данными.
Модель, которая помогает врачам писать заключения, принимать решения и показывает лучшие результаты, чем обычные модели.
Датасет на 1184 вопроса по офтальмологии, которые легли в основу RAG-системы CLARA.
Набор из 2168 клинических записей 4 типов, который содержит 8665 декомпозиций фактов.
Фреймворк, который помогает лучше справляться с клиническими задачами за счет использования специальных инструментов.
Метод проверять качество медицинских заметок, созданных ИИ, оценивая их не целиком, а по шагам создания.
Методика использования LLM как "экспертов" для создания более точных начальных параметров в прогностических моделях с ограниченным количеством данных.
Улучшение сегментации последовательных медицинских изображений, используя предыдущие результаты для согласованности, без необходимости дополнительного обучения.
Система, которая использует историю рентгеновских снимков и отчетов для генерации более качественных радиологических отчетов с LLM.
Система, объединяющая Mixture-of-Experts и языковые модели, для персонализированных рекомендаций здорового питания на основе текстовых и визуальных данных пользователя
Система на базе GPT-4, которая автоматически генерирует сложные экзаменационные вопросы по медицинским темам.
Платформа, которая использует CV для непрерывного наблюдения за пациентами в больницах, отслеживая их перемещения и действия в реальном времени.
Исследование, которое показало, что чрезмерная детализация объяснений работы ИИ-систем поддержки врачебных решений может снижать доверие и точность диагностики среди врачей, и что более простые интерфейсы оказываются более эффективными.
Сравнение нескольких подходов обучения для создания системы генерации медицинских текстов. Спойлер
Сравнение, которое показало, что модели, обученные на медицинских данных, работают лучше, чем общие модели, и нет одного лучшего метода агрегации для всех задач.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33❤11🔥6😨1
CAD-Recode - модель для преобразования облака точек в последовательность эскизов и экструзии, записанных как код Python с использованием библиотеки CadQuery. CAD-Recode способен создавать точные CAD модели с минимальным количеством входных точек, а возможность редактирования кода с помощью LLM открывает новые возможности для интерактивного изменения геометрии САПР-моделей.
CAD-Recode состоит из двух частей: проектора, который переводит облака точек в данные для обработки, и LLM на основе Qwen2-1.5B, в которой был сохранен оригинальный токенизатор и добавлен один дополнительный линейный слой.
Модель обучалась на 1 млн. CAD-моделей. Качество обучения модели оценивалось по 3 показателям: расстоянию Хаусдорфа (CD), пересечению над объединением (IoU) и доле неверных результатов (IR).
Эксперименты с полученной моделью проводились на 3 датасетах: DeepCAD, Fusion360 и CC3D.
CAD-Recode показал значительное улучшение по сравнению с другими методами, достигнув медианного CD в 0.168 на DeepCAD и 0.159 на Fusion360. CAD-Recode продемонстрировал 76.5% точность при ответе на вопросы по САПР (CAD-QA) при использовании GPT-4o.
В репозитории проекта на Github доступна простая демонстрация инференса CAD-Recode. Перед использованием необходимо установить пакеты в соответствии с Dockerfile и затем запустить demo.ipynb в jupyter.
@ai_machinelearning_big_data
#AI #ML #LLM #CADRecode
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍17❤9
Команда Яндекса подробно рассказала о том, как оценивала знания культурного кода у YandexGPT
Чтобы понять, насколько хорошо нейросеть понимает специфичные для нашей культуры явления, командой был разработан бенчмарк культурного кода — в этот процесс вошли классификации, промты с цитатами, отсылками, поговорками и сравнение ответов человека и LLM.
В начале работы была проведена оцифровка самого понятия “культурный код” и отбор главных верхнеуровневых категорий, по которым будет проводиться разработка запросов.
Запросы были составлены с целью выяснить, понимает ли Yandex GPT цитаты, фразеологизмы, факты о быте, социуме и других факторах, олицетворяющих нашу культуру. Промты скармливались модели, постепенно усложняясь в формулировках, добавлялись витиеватости.
Следующий этап — валидация, поэтому команда создала тестовый бенч на 200 вопросов и протестировала его на AI-тренерах. Выяснилось, что бенч нуждается в разбивке по возрасту, поскольку в каких-то темах более старшие респонденты разбирались лучше молодых ребят, а в каких-то — наоборот. Было решено выделить 3 категории: “30+”, “30-” и “все”.
Первые заходы проводились по схеме “выдвигаем гипотезу → проверяем → вносим правки в бенчмарк и классификацию → снова проверяем”. После того, как вопросы отладились по составу и смыслам, пришло время увеличивать полноту и размер бенча.
Итоговый бенчмарк составил 2000 самых разнообразных вопросов, на которые снова отвечали AI-тренеры. По результатам их ответов был сформирован средний скор, равный 78. Эта величина стала контрольной для оценки ответов Yandex GPT.
@ai_machinelearning_big_data
#news #ai #ml
Чтобы понять, насколько хорошо нейросеть понимает специфичные для нашей культуры явления, командой был разработан бенчмарк культурного кода — в этот процесс вошли классификации, промты с цитатами, отсылками, поговорками и сравнение ответов человека и LLM.
В начале работы была проведена оцифровка самого понятия “культурный код” и отбор главных верхнеуровневых категорий, по которым будет проводиться разработка запросов.
Запросы были составлены с целью выяснить, понимает ли Yandex GPT цитаты, фразеологизмы, факты о быте, социуме и других факторах, олицетворяющих нашу культуру. Промты скармливались модели, постепенно усложняясь в формулировках, добавлялись витиеватости.
Следующий этап — валидация, поэтому команда создала тестовый бенч на 200 вопросов и протестировала его на AI-тренерах. Выяснилось, что бенч нуждается в разбивке по возрасту, поскольку в каких-то темах более старшие респонденты разбирались лучше молодых ребят, а в каких-то — наоборот. Было решено выделить 3 категории: “30+”, “30-” и “все”.
Первые заходы проводились по схеме “выдвигаем гипотезу → проверяем → вносим правки в бенчмарк и классификацию → снова проверяем”. После того, как вопросы отладились по составу и смыслам, пришло время увеличивать полноту и размер бенча.
Итоговый бенчмарк составил 2000 самых разнообразных вопросов, на которые снова отвечали AI-тренеры. По результатам их ответов был сформирован средний скор, равный 78. Эта величина стала контрольной для оценки ответов Yandex GPT.
@ai_machinelearning_big_data
#news #ai #ml
👍23❤8🔥4👌1
VidTok – универсальный и открытый видео токенизатор, демонстрирующий высокую производительность как в непрерывной, так и в дискретной токенизации.
Токенизация видео, преобразующая исходные данные в компактные латентные токены - важнейший шаг для задач генерации и понимания видео. VidTok предлагает ряд улучшений, которые позволяют ему превзойти существующие методы: модельную архитектуру, методы квантования и стратегии обучения.
В архитектуре VidTok пространственное и временное сэмплирование обрабатываются раздельно, используя 2D свертки для пространственных модулей и оператор AlphaBlender для временных, при этом сохраняя 3D свертки для слияния информации.
Для дискретной токенизации используется конечное скалярное квантование (FSQ), которое оптимизирует неявный кодовый словарь, улучшая стабильность обучения. Эффективность обучения достигается двухэтапной стратегией: предварительное обучение на видео с низким разрешением, а затем дообучение декодера на видео с высоким разрешением.
VidTok обучался на датасете видеоданных с разным разрешением (400 000 видео 480p и 10 000 видео 1080p). Производительность измерялась с использованием метрик PSNR, SSIM, LPIPS и FVD, результаты показали превосходство VidTok по сравнению с другими токенизаторами как в дискретной, так и в непрерывной токенизации.
При сравнении с MAGVIT-v2, OmniTokenizer, CV-VAE, Open-Sora и Cosmos-Tokenizer, VidTok достиг лучших показателей, с меньшим размером модели.
vidtok
- базовое название;kl
или fsq
- тип регуляризации и квантования латентного пространства;causal
или noncausal
- тип обработки временной информации (покадрово или все кадры сразу);488
или 41616
- компрессионное соотношение (VCR), которое определяет степень сжатия видео по времени, высоте и ширине. Например, 4x8x8 и 4x16x16;4chn
, 8chn
или 16chn
- количество каналов в латентном пространстве для непрерывных токенизаторов. Чем больше каналов - тем качественней видео;262144
, 32768
или 4096
- размер codebook для дискретных токенизаторов с использованием FSQ. Чем больше - тем точнее представлятся информация.# Clone repo
git clone https://github.com/microsoft/VidTok
cd VidTok
# Create conda env
conda env create -f environment.yaml
conda activate vidtok
# Inference
import torch
from scripts.inference_evaluate import load_model_from_config
cfg_path = "configs/vidtok_kl_causal_488_4chn.yaml"
ckpt_path = "checkpoints/vidtok_kl_causal_488_4chn.ckpt"
is_causal = True
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
# load pre-trained model
model = load_model_from_config(cfg_path, ckpt_path)
model.to(device).eval()
# random input
num_frames = 17 if is_causal else 16
x_input = (torch.rand(1, 3, num_frames, 256, 256) * 2 - 1).to(device) # [B, C, T, H, W], range -1~1
# model forward
_, x_recon, _ = model(x_input)
assert x_input.shape == x_recon.shape
@ai_machinelearning_big_data
#AI #ML #Microsoft #VidTok
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26❤7🔥4
NVIDIA опубликовала LogitsProcessorZoo, коллекцию гибких и мощных инструментов для обработки логитов, позволяющих решать задачи контроля длины последовательностей, выделения ключевых фраз или управление ответами с несколькими вариантами.
Библиотека позволяет корректировать логиты, предоставляя возможность контроля над поведением модели. Например,
GenLengthLogitsProcessor
позволяет изменять длину генерируемого текста, CiteFromPromptLogitsProcessor
- стимулирует модель использовать вводные данные, а ForceLastPhraseLogitsProcessor
включает заданную фразу перед завершением вывода. Библиотека полностью совместима с методом generate
из Transformers
.huggingface.co
AIOpsLab предоставляет стандартизированную среду для тестирования и сопоставления агентов в условиях, имитирующих реальные. Система имеет интерфейс "агент-облако", посредством которого агенты взаимодействуют с сервисами. AIOpsLab использует генераторы нагрузки и отказов для имитации как типичных, так и нештатных ситуаций.
AIOpsLab включает в себя средства для обнаружения инцидентов, определения их местоположения, диагностики причин и устранения последствий, при этом обеспечивается поддержка распространенных фреймворков для агентов. AIOpsLab доступен на GitHub.
microsoft.com
Britannica полностью переориентирует свою деятельность на разработку и внедрение ИИ. Предполагается, что в ближайшем будущем компания может стать публичной с оценочной стоимостью в 1 млрд. долларов. До 2012 года Britannica занималась выпуском старейшего англоязычного энциклопедического издания, являясь источником знаний до появления Google и Wikipedia.
На сегодняшний день основным направлением деятельности Britannica является разработка и реализация ПО для онлайн-обучения, ориентированного на образовательные учреждения и библиотеки. В дополнение, компания предлагает чат-бот Britannica AI, предоставляющий доступ к обширной базе энциклопедических знаний, накопленных за два столетия.
gizmodo.com
Компания LEAP 71 продемонстрировала потенциал современных инженерных систем ИИ на примере разработки ракетного двигателя аэроспайкового типа. Данный двигатель, функционирующий на топливной смеси из кислорода и керосина, спроектирован с использованием большой вычислительной инженерной модели и способен обеспечивать тягу до 5000 ньютонов.
Аэроспайковая конструкция отличается от традиционных ракетных двигателей способностью к автоматической адаптации к изменениям атмосферного давления. На проектирование с помощью ИИ у LEAP 71 ушло чуть больше трех недель. Изделие было изготовлено на 3D-принтере из цельного медного блока методом селективного лазерного плавления. Первое испытание, проведенное 18 декабря 2024 года, показало успешную работоспособность при температуре газа в 3500 °C.
newatlas.com
AI-ученые от Tetsuwan Scientific представляют собой стеклянные робо-кубы, которые могут самостоятельно оценивать результаты и вносить изменения в эксперименты. Собственное ПО и датчики позволяют роботам понимать такие параметры, как калибровка и характеристики жидкостей.
Tetsuwan Scientific уже сотрудничает с La Jolla Labs для измерения эффективности дозировок РНК-терапевтических препаратов. Целью Tetsuwan Scientific является создание независимых AI-ученых, способных автоматизировать весь научный процесс.
techcrunch.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27❤15🔥7
ASAL (Automated Search for Artificial Life) - метод автоматизации поиска симуляций искусственной жизни (ALife). В его оcнове лежит использование VLM для оценки и анализа результатов симуляций.
Традиционные техники симуляции базируются на ручном проектировании и методах проб и ошибок, ограничивая возможности для открытий новых форм жизни. ASAL не имеет таких ограничений и предлагает 3 алгоритма поиска:
ASAL использует CLIP и DINOv2 для оценки видео, созданных в ходе симуляций, количественно анализируя качественные феномены в ALife. Метод был успешно применен к субстратам Boids, Particle Life, Game of Life, Lenia и Neural Cellular Automata.
В проведенных экспериментах ASAL обнаружил ранее неизвестные формы жизни в Lenia и Boids, а также Cellular Automata, демонстрирующие открытую динамику, подобную Game of Life.
Также, эти эксперименты показали, что ASAL способен находить симуляции, соответствующие как единичным, так и последовательным целям. Например, поиск последовательности "одна клетка", а затем "две клетки" приводит к обнаружению правил, способствующих самовоспроизведению.
Для поиска открытых систем в Life-like CA использовался полный перебор, где Game of Life вошла в 5% наиболее открытых систем. Для визуализации разнообразия был разработан алгоритм освещения на основе генетического алгоритма, позволивший создать "атласы" для Lenia и Boids.
# Clone repo
git clone https://github.com/SakanaAI/asal.git
cd asal
# Create conda env
conda env create -f environment.yaml
# Install requirements
pip install -r requirements.txt
# Running ASAL
asal.ipynb
@ai_machinelearning_big_data
#AI #ML #ASAL #SakanaAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28❤13🔥4
Hume AI представила OCTAVE (Omni-Capable Text and Voice Engine), модель нового поколения для работы с речью и языком. OCTAVE способна не только генерировать голос, но и создавать уникальные личности, воспроизводя язык, акцент, выражения и характер на основе коротких образцов от 5 секунд.
Модель может имитировать пол, возраст, интонацию и стиль речи, а также создавать несколько взаимодействующих ИИ-персонажей в режиме реального времени. OCTAVE поддерживает в качестве ввода текст и аудио, сохраняя уровень понимания языка, сравнимый с моделями аналогичного размера.
Hume AI предоставляет доступ OCTAVE ограниченному числу своих партнеров и планирует расширить доступ в ближайшие месяцы, после проведения оценки ее безопасности и эффективности.
hume.ai
Gaxos.ai Inc. объявила об успешной интеграции Meshy 4 в свое ИИ-решение для разработчиков игр - Gaxos Labs. Meshy 4 позволяет художникам, дизайнерам и разработчикам точно настраивать топологию сетки, ограничивать количество полигонов и создавать 3D-модели более высокого качества.
Используя генеративную геометрию Meshy 4, пользователи могут легко переключаться между сетками на основе четырехугольников или треугольников, чтобы соответствовать конкретным требованиям своего проекта. Такая свобода позволяет разработчикам адаптировать 3D-активы к своим потребностям, будь то более гладкие поверхности для персонажей и анимации или сложные детали для окружения.
globenewswire.com
Olympian Motors объявила о расширении сотрудничества с NVIDIA для разработки платформы Olympus — открытой, модульной и управляемой ИИ платформы для электромобилей. Партнерство подразумевает использование NVIDIA DRIVE AGX Orin и создание нового протокола разработки и развертывания ИИ-моделей и приложений для электромобилей.
Платформа Olympus обеспечит легкий и стандартизированный доступ к инфраструктуре данных автомобиля, датчикам и блокам обработки данных и к сетям связи. Разработчики получат модульную операционную систему и облако, чтобы развертывать модели машинного обучения и активно участвовать в развитии экосистемы электромобилей. Платформа Olympus будет представлена вместе с моделями Model 84 и Centaur VAN.
msn.com
Бельгийский стартап VoxelSensors объявил о собственной разработке, которое позволит искусственному интеллекту взаимодействовать с людьми более естественно, как в реальном мире. Решение VoxelSensors собирает данные с носимых устройств от первого лица, что позволяет создавать модели контекстуального интеллекта, способные понимать и помогать пользователю в реальных условиях.
Компания использует комбинацию датчиков SPAES и модуля PERCEPT для сбора данных, которые важны для интерпретации опыта пользователя. Датчики SPAES обеспечивают высокую точность, меньшую задержку и более низкое энергопотребление по сравнению с существующими аналогами.
voxelsensors.com
Clarity NC100, чип шумоподавления окружающей среды на основе глубокой нейронной сети (DNN), который устанавливает новый стандарт производительности и эффективности ИИ на периферии. Эта технология обеспечивает ультимативное подавление шума в сложных условиях, будь то сильный ветер или промышленные условия, всего с одним микрофоном, потребляя при этом всего 150 мкА.
PIMIC представит образцы Clarity NC100 на выставке CES 2025 в Лас-Вегасе, интегрированные с цифровым микрофоном AI, разработанным компанией ZillTek.
embedded.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26❤9🔥7🥰1
QVQ-72B-Preview - экспериментальная VLM на основе Qwen2-VL-72B , разработанная Qwen, со способностями к аналитическому мышлению и новым уровнем когнитивных навыков.
Проведенная в Qwen оценка QVQ-72B-Preview на бенчмарках MMMU, MathVista, MathVision и OlympiadBench показала результат 70.3 на MMMU, 71.4 на MathVista, 35.9 в MathVision и 20.4 на наборе OlympiadBench, подчеркнув ее способность к комплексному пониманию и рассуждению в мультидисциплинарных задачах.
⚠️ Несмотря на высокие результаты, QVQ-72B-Preview - предварительная версия модели, которая имеет ограничения:
Неофициальные квантованные версии QVQ-72B-Preview в формате GGUF с диапазоном разрядностей от 1-bit (23.7GB) до 8-bit (77.26GB) и MLX-версии от mlx community в разрядностях от 4-bit до 16-bit.
@ai_machinelearning_big_data
#AI #ML #VLM #Qwen #Reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍12❤6