304K subscribers
4K photos
705 videos
17 files
4.58K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
📎 ML в медицине: дайджест за 16 - 22 декабря 2024 г.

▶️Модели, бенчмарки и датасеты

🔘MedMax: датасет для обучения мультимодальных медицинских моделей.
Большой набор медицинских изображений с текстовыми описаниями, на которой можно обучать и модели для работы с медицинскими данными.

🔘RadiologyLlama-70B: модель генерации отчетов в радиологии.
Модель, которая помогает врачам писать заключения, принимать решения и показывает лучшие результаты, чем обычные модели.

🔘Multi-OphthaLingua и CLARA: мультиязычный бенчмарк для оценки офтальмологических QA и RAG-система снижения предвзятости LLM.
Датасет на 1184 вопроса по офтальмологии, которые легли в основу RAG-системы CLARA.

🔘FactEHR: датасет для оценки способности LLM к декомпозиции фактов.
Набор из 2168 клинических записей 4 типов, который содержит 8665 декомпозиций фактов.

▶️Фреймворки и методологии

🔘ReflecTool: фреймворк для создания клинических агентов.
Фреймворк, который помогает лучше справляться с клиническими задачами за счет использования специальных инструментов.

🔘Process-Supervised Reward Model: улучшение качества генерации клинических заметок с помощью LLM.
Метод проверять качество медицинских заметок, созданных ИИ, оценивая их не целиком, а по шагам создания.

🔘LLM как эксперт: метод получения априорных знаний для прогностических моделей.
Методика использования LLM как "экспертов" для создания более точных начальных параметров в прогностических моделях с ограниченным количеством данных.

🔘ICS: сегментация медицинских изображений с контекстным обучением.
Улучшение сегментации последовательных медицинских изображений, используя предыдущие результаты для согласованности, без необходимости дополнительного обучения.

🔘HC-LLM: генерация радиологических отчетов с учетом исторической информации.
Система, которая использует историю рентгеновских снимков и отчетов для генерации более качественных радиологических отчетов с LLM.

▶️Медицинские LLM-приложения

🔘Система рекомендаций на основе MoE.
Система, объединяющая Mixture-of-Experts и языковые модели, для персонализированных рекомендаций здорового питания на основе текстовых и визуальных данных пользователя

🔘MCQG-SRefine: генерация медицинских тестов формата USMLE.
Система на базе GPT-4, которая автоматически генерирует сложные экзаменационные вопросы по медицинским темам.

🔘LookDeep Health: AI-платформа для непрерывного мониторинга пациентов.
Платформа, которая использует CV для непрерывного наблюдения за пациентами в больницах, отслеживая их перемещения и действия в реальном времени.


▶️Исследования и обзоры

*️⃣Влияние уровня объяснимости ИИ на доверие и точность диагностики рака молочной железы.
Исследование, которое показало, что чрезмерная детализация объяснений работы ИИ-систем поддержки врачебных решений может снижать доверие и точность диагностики среди врачей, и что более простые интерфейсы оказываются более эффективными.

*️⃣Исследование федеративного обучения с RAG для LLM в медицинской сфере
Сравнение нескольких подходов обучения для создания системы генерации медицинских текстов. Спойлер - LLM c RAG, лучше, чем без.

*️⃣Обзор методов агрегации эмбедингов для анализа гистопатологических изображений в клинической практике.
Сравнение, которое показало, что модели, обученные на медицинских данных, работают лучше, чем общие модели, и нет одного лучшего метода агрегации для всех задач.

🔜 Читать полный дайджест
🔜 Читать в Telegraph

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3311🔥6😨1
🌟 CAD-Recode: создание САПР-моделей из облаков точек.

CAD-Recode - модель для преобразования облака точек в последовательность эскизов и экструзии, записанных как код Python с использованием библиотеки CadQuery. CAD-Recode способен создавать точные CAD модели с минимальным количеством входных точек, а возможность редактирования кода с помощью LLM открывает новые возможности для интерактивного изменения геометрии САПР-моделей.

CAD-Recode состоит из двух частей: проектора, который переводит облака точек в данные для обработки, и LLM на основе Qwen2-1.5B, в которой был сохранен оригинальный токенизатор и добавлен один дополнительный линейный слой.

Модель обучалась на 1 млн. CAD-моделей. Качество обучения модели оценивалось по 3 показателям: расстоянию Хаусдорфа (CD), пересечению над объединением (IoU) и доле неверных результатов (IR).

Эксперименты с полученной моделью проводились на 3 датасетах: DeepCAD, Fusion360 и CC3D.

CAD-Recode показал значительное улучшение по сравнению с другими методами, достигнув медианного CD в 0.168 на DeepCAD и 0.159 на Fusion360. CAD-Recode продемонстрировал 76.5% точность при ответе на вопросы по САПР (CAD-QA) при использовании GPT-4o.

В репозитории проекта на Github доступна простая демонстрация инференса CAD-Recode. Перед использованием необходимо установить пакеты в соответствии с Dockerfile и затем запустить demo.ipynb в jupyter.


📌Лицензирование: Apache 2.0 License.


🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #CADRecode
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍179
Команда Яндекса подробно рассказала о том, как оценивала знания культурного кода у YandexGPT

Чтобы понять, насколько хорошо нейросеть понимает специфичные для нашей культуры явления, командой был разработан бенчмарк культурного кода — в этот процесс вошли классификации, промты с цитатами, отсылками, поговорками и сравнение ответов человека и LLM.

В начале работы была проведена оцифровка самого понятия “культурный код” и отбор главных верхнеуровневых категорий, по которым будет проводиться разработка запросов.

Запросы были составлены с целью выяснить, понимает ли Yandex GPT цитаты, фразеологизмы, факты о быте, социуме и других факторах, олицетворяющих нашу культуру. Промты скармливались модели, постепенно усложняясь в формулировках, добавлялись витиеватости.

Следующий этап — валидация, поэтому команда создала тестовый бенч на 200 вопросов и протестировала его на AI-тренерах. Выяснилось, что бенч нуждается в разбивке по возрасту, поскольку в каких-то темах более старшие респонденты разбирались лучше молодых ребят, а в каких-то — наоборот. Было решено выделить 3 категории: “30+”, “30-” и “все”.

Первые заходы проводились по схеме “выдвигаем гипотезу → проверяем → вносим правки в бенчмарк и классификацию → снова проверяем”. После того, как вопросы отладились по составу и смыслам, пришло время увеличивать полноту и размер бенча.

Итоговый бенчмарк составил 2000 самых разнообразных вопросов, на которые снова отвечали AI-тренеры. По результатам их ответов был сформирован средний скор, равный 78. Эта величина стала контрольной для оценки ответов Yandex GPT.

@ai_machinelearning_big_data

#news #ai #ml
👍238🔥4👌1
🌟 VidTok: Универсальный токенизатор видео от Microsoft.

VidTok – универсальный и открытый видео токенизатор, демонстрирующий высокую производительность как в непрерывной, так и в дискретной токенизации.

Токенизация видео, преобразующая исходные данные в компактные латентные токены - важнейший шаг для задач генерации и понимания видео. VidTok предлагает ряд улучшений, которые позволяют ему превзойти существующие методы: модельную архитектуру, методы квантования и стратегии обучения.

В архитектуре VidTok пространственное и временное сэмплирование обрабатываются раздельно, используя 2D свертки для пространственных модулей и оператор AlphaBlender для временных, при этом сохраняя 3D свертки для слияния информации.

Для дискретной токенизации используется конечное скалярное квантование (FSQ), которое оптимизирует неявный кодовый словарь, улучшая стабильность обучения. Эффективность обучения достигается двухэтапной стратегией: предварительное обучение на видео с низким разрешением, а затем дообучение декодера на видео с высоким разрешением.

VidTok обучался на датасете видеоданных с разным разрешением (400 000 видео 480p и 10 000 видео 1080p). Производительность измерялась с использованием метрик PSNR, SSIM, LPIPS и FVD, результаты показали превосходство VidTok по сравнению с другими токенизаторами как в дискретной, так и в непрерывной токенизации.

При сравнении с MAGVIT-v2, OmniTokenizer, CV-VAE, Open-Sora и Cosmos-Tokenizer, VidTok достиг лучших показателей, с меньшим размером модели.

▶️ В открытый доступ опубликованы 12 чекпоинтов, расшифровка нейминга:

🟢vidtok - базовое название;
🟢kl или fsq - тип регуляризации и квантования латентного пространства;
🟢causal или noncausal - тип обработки временной информации (покадрово или все кадры сразу);
🟢488 или 41616 - компрессионное соотношение (VCR), которое определяет степень сжатия видео по времени, высоте и ширине. Например, 4x8x8 и 4x16x16;
🟢4chn, 8chn или 16chn - количество каналов в латентном пространстве для непрерывных токенизаторов. Чем больше каналов - тем качественней видео;
🟢262144, 32768 или 4096 - размер codebook для дискретных токенизаторов с использованием FSQ. Чем больше - тем точнее представлятся информация.


▶️Локальная установка и пример запуска как для непрерывной, так и для дискретной токенизации и как для каузальных, так и для некаузальных моделей:

# Clone repo
git clone https://github.com/microsoft/VidTok
cd VidTok

# Create conda env
conda env create -f environment.yaml
conda activate vidtok

# Inference
import torch
from scripts.inference_evaluate import load_model_from_config

cfg_path = "configs/vidtok_kl_causal_488_4chn.yaml"
ckpt_path = "checkpoints/vidtok_kl_causal_488_4chn.ckpt"
is_causal = True

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
# load pre-trained model
model = load_model_from_config(cfg_path, ckpt_path)
model.to(device).eval()
# random input
num_frames = 17 if is_causal else 16
x_input = (torch.rand(1, 3, num_frames, 256, 256) * 2 - 1).to(device) # [B, C, T, H, W], range -1~1
# model forward
_, x_recon, _ = model(x_input)
assert x_input.shape == x_recon.shape


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Microsoft #VidTok
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍267🔥4
✔️ NVIDIA LogitsProcessor — библиотека для управления генерацией текста с помощью модификации вероятностного распределения токенов.

NVIDIA опубликовала LogitsProcessorZoo, коллекцию гибких и мощных инструментов для обработки логитов, позволяющих решать задачи контроля длины последовательностей, выделения ключевых фраз или управление ответами с несколькими вариантами.

Библиотека позволяет корректировать логиты, предоставляя возможность контроля над поведением модели. Например, GenLengthLogitsProcessor позволяет изменять длину генерируемого текста, CiteFromPromptLogitsProcessor - стимулирует модель использовать вводные данные, а ForceLastPhraseLogitsProcessor включает заданную фразу перед завершением вывода. Библиотека полностью совместима с методом generate из Transformers.
huggingface.co

✔️ Microsoft Research представила AIOpsLab, платформу разработки ИИ-агентов для автономных облачных систем.

AIOpsLab предоставляет стандартизированную среду для тестирования и сопоставления агентов в условиях, имитирующих реальные. Система имеет интерфейс "агент-облако", посредством которого агенты взаимодействуют с сервисами. AIOpsLab использует генераторы нагрузки и отказов для имитации как типичных, так и нештатных ситуаций.

AIOpsLab включает в себя средства для обнаружения инцидентов, определения их местоположения, диагностики причин и устранения последствий, при этом обеспечивается поддержка распространенных фреймворков для агентов. AIOpsLab доступен на GitHub.
microsoft.com

✔️ Энциклопедия Britannica стала AI-компанией.

Britannica полностью переориентирует свою деятельность на разработку и внедрение ИИ. Предполагается, что в ближайшем будущем компания может стать публичной с оценочной стоимостью в 1 млрд. долларов. До 2012 года Britannica занималась выпуском старейшего англоязычного энциклопедического издания, являясь источником знаний до появления Google и Wikipedia.

На сегодняшний день основным направлением деятельности Britannica является разработка и реализация ПО для онлайн-обучения, ориентированного на образовательные учреждения и библиотеки. В дополнение, компания предлагает чат-бот Britannica AI, предоставляющий доступ к обширной базе энциклопедических знаний, накопленных за два столетия.
gizmodo.com

✔️ Аэрокосмический двигатель, разработанный ИИ, успешно прошел горячую обкатку.

Компания LEAP 71 продемонстрировала потенциал современных инженерных систем ИИ на примере разработки ракетного двигателя аэроспайкового типа. Данный двигатель, функционирующий на топливной смеси из кислорода и керосина, спроектирован с использованием большой вычислительной инженерной модели и способен обеспечивать тягу до 5000 ньютонов.

Аэроспайковая конструкция отличается от традиционных ракетных двигателей способностью к автоматической адаптации к изменениям атмосферного давления. На проектирование с помощью ИИ у LEAP 71 ушло чуть больше трех недель. Изделие было изготовлено на 3D-принтере из цельного медного блока методом селективного лазерного плавления. Первое испытание, проведенное 18 декабря 2024 года, показало успешную работоспособность при температуре газа в 3500 °C.
newatlas.com

✔️ Tetsuwan Scientific разрабатывает роботизированных AI-ученых, способных самостоятельно проводить эксперименты.

AI-ученые от Tetsuwan Scientific представляют собой стеклянные робо-кубы, которые могут самостоятельно оценивать результаты и вносить изменения в эксперименты. Собственное ПО и датчики позволяют роботам понимать такие параметры, как калибровка и характеристики жидкостей.

Tetsuwan Scientific уже сотрудничает с La Jolla Labs для измерения эффективности дозировок РНК-терапевтических препаратов. Целью Tetsuwan Scientific является создание независимых AI-ученых, способных автоматизировать весь научный процесс.
techcrunch.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2715🔥7
🌟 ASAL: автоматизированный поиск искусственной жизни с использованием VLM для исследования открытых систем.

ASAL (Automated Search for Artificial Life) - метод автоматизации поиска симуляций искусственной жизни (ALife). В его оcнове лежит использование VLM для оценки и анализа результатов симуляций.

Традиционные техники симуляции базируются на ручном проектировании и методах проб и ошибок, ограничивая возможности для открытий новых форм жизни. ASAL не имеет таких ограничений и предлагает 3 алгоритма поиска:

🟢контролируемый поиск целевых симуляций (Supervised Target);

🟢поиск открытых систем с временной новизной ( Open-Endedness);

🟢исследование всего разнообразия симуляций (Illumination).

ASAL использует CLIP и DINOv2 для оценки видео, созданных в ходе симуляций, количественно анализируя качественные феномены в ALife. Метод был успешно применен к субстратам Boids, Particle Life, Game of Life, Lenia и Neural Cellular Automata.

В проведенных экспериментах ASAL обнаружил ранее неизвестные формы жизни в Lenia и Boids, а также Cellular Automata, демонстрирующие открытую динамику, подобную Game of Life.

Также, эти эксперименты показали, что ASAL способен находить симуляции, соответствующие как единичным, так и последовательным целям. Например, поиск последовательности "одна клетка", а затем "две клетки" приводит к обнаружению правил, способствующих самовоспроизведению.

Для поиска открытых систем в Life-like CA использовался полный перебор, где Game of Life вошла в 5% наиболее открытых систем. Для визуализации разнообразия был разработан алгоритм освещения на основе генетического алгоритма, позволивший создать "атласы" для Lenia и Boids.

▶️Локальная установка и запуск настроенного блокнота со всеми тремя алгоритмами:

# Clone repo
git clone https://github.com/SakanaAI/asal.git
cd asal

# Create conda env
conda env create -f environment.yaml

# Install requirements
pip install -r requirements.txt

# Running ASAL
asal.ipynb


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ASAL #SakanaAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2813🔥4
✔️ OCTAVE: модель для генерации голоса и личности от Hume AI

Hume AI представила OCTAVE (Omni-Capable Text and Voice Engine), модель нового поколения для работы с речью и языком. OCTAVE способна не только генерировать голос, но и создавать уникальные личности, воспроизводя язык, акцент, выражения и характер на основе коротких образцов от 5 секунд.

Модель может имитировать пол, возраст, интонацию и стиль речи, а также создавать несколько взаимодействующих ИИ-персонажей в режиме реального времени. OCTAVE поддерживает в качестве ввода текст и аудио, сохраняя уровень понимания языка, сравнимый с моделями аналогичного размера.
Hume AI предоставляет доступ OCTAVE ограниченному числу своих партнеров и планирует расширить доступ в ближайшие месяцы, после проведения оценки ее безопасности и эффективности.
hume.ai

✔️ Gaxos Labs расширяет возможности ИИ для 3D с помощью Meshy.

Gaxos.ai Inc. объявила об успешной интеграции Meshy 4 в свое ИИ-решение для разработчиков игр - Gaxos Labs. Meshy 4 позволяет художникам, дизайнерам и разработчикам точно настраивать топологию сетки, ограничивать количество полигонов и создавать 3D-модели более высокого качества.

Используя генеративную геометрию Meshy 4, пользователи могут легко переключаться между сетками на основе четырехугольников или треугольников, чтобы соответствовать конкретным требованиям своего проекта. Такая свобода позволяет разработчикам адаптировать 3D-активы к своим потребностям, будь то более гладкие поверхности для персонажей и анимации или сложные детали для окружения.
globenewswire.com

✔️ Olympian Motors и NVIDIA совместно разрабатывают первую ИИ-платформу для электромобилей.

Olympian Motors объявила о расширении сотрудничества с NVIDIA для разработки платформы Olympus — открытой, модульной и управляемой ИИ платформы для электромобилей. Партнерство подразумевает использование NVIDIA DRIVE AGX Orin и создание нового протокола разработки и развертывания ИИ-моделей и приложений для электромобилей.

Платформа Olympus обеспечит легкий и стандартизированный доступ к инфраструктуре данных автомобиля, датчикам и блокам обработки данных и к сетям связи. Разработчики получат модульную операционную систему и облако, чтобы развертывать модели машинного обучения и активно участвовать в развитии экосистемы электромобилей. Платформа Olympus будет представлена вместе с моделями Model 84 и Centaur VAN.
msn.com

✔️ VoxelSensors представит инновационное решение контекстуального интеллекта на CES 2025.

Бельгийский стартап VoxelSensors объявил о собственной разработке, которое позволит искусственному интеллекту взаимодействовать с людьми более естественно, как в реальном мире. Решение VoxelSensors собирает данные с носимых устройств от первого лица, что позволяет создавать модели контекстуального интеллекта, способные понимать и помогать пользователю в реальных условиях.

Компания использует комбинацию датчиков SPAES и модуля PERCEPT для сбора данных, которые важны для интерпретации опыта пользователя. Датчики SPAES обеспечивают высокую точность, меньшую задержку и более низкое энергопотребление по сравнению с существующими аналогами.
voxelsensors.com

✔️ PIMIC анонсировал чип Clarity NC100 на базе ИИ для шумоподавления окружающей среды.

Clarity NC100, чип шумоподавления окружающей среды на основе глубокой нейронной сети (DNN), который устанавливает новый стандарт производительности и эффективности ИИ на периферии. Эта технология обеспечивает ультимативное подавление шума в сложных условиях, будь то сильный ветер или промышленные условия, всего с одним микрофоном, потребляя при этом всего 150 мкА.

PIMIC представит образцы Clarity NC100 на выставке CES 2025 в Лас-Вегасе, интегрированные с цифровым микрофоном AI, разработанным компанией ZillTek.
embedded.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍269🔥7🥰1
⚡️ QVQ-72B-Preview: VLM с ризонингом от Qwen.

QVQ-72B-Preview - экспериментальная VLM на основе Qwen2-VL-72B , разработанная Qwen, со способностями к аналитическому мышлению и новым уровнем когнитивных навыков.

Проведенная в Qwen оценка QVQ-72B-Preview на бенчмарках MMMU, MathVista, MathVision и OlympiadBench показала результат 70.3 на MMMU, 71.4 на MathVista, 35.9 в MathVision и 20.4 на наборе OlympiadBench, подчеркнув ее способность к комплексному пониманию и рассуждению в мультидисциплинарных задачах.

⚠️ Несмотря на высокие результаты, QVQ-72B-Preview - предварительная версия модели, которая имеет ограничения:

🟠возможность смешения языков и переключения между ними;
🟠склонность к зацикливанию в логических рассуждениях;
🟠постепенная потеря концентрации на визуальном контенте при многоступенчатом рассуждении, что может приводить к галлюцинациям.

Неофициальные квантованные версии QVQ-72B-Preview в формате GGUF с диапазоном разрядностей от 1-bit (23.7GB) до 8-bit (77.26GB) и MLX-версии от mlx community в разрядностях от 4-bit до 16-bit.

📌Лицензирование: Qwen License.


🟡Статья
🟡Модель
🟡Demo
🟡Набор GGUF
🟡Набор MLX
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #Qwen #Reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍126