300K subscribers
3.99K photos
701 videos
17 files
4.57K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
⚡️ Llama 3.3 70B.

Модель доступна в версии с 70 млрд параметров и оптимизирована для диалоговых сценариев использования на нескольких языках. Llama 3.3 превосходит многие доступные модели с открытым и закрытым исходным кодом по стандартным отраслевым бенчмаркам.

Llama 3.3 основана на оптимизированной архитектуре трансформера и использует авторегрессивный подход. Настройка модели включает SFT с RLHF для согласования с человеческими предпочтениями в отношении полезности и безопасности.

Модель была обучена на новом наборе общедоступных онлайн-данных, включающем более 15 триллионов токенов, с ограничением по свежести данных до декабря 2023 года.

Llama 3.3 поддерживает английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский языки.

▶️ Пример инфренса на Transformers:

import transformers
import torch

model_id = "meta-llama/Llama-3.3-70B-Instruct"

pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)

messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])


📌Лицензирование: LLAMA 3.3 License.


🟡Модель
🟡Demo


@ai_machinelearning_big_data

#AI #ML #LLM #Llama3
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3011🔥6😢2
✔️ Уязвимости в инструментах машинного обучения.

Уязвимости, обнаруженные компанией JFrog в популярных инструментах машинного обучения с открытым исходным кодом: MLflow, H2O, PyTorch и MLeap, позволяют злоумышленникам использовать клиентские библиотеки машинного обучения, которые работают с Safetensors.

Взлом клиента машинного обучения позволяет получить доступ к учетным данным реестра моделей и внедрить вредоносный код. Среди обнаруженных уязвимостей - недостаточная санитизация в MLflow (CVE-2024-27132), небезопасная десериализация в H2O (CVE-2024-6960), проблема с обходом пути в PyTorch и уязвимость Zip Slip в MLeap (CVE-2023-5245).
thehackernews.com

✔️OPENAI представили reinforcement finetuning для o1 (RFT).

Этот метод отличается от обычного файнтюнинга (или файнтюнинга с учителем) тем, что он позволяет обучать модель думать определённым образом в конкретной области, важной для пользователя.
Подробнее

✔️ Apple планирует изменить конструкцию памяти iPhone для повышения производительности ИИ.

Компания планирует внедрить дискретную упаковку памяти в iPhone, начиная с 2026 года, чтобы повысить производительность ИИ на устройстве. Samsung, поставщик компонентов памяти Apple, уже начал проводить исследования, чтобы удовлетворить запрос Apple. Сейчас iPhone использует упаковку типа «пакет-на-пакете» (PoP), где DRAM LPDDR размещается непосредственно на "системе-на-кристалле" (SoC).

Переход на дискретную упаковку позволит увеличить количество контактов ввода-вывода, повышая скорость передачи данных и количество параллельных каналов данных. Это улучшит пропускную способность памяти и возможности ИИ и также улучшает теплоотвод. Однако это изменение может потребовать уменьшения размера SoC или аккумулятора, а также увеличить энергопотребление и задержку.
macrumors.com

✔️ Google DeepMind представит более 100 научных работ на NeurIPS 2024.

Google DeepMind примет участие в 38-й ежегодной конференции по нейронным системам обработки информации (NeurIPS), которая пройдет с 10 по 15 декабря в Ванкувере, где представит более 100 новых научных работ по темам: агенты ИИ, генеративные медиа, инновационные подходы к обучению. В рамках конференции запланированы живые демонстрации Gemma Scope, ИИ для создания музыки, модели прогнозирования погоды, системы CAT3D и Android Control.
deepmind.google

✔️ PlayerUnknown представил 2 новые игры, основанные на машинном обучении.

Разработчик PlayerUnknown анонсировал две новые игры, основанные на технологиях Ai и ML: Preface: Undiscovered World и Prologue: Go Wayback.

Preface: Undiscovered World доступна в раннем доступе в Steam и представляет собой техническую демонстрацию процедурно генерируемых миров. Prologue: Go Wayback – это "выживалка", в которой погода и окружающая среда непосредственно влияют на исследование мира игроком. Обе игры служат «строительными блоками» для будущих проектов PlayerUnknown Productions и предназначены для сбора отзывов пользователей.
dualshockers.com

✔️ Китай представил сверхпроводящий чип с 504 кубитами.

Китай представил свой самый передовой квантовый компьютер «Tianyan-504» с 504-кубитным чипом «Xiaohong», разработанным в партнерстве с Китайской академией наук и компанией QuantumCTek. «Tianyan-504» устанавливает новый национальный рекорд, преодолевая порог в 500 кубитов, и конкурирует с IBM, по показателям производительности, времени жизни кубита и точности считывания. «Tianyan-504» будет интегрирован с квантовой облачной платформой China Telecom «Tianyan», запущенной в 2023 году, чтобы обеспечить глобальный доступ к возможностям квантовых вычислений. Платформа «Tianyan» уже привлекла более 12 миллионов посещений пользователей из более чем 50 стран.
thequantuminsider.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍278🔥5❤‍🔥1
🌟 Fish Speech V1.5: модель преобразования текста в речь и клонирования голоса.

Fish Speech - модель генерации TTS обновилась до версии 1.5. Эта версия обучалась на 1 млн.часов мультиязычных аудиоданных и заняла 2 место в бенчмарке TTS-Arena (как "Anonymous Sparkle").

Заявлена задержка <150 мс с высококачественным мгновенным клонированием голоса.

▶️Языковая структура обучающего корпуса версии 1.5:

🟢Английский (en) >300 тыс. часов
🟢Китайский (zh) >300 тыс. часов
🟢Японский (ja) >100 тыс. часов
🟢Немецкий (de) ~20 тыс. часов
🟢Французский (fr) ~20 тыс. часов
🟢Испанский (es) ~20 тыс. часов
🟢Корейский (ko) ~20 тыс. часов
🟢Арабский (ar) ~20 тыс. часов
🟠Русский (ru) ~20 тыс. часов
🟢Голландский (nl) <10 тыс. часов
🟢Итальянский (it) <10 тыс. часов
🟢Польский (pl) <10 тыс. часов
🟢Португальский (pt) <10 тыс. часов

Fish Speech для локального инференса требует 4Gb GPU и 8 BG GPU для файнтюна. Запуск возможен на MacOS, Linux и Windows в режимах CLI, GUI и WebUI и Docker.

Подробные инструкции по установке, инференсу в различных режимах для каждой платформы, туториал по файнтюну и примеры доступны в документации проекта Fish Speech.

⚠️ Репозиторий на Github еще не обновлен информацией о версии 1.5, а официальное демо от разработчиков поддерживает синтез только на английском, китайском и японском.


📌Лицензирование: CC-BY-NC-SA-4.0 License.


🟡Модель
🟡Demo
🟡Документация
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #TTS #FIshSpeech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥1510
⚡️ TRELLIS: универсальная модель для генерации 3D-контента от Microsoft.

TRELLIS - модель для создания высококачественных 3D-объектов на основе текстового промпта или изображения с помощью унифицированного представления Structured LATent (SLAT), которое декодирует данные в форматы: Radiance Fields, 3D-гауссианы и полигональные сетки.

SLAT обладает универсальностью, используя комбинацию из разреженной 3D-сетки и плотных визуальных признаков, извлеченных моделью DINOv2 из входного изображения.

TRELLIS использует модифицированные rectified flow transformers, адаптированные для работы с SLAT. Обучение набора моделей TRELLIS, размерами до 2 млрд. параметров, выполнялось на датасете из 500 тыс. разнообразных 3D-объектов.

Пока в открытый доступ опубликована только Image-to-3D версия - TRELLIS-image-large с 1.2 млрд. параметров. Остальные вариации модели для генерации 3D по тексту: TRELLIS-text-base (342М), TRELLIS-text-large (1.1В) и TRELLIS-text-xlarge (2В) и код для их трейна будут представлены позже (сроки не указаны).

⚠️ Для локального запуска TRELLIS-image-large рекомендуется NVIDIA GPU с VRAM 16GB или больше.

▶️Установка и запуск c WebUI (Gradio):

# Clone repo
git clone --recurse-submodules https://github.com/microsoft/TRELLIS.git
cd TRELLIS

# Create conda env and install dependencies
. ./setup.sh --new-env --basic --flash-attn --diffoctreerast --spconv
--mipgaussian --kaolin --nvdiffrast

# Install web demo via Gradio
. ./setup.sh --demo

# Run WebUI
python app.py


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ImageTo3D #Trellis #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
23👍18🔥5🥰3🤩1
📎 ML в медицине: дайджест за 1 - 7 декабря 2024 г.


▶️Модели, бенчмарки и датасеты

🔘SOAR: бенчмарк для оценки LLM в задачах аннотации типов клеток.
Тест, который проверяет, насколько хорошо модели могут понимать и анализировать сложные данные о клетках.

🔘Повышение точности диагностики рентгенограмм грудной клетки с помощью анализа направления взгляда врачей.
Система 2-х нейросетей, которая помогает диагностировать заболевания по рентгенограммам грудной клетки и предсказывает, на какие области изображения врачи обращают внимание.

🔘EchoONE: унифицированная модель для сегментации множества плоскостей эхокардиографии.
Модель, которая помогает врачам более точно анализировать снимки сердца, сделанные с помощью ультразвука, даже если снимки сделаны под разными углами.


▶️Фреймворки и методологии

🔘RARE: RAG-ризонинг.
Метод для улучшения способности рассуждать и давать точные ответы, используя комбинацию генерации и поиска информации для обогащения своих знаний.

🔘STORM: cтратегия организации модальностей для классификации редких событий.
Алгоритм, который помогает выбрать лучшие источники информации для решения сложных медицинских задач.

🔘TransFair: прогноз прогрессирования глазных заболеваний.
Модель классификации, которая помогает сделать прогнозы о глазных заболеваниях более справедливыми и точными.

🔘PePR: оценка эффективности моделей с учетом потребления ресурсов.
Показатель, который помогает оценить, насколько эффективно модель использует ресурсы.

🔘Оценка качества рентгенологических заключений с помощью сопоставления клинических данных с изображением.
Метод оценки качества автоматически сгенерированных рентгенологических отчетов, который учитывает точность описания патологических изменений, их локализации и степени выраженности.


▶️Медицинские LLM-приложения

🔘MedChain: LLM-агент и бенчмарк для принятия клинических решений.
Набор данных и система для имитации реальной клинической практики, где каждый случай включает подробную информацию о пациенте и требует активного сбора информации и принятия решений на основе предыдущих шагов.

🔘QG-Summ: автореферирование медицинских записей с самоконтролем, управляемое запросами.
Метод, который помогает создавать краткие и точные отчеты о состоянии пациентов в электронных медкартах, используя запросы, связанные с пациентом, для руководства процессом.

🔘CLINICSUM: генерация медицинских заключений из диалогов врача и пациента.
Фреймворк, который может автоматически создавать медицинские заключения на основе разговоров между врачом и пациентом, используя специальную архитектуру.


▶️Исследования и обзоры

*️⃣Проблемы производительности LLM для здравоохранения с учетом демографической справедливости.
Исследование проблемы демографической предвзятости популярных современных LLM в различных медицинских задачах.

*️⃣Применение эмбединг-моделей для классификации медицинских текстов.
Статья о том, как использовать эмбединги для классификации медицинских текстов без необходимости обучения на медицинских данных.

*️⃣BlockMedCare: блокчейн, ИИ и IoT для здравоохранения будущего.
Концепция системы для безопасного и эффективного управления электронными медицинскими картами, позволяя пациентам, врачам и администраторам взаимодействовать с системой на различных устройствах.


🔜 Читать полный дайджест
🔜Telegraph


@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2811🔥7
🌟 ShowUI-2B: VLM для взаимодействия с графическими интерфейсами.

ShowUI-2B - VLM на базе Qwen2-VL-2B, которая оптимизирована для взаимодействия с GUI. Она обладает глубоким пониманием пользовательских интерфейсов и навигации по ним на веб- и мобильных платформах.

Модель обрабатывает комбинацию визуальных и текстовых данных для создания соответствующих действий GUI. Она интерпретирует скриншоты и текстовые инструкции для определения точек и последовательности взаимодействия.

В качестве входных данных ShowUI-2B может принимать: скриншоты интерфейсов,
текстовые инструкции (или запросы), системные промпты, определяющие области действия и
последовательности действий.

Результат инференса модели: координаты расположения элементов пользовательского интерфейса [x,y], действия (щелчок, ввод, выбор и т.д.), значения для ввода текста и
целевые позиции для взаимодействия.

Для мобильных интерфейсов ShowUI-2B обрабатывает касания, свайпы и ввод текста.

Прикладные сферы применения :

🟢Автоматизированное тестирование интерфейса;
🟢Агенты автоматизации задач;
🟢Интерактивные учебные пособия и системы рекомендаций;
🟢UX\UI-задачи приложений и веб-сайтов.

ShowUI-2B продемонстрировала высокую эффективность в задачах zero-shot grounding (75.1% точности) и навигации по GUI на различных платформах (Web, Mobile, Online).

⚠️ Модель поддерживает интеграцию с Computer Use OOTB, проектом Desktop GUI Agent, который позволяет управлять действиями на PC с помощью LLM, запущенной локально или через API.

▶️Установка и запуск с GradioUI:

# Clone the Repository
git clone https://github.com/showlab/ShowUI.git
cd ShowUI

# Install Dependencies
pip install -r requirements.txt

# Start the GradioUI
python app.py

# Go to local URL: http://127.0.0.1:7860


📌Лицензирование: MIT License.


🟡Модель
🟡Demo
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #ShowUI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥114
🌟 AQLM․rs: сокращаем расходы на нейросети

Исследователь Яндекса разработал сервис для запуска языковых моделей с 8 млрд параметров на пользовательских девайсах.

Автор написал инференс модели Llama 3.1 8B, работающий в браузере на WebAssembly без использования GPU. Для этого он применил технологию сжатия нейросетей AQLM, которую разработала команда Yandex Research вместе с университетами ISTA и KAUST.

Для примера, скорость ответов нейросети на MacBook Pro M1 составила 1,5 токена в секунду или 3–4 символа.

🟡Статья
🖥Github

@ai_machinelearning_big_data

#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥105🥱1
🌟 EuroLLM: многоязычные модели европейских языков.

EuroLLM - проект, финансируемый ЕС, цель которого создание набора LLM, способных понимать и генерировать текст на всех языках Европейского Союза, а также на некоторых других распространенных не-ЕС языках:

Болгарский, хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, немецкий, греческий, венгерский, ирландский, итальянский, латышский, литовский, мальтийский, польский, португальский, румынский, словацкий, словенский, испанский, шведский, арабский, каталанский, китайский, галисийский, хинди, японский, корейский, норвежский, русский, турецкий и украинский.

▶️В коллекции представлены модели:

🟢EuroLLM-9B - модель с 9 млрд. параметров, контекстом 4096, обученная на 4 трлн. токенов;

🟢EuroLLM-9B-Instruct - инструктивная версия на основе EuroBlocks, набора данных для настройки инструкций, ориентированного на общее следование инструкциям и машинный перевод;

🟠EuroLLM-1.7B - модель с 1,7 млрд. параметров, контекст - 4096;

🟠EuroLLM-1.7B-Instruct - инструктивная версия на датасете EuroBlocks. Демо


⚠️ Ко всем моделям неофициально выпущены квантованные версии в GGUF-формате, ссылки доступны в карточке модели на HF.


▶️Пример кода инференса EuroLLM-9B на Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "utter-project/EuroLLM-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "English: My name is EuroLLM. Portuguese:"

inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))


📌Лицензирование: Apache License 2.0


🟡Набор моделей
🟡Arxiv
🟡Demo EuroLLM-1.7B-Instruct


@ai_machinelearning_big_data

#AI #ML #LLM #EuroLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍136🗿2