Python/ django
60.6K subscribers
2.13K photos
79 videos
48 files
2.86K links
по всем вопросам @haarrp

@itchannels_telegram - 🔥 все ит-каналы

@ai_machinelearning_big_data -ML

@ArtificialIntelligencedl -AI

@datascienceiot - 📚

@pythonlbooks

РКН: clck.ru/3FmxmM
加入频道
Forwarded from Machinelearning
⚡️ BRIA Background Removal v2.0 Model.

RMBG v2.0 - новая модель удаления фона, предназначенная для эффективного отделения переднего плана от фона в различных категориях и типах изображений. Точность, эффективность и универсальность RMBG v2.0 конкурирует с ведущими SOTA-моделями.

RMBG-2.0 разработана на основе архитектуры BiRefNet и обучена на более чем 15 000 высококачественных, высокого разрешения, вручную маркированных (с точностью до пикселя), полностью лицензированных изображений.

Модель доступна на HF в двух версиях : pytorch и safetensors. Демо можно попробовать на HF Space.

▶️Пример кода запуска на Transformers:

from PIL import Image
import matplotlib.pyplot as plt
import torch
from torchvision import transforms
from transformers import AutoModelForImageSegmentation

model = AutoModelForImageSegmentation.from_pretrained('briaai/RMBG-2.0', trust_remote_code=True)
torch.set_float32_matmul_precision(['high', 'highest'][0])
model.to('cuda')
model.eval()

# Data settings
image_size = (1024, 1024)
transform_image = transforms.Compose([
transforms.Resize(image_size),
transforms.ToTensor(),
transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

image = Image.open(input_image_path)
input_images = transform_image(image).unsqueeze(0).to('cuda')

# Prediction
with torch.no_grad():
preds = model(input_images)[-1].sigmoid().cpu()
pred = preds[0].squeeze()
pred_pil = transforms.ToPILImage()(pred)
mask = pred_pil.resize(image.size)
image.putalpha(mask)

image.save("no_bg_image.png")


📌Лицензирование:

🟢Некоммерческое использование: Creative Commons license
🟠Коммерческое использование: на основании коммерческого соглашения с BRIA


🟡Модель
🟡Demo


@ai_machinelearning_big_data

#AI #ML #BiRefNet #RMBG #BRIAAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1710🔥5
Forwarded from Machinelearning
🌟 cuPyNumeric: замена NumPy от NVIDIA.

По мере роста объемов данных и сложности вычислений, вычисления на Python и NumPy, основанные на CPU, нуждаются в ускорении для выполнения современных исследований.

cuPyNumeric разработана, чтобы стать заменой библиотеки NumPy, предоставляя сообществу Python распределенные и ускоренные вычисления на платформе NVIDIA. cuPyNumeric позволяет масштабировать вычисления без изменения кода проектов с одного CPU до суперкомпьютеров с несколькими GPU и вычислительными нодами.

Библиотека построена на Legate, поддерживает родной Python и интерфейс NumPy. cuPyNumeric доступен из conda (версия не ниже 24.1) в legate channel. На системах с GPU пакеты, поддерживающие графические ускорители будут выбраны автоматически во время установки.

Пример эффективности cuPyNumeric - обработка 10 ТБ микроизображений многоракурсной микроскопии в виде одного массива NumPy за один день с визуализаций в режиме реального времени.

▶️Установка и тест на примере из репозитория:

# Create new conda env
conda create -n myenv -c conda-forge -c legate cupynumeric

# Test via example from repo
$ legate examples/black_scholes.py
Running black scholes on 10K options...
Elapsed Time: 129.017 ms


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Документация
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #NumPy #NVIDIA #cuPyNumeric
Please open Telegram to view this post
VIEW IN TELEGRAM
👍138🔥3
Forwarded from Machinelearning
⚡️ TRELLIS: универсальная модель для генерации 3D-контента от Microsoft.

TRELLIS - модель для создания высококачественных 3D-объектов на основе текстового промпта или изображения с помощью унифицированного представления Structured LATent (SLAT), которое декодирует данные в форматы: Radiance Fields, 3D-гауссианы и полигональные сетки.

SLAT обладает универсальностью, используя комбинацию из разреженной 3D-сетки и плотных визуальных признаков, извлеченных моделью DINOv2 из входного изображения.

TRELLIS использует модифицированные rectified flow transformers, адаптированные для работы с SLAT. Обучение набора моделей TRELLIS, размерами до 2 млрд. параметров, выполнялось на датасете из 500 тыс. разнообразных 3D-объектов.

Пока в открытый доступ опубликована только Image-to-3D версия - TRELLIS-image-large с 1.2 млрд. параметров. Остальные вариации модели для генерации 3D по тексту: TRELLIS-text-base (342М), TRELLIS-text-large (1.1В) и TRELLIS-text-xlarge (2В) и код для их трейна будут представлены позже (сроки не указаны).

⚠️ Для локального запуска TRELLIS-image-large рекомендуется NVIDIA GPU с VRAM 16GB или больше.

▶️Установка и запуск c WebUI (Gradio):

# Clone repo
git clone --recurse-submodules https://github.com/microsoft/TRELLIS.git
cd TRELLIS

# Create conda env and install dependencies
. ./setup.sh --new-env --basic --flash-attn --diffoctreerast --spconv
--mipgaussian --kaolin --nvdiffrast

# Install web demo via Gradio
. ./setup.sh --demo

# Run WebUI
python app.py


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ImageTo3D #Trellis #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍76
Forwarded from Machinelearning
🌟 Apollo: семейство мультимодальных моделей для понимания медиаконтента.

Apollo - набор MMLM, которые умеют решать разные задачи с видеоконтентом. Они могут понимать длинные видео, рассуждать о событиях во времени и поддерживать многосторонние видео-диалоги.

Модели показывают высокую производительность даже при относительно небольшом размере в 3 млрд. параметров, превосходя по эффективности конкурентов с моделями в 7В-30В параметров.

Этого удалось достичь благодаря тщательному проектированию и комбинированию SigLIP-SO400M (для изображений) и InternVideo2 (для видео). Их синергия дает более устойчивое представление на задачах временных рассуждений.

▶️ Семейство состоит из трех моделей:

🟢Apollo 7B
🟢Apollo 3B
🟢Apollo 1.5B

⚠️ Код для тонкой настройки, применение LoRA в Apollo и документацию разработчики обещают опубликовать позднее. Пока в репозитории проекта размещен только пример инференса на Transformers.


📌Лицензирование кода : Apache 2.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Demo Apollo-3B
🖥GitHub



@ai_machinelearning_big_data

#AI #ML #MMLM #Apollo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍124🔥3
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 WebRover – это автономный ИИ-агент , предназначенный для взаимодействия с элементами веб-страниц и выполнения пользовательских запросов.

Агент построен на базе LangChain и LangGraph и в первую очередь создан, чтобы освободить пользователей от рутины, связанной с поиском и сбором информации.

Благодаря глубокому пониманию контекста и способности автоматически определять нужные элементы, WebRover эффективно справляется даже со сложными задачами.

Основные возможности WebRover включают:
- самостоятельную навигацию по сайтам, управление состоянием через LangGraph и автоматизированное взаимодействие с браузером посредством Playwright.
- агент способен анализировать содержимое страниц, делать скриншоты и формировать структурированные ответы и парить информацию.

Особенности
🤖 Навигация на основе GPT-4 для понимания контекста и интеллектуальной навигации по веб-сайтам
🎯 Интеллектуальное обнаружение элементов: Автоматически идентифицирует и взаимодействует с любыми элементами сайтов
📸 Визуальная обратная связь: Визуализация процесса навигации в реальном времени
🔄 Автономная работа: Самокорректирующаяся навигация со стратегиями обратного хода

git clone https://github.com/hrithikkoduri18/webrover.git
cd webrover
cd backend


Github

@ai_machinelearning_big_data


#aiagents #ai #ml #opensource
12👍4🔥3
🌟 Model2Vec: создание компактных и быстрых моделей на основе Sentence Transformer.

Model2Vec - библиотека для создания компактных и быстрых моделей на основе предобученных Sentence Transformer моделей.

Model2Vec позволяет создавать эмбединг-модели слов и предложений, которые значительно меньше по размеру, но при этом сопоставимы по производительности с исходными Sentence Transformer моделями.

Отличительные особенности:

🟢быстрая дистилляция, процесс создания модели занимает несколько минут;

🟢быстрый инференс, в 500 раз быстрее на CPU относительно родительской модели;

🟢BYOM и BYOV, можно использовать на любой Sentence Transformer модели с любым словарем;

🟢мультиязычность, все что нужно - только мультиязычная модель в качестве источника;

🟢интеграция с Huggingface, загрузка\выгрузка моделей привычными from_pretrained и push_to_hub.

Пайплайн Model2Vec трехэтапный. На первом этапе словарь пропускается через модель Sentence Transformer для получения векторов эмбедингов для каждого слова.

Далее, размерность полученных эмбеддингов сокращается с помощью метода главных компонент (PCA). Наконец, применяется zipf-взвешивание для учета частотности слов в словаре.

Model2Vec работает в двух режимах:

🟠Output, в котором модель работает подобно Sentence Transformer, используя subword токенизацию;

🟠Vocab, в котором создается набор статических эмбедингов слов, аналогично GloVe или Word2Vec.

Оценку производительности Model2Vec делали на наборе данных MTEB на задачах PEARL (оценка качества представления фраз) и WordSim (оценка семантической близости слов).

Результаты показывают, что Model2Vec превосходит по производительности GloVe и модели, основанные на WordLlama по всем задачам оценки.

▶️Пример дистилляции:


from model2vec.distill import distill

# Choose a Sentence Transformer model
model_name = "BAAI/bge-base-en-v1.5"

# Distill the model
m2v_model = distill(model_name=model_name, pca_dims=256)

# Save the model
m2v_model.save_pretrained("m2v_model")


▶️Пример инференса:


from model2vec import StaticModel

# Load a model from the HuggingFace hub, or a local one.
model_name = "minishlab/M2V_base_output"
# You can optionally pass a token if you're loading a private model
model = StaticModel.from_pretrained(model_name, token=None)

# Make embeddings
embeddings = model.encode(["It's dangerous to go alone!", "It's a secret to everybody."])



📌Лицензирование : MIT License.


Набор моделей
GitHub


@pythonl

#AI #ML #LLM #Embedding #Model2Vec #python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍7🔥4
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔬MedRAX: новаторский ИИ-агент, разработанный для медицинских задач!

Что такое MedRAX?

MedRAX - это первый универсальный ИИ-агент, который объединяет современные инструменты для анализа рентгеновских снимков грудной клетки и мультимодальные большие языковые модели в единую структуру, позволяющую динамически обосновывать сложные медицинские запросы без дополнительного обучения.

🎯 Чем хорош именно MedRAX?

Хотя специализированные модели ИИ отлично справляются с конкретными задачами рентгенографии грудной клетки, они часто не справляются с комплексным анализом и могут выдавать неточные рекомендации . Многим медицинским работникам нужна единая, надежная система, способная обрабатывать сложные запросы, сохраняя при этом точность. MedRAX призван стать таким инструментом

🛠️ Интегрированные инструменты:


- Визуальный контроль качества: CheXagent и LLaVA-Med
- Сегментация: MedSAM & ChestX-Det
- Формирование отчетов: CheXpert Plus
- Классификация: TorchXRayVision
- Grounding Maira-2
- Синтетические данные: RoentGen

💡 Ключевые особенности:

- Бесшовная интеграция специализированных медицинских инструментов с мультимодальными рассуждениями на основе больших языковых моделей.
- Динамическая оркестровка: Интеллектуальный выбор и координация инструментов для сложных запросов.
- Клиническая направленность: Разработан для реальных медицинских процессов.

📊 ChestAgentBench:

Разработчики также выпустили ChestAgentBench, комплексный эталон медицинского агента, созданный на основе 675 клинических случаев, проверенных экспертами, и включающий 2500 сложных медицинских запросов по 7 категориям.

🎉 Результаты говорят сами за себя:
- 63,1% точности на ChestAgentBench
- Sota результативность на CheXbench
- Превосходит как универсальные, так и специализированные медицинские модели

Paper: https://arxiv.org/abs/2502.02673
Github: https://github.com/bowang-lab/MedRAX

@ai_machinelearning_big_data


#ai #agents #ml #opensource #med #medicine
🔥11👍75
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 LayerAnimate — метод, позволяющий управлять отдельными слоями видео, меняя элементы переднего и заднего плана.

В отличие от существующих методов, которые рассматривают анимацию как единое целое, LayerAnimate предоставляет точечный контроль над каждым слоем, что делает процесс генераций более гибким и управляемым.

Как это работает?
LayerAnimate решает проблему ограниченности данных, с помощью конвейера обработки данных, включающего:

🟢Автоматизированную сегментацию элементов для разделения анимации на слои.

🟢Иерархическое слияние состояний движения для упрощения управления кадрами сцены.

🟢Улучшение согласованности движения для создания плавных и реалистичных анимаций.

Модель позволяет переключаться между различными статическими изображениями или динамическими видео без влияния на анимацию переднего плана.

Особенно интересно выглядит image-video с использованием скетча, вместо текстового описания с данными о движении, можно использовать набросок с траекторией движения сцены и получить готовую сцену.

Мастхэв для тех, кто работает с анимацией. Больше примеров можно посмотреть здесь.

🟡Github
🟡Статья
🟡Проект

@ai_machinelearning_big_data

#videogenerator #video #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍43🎉1
Forwarded from Machinelearning
🌟 NVIDIA добавила нативную поддержку Python в CUDA.

Python уже несколько лет уверенно лидирует среди языков программирования, а теперь стал ещё ближе к железу. На GTC 2025 NVIDIA объявила о полноценной интеграции Python в свой CUDA-стек.

Это значит, что писать код для GPU можно будет напрямую на Python — без погружения в C++ или Fortran. Как подчеркнул Стивен Джонс, архитектор CUDA, цель — сделать инструмент естественным для Python-разработчиков: «Это не перевод синтаксиса C на Python. Все должно работать так, как привыкли разработчики».

Раньше CUDA требовала глубокого понимания низкоуровневых языков и это здорово ограничивало аудиторию. Сейчас, когда Python стал стандартом в ML и DS, NVIDIA открывает двери для миллионов программистов. По данным The Futurum Group, в 2023 году CUDA использовали 4 миллиона человек — теперь их число может резко вырасти.

Техническая часть такая же обширная, как и ожидания этого события профессиональным сообществом.

🟢Во-первых, появилась библиотека cuPyNumeric — аналог NumPy, который переносит вычисления с CPU на GPU буквально заменой импорта.

🟢Во-вторых, CUDA Core переосмыслен для Python: здесь сделан упор на JIT-компиляцию и минимизацию зависимостей.

🟢В-третьих, добавлены инструменты для профилирования и анализа кода, а ускоренные C++-библиотеки теперь доступны из Python без потерь в производительности.

Но главное — новый подход к параллельным вычислениям. Вместо ручного управления потоками, как в C++, NVIDIA предлагает модель CuTile, которая оперирует массивами, а не отдельными элементами. Это упрощает отладку и делает код читаемым, не жертвуя скоростью. По сути, разработчики получают высокоуровневую абстракцию, скрывающую сложности железа, но сохраняющую гибкость.

Пока CuTile доступен только для Python, но в планах — расширение для C++. Это часть стратегии NVIDIA по поддержке новых языков: Rust и Julia уже на походе.

Python-сообщество уже может экспериментировать — например, интегрировать CUDA-ядра в PyTorch или вызывать привычные библиотеки. Теперь даже те, кто никогда не писал на C++, смогут использовать всю мощь GPU — осталось проверить, как это скажется на скорости создания прекрасных LLM светлого будущего.

🔜 Посмотреть полную презентацию на GTC 2025


@ai_machinelearning_big_data

#AI #ML #Python #CUDA #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2311👍8🤩3😢1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Python на скорости Rust

Новый Function (fxn) — фреймворк, который компилирует Python-функции в нативный код с производительностью, сравнимой с Rust.

🧠 Как это работает?
- Использует символическое трассирование на CPython для анализа функций
- Генерирует промежуточное представление (IR)
- Транслирует IR в C++ или Rust, а затем компилирует в бинарный код
- Поддерживает платформы: Linux, Android, WebAssembly и др.

📦 Пример:
@compile
def fma(x: float, y: float, z: float) -> float:
return x * y + z
После компиляции вы получаете нативный бинарник, который можно запускать без интерпретатора Python.

🔗 Подробнее
🔗 Github

@pythonl

#Python #Rust #fxn #Compiler #Performance #AI #ML #Wasm
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍7🔥6
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
📓🦙 NotebookLlama — open-source альтернатива NotebookLM!

Практически полный функционал NotebookLM — в опенсорсе.

✔️ Собирает базу знаний из документов — с точным разбором через LlamaCloud
✔️ Автоматически пишет резюме и строит mind map-графы
✔️ Позволяет генерировать подкасты (работает на базе ElevenLabs)
✔️ Позволяет вести чат с агентом по документам
✔️ Метрики и аналитика через opentelemetry

🛠 Всё в открытом репо — можешь форкать, кастомизировать, заменять компоненты под себя.

Установка:


git clone https://github.com/run-llama/notebookllama


GitHub: https://github.com/run-llama/notebookllama
Попробовать в LlamaCloud: https://cloud.llamaindex.ai

@ai_machinelearning_big_data


#AI #ML #LLM #opensource #NotebookLM
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍4🔥3🤩2