Python RU

🌟

HumanOmniV2: модель, которая понимает контекст видео.

Alibaba Group разработали HumanOmniV2, модель на базе Qwen2.5-Omni-7B-thinker, которая получила навык осмысления визуального контекста за счет изменения самого процесса мышления модели. Ее научили следовать строгому формату: сначала описать контекст, потом рассуждать и только затем давать ответ.

Теперь, прежде чем отвечать на вопрос, модель генерирует подробное описание сцены в теге <context>. На этом этапе она фиксирует, кто что делает, какой фон, какие звуки слышны. Только после этого в теге <think> она строит логическую цепочку рассуждений, связывая вопрос с собранным контекстом. И лишь в конце выдает результат в теге <answer> .

Чтобы этот подход работал, его усилили системой вознаграждений на основе RL. За точность и правильный формат модель получает стандартные награды, но были введены и две новых:

🟢«Награда за контекст» дается, если его описание полное и релевантное, причем качество этого описания оценивает другая, более мощная LLM;

🟢«Логическая награда» проверяет, что в своих рассуждениях модель действительно использовала данные из видео и аудио, а не проигнорировала их.

Для оценки HumanOmniV2 создали бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE.

Его фишка в том, что вопросы требуют одновременного анализа: видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения).

Тестовая модель обошла открытые аналоги на 3 бенчмарках:

🟠Daily-Omni: 58.47% (53.13% у MiniCPM-o 2.6);
🟠WorldSense: 47.1% (45.4% у Qwen2.5-Omni);
🟠IntentBench: 69.33% (64.20% у Qwen2.5-Omni).

📌Лицензирование: Apache 2.0 License.

🟡

Модель

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #MMLM #HumanOmniV2 #Alibaba

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥2

1.59K views09:12

Python RU

✨ Google представили GenAI Processors — open-source библиотеку для создания AI-приложений в реальном времени

GenAI Processors — это новый инструмент от команды Google DeepMind, разработанный для быстрой сборки потоковых и мультимодальных AI‑систем. Библиотека обеспечивает удобную работу с цепочками обработки данных, модульную архитектуру и поддержку стриминга.

Основные возможности:

— Потоковый ввод/вывод (stream-based I/O)
— Простая сборка пайплайнов через chaining
— Модульность и переиспользуемость (composability)
— Поддержка Gemini и Gemini Live API
— Асинхронная архитектура с минимальной задержкой

🔧 GenAI Processors позволяет разработчикам легко собирать голосовых агентов, мультимодальные интерфейсы и реактивные приложения на базе LLM.

🔗 GitHub: https://github.com/google-gemini/genai-processors
📖 Блог: https://developers.googleblog.com/en/genai-processors

❤4🔥2👍1

1.21K views08:51

Python RU

🐍 Совет дня для продвинутых Python-разработчиков

Хочешь писать чище и безопаснее, когда работаешь с вложенными dict? Забудь про dict.get(...).get(...) и используй collections.ChainMap или types.SimpleNamespace — но ещё лучше: pydantic или dotmap.

А вот компактный трюк на каждый день — безопасное извлечение с functools.reduce:


from functools import reduce

def deep_get(dictionary, keys, default=None):
    return reduce(lambda d, key: d.get(key, default) if isinstance(d, dict) else default, keys, dictionary)

data = {"user": {"profile": {"email": "[email protected]"}}}

email = deep_get(data, ["user", "profile", "email"])

📌 Почему это полезно:

- Нет KeyError

- Код читаемый

- Масштабируемо для любых уровней вложенности

🔥 Применяй в проектах, где много данных с API или JSON — избавит от лишних try/except и защитит от неожиданных крашей.

Python — это не только про лаконичность, но и про стабильность

❤2

1.25K views12:52

Python RU

0:36

This media is not supported in your browser

VIEW IN TELEGRAM

🐧 Продвинутый совет для Linux: как узнать, какой процесс держит файл, даже если он уже удалён

Иногда файл удаляется (`rm`), но система продолжает занимать под него место. Почему?

Потому что процесс всё ещё держит этот файл открытым, и диск не освобождается, пока он не завершится.

🔥 Найти такие случаи можно так:


lsof | grep deleted

📌 lsof покажет все файлы, которые открыты процессами. Если строка содержит (deleted) — это значит, что файл был удалён, но всё ещё используется.

Пример вывода:


python3  12345 user  txt  REG  8,1  20480 123456 /tmp/log.txt (deleted)

→ Процесс с PID 12345 держит удалённый файл /tmp/log.txt.

✅ Что можно сделать:
- Освободить диск — завершить процесс (`kill 12345`)
- Или: очистить через /proc без остановки:


: > /proc/12345/fd/3

(только если вы точно знаете, какой дескриптор используется)

⚠️ Часто встречается при работе с логами, Docker-контейнерами и временными файлами.

📌 Используйте lsof | grep deleted как диагностику, если "всё удалили, но место не освободилось".

❤6👍1

1.34K views14:20

Python RU

😱

Как вернуть удалённый скрипт

Рассмотрим ситуацию, когда случайно/специально удалился исполняющийся bash-скрипт.

Чтобы не попадать в такие ситуации, всегда храните исходники в git — это избыточно, но бекапы никто не отменял.

Скрипт удалён с диска, но продолжает работать в фоне, значит его можно как-нибудь восстановить.

Создадим подопытный скрипт. touch /tmp/script.sh:

#!/bin/bash
sleep 1000
exit

Делаем его исполняемым chmod +x /tmp/script.sh и запускаем в фоне /tmp/script.sh &.

Символ & может служить разделителем между командами command & command, две команды выполнятся параллельно.

Скрипт запустили, он крутится в фоне. Удалим сам файл:

rm -f /tmp/script.sh

Ключ -f позволит удалить без лишних вопросов.

Восстанавливаем:

lsof -c 'script.sh'

На экран выведется простыня. Нам нужна строка, где в конце указан путь к удаленному скрипту:

COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
script.sh 261899 root 255r REG 8,1 51 130773 /tmp/script.sh

Берем PID = 261899, берем FD = 255 и делаем так:

cat /proc/261899/fd/255

А вот и исходник скрипта:

File: /proc/261899/fd/255
#!/bin/bash
sleep 1000
exit

Вот полезная инфа, которая была использована в гайде:
man 5 proc # /proc/[pid]/fd/
man lsof

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤5🔥3

1.64K views09:47

Python RU

📦 Pydantic Extra Types — коллекция дополнительных типов данных для Pydantic, которые не вошли в основную библиотеку. Проект расширяет возможности валидации данных, предлагая специфические форматы и проверки.

Типы подключаются как опциональные зависимости, позволяя выбирать только нужные компоненты. Например, можно добавить поддержку pendulum для работы с временными зонами.

🤖 GitHub

❤3👍1

1.48K viewsedited 07:49

Python RU

📝 DocuSeal — open‑source альтернатива DocuSign, которую можно развернуть у себя

⚡️ Что умеет:
— WYSIWYG‑редактор PDF: подписи, даты, текстовые поля, вложения
— Мультиподписанты, мобильная адаптация
— Авторассылка писем, webhooks, API
— Можно хостить у себя через Docker, без сторонних сервисов

🚀 Работает сразу после запуска:


docker run --name docuseal -p 3000:3000 -v .:/data docuseal/docuseal

👨‍💻 В комплекте:
— UI‑компоненты под React, Vue, Angular
— SDK под JS, Python, PHP, Ruby
— Интеграции через iframe или embedding

🌐 GitHub (9.5k⭐):
https://github.com/docusealco/docuseal

👍5

1.17K views09:39

Python RU

1:03

This media is not supported in your browser

VIEW IN TELEGRAM

🎨 Встречайте Neta Lumina — самую продвинутую open-source модель для генерации аниме-артов!

Это уже 4-я модель в линейке, и она впечатляет:

🔹 Точная настройка под 200+ аниме-стилей: от Guofeng и Furry до пейзажей и редких тем
🔹 Хорошая согласованность промптов, даже при длинных описаниях на естественном языке
🔹 Мультиязычная поддержка

🔥 Идеальный выбор для художников, аниматоров и фанатов генеративного арта.

🔹 Model on Hugging Face (Commercial use allowed):https://huggingface.co/neta-art/Neta-Lumina
🔹 Playground (Free to test):https://huggingface.co/spaces/neta-art/NetaLumina_T2I_Playground
⚙️ Supports ComfyUI, LoRA tutorial → https://docs.google.com/document/d/1fSp8wgraQeeaM58DVbnFoRULyyhPvt3MgY0Qja0Otc0/edit?tab=t.0

@data_analysis_ml

❤4👍2🔥2🤬1

897 views09:44

Python RU

1:04

This media is not supported in your browser

VIEW IN TELEGRAM

🗣 FLOAT — новая open‑source модель для генерации говорящих портретов по аудио

Быстрее и реалистичнее SadTalker:
— Фотореалистичное видео с точной синхронизацией губ
— Плавные движения головы и эмоции
— Управление выражением лица и наклоном головы

💡 Основа — latent flow matching вместо диффузии:
⚡️ генерация быстрее, нет итераций, стабильные кадры

🌐

page: https://deepbrainai-research.github.io/float/
🧬code: https://github.com/deepbrainai-research/float
📄paper: https://arxiv.org/abs/2412.01064
🍊jupyter: https://github.com/camenduru/Float-jupyter

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1🔥1

754 views11:04

Python RU

Forwarded from Machinelearning

🧠 Qwen3-MT — Alibaba продолжает жечь и выпускает еще одну модель, в этот раз для машинного перевода.

🌍 Поддерживает 92+ языка, на которых говорит 95% населения мира

📚 Обучен на триллионах токенов из интернета, открытых документов и книгах, субтитров из видео.

🔬 Что внутри:
- Модель Qwen3-MoE-72B с архитектурой Mixture-of-Experts
- Заточена на переводческие фишки, поддерживает сложную терминологию и даже очень редкие слова.
- RLHF: обучение с подкреплением повышает точность и естественность модели

Возможности:
✅ Обеспечивает качественный перевод в реальном времени
✅ Контроль стиля и терминов
✅ Масштабируемость для API и продакшена
✅ Цена — от $0.5 за миллион токенов

🟡 Попробовать демку: https://huggingface.co/spaces/Qwen/Qwen3-MT-Demo
🟡 ModelScope: https://modelscope.cn/studios/Qwen/Qwen3-MT-demo

🟡

Документация API: https://alibabacloud.com/help/en/model-studio/translation-abilities

🟡

Блог с подробностями: https://qwenlm.github.io/blog/qwen-mt/

@ai_machinelearning_big_data

#Qwen #Alibaba #ml #llm #ai

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1🔥1

634 views19:09

About

Blog

Apps

Platform