Forwarded from Machinelearning
Alibaba Group разработали HumanOmniV2, модель на базе
Qwen2.5-Omni-7B-thinker
, которая получила навык осмысления визуального контекста за счет изменения самого процесса мышления модели. Ее научили следовать строгому формату: сначала описать контекст, потом рассуждать и только затем давать ответ.Теперь, прежде чем отвечать на вопрос, модель генерирует подробное описание сцены в теге
<context>
. На этом этапе она фиксирует, кто что делает, какой фон, какие звуки слышны. Только после этого в теге <think>
она строит логическую цепочку рассуждений, связывая вопрос с собранным контекстом. И лишь в конце выдает результат в теге <answer>
.Чтобы этот подход работал, его усилили системой вознаграждений на основе RL. За точность и правильный формат модель получает стандартные награды, но были введены и две новых:
Для оценки HumanOmniV2 создали бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE.
Его фишка в том, что вопросы требуют одновременного анализа: видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения).
Тестовая модель обошла открытые аналоги на 3 бенчмарках:
@ai_machinelearning_big_data
#AI #ML #MMLM #HumanOmniV2 #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
✨ Google представили GenAI Processors — open-source библиотеку для создания AI-приложений в реальном времени
GenAI Processors — это новый инструмент от команды Google DeepMind, разработанный для быстрой сборки потоковых и мультимодальных AI‑систем. Библиотека обеспечивает удобную работу с цепочками обработки данных, модульную архитектуру и поддержку стриминга.
Основные возможности:
— Потоковый ввод/вывод (stream-based I/O)
— Простая сборка пайплайнов через chaining
— Модульность и переиспользуемость (composability)
— Поддержка Gemini и Gemini Live API
— Асинхронная архитектура с минимальной задержкой
🔧 GenAI Processors позволяет разработчикам легко собирать голосовых агентов, мультимодальные интерфейсы и реактивные приложения на базе LLM.
🔗 GitHub: https://github.com/google-gemini/genai-processors
📖 Блог: https://developers.googleblog.com/en/genai-processors
GenAI Processors — это новый инструмент от команды Google DeepMind, разработанный для быстрой сборки потоковых и мультимодальных AI‑систем. Библиотека обеспечивает удобную работу с цепочками обработки данных, модульную архитектуру и поддержку стриминга.
Основные возможности:
— Потоковый ввод/вывод (stream-based I/O)
— Простая сборка пайплайнов через chaining
— Модульность и переиспользуемость (composability)
— Поддержка Gemini и Gemini Live API
— Асинхронная архитектура с минимальной задержкой
🔧 GenAI Processors позволяет разработчикам легко собирать голосовых агентов, мультимодальные интерфейсы и реактивные приложения на базе LLM.
🔗 GitHub: https://github.com/google-gemini/genai-processors
📖 Блог: https://developers.googleblog.com/en/genai-processors
❤4🔥2👍1
🐍 Совет дня для продвинутых Python-разработчиков
Хочешь писать чище и безопаснее, когда работаешь с вложенными
А вот компактный трюк на каждый день — безопасное извлечение с
📌 Почему это полезно:
- Нет KeyError
- Код читаемый
- Масштабируемо для любых уровней вложенности
🔥 Применяй в проектах, где много данных с API или JSON — избавит от лишних try/except и защитит от неожиданных крашей.
Python — это не только про лаконичность, но и про стабильность
Хочешь писать чище и безопаснее, когда работаешь с вложенными
dict
? Забудь про dict.get(...).get(...)
и используй collections.ChainMap
или types.SimpleNamespace
— но ещё лучше: pydantic
или dotmap
.А вот компактный трюк на каждый день — безопасное извлечение с
functools.reduce
:
from functools import reduce
def deep_get(dictionary, keys, default=None):
return reduce(lambda d, key: d.get(key, default) if isinstance(d, dict) else default, keys, dictionary)
data = {"user": {"profile": {"email": "[email protected]"}}}
email = deep_get(data, ["user", "profile", "email"])
📌 Почему это полезно:
- Нет KeyError
- Код читаемый
- Масштабируемо для любых уровней вложенности
🔥 Применяй в проектах, где много данных с API или JSON — избавит от лишних try/except и защитит от неожиданных крашей.
Python — это не только про лаконичность, но и про стабильность
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🐧 Продвинутый совет для Linux: как узнать, какой процесс держит файл, даже если он уже удалён
Иногда файл удаляется (`rm`), но система продолжает занимать под него место. Почему?
Потому что процесс всё ещё держит этот файл открытым, и диск не освобождается, пока он не завершится.
🔥 Найти такие случаи можно так:
📌
Пример вывода:
→ Процесс с PID
✅ Что можно сделать:
- Освободить диск — завершить процесс (`kill 12345`)
- Или: очистить через
(только если вы точно знаете, какой дескриптор используется)
⚠️ Часто встречается при работе с логами, Docker-контейнерами и временными файлами.
📌 Используйте
Иногда файл удаляется (`rm`), но система продолжает занимать под него место. Почему?
Потому что процесс всё ещё держит этот файл открытым, и диск не освобождается, пока он не завершится.
🔥 Найти такие случаи можно так:
lsof | grep deleted
📌
lsof
покажет все файлы, которые открыты процессами. Если строка содержит (deleted)
— это значит, что файл был удалён, но всё ещё используется.Пример вывода:
python3 12345 user txt REG 8,1 20480 123456 /tmp/log.txt (deleted)
→ Процесс с PID
12345
держит удалённый файл /tmp/log.txt
.✅ Что можно сделать:
- Освободить диск — завершить процесс (`kill 12345`)
- Или: очистить через
/proc
без остановки:
: > /proc/12345/fd/3
(только если вы точно знаете, какой дескриптор используется)
⚠️ Часто встречается при работе с логами, Docker-контейнерами и временными файлами.
📌 Используйте
lsof | grep deleted
как диагностику, если "всё удалили, но место не освободилось".❤6👍1
Рассмотрим ситуацию, когда случайно/специально удалился исполняющийся bash-скрипт.
Чтобы не попадать в такие ситуации, всегда храните исходники в git — это избыточно, но бекапы никто не отменял.
Скрипт удалён с диска, но продолжает работать в фоне, значит его можно как-нибудь восстановить.
Создадим подопытный скрипт.
touch /tmp/script.sh
:#!/bin/bash
sleep 1000
exit
Делаем его исполняемым
chmod +x /tmp/script.sh
и запускаем в фоне /tmp/script.sh &
.Символ
&
может служить разделителем между командами command & command
, две команды выполнятся параллельно.Скрипт запустили, он крутится в фоне. Удалим сам файл:
rm -f /tmp/script.sh
Ключ
-f
позволит удалить без лишних вопросов.Восстанавливаем:
lsof -c 'script.sh'
На экран выведется простыня. Нам нужна строка, где в конце указан путь к удаленному скрипту:
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
script.sh 261899 root 255r REG 8,1 51 130773 /tmp/script.sh
Берем PID = 261899, берем FD = 255 и делаем так:
cat /proc/261899/fd/255
А вот и исходник скрипта:
File: /proc/261899/fd/255
#!/bin/bash
sleep 1000
exit
Вот полезная инфа, которая была использована в гайде:
man 5 proc # /proc/[pid]/fd/
man lsof
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤5🔥3
📦 Pydantic Extra Types — коллекция дополнительных типов данных для Pydantic, которые не вошли в основную библиотеку. Проект расширяет возможности валидации данных, предлагая специфические форматы и проверки.
Типы подключаются как опциональные зависимости, позволяя выбирать только нужные компоненты. Например, можно добавить поддержку pendulum для работы с временными зонами.
🤖 GitHub
Типы подключаются как опциональные зависимости, позволяя выбирать только нужные компоненты. Например, можно добавить поддержку pendulum для работы с временными зонами.
🤖 GitHub
❤3👍1
📝 DocuSeal — open‑source альтернатива DocuSign, которую можно развернуть у себя
⚡️ Что умеет:
— WYSIWYG‑редактор PDF: подписи, даты, текстовые поля, вложения
— Мультиподписанты, мобильная адаптация
— Авторассылка писем, webhooks, API
— Можно хостить у себя через Docker, без сторонних сервисов
🚀 Работает сразу после запуска:
👨💻 В комплекте:
— UI‑компоненты под React, Vue, Angular
— SDK под JS, Python, PHP, Ruby
— Интеграции через iframe или embedding
🌐 GitHub (9.5k⭐):
https://github.com/docusealco/docuseal
⚡️ Что умеет:
— WYSIWYG‑редактор PDF: подписи, даты, текстовые поля, вложения
— Мультиподписанты, мобильная адаптация
— Авторассылка писем, webhooks, API
— Можно хостить у себя через Docker, без сторонних сервисов
🚀 Работает сразу после запуска:
docker run --name docuseal -p 3000:3000 -v .:/data docuseal/docuseal
👨💻 В комплекте:
— UI‑компоненты под React, Vue, Angular
— SDK под JS, Python, PHP, Ruby
— Интеграции через iframe или embedding
🌐 GitHub (9.5k⭐):
https://github.com/docusealco/docuseal
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 Встречайте Neta Lumina — самую продвинутую open-source модель для генерации аниме-артов!
Это уже 4-я модель в линейке, и она впечатляет:
🔹 Точная настройка под 200+ аниме-стилей: от Guofeng и Furry до пейзажей и редких тем
🔹 Хорошая согласованность промптов, даже при длинных описаниях на естественном языке
🔹 Мультиязычная поддержка
🔥 Идеальный выбор для художников, аниматоров и фанатов генеративного арта.
🔹 Model on Hugging Face (Commercial use allowed):https://huggingface.co/neta-art/Neta-Lumina
🔹 Playground (Free to test):https://huggingface.co/spaces/neta-art/NetaLumina_T2I_Playground
⚙️ Supports ComfyUI, LoRA tutorial → https://docs.google.com/document/d/1fSp8wgraQeeaM58DVbnFoRULyyhPvt3MgY0Qja0Otc0/edit?tab=t.0
@data_analysis_ml
Это уже 4-я модель в линейке, и она впечатляет:
🔹 Точная настройка под 200+ аниме-стилей: от Guofeng и Furry до пейзажей и редких тем
🔹 Хорошая согласованность промптов, даже при длинных описаниях на естественном языке
🔹 Мультиязычная поддержка
🔥 Идеальный выбор для художников, аниматоров и фанатов генеративного арта.
🔹 Model on Hugging Face (Commercial use allowed):https://huggingface.co/neta-art/Neta-Lumina
🔹 Playground (Free to test):https://huggingface.co/spaces/neta-art/NetaLumina_T2I_Playground
⚙️ Supports ComfyUI, LoRA tutorial → https://docs.google.com/document/d/1fSp8wgraQeeaM58DVbnFoRULyyhPvt3MgY0Qja0Otc0/edit?tab=t.0
@data_analysis_ml
❤4👍2🔥2🤬1
This media is not supported in your browser
VIEW IN TELEGRAM
🗣 FLOAT — новая open‑source модель для генерации говорящих портретов по аудио
Быстрее и реалистичнее SadTalker:
— Фотореалистичное видео с точной синхронизацией губ
— Плавные движения головы и эмоции
— Управление выражением лица и наклоном головы
💡 Основа — latent flow matching вместо диффузии:
⚡️ генерация быстрее, нет итераций, стабильные кадры
🌐 page: https://deepbrainai-research.github.io/float/
🧬code: https://github.com/deepbrainai-research/float
📄paper: https://arxiv.org/abs/2412.01064
🍊jupyter: https://github.com/camenduru/Float-jupyter
Быстрее и реалистичнее SadTalker:
— Фотореалистичное видео с точной синхронизацией губ
— Плавные движения головы и эмоции
— Управление выражением лица и наклоном головы
💡 Основа — latent flow matching вместо диффузии:
⚡️ генерация быстрее, нет итераций, стабильные кадры
🧬code: https://github.com/deepbrainai-research/float
📄paper: https://arxiv.org/abs/2412.01064
🍊jupyter: https://github.com/camenduru/Float-jupyter
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1🔥1
Forwarded from Machinelearning
🧠 Qwen3-MT — Alibaba продолжает жечь и выпускает еще одну модель, в этот раз для машинного перевода.
🌍 Поддерживает 92+ языка, на которых говорит 95% населения мира
📚 Обучен на триллионах токенов из интернета, открытых документов и книгах, субтитров из видео.
🔬 Что внутри:
- Модель Qwen3-MoE-72B с архитектурой Mixture-of-Experts
- Заточена на переводческие фишки, поддерживает сложную терминологию и даже очень редкие слова.
- RLHF: обучение с подкреплением повышает точность и естественность модели
Возможности:
✅ Обеспечивает качественный перевод в реальном времени
✅ Контроль стиля и терминов
✅ Масштабируемость для API и продакшена
✅ Цена — от $0.5 за миллион токенов
🟡 Попробовать демку: https://huggingface.co/spaces/Qwen/Qwen3-MT-Demo
🟡 ModelScope: https://modelscope.cn/studios/Qwen/Qwen3-MT-demo
🟡 Документация API: https://alibabacloud.com/help/en/model-studio/translation-abilities
🟡 Блог с подробностями: https://qwenlm.github.io/blog/qwen-mt/
@ai_machinelearning_big_data
#Qwen #Alibaba #ml #llm #ai
🌍 Поддерживает 92+ языка, на которых говорит 95% населения мира
📚 Обучен на триллионах токенов из интернета, открытых документов и книгах, субтитров из видео.
🔬 Что внутри:
- Модель Qwen3-MoE-72B с архитектурой Mixture-of-Experts
- Заточена на переводческие фишки, поддерживает сложную терминологию и даже очень редкие слова.
- RLHF: обучение с подкреплением повышает точность и естественность модели
Возможности:
✅ Обеспечивает качественный перевод в реальном времени
✅ Контроль стиля и терминов
✅ Масштабируемость для API и продакшена
✅ Цена — от $0.5 за миллион токенов
@ai_machinelearning_big_data
#Qwen #Alibaba #ml #llm #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1🔥1