Нейронавт | Нейросети в творчестве

MiniCPM-o 2.6

Опенсорсная мультимодальная модель от китайцев OpenBMB, превосходящая GPT-4V на визуальных задачах

8B параметров, работает на смартфонах и планшетах.

Под капотом SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B

Голосовое общение в реальном времени, клонирование голоса

Гитхаб
Демо
Веса

#vlm #voicemode #realtime #mobile #voicecloning

❤8👍2🔥1

1.72K viewsedited 16:24

FunAudioLLM/SenseVoiceSmall · Hugging Face

FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

Инструмент от Alibaba для голосового общения человека с языковыми моделями в реальном времени, можно собрать свой #Voicemode

Распознает речь на 50 языках.
Сам говорит и клонирует голос на 5 языках, русского пока нет

SenseVoice - распознавание голоса и эмоций

CosyVoice - генерирует речь по тексту

Демо CosyVoice 2.0

Демо CosyVoise 2.0 на modelscope

Код

#tts #text2speech #stt #speech2text #realtime

huggingface.co

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍8

1.8K views08:08

1:42

Dubao-1.5-pro

ByteDance выпустили своего убийцу o1

Рассуждающая #VLM, с голосовым режимом.
По архитектуре - совет экспертов (#MOE)

Какие языки знает - неизвестно

ссылок на репо не нашел. Ждем на арене что ли

#news #voicemode

👍2

1.79K views12:34

0:13

Sesame CSM 1B

На прошлой неделе Sesame AI Labs показали интерактивную демку крышесносной голосовой модели, вам еще предлагали практиковать на ней английский.

Сейчас уже доступны веса и код

Модель генерирует RVQ аудио коды по входному тексту и аудио. Плюс, под капотом помогает Llama с декодером

Возможен файнтюн на разные голоса

На русский из коробки не стоит рассчитывать. В датасете был в основном английский.

Код
Веса

#voicemode #text2speech #csm

❤10🔥1

1.89K views08:37

ComfyUI-CSM-Nodes

#ComfyUI ноды голосовой модели Sesame CSM

#voicemode #text2speech #csm

👍7🔥2

1.83K views09:38

0:10

Qwen2.5 Omni голос / видео

Мультимодальная обновка китайского ассистента. Теперь умеет общаться в голосовом режиме и в режиме видеочата

Поддерживает английский и китайский

Одновременно и думает и поддерживает разговор

7B параметров. Обещают выпустить и другие версии.

Попробовать
Гитхаб
HF

#assistant #voicemode #videochat

👍7🔥1

1.87K viewsedited 08:18

0:58

Sparrow-0: Advancing Conversational Responsiveness in Video Agents with Transformer-Based Turn-Taking

Видео-ассистент от Tavus, который понимает когда его очередь говорить, не полагаясь на молчание собеседника. Таким образом устраняются раздражающие паузы

Здесь можно создать говорящий аватар, есть библиотека аватаров, называются Replica

Sparrow-0 обучен на базе BERT и поддерживает более 100 языков.

Есть бесплатный тариф

#assistant #voicemode #talkinghead #humanavatar

👍3🤡1

1.96K views08:15

0:59

Anthropic выпустили свой Deep Research

Доступен только в некоторых странах и только для платных подписанов

Умеет искать не только в интернете, но и в ваших личных данных через интеграцию в Google Workspace. Да, это тоже новая анонсированная фича. Еще анонсировали голосовой режим

Anthropic

#assistant #voicemode #deepresearch #search

👍3

1.87K views09:21

1:37

0:10

Perplexity атакует

Выкатили голосового ассистента на #iOS

Официальный бот в Whatsapp +1 (833) 436-3285

Бот в телеграм @askplexbot- не уверен что официальный

Прикрутили Grok 3, and o4-mini, GPT Image Generation - говорят что бесплатно и без ограничений ❗️

Perplexity предустанавливают на все новые смартфоны Motorola

#assistant #voicemode

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8

1.97K views13:09

1:05

11ai

Персональный голосовой ассистент от Elevenlabs с поддержкой #MCP

Интегрируется с perplexity, linear, SlackHQ и др

У меня ссылка не открывается, я же гражданин неправильной страны 😡

#assistant #voicemode

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔4👍3👀1

1.68K views10:13

2:30

Hedra Live Avatars

Аватары в реальном времени от Hedra
За болтовню на том конце отвечают Gemini, ElevenLabs или OpenAI

Попробовать если у вас есть кредиты

#avatar #realtime #voicemode #image2avatar

👍3❤1👎1🤔1

1.62K views10:13