This media is not supported in your browser
VIEW IN TELEGRAM
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
Первая мультимодальная опенсорсная LLM способная обрабатывать видео, изображения, текст и аудио в реальном времени
Код
Веса
#assistant #realtime #vlm #voicemode
Первая мультимодальная опенсорсная LLM способная обрабатывать видео, изображения, текст и аудио в реальном времени
Код
Веса
#assistant #realtime #vlm #voicemode
👍15
Media is too big
VIEW IN TELEGRAM
MiniCPM-o 2.6
Опенсорсная мультимодальная модель от китайцев OpenBMB, превосходящая GPT-4V на визуальных задачах
8B параметров, работает на смартфонах и планшетах.
Под капотом SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B
Голосовое общение в реальном времени, клонирование голоса
Гитхаб
Демо
Веса
#vlm #voicemode #realtime #mobile #voicecloning
Опенсорсная мультимодальная модель от китайцев OpenBMB, превосходящая GPT-4V на визуальных задачах
8B параметров, работает на смартфонах и планшетах.
Под капотом SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B
Голосовое общение в реальном времени, клонирование голоса
Гитхаб
Демо
Веса
#vlm #voicemode #realtime #mobile #voicecloning
❤8👍2🔥1
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs
Инструмент от Alibaba для голосового общения человека с языковыми моделями в реальном времени, можно собрать свой #Voicemode
Распознает речь на 50 языках.
Сам говорит и клонирует голос на 5 языках, русского пока нет
SenseVoice - распознавание голоса и эмоций
CosyVoice - генерирует речь по тексту
Демо CosyVoice 2.0
Демо CosyVoise 2.0 на modelscope
Код
#tts #text2speech #stt #speech2text #realtime
Инструмент от Alibaba для голосового общения человека с языковыми моделями в реальном времени, можно собрать свой #Voicemode
Распознает речь на 50 языках.
Сам говорит и клонирует голос на 5 языках, русского пока нет
SenseVoice - распознавание голоса и эмоций
CosyVoice - генерирует речь по тексту
Демо CosyVoice 2.0
Демо CosyVoise 2.0 на modelscope
Код
#tts #text2speech #stt #speech2text #realtime
huggingface.co
FunAudioLLM/SenseVoiceSmall · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍8
Dubao-1.5-pro
ByteDance выпустили своего убийцу o1
Рассуждающая #VLM, с голосовым режимом.
По архитектуре - совет экспертов (#MOE)
Какие языки знает - неизвестно
ссылок на репо не нашел. Ждем на арене что ли
#news #voicemode
ByteDance выпустили своего убийцу o1
Рассуждающая #VLM, с голосовым режимом.
По архитектуре - совет экспертов (#MOE)
Какие языки знает - неизвестно
ссылок на репо не нашел. Ждем на арене что ли
#news #voicemode
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Sesame CSM 1B
На прошлой неделе Sesame AI Labs показали интерактивную демку крышесносной голосовой модели, вам еще предлагали практиковать на ней английский.
Сейчас уже доступны веса и код
Модель генерирует RVQ аудио коды по входному тексту и аудио. Плюс, под капотом помогает Llama с декодером
Возможен файнтюн на разные голоса
На русский из коробки не стоит рассчитывать. В датасете был в основном английский.
Код
Веса
#voicemode #text2speech #csm
На прошлой неделе Sesame AI Labs показали интерактивную демку крышесносной голосовой модели, вам еще предлагали практиковать на ней английский.
Сейчас уже доступны веса и код
Модель генерирует RVQ аудио коды по входному тексту и аудио. Плюс, под капотом помогает Llama с декодером
Возможен файнтюн на разные голоса
На русский из коробки не стоит рассчитывать. В датасете был в основном английский.
Код
Веса
#voicemode #text2speech #csm
❤10🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen2.5 Omni голос / видео
Мультимодальная обновка китайского ассистента. Теперь умеет общаться в голосовом режиме и в режиме видеочата
Поддерживает английский и китайский
Одновременно и думает и поддерживает разговор
7B параметров. Обещают выпустить и другие версии.
Попробовать
Гитхаб
HF
#assistant #voicemode #videochat
Мультимодальная обновка китайского ассистента. Теперь умеет общаться в голосовом режиме и в режиме видеочата
Поддерживает английский и китайский
Одновременно и думает и поддерживает разговор
7B параметров. Обещают выпустить и другие версии.
Попробовать
Гитхаб
HF
#assistant #voicemode #videochat
👍7🔥1
Sparrow-0: Advancing Conversational Responsiveness in Video Agents with Transformer-Based Turn-Taking
Видео-ассистент от Tavus, который понимает когда его очередь говорить, не полагаясь на молчание собеседника. Таким образом устраняются раздражающие паузы
Здесь можно создать говорящий аватар, есть библиотека аватаров, называются Replica
Sparrow-0 обучен на базе BERT и поддерживает более 100 языков.
Есть бесплатный тариф
#assistant #voicemode #talkinghead #humanavatar
Видео-ассистент от Tavus, который понимает когда его очередь говорить, не полагаясь на молчание собеседника. Таким образом устраняются раздражающие паузы
Здесь можно создать говорящий аватар, есть библиотека аватаров, называются Replica
Sparrow-0 обучен на базе BERT и поддерживает более 100 языков.
Есть бесплатный тариф
#assistant #voicemode #talkinghead #humanavatar
👍3🤡1
Media is too big
VIEW IN TELEGRAM
Anthropic выпустили свой Deep Research
Доступен только в некоторых странах и только для платных подписанов
Умеет искать не только в интернете, но и в ваших личных данных через интеграцию в Google Workspace. Да, это тоже новая анонсированная фича. Еще анонсировали голосовой режим
Anthropic
#assistant #voicemode #deepresearch #search
Доступен только в некоторых странах и только для платных подписанов
Умеет искать не только в интернете, но и в ваших личных данных через интеграцию в Google Workspace. Да, это тоже новая анонсированная фича. Еще анонсировали голосовой режим
Anthropic
#assistant #voicemode #deepresearch #search
👍3
Perplexity атакует
Выкатили голосового ассистента на #iOS
Официальный бот в Whatsapp +1 (833) 436-3285
Бот в телеграм @askplexbot- не уверен что официальный
Прикрутили Grok 3, and o4-mini, GPT Image Generation - говорят что бесплатно и без ограничений❗️
Perplexity предустанавливают на все новые смартфоны Motorola
#assistant #voicemode
Выкатили голосового ассистента на #iOS
Официальный бот в Whatsapp +1 (833) 436-3285
Бот в телеграм @askplexbot- не уверен что официальный
Прикрутили Grok 3, and o4-mini, GPT Image Generation - говорят что бесплатно и без ограничений
Perplexity предустанавливают на все новые смартфоны Motorola
#assistant #voicemode
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
11ai
Персональный голосовой ассистент от Elevenlabs с поддержкой #MCP
Интегрируется с perplexity, linear, SlackHQ и др
У меня ссылка не открывается, я же гражданин неправильной страны😡
#assistant #voicemode
Персональный голосовой ассистент от Elevenlabs с поддержкой #MCP
Интегрируется с perplexity, linear, SlackHQ и др
У меня ссылка не открывается, я же гражданин неправильной страны
#assistant #voicemode
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔4👍3👀1
Hedra Live Avatars
Аватары в реальном времени от Hedra
За болтовню на том конце отвечают Gemini, ElevenLabs или OpenAI
Попробовать если у вас есть кредиты
#avatar #realtime #voicemode #image2avatar
Аватары в реальном времени от Hedra
За болтовню на том конце отвечают Gemini, ElevenLabs или OpenAI
Попробовать если у вас есть кредиты
#avatar #realtime #voicemode #image2avatar
👍3❤1👎1🤔1
Media is too big
VIEW IN TELEGRAM
Typeless
считают Typeless
Какое-то приложение для общения с ИИ без клавиатурного костыля.
Обещают что все сказанное вами будетиспользовано против вас моментально преобразовано в красиво сложенный текст
Есть бесплатный тариф
Скачать (пока только на #MacOS ) можно на офсайте
Но для пользования нужен инвайт
Поклянчить инвайт
#assistant #voicemode
Клавиатура была ошибкой
считают Typeless
Какое-то приложение для общения с ИИ без клавиатурного костыля.
Обещают что все сказанное вами будет
Есть бесплатный тариф
Скачать (пока только на #MacOS ) можно на офсайте
Но для пользования нужен инвайт
Поклянчить инвайт
#assistant #voicemode
👍3🌚2🥴1🍌1