Нейронавт | Нейросети в творчестве
9.25K subscribers
3.53K photos
3.05K videos
40 files
4.02K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Первая мультимодальная опенсорсная LLM способная обрабатывать видео, изображения, текст и аудио в реальном времени

Код
Веса

#assistant #realtime #vlm #voicemode
👍15
Media is too big
VIEW IN TELEGRAM
MiniCPM-o 2.6

Опенсорсная мультимодальная модель от китайцев OpenBMB, превосходящая GPT-4V на визуальных задачах

8B параметров, работает на смартфонах и планшетах.

Под капотом SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B

Голосовое общение в реальном времени, клонирование голоса

Гитхаб
Демо
Веса

#vlm #voicemode #realtime #mobile #voicecloning
8👍2🔥1
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

Инструмент от Alibaba для голосового общения человека с языковыми моделями в реальном времени, можно собрать свой #Voicemode

Распознает речь на 50 языках.
Сам говорит и клонирует голос на 5 языках, русского пока нет

SenseVoice - распознавание голоса и эмоций

CosyVoice - генерирует речь по тексту

Демо CosyVoice 2.0

Демо CosyVoise 2.0 на modelscope

Код

#tts #text2speech #stt #speech2text #realtime
👍8
Dubao-1.5-pro

ByteDance выпустили своего убийцу o1

Рассуждающая #VLM, с голосовым режимом.
По архитектуре - совет экспертов (#MOE)

Какие языки знает - неизвестно

ссылок на репо не нашел. Ждем на арене что ли

#news #voicemode
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Sesame CSM 1B

На прошлой неделе Sesame AI Labs показали интерактивную демку крышесносной голосовой модели, вам еще предлагали практиковать на ней английский.

Сейчас уже доступны веса и код

Модель генерирует RVQ аудио коды по входному тексту и аудио. Плюс, под капотом помогает Llama с декодером

Возможен файнтюн на разные голоса

На русский из коробки не стоит рассчитывать. В датасете был в основном английский.

Код
Веса

#voicemode #text2speech #csm
10🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen2.5 Omni голос / видео

Мультимодальная обновка китайского ассистента. Теперь умеет общаться в голосовом режиме и в режиме видеочата

Поддерживает английский и китайский

Одновременно и думает и поддерживает разговор


7B параметров. Обещают выпустить и другие версии.

Попробовать
Гитхаб
HF

#assistant #voicemode #videochat
👍7🔥1
Sparrow-0: Advancing Conversational Responsiveness in Video Agents with Transformer-Based Turn-Taking

Видео-ассистент от Tavus, который понимает когда его очередь говорить, не полагаясь на молчание собеседника. Таким образом устраняются раздражающие паузы

Здесь можно создать говорящий аватар, есть библиотека аватаров, называются Replica

Sparrow-0 обучен на базе BERT и поддерживает более 100 языков.

Есть бесплатный тариф

#assistant #voicemode #talkinghead #humanavatar
👍3🤡1
Media is too big
VIEW IN TELEGRAM
Anthropic выпустили свой Deep Research

Доступен только в некоторых странах и только для платных подписанов

Умеет искать не только в интернете, но и в ваших личных данных через интеграцию в Google Workspace. Да, это тоже новая анонсированная фича. Еще анонсировали голосовой режим

Anthropic

#assistant #voicemode #deepresearch #search
👍3
Perplexity атакует

Выкатили голосового ассистента на #iOS

Официальный бот в Whatsapp +1 (833) 436-3285

Бот в телеграм @askplexbot- не уверен что официальный

Прикрутили Grok 3, and o4-mini, GPT Image Generation - говорят что бесплатно и без ограничений ❗️

Perplexity предустанавливают на все новые смартфоны Motorola

#assistant #voicemode
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
11ai

Персональный голосовой ассистент от Elevenlabs с поддержкой #MCP

Интегрируется с perplexity, linear, SlackHQ и др

У меня ссылка не открывается, я же гражданин неправильной страны 😡

#assistant #voicemode
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔4👍3👀1
Hedra Live Avatars

Аватары в реальном времени от Hedra
За болтовню на том конце отвечают Gemini, ElevenLabs или OpenAI

Попробовать если у вас есть кредиты

#avatar #realtime #voicemode #image2avatar
👍31👎1🤔1
Media is too big
VIEW IN TELEGRAM
Typeless

Клавиатура была ошибкой

считают Typeless

Какое-то приложение для общения с ИИ без клавиатурного костыля.
Обещают что все сказанное вами будет использовано против вас моментально преобразовано в красиво сложенный текст

Есть бесплатный тариф

Скачать (пока только на #MacOS ) можно на офсайте
Но для пользования нужен инвайт

Поклянчить инвайт

#assistant #voicemode
👍3🌚2🥴1🍌1