This media is not supported in your browser
VIEW IN TELEGRAM
Chatterbox TTS
Генератор речи в опенсорсе от Resemble AI
#SOTA в клонировании голоса без обучения? клонирует по 5-секундному образцу
Под капотом 0.5B Llama.
Уникальный контроль выразительности.
Водяные знаки на выходе.
Легкий скрипт для конверсии голоса.
Превосходит ElevenLabs.
Есть в Pinokio
Код
Демо - по русски не понимает, генерирует эльфийский
Веса
#tts #text2speech #voicecloning
Генератор речи в опенсорсе от Resemble AI
#SOTA в клонировании голоса без обучения? клонирует по 5-секундному образцу
Под капотом 0.5B Llama.
Уникальный контроль выразительности.
Водяные знаки на выходе.
Легкий скрипт для конверсии голоса.
Превосходит ElevenLabs.
Есть в Pinokio
Код
Демо - по русски не понимает, генерирует эльфийский
Веса
#tts #text2speech #voicecloning
👍7❤3👎1
Media is too big
VIEW IN TELEGRAM
TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation
Легковесная китайская модель для разделения речи, музыки, эффектов
Хвастаются что бьют #SOTA модель TF-GridNet
Код
#audioseparation #demix #unmix
Легковесная китайская модель для разделения речи, музыки, эффектов
Хвастаются что бьют #SOTA модель TF-GridNet
Код
#audioseparation #demix #unmix
👍7❤1😁1🤔1
Media is too big
VIEW IN TELEGRAM
Minimax Hailuo 02
Главная новость минувшей ночи
Новый видеоген, побивший на арене VEO3 Preview
- лучший в своем классе по следованию промпту
- нативный 1080p
- умеет в акробатику и прочую экстремальную физику
Из описания бесплатного тарифа убрали ежедневную раздачу кредитов. Press F
На офсайте его нет (у меня, я халявщик) но есть во вчера релизнутом агенте MiniMax-M1
Говорят, там вообще даром и пусть никто не уйдет обиженным
- Самое длинное в мире контекстное окно: ввод 1 млн токенов, вывод 80 тыс.
- SOTA по агентам в опенсорсе
- RL с непревзойденной эффективностью: обучение всего за 534 700 долларов
HF
Гитхаб
Чат
#text2video #agent #sota #assistant
Главная новость минувшей ночи
Новый видеоген, побивший на арене VEO3 Preview
- лучший в своем классе по следованию промпту
- нативный 1080p
- умеет в акробатику и прочую экстремальную физику
Из описания бесплатного тарифа убрали ежедневную раздачу кредитов. Press F
На офсайте его нет (у меня, я халявщик) но есть во вчера релизнутом агенте MiniMax-M1
Говорят, там вообще даром и пусть никто не уйдет обиженным
- Самое длинное в мире контекстное окно: ввод 1 млн токенов, вывод 80 тыс.
- SOTA по агентам в опенсорсе
- RL с непревзойденной эффективностью: обучение всего за 534 700 долларов
HF
Гитхаб
Чат
#text2video #agent #sota #assistant
❤6👍1
Baidu выпустили в опенсорс семейство моделей ERNIE 4.5
#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.
Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)
Попробовать
Веса
Гитхаб
AI Studio
#assistant #reasoning #VLM
#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.
Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)
Попробовать
Веса
Гитхаб
AI Studio
#assistant #reasoning #VLM
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
ContentV: Efficient Training of Video Generation Models with Limited Compute
Новая видеогенерилка от ByteDance, 8B параметров, минималистичная архитектура
Умеет в разные разрешения и хронометражи
Хвастаются временнОй согласованностью
#SOTA , 85.14 на VBench
Основано на SD3.5 Large и Wan-VAE
Гитхаб
HF
#text2video
Новая видеогенерилка от ByteDance, 8B параметров, минималистичная архитектура
Умеет в разные разрешения и хронометражи
Хвастаются временнОй согласованностью
#SOTA , 85.14 на VBench
Основано на SD3.5 Large и Wan-VAE
Гитхаб
HF
#text2video
👍3👎2🔥1🤮1
This media is not supported in your browser
VIEW IN TELEGRAM
FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model
Морфинг (плавное перетекание) одного заданного кадра в другой за 30 секунд. Полагаю, можно использовать как интерполятор кадров
В 10X ~ 50X быстрее существующих методов, #SOTA в морфинге
Код
#frameinterpolation #morphing
Морфинг (плавное перетекание) одного заданного кадра в другой за 30 секунд. Полагаю, можно использовать как интерполятор кадров
В 10X ~ 50X быстрее существующих методов, #SOTA в морфинге
Код
#frameinterpolation #morphing
🔥13👍4❤1
Нейронавт | Нейросети в творчестве
В четверг в 6 утра по Москве релиз Grok 4 Твит #news
Grok 4
Релизнули.
– Фокус на рассуждениях и академических способностях
– Контекст 256k токенов
– Есть две версии модели: обычная Grok 4 и продвинутая Grok 4 Heavy
– Grok 4 Heavy прошел тест по математике AIME25 на 100%
– В самом сложном бенчмарке «Последний экзамен человечества» обе модели побили прошлый рекорд, набрав 38,6% и 44,4% соответственно
– обещают, что Grok 4 может генерировать видеоигры по одному промпту и с высокой вероятностью редсказывать исход различных спортивных событий (не читал, думаю, высокая вероятность это где-то в районе 60%)
Ну все, наконец тотализаторы загнутся. Правда, и кожаные перестанут играть в игры и состязаться. А зачем если результат известен.
Доступен на офсайте по подписке
Grok 4 за $300 в год
Grok 4 Heavy за $3000 в год
в халявном твиттере все еще 3 версия, разумеется
#news #assistant #sota
Релизнули.
– Фокус на рассуждениях и академических способностях
– Контекст 256k токенов
– Есть две версии модели: обычная Grok 4 и продвинутая Grok 4 Heavy
– Grok 4 Heavy прошел тест по математике AIME25 на 100%
– В самом сложном бенчмарке «Последний экзамен человечества» обе модели побили прошлый рекорд, набрав 38,6% и 44,4% соответственно
– обещают, что Grok 4 может генерировать видеоигры по одному промпту и с высокой вероятностью редсказывать исход различных спортивных событий
Ну все, наконец тотализаторы загнутся. Правда, и кожаные перестанут играть в игры и состязаться. А зачем если результат известен.
Доступен на офсайте по подписке
Grok 4 за $300 в год
Grok 4 Heavy за $3000 в год
в халявном твиттере все еще 3 версия, разумеется
#news #assistant #sota
😁6👍5🤯3
NeMo Canary-Qwen-2.5B
#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.
Влез на вершину Open ASR Leaderboard
Гитхаб
HF
Демо
#ASR #speech2text #stt #llm #leaderboard
#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.
Влез на вершину Open ASR Leaderboard
Гитхаб
HF
Демо
#ASR #speech2text #stt #llm #leaderboard
👍10
X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again
Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные
Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров
Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском
Код
Веса ~20Gb
Демо
#multimodal #text2image
Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные
Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров
Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском
Код
Веса ~20Gb
Демо
#multimodal #text2image
❤5👍2🔥1
FLUX.1 Krea [dev]
Новая модель Flux, опенсорсная версия Krea-1
#SOTA в фотореализме
Полная архитектурная совместимость с FLUX.1 [dev]
12B параметров
Демо
Веса
Гитхаб
воркфлоу
#ComfyUI #text2image #workflow
Новая модель Flux, опенсорсная версия Krea-1
#SOTA в фотореализме
Полная архитектурная совместимость с FLUX.1 [dev]
12B параметров
Демо
Веса
Гитхаб
воркфлоу
#ComfyUI #text2image #workflow
🔥11👍5👨💻2