Нейронавт | Нейросети в творчестве
9.44K subscribers
3.66K photos
3.16K videos
40 files
4.12K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
Chatterbox TTS

Генератор речи в опенсорсе от Resemble AI

#SOTA в клонировании голоса без обучения? клонирует по 5-секундному образцу

Под капотом 0.5B Llama.
Уникальный контроль выразительности.
Водяные знаки на выходе.
Легкий скрипт для конверсии голоса.
Превосходит ElevenLabs.

Есть в Pinokio

Код
Демо - по русски не понимает, генерирует эльфийский
Веса

#tts #text2speech #voicecloning
👍73👎1
Media is too big
VIEW IN TELEGRAM
TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation

Легковесная китайская модель для разделения речи, музыки, эффектов

Хвастаются что бьют #SOTA модель TF-GridNet

Код

#audioseparation #demix #unmix
👍71😁1🤔1
Media is too big
VIEW IN TELEGRAM
Minimax Hailuo 02

Главная новость минувшей ночи

Новый видеоген, побивший на арене VEO3 Preview

- лучший в своем классе по следованию промпту
- нативный 1080p
- умеет в акробатику и прочую экстремальную физику

Из описания бесплатного тарифа убрали ежедневную раздачу кредитов. Press F

На офсайте его нет (у меня, я халявщик) но есть во вчера релизнутом агенте MiniMax-M1
Говорят, там вообще даром и пусть никто не уйдет обиженным

- Самое длинное в мире контекстное окно: ввод 1 млн токенов, вывод 80 тыс.
- SOTA по агентам в опенсорсе
- RL с непревзойденной эффективностью: обучение всего за 534 700 долларов

HF
Гитхаб
Чат

#text2video #agent #sota #assistant
6👍1
Baidu выпустили в опенсорс семейство моделей ERNIE 4.5

#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.

Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)

Попробовать
Веса
Гитхаб
AI Studio

#assistant #reasoning #VLM
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model

Морфинг (плавное перетекание) одного заданного кадра в другой за 30 секунд. Полагаю, можно использовать как интерполятор кадров

В 10X ~ 50X быстрее существующих методов, #SOTA в морфинге

Код

#frameinterpolation #morphing
🔥13👍41
Нейронавт | Нейросети в творчестве
В четверг в 6 утра по Москве релиз Grok 4 Твит #news
Grok 4

Релизнули.

– Фокус на рассуждениях и академических способностях

– Контекст 256k токенов

– Есть две версии модели: обычная Grok 4 и продвинутая Grok 4 Heavy

– Grok 4 Heavy прошел тест по математике AIME25 на 100%

– В самом сложном бенчмарке «Последний экзамен человечества» обе модели побили прошлый рекорд, набрав 38,6% и 44,4% соответственно

– обещают, что Grok 4 может генерировать видеоигры по одному промпту и с высокой вероятностью редсказывать исход различных спортивных событий (не читал, думаю, высокая вероятность это где-то в районе 60%)

Ну все, наконец тотализаторы загнутся. Правда, и кожаные перестанут играть в игры и состязаться. А зачем если результат известен.

Доступен на офсайте по подписке
Grok 4 за $300 в год
Grok 4 Heavy за $3000 в год

в халявном твиттере все еще 3 версия, разумеется

#news #assistant #sota
😁6👍5🤯3
NeMo Canary-Qwen-2.5B

#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.

Влез на вершину Open ASR Leaderboard

Гитхаб
HF
Демо

#ASR #speech2text #stt #llm #leaderboard
👍10
X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные

Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров

Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском

Код
Веса ~20Gb
Демо

#multimodal #text2image
5👍2🔥1
FLUX.1 Krea [dev]

Новая модель Flux, опенсорсная версия Krea-1

#SOTA в фотореализме
Полная архитектурная совместимость с FLUX.1 [dev]
12B параметров

Демо
Веса
Гитхаб
воркфлоу

#ComfyUI #text2image #workflow
🔥11👍5👨‍💻2