Нейронавт | Нейросети в творчестве
9.32K subscribers
3.58K photos
3.08K videos
40 files
4.05K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
Media is too big
VIEW IN TELEGRAM
TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation

Легковесная китайская модель для разделения речи, музыки, эффектов

Хвастаются что бьют #SOTA модель TF-GridNet

Код

#audioseparation #demix #unmix
👍71😁1🤔1
Media is too big
VIEW IN TELEGRAM
Minimax Hailuo 02

Главная новость минувшей ночи

Новый видеоген, побивший на арене VEO3 Preview

- лучший в своем классе по следованию промпту
- нативный 1080p
- умеет в акробатику и прочую экстремальную физику

Из описания бесплатного тарифа убрали ежедневную раздачу кредитов. Press F

На офсайте его нет (у меня, я халявщик) но есть во вчера релизнутом агенте MiniMax-M1
Говорят, там вообще даром и пусть никто не уйдет обиженным

- Самое длинное в мире контекстное окно: ввод 1 млн токенов, вывод 80 тыс.
- SOTA по агентам в опенсорсе
- RL с непревзойденной эффективностью: обучение всего за 534 700 долларов

HF
Гитхаб
Чат

#text2video #agent #sota #assistant
6👍1
Baidu выпустили в опенсорс семейство моделей ERNIE 4.5

#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.

Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)

Попробовать
Веса
Гитхаб
AI Studio

#assistant #reasoning #VLM
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model

Морфинг (плавное перетекание) одного заданного кадра в другой за 30 секунд. Полагаю, можно использовать как интерполятор кадров

В 10X ~ 50X быстрее существующих методов, #SOTA в морфинге

Код

#frameinterpolation #morphing
🔥13👍41
Нейронавт | Нейросети в творчестве
В четверг в 6 утра по Москве релиз Grok 4 Твит #news
Grok 4

Релизнули.

– Фокус на рассуждениях и академических способностях

– Контекст 256k токенов

– Есть две версии модели: обычная Grok 4 и продвинутая Grok 4 Heavy

– Grok 4 Heavy прошел тест по математике AIME25 на 100%

– В самом сложном бенчмарке «Последний экзамен человечества» обе модели побили прошлый рекорд, набрав 38,6% и 44,4% соответственно

– обещают, что Grok 4 может генерировать видеоигры по одному промпту и с высокой вероятностью редсказывать исход различных спортивных событий (не читал, думаю, высокая вероятность это где-то в районе 60%)

Ну все, наконец тотализаторы загнутся. Правда, и кожаные перестанут играть в игры и состязаться. А зачем если результат известен.

Доступен на офсайте по подписке
Grok 4 за $300 в год
Grok 4 Heavy за $3000 в год

в халявном твиттере все еще 3 версия, разумеется

#news #assistant #sota
😁6👍5🤯3
NeMo Canary-Qwen-2.5B

#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.

Влез на вершину Open ASR Leaderboard

Гитхаб
HF
Демо

#ASR #speech2text #stt #llm #leaderboard
👍10
X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные

Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров

Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском

Код
Веса ~20Gb
Демо

#multimodal #text2image
5👍2🔥1
FLUX.1 Krea [dev]

Новая модель Flux, опенсорсная версия Krea-1

#SOTA в фотореализме
Полная архитектурная совместимость с FLUX.1 [dev]
12B параметров

Демо
Веса
Гитхаб
воркфлоу

#ComfyUI #text2image #workflow
🔥11👍5👨‍💻2
Genie 3: A new frontier for world models

Новое поколение модели от Googleб #SOTA в создании игровых миров с навигацией по ним

Я тут перечислял что он умеет но тг сожрал текст и сказал что ничего не было.
Да и пофиг, потому что попробовать все равно не дают а только хвастаются

#text2world #research #text2game
👍4🔥4😁4
This media is not supported in your browser
VIEW IN TELEGRAM
Kitten TTS

#sota маленьких голосовых моделей.
Работает без GPU, всего 15М параметров. Оптимизирована для рилтайма

По языкам нет информации. Должна завестись даже на Raspberry Pi

Младшая весит всего 25 мегабайт.
За две недели сделали - огонь!

Код
Веса

#tts #text2speech #realtime
🔥12😱2🤔1
MiDashengLM

Модель понимания аудио от Xiaomi, #sota
Распознает тембр голоса, музыкальные инструменты, прочие звуки, отвечает на вопросы

Код
Демо
Веса ~50Гб

#audio2text #alm #assistant
🔥5👍2🤔1👀1
Разработчики Genie 3 сходили в картину Эдварда Хоппера Полуночники.

Пусть покажут что в кейсе у Джулса

#text2world #research #text2game #news
5🔥11😁43👍1
Voost : A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

Виртуальная примерочная-раздевалочная, #sota
Результатом раздевания будет не человек без одежды, как вы в силу своей испорченности подумали, а одежда без человека

Код ждем
Демо ждем

#tryon #tryoff
👍7😁51
💡LightSwitch💡: Multi-view Relighting with Material-guided Diffusion

Изменение освещения на изображениях (релайтинг) с учётом свойств материалов объектов.
Пишут что побили #SOTA

Обрабатывает любое количество входных изображений, собирая информацию о материалах.
Пока дело доходит до релайтинка данные уже превращаются в сцену на гауссианах. И на выходе тоже гауссианы.
А там видимо рендерите чем хотите.

Авторы тестировали на A100

Код

#relighting
👍61
StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation

🥁🥁🥁 барабанная дробь

И у нас еще один оживлятор картинок по звуку от Microsoft Research Asia, Hunyuan, Tencent

Много примеров с пением, видимо фокус на эту нишу. Но есть и просто речь.
Обещают неограниченный по длительности оживляж с сохранением идентичности персонажа.
Мне кажется или липсинк не такой уж и синк, не попадает в речь?

Ну и конечно есть видео превосходства над #SOTA моделями-конкурентами

Построен на базе Wan2.1-1.3B
Разрешение: 512x512, 480x832, 832x480

5-секундное видео (480x832, fps=25) генерируется 3 минуты на 4090 и требует 18GB VRAM

Код

#lipsync #portraitanimation #characteranimation #speech2video #avatar
👍6🔥41
Miromind

Полностью опенсорсный фреймворк для deepresearch, по приборам побивающий Opean AI

MiroThinker - набор моделей deepresearch

MiroTrain / MiroRL - микроструктура для обучения MiroThinker

MiroFlow - #sota агент умеющий пользоваться инструментами.

Я дал ему задание найти средний рост мужчин за последние 1000 лет. Выдал подробный результат за 1 минуту, см картинку

Попробовать

#deepresearch #assistant
👍9
NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

Новая модель от Степана (Stepfun). Генератор-редактор картинок на авторегрессии (картинка создается последовательно, пиксель за пикселем, а не итеративно как в диффузии)

#sota авторегресии на генерации изображений. 14B параметров, 60Гб весов. Результаты трудно разглядеть. Предположительно, качество на уровне SD1.5. Астрологи объявили эру неподъемных моделей с незаметным качеством, но послушных (но это неточно)

Офсайт не прогружается
Гитхаб
HF

#text2image #imageediting
5👀3👎2🤔1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Distilled-3DGS: Distilled 3D Gaussian Splatting

Сокращает примерно в десять раз количество гауссиан необходимых для высококачественного рендеринга сцен, без потери качества изображения.

Обеспечивает качество рендеринга, сравнимое с лучшими существующими методами (#SOTA) или даже превосходящее их

Код ждем

#gaussian #rendering #novelview
1👍12🔥4
Tripо 3.0

Обновка 3D генератора.
Под капотом TripoSF - не знаю та ли версия что была выложена в марте.

Картинки генерятся силами Flux Kontext и GPT-4o

#SOTA PBR текстуры

Обещают сделать 3D видеогенератор

Попробовать

#3d #textto3d #imageto3d #pbr
2👍2🔥2