Нейронавт | Нейросети в творчестве
9.49K subscribers
3.67K photos
3.17K videos
40 files
4.12K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
Genie 3: A new frontier for world models

Новое поколение модели от Googleб #SOTA в создании игровых миров с навигацией по ним

Я тут перечислял что он умеет но тг сожрал текст и сказал что ничего не было.
Да и пофиг, потому что попробовать все равно не дают а только хвастаются

#text2world #research #text2game
👍4🔥4😁4
This media is not supported in your browser
VIEW IN TELEGRAM
Kitten TTS

#sota маленьких голосовых моделей.
Работает без GPU, всего 15М параметров. Оптимизирована для рилтайма

По языкам нет информации. Должна завестись даже на Raspberry Pi

Младшая весит всего 25 мегабайт.
За две недели сделали - огонь!

Код
Веса

#tts #text2speech #realtime
🔥12😱2🤔1
MiDashengLM

Модель понимания аудио от Xiaomi, #sota
Распознает тембр голоса, музыкальные инструменты, прочие звуки, отвечает на вопросы

Код
Демо
Веса ~50Гб

#audio2text #alm #assistant
🔥5👍2🤔1👀1
Разработчики Genie 3 сходили в картину Эдварда Хоппера Полуночники.

Пусть покажут что в кейсе у Джулса

#text2world #research #text2game #news
5🔥11😁43👍1
Voost : A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

Виртуальная примерочная-раздевалочная, #sota
Результатом раздевания будет не человек без одежды, как вы в силу своей испорченности подумали, а одежда без человека

Код ждем
Демо ждем

#tryon #tryoff
👍7😁51
💡LightSwitch💡: Multi-view Relighting with Material-guided Diffusion

Изменение освещения на изображениях (релайтинг) с учётом свойств материалов объектов.
Пишут что побили #SOTA

Обрабатывает любое количество входных изображений, собирая информацию о материалах.
Пока дело доходит до релайтинка данные уже превращаются в сцену на гауссианах. И на выходе тоже гауссианы.
А там видимо рендерите чем хотите.

Авторы тестировали на A100

Код

#relighting
👍61
StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation

🥁🥁🥁 барабанная дробь

И у нас еще один оживлятор картинок по звуку от Microsoft Research Asia, Hunyuan, Tencent

Много примеров с пением, видимо фокус на эту нишу. Но есть и просто речь.
Обещают неограниченный по длительности оживляж с сохранением идентичности персонажа.
Мне кажется или липсинк не такой уж и синк, не попадает в речь?

Ну и конечно есть видео превосходства над #SOTA моделями-конкурентами

Построен на базе Wan2.1-1.3B
Разрешение: 512x512, 480x832, 832x480

5-секундное видео (480x832, fps=25) генерируется 3 минуты на 4090 и требует 18GB VRAM

Код

#lipsync #portraitanimation #characteranimation #speech2video #avatar
👍6🔥41
Miromind

Полностью опенсорсный фреймворк для deepresearch, по приборам побивающий Opean AI

MiroThinker - набор моделей deepresearch

MiroTrain / MiroRL - микроструктура для обучения MiroThinker

MiroFlow - #sota агент умеющий пользоваться инструментами.

Я дал ему задание найти средний рост мужчин за последние 1000 лет. Выдал подробный результат за 1 минуту, см картинку

Попробовать

#deepresearch #assistant
👍9
NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

Новая модель от Степана (Stepfun). Генератор-редактор картинок на авторегрессии (картинка создается последовательно, пиксель за пикселем, а не итеративно как в диффузии)

#sota авторегресии на генерации изображений. 14B параметров, 60Гб весов. Результаты трудно разглядеть. Предположительно, качество на уровне SD1.5. Астрологи объявили эру неподъемных моделей с незаметным качеством, но послушных (но это неточно)

Офсайт не прогружается
Гитхаб
HF

#text2image #imageediting
5👀3👎2🤔1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Distilled-3DGS: Distilled 3D Gaussian Splatting

Сокращает примерно в десять раз количество гауссиан необходимых для высококачественного рендеринга сцен, без потери качества изображения.

Обеспечивает качество рендеринга, сравнимое с лучшими существующими методами (#SOTA) или даже превосходящее их

Код ждем

#gaussian #rendering #novelview
1👍12🔥4
Tripо 3.0

Обновка 3D генератора.
Под капотом TripoSF - не знаю та ли версия что была выложена в марте.

Картинки генерятся силами Flux Kontext и GPT-4o

#SOTA PBR текстуры

Обещают сделать 3D видеогенератор

Попробовать

#3d #textto3d #imageto3d #pbr
3👍2🔥2
Nano-banana только что релизнули в Gemini 2.5 Flash

Доступно для граждан правильной страны в gemini app и Google AI Studio

Бежим творить у кого есть доступ. Притворитесь что вы в США и ломитесь в студию

Спасибо @iNevestenko

#imageediting #sota
🔥121👍1
Hunyuan-MT

Сегодня наделало шуму семейство моделей-переводчиков от Tencent.
Уровень #sota
7B параметров, есть fp8
Первый в индустрии использует ансамблевую модель для объединения нескольких вариантов перевода в один высококачественный результат.

33 языка, в том числе русский. В чате если переводить китайский интерфейс браузером, то не работает выбор языка. Русский справа третий сверху (но это неточно)

Перевел монолог идущего к реке на китайский традиционный и обратно, результат - мое почтение.

Гитхаб
HF
Демо на китайском сайте - войти можно через Wechat. По почте, говорят, тоже

#translation #text2text
🔥16👍1