Нейронавт | Нейросети в творчестве
9.41K subscribers
3.63K photos
3.14K videos
40 files
4.1K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
IC-Light

Новая полезная тулза от автора Controlnet, Fooocus, Forge!

Релайтинг изображений, вписывание объекта в фон по свету. При том, что модель не обучалась на нормалях, она выдает нормали качественнее чем Geowizard и Switchlight (судя по примерам на гитхабе)

Код
Демо

#relighting #image2image
🔥21👍1
This media is not supported in your browser
VIEW IN TELEGRAM
STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians

И снова динамические гауссианы. "Высокоточная" генерация динамических 3D объектов по тексту, изображению или видео. О как.

Код

#novelveiw #rendering #videoto3D #imageto3D #textto3D
👍31
Состязание роботов-гитаристов продолжается.

Elevenlabs показали свой генератор песен. Надо признать, бомбический. Доступ ждем здесь

Генератор песен Udio теперь умеет создавать треки продолжительностью до 15 минут и может «держать в уме» контекст 2 минут трека (ранее только 30 сек) и добавил функцию инпейнтига (но только для оплативших подписку), позволяя менять слова в песне, добавлять инструменты, или исправлять проблемные места.

#text2music #music2music #inpainting
👍13🔥1
Media is too big
VIEW IN TELEGRAM
Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers

Убийца... ВСЕГО.

Ладно, это преувеличение. Всего лишь мультимодальный преобразователь текста в картинки, видео, речь, 3D модели.

Умеет (см видео)
- создавать заданную композицию
- консистентно генерировать в заданном стиле
- креативный апскейл
- редактировать изображения

Код
Веса
Демо (генератор картинок)

#upscale #text2image #text2video #text2speech #textto3D #imageediting #image2image #multimodal
🔥12
This media is not supported in your browser
VIEW IN TELEGRAM
Stylar

Ловите еще один онлайн ИИ-редактор изображений. В нем есть #SD3 и Generative Fill/Generative Expand.
Дают 200 кредитов в месяц для бесплатного пользования. 4 кредита = один батч на 4 картинки или 1 батч 2 варианта дорисовки.

#imageediting #inpainting #outpainting
👍11
Progress Tracker: Open vs. Proprietary LLMs

Демоспейс с визуализацией прогресса #LLM с проприетарным и открытым исходным кодом по данным чатбот арены

#news #diagram
👍1
LLaVA-NeXT: Open Large Multimodal Models

Языковая модель для понимания видео, превосходящая все существующие #VLM, с открытым исходным кодом.

Код
Демо (изображения)
Демо (видео) (сейчас выдает ошибку хоста)

#LLM
👍3
Gazelle v0.2

Инновационная open source речевая модель от TincansAI. Способна обрабатывать устные запросы и длинные аудиофайлы напрямую, без предварительной транскрипции или распознавания речи.

Благодаря прямой обработке аудиоданных, модель работает быстрее и точнее, а также способна интерпретировать эмоции и даже сарказм в речи. Код “из коробки” достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход.

Это первая и единственная open source модель, способная вести диалог в реальном времени.

Код
Демо

#speech2text #audio2text #assistant
🔥15