Нейронавт | Нейросети в творчестве
9.43K subscribers
3.65K photos
3.15K videos
40 files
4.11K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
Stable Audio Open Small

Спустя пару месяцев Stability AI выпустили мобильный генератор звуков для девайсов ARM

До 11 секунд 44.1kHz стерео по тексту локально на мобилках

Веса
Гитхаб

#news #mobile #text2audio
🤔2👍1👏1
Media is too big
VIEW IN TELEGRAM
MoviiGen 1.1

Файнтюн Wan 2.1 с заявкой на кинокачество, видео по тексту.

720P и 1080P

Должно работать с любым родным Wan 2.1 t2v вокрфлоу

есть GGUF

#text2video
👍18👏3🔥21
Hunyuan Image 2.0

Tencent выкатил генератор картинок 2.0
Генерит мгновенно!
Высокая реалистичность.
Dual-Canvas Studio - редактор с холстом позволяет смешивать слои.

Как пользоваться - непонятно, все на китайском. Для начала надо войти по имейлу. Вот куда-то ткнул, сделал котика. Первая картинка с котиком - моя, просто по запросу Cat, непонятно новой моделью или старой.

Вообще выглядит впечатляюще

#text2image #realtime #imageediting
👍97
Нейронавт | Нейросети в творчестве
Hunyuan Image 2.0 Tencent выкатил генератор картинок 2.0 Генерит мгновенно! Высокая реалистичность. Dual-Canvas Studio - редактор с холстом позволяет смешивать слои. Как пользоваться - непонятно, все на китайском. Для начала надо войти по имейлу. Вот куда…
Короче, надо ткнуть в 1, потом в 2, потом нажать кнопку 3, появится всплывающее окошко и надо успеть ткнуть в нем на кнопку, она почему-то сразу исчезает, тогда появится сообщение что мол ждите приглашение на почту

А мой кот был из старой версии, получается
🔥6😁2👍1👌1
BLIP3-o

Мультимодальная модель от Salesforce. Сочетает в себе авторегрессионную силу рассуждений и инструкций с генеративной силой диффузионных моделей. Есть 4B и 8B параметров

Понимает картинки и умеет отвечать на вопросы как минимум

Демо
Код
Веса

#multimodal #image2text #instruct
🔥71
This media is not supported in your browser
VIEW IN TELEGRAM
LightLab: Controlling Light Sources in Images with Diffusion Models

Гугл в соавторстве создали модель для управления видимыми источниками света на изображениях. Увы кода нет. На сайте проекта можно интерактивно потыкать картинки

#relighting
👍111🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Marigold: Generative Computer Vision

Опа, Marigold прокачался
Там теперь не только глубина а целая пачка пассов: нормали, альбедо, какой-то intrinsic. RollingDepth на нем сделан.

Есть в Diffusers, гайд

Код
Демо глубина
Демо нормали
Демо интринсик

#image2depth #image2normal #image2albedo
🔥112👍1
Forwarded from Сиолошная
https://openai.com/index/introducing-codex/

— Codex — AI-агент-программист у вас в браузере
— может работать над несколькими задачами
— под капотом модель Codex-1 , основанная на o3
— можно подключать свой GitHub аккаунт, чтобы давать доступ агенту
— Plus юзеры пока не получат доступ, выкатят скоро.
— For developers building with codex-mini-latest (МИНИ), the model is available on the Responses API and priced at $1.50 per 1M input tokens and $6 per 1M output tokens, with a 75% prompt caching discount. Модель основана на o4-mini и заточена под работу в Codex CLI
— иногда (не ясно, как часто) модель при внесении исправлений добавляет тесты, которыми проверяет новую или исправленную функциональность, и итерируется до тех пор, пока тест не пройдет
👍31
Залил для вас вчерашний стрим Hunyian Image 2.0 на ютуб, включайте в Яндекс браузере дубляж и смотрите часовое видео если хотите все подробности

Если хотите коротко, то держите подкаст на чистом русском из NotebookLM. Вот оказывается для чего он нужен
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
Comfyui-FlowChain

Позволяет заворачивать группы нод и целые форкфлоу в одну ноду

#ComfyUI #tools
🔥101🤯1