Нейронавт | Нейросети в творчестве

Kling Sound

А также выпустили генератор звуков для видео
Или просто по текстовому описанию

#video2sound #text2sound #sfx #foley

👍4🔥3⚡1

1.74K views11:41

Нейронавт | Нейросети в творчестве

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

3d-model-playground

Просто побаловаться с вебкой
Можно закинуть модельку и в реальном времени ее руками крутить и анимировать

#3d #realtime #webcam

1👍10

1.57K views12:16

Нейронавт | Нейросети в творчестве

Baidu выпустили в опенсорс семейство моделей ERNIE 4.5

#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.

Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)

Попробовать
Веса
Гитхаб
AI Studio

#assistant #reasoning #VLM

👍6

1.76K viewsedited 13:49

Нейронавт | Нейросети в творчестве

3d-model-playground Просто побаловаться с вебкой Можно закинуть модельку и в реальном времени ее руками крутить и анимировать #3d #realtime #webcam

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

Еще несколько залипательных демок от кофаундера HuggingFace

#sound #realtime #webcam

1.59K views14:22

Нейронавт | Нейросети в творчестве

XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation

Генератор картинок по тексту от ByteDance

Позволяет точно управлять несколькими объектами в одном изображении.

Детальная настройка семантических атрибутов, таких как поза, стиль и освещение

Код
Веса 1.2Gb + 1.8Gb - и что сегодня можно выжать из таких весов?
Демо ждем

#text2image #subjectcontrol #multisubject

👍4🤔4

1.84K views15:00

Нейронавт | Нейросети в творчестве

Ovis-U1

Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений

- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.

- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.

- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.

Код
Веса
Демо

#vlm #text2image #imageediting #captioning #image2text

👍8🔥1🤔1

1.78K views15:38

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Normalized Attention Guidance (NAG) Flux-Kontext-Dev

Демоспейс с прикрученным к Flux NAG

#imageediting #optimization

🔥8

1.7K views16:19

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

HeyGen Video Agent

Видеоролики под ключ
Под соусом "Креативная операционная система", "Будущее создания видеороликов"

Записаться в вейтлист

#agent #text2movie

👍4

1.78K views16:49

Нейронавт | Нейросети в творчестве

llama-nemoretriever-colembed-3b-v1

модель для поиска информации в текстовых и визуальных документах

первое место на бенчмарке ViDoRe

#search #leaderboard

huggingface.co

nvidia/llama-nemoretriever-colembed-3b-v1 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥6

1.63K views06:22

Нейронавт | Нейросети в творчестве

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

WebDancer

Ризонер-агент от Alibaba для автономного поиска информации на фреймворке ReAct

Гитхаб
Веса

#reasoning #search #agent

👍10

1.58K views07:07

Нейронавт | Нейросети в творчестве

Radial Attention: O(nlogn) Sparse Attention with Energy Decay for Long Video Generation

ускорение генерации длинных видео с сохранением высокого качества. Плюс в дорожной карте увеличение максимального хронометража до 4 раз

Поддерживает Wan2.1-14B, HunyuanVideo, Mochi-1 и лоры

От команды SVDQuant / nunchaku

Код
ComfyUI ждем

#optimization #text2video

❤6👍3

1.58K viewsedited 07:41

Нейронавт | Нейросети в творчестве

SimpleTuner v2.0

В свежем релизе инструмента - полная поддержка дообучения Flux Kontext

и еще миллион ничтяков

#finetuning #tools

👍6

1.71K views08:12

Нейронавт | Нейросети в творчестве

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

Генератор 3D моделей Hi3DGen принят в программу ICCV2025

А код опубликован если кто не знал

#imageto3d #image2normal

👍6

1.74K views10:11

Нейронавт | Нейросети в творчестве

ComfyUI-OmniGen2

Большое упущение с моей стороны что не опубликовал до сих пор. Бежим играть с омнигеном2

#personalization #imageediting #text2image #image2image #referencing #comfyui

GitHub

GitHub - neverbiasu/ComfyUI-OmniGen2: A ComfyUI extension for OmniGen2

A ComfyUI extension for OmniGen2. Contribute to neverbiasu/ComfyUI-OmniGen2 development by creating an account on GitHub.

🔥8

1.44K views10:43

Нейронавт | Нейросети в творчестве

ComfyUI-OmniGen2 Большое упущение с моей стороны что не опубликовал до сих пор. Бежим играть с омнигеном2 #personalization #imageediting #text2image #image2image #referencing #comfyui

Есть нативная поддержка

спасибо @kuvshin8

ComfyUI

ComfyUI OmniGen2 Native Workflow Examples - ComfyUI

ComfyUI OmniGen2 Native Workflow Examples - Unified text-to-image, image editing, and multi-image composition model.

👍4

1.41K views11:06

Нейронавт | Нейросети в творчестве