Нейронавт | Нейросети в творчестве – Telegram

Нейронавт | Нейросети в творчестве

@GreenNeuralRobots

9.32K subscribers

3.58K photos

3.08K videos

40 files

4.05K links

Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

About

Blog

Apps

Platform

Нейронавт | Нейросети в творчестве

9.32K subscribers

Нейронавт | Нейросети в творчестве

Media is too big

VIEW IN TELEGRAM

TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation

Легковесная китайская модель для разделения речи, музыки, эффектов

Хвастаются что бьют #SOTA модель TF-GridNet

Код

#audioseparation #demix #unmix

👍7❤1😁1🤔1

1.56K views08:10

Нейронавт | Нейросети в творчестве

Media is too big

VIEW IN TELEGRAM

Minimax Hailuo 02

Главная новость минувшей ночи

Новый видеоген, побивший на арене VEO3 Preview

- лучший в своем классе по следованию промпту
- нативный 1080p
- умеет в акробатику и прочую экстремальную физику

Из описания бесплатного тарифа убрали ежедневную раздачу кредитов. Press F

На офсайте его нет (у меня, я халявщик) но есть во вчера релизнутом агенте MiniMax-M1
Говорят, там вообще даром и пусть никто не уйдет обиженным

- Самое длинное в мире контекстное окно: ввод 1 млн токенов, вывод 80 тыс.
- SOTA по агентам в опенсорсе
- RL с непревзойденной эффективностью: обучение всего за 534 700 долларов

HF
Гитхаб
Чат

#text2video #agent #sota #assistant

❤6👍1

1.81K viewsedited 06:19

Нейронавт | Нейросети в творчестве

Baidu выпустили в опенсорс семейство моделей ERNIE 4.5

#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.

Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)

Попробовать
Веса
Гитхаб
AI Studio

#assistant #reasoning #VLM

👍6

1.75K viewsedited 13:49

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

ContentV: Efficient Training of Video Generation Models with Limited Compute

Новая видеогенерилка от ByteDance, 8B параметров, минималистичная архитектура

Умеет в разные разрешения и хронометражи

Хвастаются временнОй согласованностью

#SOTA , 85.14 на VBench

Основано на SD3.5 Large и Wan-VAE

Гитхаб
HF

#text2video

👍3👎2🔥1🤮1

1.77K views11:14

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model

Морфинг (плавное перетекание) одного заданного кадра в другой за 30 секунд. Полагаю, можно использовать как интерполятор кадров

В 10X ~ 50X быстрее существующих методов, #SOTA в морфинге

Код

#frameinterpolation #morphing

🔥13👍4❤1

1.72K viewsedited 07:41

Нейронавт | Нейросети в творчестве

Нейронавт | Нейросети в творчестве

В четверг в 6 утра по Москве релиз Grok 4 Твит #news

Grok 4

Релизнули.

– Фокус на рассуждениях и академических способностях

– Контекст 256k токенов

– Есть две версии модели: обычная Grok 4 и продвинутая Grok 4 Heavy

– Grok 4 Heavy прошел тест по математике AIME25 на 100%

– В самом сложном бенчмарке «Последний экзамен человечества» обе модели побили прошлый рекорд, набрав 38,6% и 44,4% соответственно

– обещают, что Grok 4 может генерировать видеоигры по одному промпту и с высокой вероятностью редсказывать исход различных спортивных событий

(не читал, думаю, высокая вероятность это где-то в районе 60%)

Ну все, наконец тотализаторы загнутся. Правда, и кожаные перестанут играть в игры и состязаться. А зачем если результат известен.

Доступен на офсайте по подписке
Grok 4 за $300 в год
Grok 4 Heavy за $3000 в год

в халявном твиттере все еще 3 версия, разумеется

#news #assistant #sota

😁6👍5🤯3

1.56K views09:21

Нейронавт | Нейросети в творчестве

NeMo Canary-Qwen-2.5B

#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.

Влез на вершину Open ASR Leaderboard

Гитхаб
HF
Демо

#ASR #speech2text #stt #llm #leaderboard

👍10

1.78K viewsedited 17:36

Нейронавт | Нейросети в творчестве

X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные

Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров

Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском

Код
Веса ~20Gb
Демо

#multimodal #text2image

❤5👍2🔥1

1.72K views09:42

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

FLUX.1 Krea [dev]

Новая модель Flux, опенсорсная версия Krea-1

#SOTA в фотореализме
Полная архитектурная совместимость с FLUX.1 [dev]
12B параметров

Демо
Веса
Гитхаб
воркфлоу

#ComfyUI #text2image #workflow

🔥11👍5👨‍💻2

2.14K views14:16

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Genie 3: A new frontier for world models

Новое поколение модели от Googleб #SOTA в создании игровых миров с навигацией по ним

Я тут перечислял что он умеет но тг сожрал текст и сказал что ничего не было.
Да и пофиг, потому что попробовать все равно не дают а только хвастаются

#text2world #research #text2game

👍4🔥4😁4

1.61K views15:45

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Kitten TTS

#sota маленьких голосовых моделей.
Работает без GPU, всего 15М параметров. Оптимизирована для рилтайма

По языкам нет информации. Должна завестись даже на Raspberry Pi

Младшая весит всего 25 мегабайт.
За две недели сделали - огонь!

Код
Веса

#tts #text2speech #realtime

🔥12😱2🤔1

1.58K viewsedited 07:11

Нейронавт | Нейросети в творчестве

MiDashengLM

Модель понимания аудио от Xiaomi, #sota
Распознает тембр голоса, музыкальные инструменты, прочие звуки, отвечает на вопросы

Код
Демо
Веса ~50Гб

#audio2text #alm #assistant

🔥5👍2🤔1👀1

1.59K views08:12

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Разработчики Genie 3 сходили в картину Эдварда Хоппера Полуночники.

Пусть покажут что в кейсе у Джулса

#text2world #research #text2game #news

5🔥11😁4❤3👍1

2.56K views07:11

Нейронавт | Нейросети в творчестве

Voost : A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

Виртуальная примерочная-раздевалочная, #sota
Результатом раздевания будет не человек без одежды, как вы в силу своей испорченности подумали, а одежда без человека

Код ждем
Демо ждем

#tryon #tryoff

👍7😁5❤1

1.51K views10:13

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

💡LightSwitch💡: Multi-view Relighting with Material-guided Diffusion

Изменение освещения на изображениях (релайтинг) с учётом свойств материалов объектов.
Пишут что побили #SOTA

Обрабатывает любое количество входных изображений, собирая информацию о материалах.
Пока дело доходит до релайтинка данные уже превращаются в сцену на гауссианах. И на выходе тоже гауссианы.
А там видимо рендерите чем хотите.

Авторы тестировали на A100

Код

#relighting

👍6❤1

1.68K views07:11

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation

🥁🥁🥁 барабанная дробь

И у нас еще один оживлятор картинок по звуку от Microsoft Research Asia, Hunyuan, Tencent

Много примеров с пением, видимо фокус на эту нишу. Но есть и просто речь.
Обещают неограниченный по длительности оживляж с сохранением идентичности персонажа.
Мне кажется или липсинк не такой уж и синк, не попадает в речь?

Ну и конечно есть видео превосходства над #SOTA моделями-конкурентами

Построен на базе Wan2.1-1.3B
Разрешение: 512x512, 480x832, 832x480

5-секундное видео (480x832, fps=25) генерируется 3 минуты на 4090 и требует 18GB VRAM

Код

#lipsync #portraitanimation #characteranimation #speech2video #avatar

👍6🔥4❤1

10.5K views11:14

Нейронавт | Нейросети в творчестве

Miromind

Полностью опенсорсный фреймворк для deepresearch, по приборам побивающий Opean AI

MiroThinker - набор моделей deepresearch

MiroTrain / MiroRL - микроструктура для обучения MiroThinker

MiroFlow - #sota агент умеющий пользоваться инструментами.

Я дал ему задание найти средний рост мужчин за последние 1000 лет. Выдал подробный результат за 1 минуту, см картинку

Попробовать

#deepresearch #assistant

👍9

1.38K views08:21

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

Новая модель от Степана (Stepfun). Генератор-редактор картинок на авторегрессии (картинка создается последовательно, пиксель за пикселем, а не итеративно как в диффузии)

#sota авторегресии на генерации изображений. 14B параметров, 60Гб весов. Результаты трудно разглядеть. Предположительно, качество на уровне SD1.5. Астрологи объявили эру неподъемных моделей с незаметным качеством, но послушных (но это неточно)

Офсайт не прогружается
Гитхаб
HF

#text2image #imageediting

❤5👀3👎2🤔1😱1

1.53K views14:17

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Distilled-3DGS: Distilled 3D Gaussian Splatting

Сокращает примерно в десять раз количество гауссиан необходимых для высококачественного рендеринга сцен, без потери качества изображения.

Обеспечивает качество рендеринга, сравнимое с лучшими существующими методами (#SOTA) или даже превосходящее их

Код ждем

#gaussian #rendering #novelview

1👍12🔥4

1.29K views11:14

Нейронавт | Нейросети в творчестве

Media is too big

VIEW IN TELEGRAM

Tripо 3.0

Обновка 3D генератора.
Под капотом TripoSF - не знаю та ли версия что была выложена в марте.

Картинки генерятся силами Flux Kontext и GPT-4o

#SOTA PBR текстуры

Обещают сделать 3D видеогенератор

Попробовать

#3d #textto3d #imageto3d #pbr

❤2👍2🔥2

1.4K views16:11