Нейронавт | Нейросети в творчестве
9.4K subscribers
3.62K photos
3.14K videos
40 files
4.1K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
VAST: Video-Audio Separation through Text. Language-Guided Audio-Visual Source Separation via Trimodal Consistency

Изоляция источников звука на видео по текстовому запросу. Этакий vocalremover на стероидах. Указываем кого хотим слышать, кого не хотим - получаем изолированный звук от выбранного источника

Код

#audio2audio #video2video #video2audio #audioseparation #unmix
Media is too big
VIEW IN TELEGRAM
AudioPaLM
A Large Language Model That Can Speak and Listen

Google представил модель понимания и генерации речи, способную переводить речь на разные языки. В основе архитектуры текстовая модель PALM-2 и речевая AudioLM
При переводе AudioPaLM сохраняет индивидуальные характеристики и интонации оригинального голоса.
На сайте множество примеров.

Кода нет

#audio2audio #speech2speech
ai-coustics

У Adobe podcast появляются конкуренты. Сервис для улучшения звука на аудио. Можно записывать свой микрофон прямо на сайте.

#audio2audio #audiodenoise #enhance
1
Eleanor_wide_trim_720p_auphonic.webm
1.9 MB
Auphonic

Еще один мощный улучшайзер звука. Но тут уже есть ограничение: бесплатно обрабатывает только два часа материала в месяц. Зато возможности великолепные

- удаление шума/эха
- удаление нежелательных частот (деессер)
- автоуровень - автоматически выравнивает громкость микса
- Стандарты громкости. Можно задать целевую громкость, true peak limit, MaxLRA
- разбивает на главы
- мультитрековые алгоритмы (ducking, crosstalk removal, noise gate)

И все это делается буквально в несколько кликов

Для сравнения закинул в него демку от ai-coustics
Вычистил радикальнее, но уже слышны искажения. Зато есть несколько опций с которыми можно поиграть

#audio2audio #audiodenoise #audioprocessing #audiomixing #enhance
Нейронавт | Нейросети в творчестве
Emad: А если все — суперы программисты, то никто не программист. О том что программистов, по его мнению, через 5 лет не будет твиттер
https://youtu.be/9i0MVSwIivE

Split Audio Tracks to MusicGen

Смотрите какой демоспейс.
Загружаете в него музыкальный трек, он распиливает его на инструменты как Vocalremover или Fadr.
Сразу выбираете какой трек хотите использовать и жмете Load your chosen track. Теперь можно отдельную вырезанную из песни партию использовать как затравку для MusicGen.

Пишем промт, черрипикаем, черрипикаем, черрипикаем. Понравившееся можно перемиксовать с оригиналом в любимой DAW или видеоредакторе. Вуаля, вы кавермейкер.

Важно: Чтобы получить правильный темп и тональность, надо прописать их в промте. В моем примере было "113 BPM, G#m key" И после этого вероятно, придется темп еще немного скорректировать при сборке.

Чуть не забыл. Это демка, и максимально можно сгенерить 30 секунд за раз.

#aicover #music2music #audio2audio #Nuronaut_art
🔥5👍2
This media is not supported in your browser
VIEW IN TELEGRAM
VampNet: Music Generation via Masked Acoustic Token Modeling

Качественный генератор музыки с уклоном в экспериментальную, конкурент MusicGen
Только без текстовой подсказки. Может делать вариации и продолжить музыку из затравки.

Код найден благодаря @tech_wizart
Примеры
Примеры с LoRA дообучением
Демо

#music2music #audio2audio
👍5
Бонус
Аудиоредактор Audacity с интергрированным доступом к нейросеткам с HuggingFace от авторов VampNet (предыдущий пост). Это неофициальная пока сборка в статусе Pull request на гитхабе Audacity

#audio2audio #tools
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Unloop

ИИ-лупер для музыкантов c VampNet под капотом. Придумывает на лету свои вариации сыгранных вами фрагментов.

Unloop представляет собой патч для MAX. Надеюсь, музыканты знают что это такое, потому что я не знаю. Инструкция по установке по ссылке:

Код

#music2music #audio2audio #AImusic
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Голландский диджей Уммет Озкан показывает как превращать свой голос в любые музыкальные инструменты с помощью Musicfy (от $7.99 в месяц).

Можно напеть мелодию и получить полноценный инструментальный трек.

Полная инструкция

#voice2music #audio2audio #sound2music #music2music
This media is not supported in your browser
VIEW IN TELEGRAM
AudioSR: Versatile Audio Super-resolution at Scale

Улучшение качества звука на основе диффузии. Музыка, речь - все улучшит.
На примерах звучит волшебно.
AudioSR может преобразовать любой входной аудиосигнал в диапазоне частот от 2 кГц до 16 кГц в аудиосигнал высокого разрешения с полосой пропускания 24 кГц и частотой дискретизации 48 кГц.
Одно из применений - улучшение результатов генераторов музыки и речи.

Код

#audio2audio #upsample #audioenhance #audiodenoise
😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Loop Copilot: Conducting AI Ensembles for Music Generation and Iterative Editing

Система генерации и изменения музыки через указания на естественном языке.
За понимание указаний, разумеется, отвечает языковая модель. Ну а для собственно музыки под капотом присутствуют генератор MusicGen, экстрактор стемов (отдельных источников звука) Demucs, генератор VampNet и описатель LP-MusCaps

Тренд интеграции разных нейросеток в один инструмент продолжает усиливаться.

Кода пока нет

#LLM #text2music #music2music #audio2audio
Semantic hearing

В Университете Вашингтона сконструировали наушники, которые позволяют слышать лишь то что хотите, отсекая нежелательные источники звука

Статья [ENG]

#news #audio2audio #segmentation
👍6🔥1😁1
Hertz-dev

Первая опенсорсная базовая модель для генерации разговорного звука.
Полный дуплеккс, то есть может генерить одновременно два голоса диалога, каждый в отдельном латентном канале генерации.
Основная способность модели - продолжение входного аудио.
Работает в 16 кГц
Поддержка русского силами подписчиков не обнаружена

Код
Демо
Веса
Hallucinator - Pinokio/Github

#audio2audio #speech #audioextension
🔥11🤯31👍1😐1
This media is not supported in your browser
VIEW IN TELEGRAM
Auffusion: Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation

Генератор звука по тексту, по входному звуку, инпейнтинг звука, примеры по ссылке в заголовке

Умеет:
- контроль акустики
- контроль материала предметов, издающих звук
- контроль высоты тона
- контроль хронологии событий

Демо
Код
Колаб ноутбуки

#text2audio #tta #audio2audio #audioinpainting
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Bleep That Sh*t

Автоматически запикиваем любые заданные слова на видео

Под капотом Whisper, так что должно работать с русским языком

Код

#speech2speech #audio2audio
👍6