Нейронавт | Нейросети в творчестве
9.4K subscribers
3.62K photos
3.14K videos
40 files
4.1K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
Google Magenta RT

модель создания музыки в реальном времени.

Впервые Google представили Magenta еще в 2016 году. С тех пор появился плагин к Ableton кроме всего прочего. И вот новая рилтаймовая модель

Генерирует музыку на ходу по текстовым запросам и/или аудиосэмплам

Модель основана на архитектуре MusicLM и использует блок-авторегрессию для генерации непрерывного потока музыки

Оперирует двухсекундными отрывками, поэтому из сэмпла может забрать только 2 секунды для образца стиля. Задержка 2 секунды - можно уменьшить для большей реактивности.

Собственный контекст - всего 10 секунд, поэтому не рассчитывайте на длинные музыкальные структуры.

Не умеет создавать песни, ибо на лирике не обучался.

Обещают добавить локальный запуск и кастомизацию

Код
HF
Колаб

#text2music #music2music #audio2music #musicediting #realtime #dj
6👍3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Rodin add-on for Blender

отвлечемся от потока хайлуовщины.
Deemos выпустили полноценный плагин для Блендера. Создать модель по картинке в один клик, панель ассетов, 3D контролнет, все дела

скачать - впишите в окошко цены 0 или другую сумму которую хотите заплатить

#blender #imageto3d
👍14🔥2
Media is too big
VIEW IN TELEGRAM
OmniGen2: Exploration to Advanced Multimodal Generation

Новая версия редактора-генератора-персонализатора изображений

Создает картинки по описанию, редактирует их по инструкциям, переносит объекты из одной картинки в другую.

Есть режим с рефлексией: модель понимает, что изображено на картинке, и может улучшать свои результаты, анализируя их

Код

Демоспейсы, большинство из них скоро умрет:
https://huggingface.co/spaces/OmniGen2/OmniGen2
https://8f10329141d53b6884.gradio.live/
https://110863cb06c6c44bd2.gradio.live/
https://981758b17b4197aea7.gradio.live/
https://981758b17b4197aea7.gradio.live/

С чатом:
https://9315447fc78ef638e3.gradio.live/
https://abe054be89543e4cef.gradio.live/
https://4aa913765db00bbe51.gradio.live/
https://f28a8718565627d2cb.gradio.live/

#personalization #imageediting #text2image #image2image #referencing
4👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
11ai

Персональный голосовой ассистент от Elevenlabs с поддержкой #MCP

Интегрируется с perplexity, linear, SlackHQ и др

У меня ссылка не открывается, я же гражданин неправильной страны 😡

#assistant #voicemode
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔4👍3👀1
Media is too big
VIEW IN TELEGRAM
SongBloom

Генератор полных музыкальных композиций с согласованной структурой и гармоничными инструментальными и вокальными элементами.

Модель использует комбинированный подход, объединяющий авторегрессионное моделирование и диффузионные процессы для создания музыки. Возможности модели:

- Постепенное расширение музыкального эскиза от короткого к длинному.

- Уточнение деталей от общих до более тонких.

- Интеграция семантического и акустического контекста для управления процессом генерации.

Код
Веса

#text2music #music #musicediting
🔥111👍1
FluxZayn: FLUX LayerDiffuse Extension for Stable Diffusion WebUI Forge

Народная версия layerdiffusion с Flux под капотом вместо SD. Создает картинки с альфа-каналом (прозрачностью)

расширение для Forge
LayerDiffuse-Flux - оригинальный код

Для #ComfyUI есть ComfyUI_FluxLayerDiffuse

#extension #forge #text2image #flux #RGBA
🔥15👍31
Гудини, что с лицом?
1
Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
Горячие опенсорсные девушки!

Контроль пламени с помощью масок в Wan. Залипательно.

А Midjourney так может?

Автор
🔥27👍31
astra.app

"Первый в мире" креативный апскейлер видео от Topaz Labs вышел из стадии раннего доступа и доступен для всех... от $39 в месяц

#upscalevideo #upscale #frameinterpolation
🥴5🤔1💩1🤡1
Claude Code for VSCode

На прошлой неделе Anthropic запустил плагин для интеграции своего инструмента в IDE

Бонус:
Claudia - интерфейс и набор инструментов для Claude Code

Работает на Windows, macOS и Linux.

Опенсорс, запускается локально.

#coding #assistant
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights

Немножко ресерча, который скоро вдохнет новые силы в LLM

TLDR: LoRa для языковых моделей без дообучения

Проект Drag-and-Drop LLMs (DnD) — это метод, который позволяет быстро адаптировать большие языковые модели к новым задачам без дополнительного обучения. Модель использует текстовые подсказки для создания необходимых параметров и работает быстрее, чем традиционные методы настройки. Это делает её эффективной для решения различных задач, включая математику, кодирование и анализ мультимодальных данных

Код ждем

#llm #research
10👍4
Генератор картинок Imagen 4 доступен в Gemini API и Google AI Studio. В последнем можно потестить бесплатно если притвориться что вы в правильной стране

Две модели:
Imagen 4 ($0.04 за картинку)
и более точная
Imagen 4 Ultra ($0.06 за картинку)

Попробовать

#text2image
🔥4👍3
Tar: Unifying Visual Understanding and Generation via Text-Aligned Representations

Генератор-пониматор изображений от команды с участием ByteDnace Seed

Код
Демо - 512/1024

#text2image #image2text #captioning
👍4