Нейронавт | Нейросети в творчестве
9.4K subscribers
3.62K photos
3.14K videos
40 files
4.1K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
Состязание роботов-гитаристов продолжается.

Elevenlabs показали свой генератор песен. Надо признать, бомбический. Доступ ждем здесь

Генератор песен Udio теперь умеет создавать треки продолжительностью до 15 минут и может «держать в уме» контекст 2 минут трека (ранее только 30 сек) и добавил функцию инпейнтига (но только для оплативших подписку), позволяя менять слова в песне, добавлять инструменты, или исправлять проблемные места.

#text2music #music2music #inpainting
👍13🔥1
Media is too big
VIEW IN TELEGRAM
Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers

Убийца... ВСЕГО.

Ладно, это преувеличение. Всего лишь мультимодальный преобразователь текста в картинки, видео, речь, 3D модели.

Умеет (см видео)
- создавать заданную композицию
- консистентно генерировать в заданном стиле
- креативный апскейл
- редактировать изображения

Код
Веса
Демо (генератор картинок)

#upscale #text2image #text2video #text2speech #textto3D #imageediting #image2image #multimodal
🔥12
This media is not supported in your browser
VIEW IN TELEGRAM
Stylar

Ловите еще один онлайн ИИ-редактор изображений. В нем есть #SD3 и Generative Fill/Generative Expand.
Дают 200 кредитов в месяц для бесплатного пользования. 4 кредита = один батч на 4 картинки или 1 батч 2 варианта дорисовки.

#imageediting #inpainting #outpainting
👍11
Progress Tracker: Open vs. Proprietary LLMs

Демоспейс с визуализацией прогресса #LLM с проприетарным и открытым исходным кодом по данным чатбот арены

#news #diagram
👍1
LLaVA-NeXT: Open Large Multimodal Models

Языковая модель для понимания видео, превосходящая все существующие #VLM, с открытым исходным кодом.

Код
Демо (изображения)
Демо (видео) (сейчас выдает ошибку хоста)

#LLM
👍3
Gazelle v0.2

Инновационная open source речевая модель от TincansAI. Способна обрабатывать устные запросы и длинные аудиофайлы напрямую, без предварительной транскрипции или распознавания речи.

Благодаря прямой обработке аудиоданных, модель работает быстрее и точнее, а также способна интерпретировать эмоции и даже сарказм в речи. Код “из коробки” достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход.

Это первая и единственная open source модель, способная вести диалог в реальном времени.

Код
Демо

#speech2text #audio2text #assistant
🔥15
Forwarded from Сиолошная
This media is not supported in your browser
VIEW IN TELEGRAM
Today is the Day! Вечером смотрим презентацию OpenAI (17:00 UTC, 20:00 MSK)

Многие сотрудники компании пишут, что они очень взволнованы (в позитивном смысле). Честно говоря не помню такого нагона хайпа ни на ноябрьский DevDay, ни при релизе GPT-4 (работали поди, хех).

Рабочая версия того, что покажут — голосового AI-ассистента, который умеет распознавать эмоции в голосе, а также сам меняет интонацию в зависимости от контекста. Возможно, ключевым отличием нового продукта (помимо голосовых функций) станет низкая задержка — у людей будет создаваться ощущение, что они общаются с человеком, а не машиной. Также ходят слухи, что будут и видео-звонки с аватаром.

Ждём вечера 👍 все обновления буду писать в канал, а вы не забывайте скачать бинго-карточку, чтоб было интереснее смотреть

UPD: только сейчас понял, что OpenAI тоже всё перенесли на...после майских!
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥2🌚1
Forwarded from Эксплойт
Коротко о главном с презентации OpenAI:

— Новая модель GPT4 Omni, бесплатно для всех пользователей;
— Лучше базовой GPT-4 во всём, особенно в кодинге;
— Все фишки платных подписчиков будут доступны бесплатно;
— Полноценный голосовой ассистент, которого не отличить от человека;
— С помощью ассистента можно переводить речь с другого языка!

Только что OpenAI выкатила модель, без которой теперь не справится ни один работяга.

@exploitex
👍71
Даже не верится. А как они теперь зарабатывать будут? Завтра выкатят платную GPT-5?
🤔18👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Переносим ComfyUI в телеграм бота

Ожидая трансляцию OpenAI с апдейтами, хочется рассказать про еще рандомные тесты im-a-good-gpt2-chatbot:

Благодаря im-a-good-gpt2-chatbot понял как запихнуть ComfyUI, Gradio или Automatic внутрь бота, и работать прям из Телеграм с телефона.

🐈‍⬛ Из плохих вещей:
— Вам все еще нужно запустить GPU сервер в colab, runpod, вашего компа с доступом в инет
— Дизайн чуть адаптирован под телефон, но бывают трудности

🐈‍⬛ Из неожиданных плюсов:
— Теперь можно генерить в любимых UI для нейронок через тг и телефон со всеми своими лорами и чекпоинтами, которые вы собирали годами
— Можно шарить ссылку друзьям и вместе генерить, генерации автоматически попадают в очередь, или вы хотите сразу 5 разных пайпланов тестить с разных устройств.

Конечно я понимаю, что идеально переписывать все под формат телеграмма, чтобы это был готовый продукт. Но если вам нужно дешево и сердито, то вот ссылка на Colab. Нужно только заменить API ключ бота ТГ и подставить ссылку публичную, которую выдаст ComfyUI, Automatic или Gradio.

☺️ Мне почему-то возможность менять ноды в ComfyUI сидя в лесу невероятно нравится. Еще немного лет и может с новым gpt адаптирую Блендер под Тг бота.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍5
Тестим GPT-4o
15👍9😁6🤯3
по ссылкам ходит
👍10🔥1
в браузере не поет
🎃6
недолго музыка играла. 4o кончился, дальше 3.5 или платно
😁7👍1