This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Состязание роботов-гитаристов продолжается.
Elevenlabs показали свой генератор песен. Надо признать, бомбический. Доступ ждем здесь
Генератор песен Udio теперь умеет создавать треки продолжительностью до 15 минут и может «держать в уме» контекст 2 минут трека (ранее только 30 сек) и добавил функцию инпейнтига (но только для оплативших подписку), позволяя менять слова в песне, добавлять инструменты, или исправлять проблемные места.
#text2music #music2music #inpainting
Elevenlabs показали свой генератор песен. Надо признать, бомбический. Доступ ждем здесь
Генератор песен Udio теперь умеет создавать треки продолжительностью до 15 минут и может «держать в уме» контекст 2 минут трека (ранее только 30 сек) и добавил функцию инпейнтига (но только для оплативших подписку), позволяя менять слова в песне, добавлять инструменты, или исправлять проблемные места.
#text2music #music2music #inpainting
👍13🔥1
Media is too big
VIEW IN TELEGRAM
Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers
Убийца... ВСЕГО.
Ладно, это преувеличение. Всего лишь мультимодальный преобразователь текста в картинки, видео, речь, 3D модели.
Умеет (см видео)
- создавать заданную композицию
- консистентно генерировать в заданном стиле
- креативный апскейл
- редактировать изображения
Код
Веса
Демо (генератор картинок)
#upscale #text2image #text2video #text2speech #textto3D #imageediting #image2image #multimodal
Убийца... ВСЕГО.
Ладно, это преувеличение. Всего лишь мультимодальный преобразователь текста в картинки, видео, речь, 3D модели.
Умеет (см видео)
- создавать заданную композицию
- консистентно генерировать в заданном стиле
- креативный апскейл
- редактировать изображения
Код
Веса
Демо (генератор картинок)
#upscale #text2image #text2video #text2speech #textto3D #imageediting #image2image #multimodal
🔥12
This media is not supported in your browser
VIEW IN TELEGRAM
Stylar
Ловите еще один онлайн ИИ-редактор изображений. В нем есть #SD3 и Generative Fill/Generative Expand.
Дают 200 кредитов в месяц для бесплатного пользования. 4 кредита = один батч на 4 картинки или 1 батч 2 варианта дорисовки.
#imageediting #inpainting #outpainting
Ловите еще один онлайн ИИ-редактор изображений. В нем есть #SD3 и Generative Fill/Generative Expand.
Дают 200 кредитов в месяц для бесплатного пользования. 4 кредита = один батч на 4 картинки или 1 батч 2 варианта дорисовки.
#imageediting #inpainting #outpainting
👍11
This media is not supported in your browser
VIEW IN TELEGRAM
Deblur-GS: 3D Gaussian Splatting from Camera Motion Blurred Images
Устранение размытости на видео на основе гауссиан
Код
#deblur #gaussian
Устранение размытости на видео на основе гауссиан
Код
#deblur #gaussian
👍15
Progress Tracker: Open vs. Proprietary LLMs
Демоспейс с визуализацией прогресса #LLM с проприетарным и открытым исходным кодом по данным чатбот арены
#news #diagram
Демоспейс с визуализацией прогресса #LLM с проприетарным и открытым исходным кодом по данным чатбот арены
#news #diagram
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
ID-Animator: Zero-Shot Identity-Preserving Human Video Generation
Персонализатор-аниматор от Tencent. Создает анимации с заданным лицом.
Код
Демо
#personalization #text2video
Персонализатор-аниматор от Tencent. Создает анимации с заданным лицом.
Код
Демо
#personalization #text2video
👍5❤2🔥2
Gazelle v0.2
Инновационная open source речевая модель от TincansAI. Способна обрабатывать устные запросы и длинные аудиофайлы напрямую, без предварительной транскрипции или распознавания речи.
Благодаря прямой обработке аудиоданных, модель работает быстрее и точнее, а также способна интерпретировать эмоции и даже сарказм в речи. Код “из коробки” достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход.
Это первая и единственная open source модель, способная вести диалог в реальном времени.
Код
Демо
#speech2text #audio2text #assistant
Инновационная open source речевая модель от TincansAI. Способна обрабатывать устные запросы и длинные аудиофайлы напрямую, без предварительной транскрипции или распознавания речи.
Благодаря прямой обработке аудиоданных, модель работает быстрее и точнее, а также способна интерпретировать эмоции и даже сарказм в речи. Код “из коробки” достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход.
Это первая и единственная open source модель, способная вести диалог в реальном времени.
Код
Демо
#speech2text #audio2text #assistant
🔥15
Forwarded from Сиолошная
This media is not supported in your browser
VIEW IN TELEGRAM
Today is the Day! Вечером смотрим презентацию OpenAI (17:00 UTC, 20:00 MSK)
Многие сотрудники компании пишут, что они очень взволнованы (в позитивном смысле). Честно говоря не помню такого нагона хайпа ни на ноябрьский DevDay, ни при релизе GPT-4 (работали поди, хех).
Рабочая версия того, что покажут — голосового AI-ассистента, который умеет распознавать эмоции в голосе, а также сам меняет интонацию в зависимости от контекста. Возможно, ключевым отличием нового продукта (помимо голосовых функций) станет низкая задержка — у людей будет создаваться ощущение, что они общаются с человеком, а не машиной. Также ходят слухи, что будут и видео-звонки с аватаром.
Ждём вечера👍 все обновления буду писать в канал, а вы не забывайте скачать бинго-карточку, чтоб было интереснее смотреть
UPD: только сейчас понял, что OpenAI тоже всё перенесли на...после майских!
Многие сотрудники компании пишут, что они очень взволнованы (в позитивном смысле). Честно говоря не помню такого нагона хайпа ни на ноябрьский DevDay, ни при релизе GPT-4 (работали поди, хех).
Рабочая версия того, что покажут — голосового AI-ассистента, который умеет распознавать эмоции в голосе, а также сам меняет интонацию в зависимости от контекста. Возможно, ключевым отличием нового продукта (помимо голосовых функций) станет низкая задержка — у людей будет создаваться ощущение, что они общаются с человеком, а не машиной. Также ходят слухи, что будут и видео-звонки с аватаром.
Ждём вечера
UPD: только сейчас понял, что OpenAI тоже всё перенесли на...после майских!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥2🌚1
Forwarded from Эксплойт
Коротко о главном с презентации OpenAI:
— Новая модель GPT4 Omni, бесплатно для всех пользователей;
— Лучше базовой GPT-4 во всём, особенно в кодинге;
— Все фишки платных подписчиков будут доступны бесплатно;
— Полноценный голосовой ассистент, которого не отличить от человека;
— С помощью ассистента можно переводить речь с другого языка!
Только что OpenAI выкатила модель, без которой теперь не справится ни один работяга.
@exploitex
— Новая модель GPT4 Omni, бесплатно для всех пользователей;
— Лучше базовой GPT-4 во всём, особенно в кодинге;
— Все фишки платных подписчиков будут доступны бесплатно;
— Полноценный голосовой ассистент, которого не отличить от человека;
— С помощью ассистента можно переводить речь с другого языка!
Только что OpenAI выкатила модель, без которой теперь не справится ни один работяга.
@exploitex
👍7❤1
Даже не верится. А как они теперь зарабатывать будут? Завтра выкатят платную GPT-5?
🤔18👍2
Forwarded from Нейросети и Блендер
This media is not supported in your browser
VIEW IN TELEGRAM
Переносим ComfyUI в телеграм бота
Ожидая трансляцию OpenAI с апдейтами, хочется рассказать про еще рандомные тесты
Благодаря
🐈⬛ Из плохих вещей:
— Вам все еще нужно запустить GPU сервер в colab, runpod, вашего компа с доступом в инет
— Дизайн чуть адаптирован под телефон, но бывают трудности
🐈⬛ Из неожиданных плюсов:
— Теперь можно генерить в любимых UI для нейронок через тг и телефон со всеми своими лорами и чекпоинтами, которые вы собирали годами
— Можно шарить ссылку друзьям и вместе генерить, генерации автоматически попадают в очередь, или вы хотите сразу 5 разных пайпланов тестить с разных устройств.
Конечно я понимаю, что идеально переписывать все под формат телеграмма, чтобы это был готовый продукт. Но если вам нужно дешево и сердито, то вот ссылка на Colab.
☺️ Мне почему-то возможность менять ноды в ComfyUI сидя в лесу невероятно нравится. Еще немного лет и может с новым gpt адаптирую Блендер под Тг бота.
Ожидая трансляцию OpenAI с апдейтами, хочется рассказать про еще рандомные тесты
im-a-good-gpt2-chatbot
: Благодаря
im-a-good-gpt2-chatbot
понял как запихнуть ComfyUI, Gradio или Automatic внутрь бота, и работать прям из Телеграм с телефона. — Вам все еще нужно запустить GPU сервер в colab, runpod, вашего компа с доступом в инет
— Дизайн чуть адаптирован под телефон, но бывают трудности
— Теперь можно генерить в любимых UI для нейронок через тг и телефон со всеми своими лорами и чекпоинтами, которые вы собирали годами
— Можно шарить ссылку друзьям и вместе генерить, генерации автоматически попадают в очередь, или вы хотите сразу 5 разных пайпланов тестить с разных устройств.
Конечно я понимаю, что идеально переписывать все под формат телеграмма, чтобы это был готовый продукт. Но если вам нужно дешево и сердито, то вот ссылка на Colab.
Нужно только заменить API ключ бота ТГ и подставить ссылку публичную, которую выдаст ComfyUI, Automatic или Gradio.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍5