Video ReCap: Recursive Captioning of Hour-Long Videos
Текстовое описание длинных видео (1 час) от Meta AI
Код
#captioning #video2text
Текстовое описание длинных видео (1 час) от Meta AI
Код
#captioning #video2text
😁2
This media is not supported in your browser
VIEW IN TELEGRAM
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions
Модель для подробного описания видео. Генерировать видео по тексту тоже умеет, но качество🫤
Код
Демо (описание)
Демо (генерация)
#captioning #vlm #video2text #text2video
Модель для подробного описания видео. Генерировать видео по тексту тоже умеет, но качество
Код
Демо (описание)
Демо (генерация)
#captioning #vlm #video2text #text2video
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
HunyuanDiT-v1.2 / HunyuanCaptioner
Новая версия китайского генератора картинок. Лично меня он не впечатляет.
Но выкатили еще и генератор описаний, который может описывать картинки по английски
Репозиторий
Демо HunyuanCaptioner
#text2image #image2text #captioning
Новая версия китайского генератора картинок. Лично меня он не впечатляет.
Но выкатили еще и генератор описаний, который может описывать картинки по английски
Репозиторий
Демо HunyuanCaptioner
#text2image #image2text #captioning
👍4
FLUX Prompt Generator
Тут можно генерить/раскрычивать промпты для #Flux по ключевым словам или небольшому промпту.
А можно и обратно, по картинке.
#image2text #captioning #text2text #prompting
Тут можно генерить/раскрычивать промпты для #Flux по ключевым словам или небольшому промпту.
А можно и обратно, по картинке.
#image2text #captioning #text2text #prompting
🔥15👎1
JoyCaption Alpha One
Обновился инструмент для текстового описания изображений JoyCaption
- расширен набор данных
- контроль длины описания
- выбор тона текста формальный/неформальный
- выбор типа описания. Descriptive - на чисто естественном языке. Training Prompt - сочетания естественного языка, фрагментов предложений и тегов booru - имитация промптов для SD. rng-tags - только теги booru, работает не очень хорошо, не рекомендовано
#image2text #captioning
Обновился инструмент для текстового описания изображений JoyCaption
- расширен набор данных
- контроль длины описания
- выбор тона текста формальный/неформальный
- выбор типа описания. Descriptive - на чисто естественном языке. Training Prompt - сочетания естественного языка, фрагментов предложений и тегов booru - имитация промптов для SD. rng-tags - только теги booru, работает не очень хорошо, не рекомендовано
#image2text #captioning
👍6❤2
JoyCaption Alpha 2 - Batch Script
Скрипт для пакетной обработки картинок в JoyCaption.
Для Alpha 2 требуется ~ 22 ГБ видеопамяти.
Для режима Low VRAM требуется ~ 10 ГБ видеопамяти.
Режим Low VRAM работает только в pre-alpha версии
Реддит
#image2text #captioning
Скрипт для пакетной обработки картинок в JoyCaption.
Для Alpha 2 требуется ~ 22 ГБ видеопамяти.
Для режима Low VRAM требуется ~ 10 ГБ видеопамяти.
Режим Low VRAM работает только в pre-alpha версии
Реддит
#image2text #captioning
👍3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
SkyReels V2
Новая версия видеогенератора, умеет делать "бесконечные" видео
Выпущены модели 1.3B / 5B / 14B и код
Генерация сюжета, генерация видео по картинке, управление камерой (эта модель будет позже), синтез видео из заданных элементов
Гитхаб
Веса
Попробовать (попробуйте создать новый аккаунт если на старом нет кредитов)
————————————
SkyCaptioner-V1
Кэпшнер от SkyReels - модель для структурного текстового описания видео
Веса
Демо ждем
#text2video #image2video #video2text #captioning #text2movie
Новая версия видеогенератора, умеет делать "бесконечные" видео
Выпущены модели 1.3B / 5B / 14B и код
Первая модель с открытым весом, конкурирующая с Sora, Kling и Veo2 на VBench и human evals
Генерация сюжета, генерация видео по картинке, управление камерой (эта модель будет позже), синтез видео из заданных элементов
Гитхаб
Веса
Попробовать (попробуйте создать новый аккаунт если на старом нет кредитов)
————————————
SkyCaptioner-V1
Кэпшнер от SkyReels - модель для структурного текстового описания видео
Веса
Демо ждем
#text2video #image2video #video2text #captioning #text2movie
🔥13👍2❤1
JoyCaption Beta One
Вышла новая бета версия открытой модели для текстового описания изображений
Ключевые функции
• Свободный и открытый: без ограничений, с открытым весом.
• Без цензуры: равный охват SFW и NSFW.
• Разнообразие: широкий охват стилей изображений и содержания.
• Минимальная фильтрация: обучение на больших массивах изображений.
Что нового
• Больше тренировок: 2,4 миллиона обучающих выборок.
• Простой режим: золотая середина между многословными и лаконичными режимами.
• Настройки тегирования Booru: стабилизация и повышение полезности.
• Точность водяных знаков: обновление учебных данных.
• VQA: добавление данных для расширения диапазона инструкций.
• Увеличение количества тегов: поддержка указания списка тегов booru.
• Обучение с подкреплением: устранение проблем с Alpha Two.
Предостережения
• JoyCaption далек от совершенства, возможны сбои.
• Частота сбоев снижена, но все еще высока.
• Некоторые запросы NSFW могут вызывать отказ, но это не намеренно.
Гитхаб
Демо
HF
Civitai
#image2text #captioning #vlm
Вышла новая бета версия открытой модели для текстового описания изображений
Ключевые функции
• Свободный и открытый: без ограничений, с открытым весом.
• Без цензуры: равный охват SFW и NSFW.
• Разнообразие: широкий охват стилей изображений и содержания.
• Минимальная фильтрация: обучение на больших массивах изображений.
Что нового
• Больше тренировок: 2,4 миллиона обучающих выборок.
• Простой режим: золотая середина между многословными и лаконичными режимами.
• Настройки тегирования Booru: стабилизация и повышение полезности.
• Точность водяных знаков: обновление учебных данных.
• VQA: добавление данных для расширения диапазона инструкций.
• Увеличение количества тегов: поддержка указания списка тегов booru.
• Обучение с подкреплением: устранение проблем с Alpha Two.
Предостережения
• JoyCaption далек от совершенства, возможны сбои.
• Частота сбоев снижена, но все еще высока.
• Некоторые запросы NSFW могут вызывать отказ, но это не намеренно.
Гитхаб
Демо
HF
Civitai
#image2text #captioning #vlm
👍9👌1
Tar: Unifying Visual Understanding and Generation via Text-Aligned Representations
Генератор-пониматор изображений от команды с участием ByteDnace Seed
Код
Демо - 512/1024
#text2image #image2text #captioning
Генератор-пониматор изображений от команды с участием ByteDnace Seed
Код
Демо - 512/1024
#text2image #image2text #captioning
👍4
Ovis-U1
Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений
- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.
- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.
- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.
Код
Веса
Демо
#vlm #text2image #imageediting #captioning #image2text
Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений
- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.
- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.
- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.
Код
Веса
Демо
#vlm #text2image #imageediting #captioning #image2text
👍8🔥1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Describe Anything: Detailed Localized Image and Video Captioning (DAM)
Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео
Код
Демо
#captioning #image2text #video2text
Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео
Код
Демо
#captioning #image2text #video2text
👍11🔥3🤔1
VLM Image Captioning Tool
Инструмент для автоматизации описания большого количества изображений. Главная фича - позволяет настроить серию промптов (а не один промпт) для пошагового процесса.
Поддерживает большинство VLM провайдеров, в том числе локальные VLM
Видео
#captioning #image2text #vlm
Инструмент для автоматизации описания большого количества изображений. Главная фича - позволяет настроить серию промптов (а не один промпт) для пошагового процесса.
Поддерживает большинство VLM провайдеров, в том числе локальные VLM
Видео
#captioning #image2text #vlm
GitHub
GitHub - victorchall/vlm-caption: Multiturn VLM Bulk captioning using your api service
Multiturn VLM Bulk captioning using your api service - victorchall/vlm-caption
👍5❤3
This media is not supported in your browser
VIEW IN TELEGRAM
3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding
Базовая визуально-языковая модель понимания 3D сцен/
Умеет описывать сцены, отвечать на вопросы о них, планировать действия в виртуальном пространстве
Код
Веса
#vlm #3d #3dvlm #assistant #captioning
Базовая визуально-языковая модель понимания 3D сцен/
Умеет описывать сцены, отвечать на вопросы о них, планировать действия в виртуальном пространстве
Код
Веса
#vlm #3d #3dvlm #assistant #captioning
🔥8👍1