Media is too big
VIEW IN TELEGRAM
AnimeInbet: Deep Geometrized Cartoon Line Inbetweening
Интерполяция промежуточных кадров лайнарта в анимации с учетом геометрии. Есть тут аниматоры чтобы оценить?
Код
Видео полной презентации, 7 минут
#frameinterpolation #animation
Интерполяция промежуточных кадров лайнарта в анимации с учетом геометрии. Есть тут аниматоры чтобы оценить?
Код
Видео полной презентации, 7 минут
#frameinterpolation #animation
🔥1
DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation
Гауссианы прикрутили к генерации 3D моделей по тексту и по изображению.
На сайте есть примеры анимированных мешей.
Код
Колаб
#textto3D
Гауссианы прикрутили к генерации 3D моделей по тексту и по изображению.
На сайте есть примеры анимированных мешей.
Код
Колаб
#textto3D
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video
Генератор видео по тексту. Демонстрирует лучшее следование пропмту в сравнении с конкурентами.
Код
#text2video
Генератор видео по тексту. Демонстрирует лучшее следование пропмту в сравнении с конкурентами.
Код
#text2video
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model
Генератор движения/анимации двуногих 3D персонажей по тексту.
Код
Демо
Колаб
Полное видео, 5 минут
#text2motion #text2animation #humananimation
Генератор движения/анимации двуногих 3D персонажей по тексту.
Код
Демо
Колаб
Полное видео, 5 минут
#text2motion #text2animation #humananimation
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Diverse and Aligned Audio-to-Video Generation viaText-to-Video Model Adaptation
Генератор видео по естественному звуку и/или тексту
Код
#text2video #audio2video #sound2video
Генератор видео по естественному звуку и/или тексту
Код
#text2video #audio2video #sound2video
❤3
This media is not supported in your browser
VIEW IN TELEGRAM
RealFillReference-Driven Generation for Authentic Image Completion
Прикольная штука. Дополняет изображение по референсам. Например, из нескольких фото одно было бы самым удачным если б не неудачное кадрирование. RealFill посмотрит остальные фотки и дорисует то что за кадром. Ну или наоборот, заменит что-то внутри кадра.
На входных референсах дообучается, поэтому работает медленно.
Не справится если ракурс на референсе сильно отличается от ракурса целевой картинки
Сходите на сайт, там много примеров
Кода нет
#image2image #inpainting #outpainting
Прикольная штука. Дополняет изображение по референсам. Например, из нескольких фото одно было бы самым удачным если б не неудачное кадрирование. RealFill посмотрит остальные фотки и дорисует то что за кадром. Ну или наоборот, заменит что-то внутри кадра.
На входных референсах дообучается, поэтому работает медленно.
Не справится если ракурс на референсе сильно отличается от ракурса целевой картинки
Сходите на сайт, там много примеров
Кода нет
#image2image #inpainting #outpainting
🔥6👍1
Доступ к DALL-E 3 открыли для всех. Но это неточно. Если что, заходите через VPN. Сгенерировать Бендера еще никогда не было так просто!
Окрываем в чате портал для ваших генераций
Попробовать DALL-E 3
#text2image
Окрываем в чате портал для ваших генераций
Попробовать DALL-E 3
#text2image
❤6🔥2
Media is too big
VIEW IN TELEGRAM
Decaf: Monocular Deformation Capture for Face and Hand Interactions
Восстановление 3D головы и рук и их взаимодействия с деформациями по одному видео.
Код обещают выложить
Полное видео, 4 минуты
#videoto3D #talkinghead #humanavatar #head #hands #mocap
Восстановление 3D головы и рук и их взаимодействия с деформациями по одному видео.
Код обещают выложить
Полное видео, 4 минуты
#videoto3D #talkinghead #humanavatar #head #hands #mocap
👏8
This media is not supported in your browser
VIEW IN TELEGRAM
Nova2 от Deepgram
Транскрибатор речи из аудио в текст.
Deepgram поддерживает много языков, в том числе русский и английский.
Про Nova2 на сайте висит инфа что пока только английский и планируют расширять список языков.
Заявлено лучшее качество и скорость среди конкурентов.
На вход принимает файлы и потоковое аудио в реальном времени.
Умеет в суммаризацию и еще какие-то ИИ-постобработки.
Есть API. Короче, плюшек много.
На старте дают бесплатного сервиса на 200$, обработка минуты аудио примерно от 0.005$. Немало? Ну а когда эти стартовые иссякнут вы знаете что делать.
#speech2text
Транскрибатор речи из аудио в текст.
Deepgram поддерживает много языков, в том числе русский и английский.
Про Nova2 на сайте висит инфа что пока только английский и планируют расширять список языков.
Заявлено лучшее качество и скорость среди конкурентов.
На вход принимает файлы и потоковое аудио в реальном времени.
Умеет в суммаризацию и еще какие-то ИИ-постобработки.
Есть API. Короче, плюшек много.
На старте дают бесплатного сервиса на 200$, обработка минуты аудио примерно от 0.005$. Немало? Ну а когда эти стартовые иссякнут вы знаете что делать.
#speech2text
👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Опубликован код генератора 3D по тексту MVDream
Код
Альтернатива в threestudio
Колаб - принес @analball
#textto3D
Код
Альтернатива в threestudio
Колаб - принес @analball
#textto3D
👍8🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Live Avatar от artflow.ai
Хотел написать про их Actor Builder - конкурента D-ID или чем там оживляют мертвые головы Гарри Поттера. Его можно уже попробовать, на бесплатном тарифе дают обучить одного "актера"
Но живые аватары гораздо интереснее, имхо.
Записаться в вейтлист Live Avatars
#talkinghead #humanavatar #liveavatar
Хотел написать про их Actor Builder - конкурента D-ID или чем там оживляют мертвые головы Гарри Поттера. Его можно уже попробовать, на бесплатном тарифе дают обучить одного "актера"
Но живые аватары гораздо интереснее, имхо.
Записаться в вейтлист Live Avatars
#talkinghead #humanavatar #liveavatar
This media is not supported in your browser
VIEW IN TELEGRAM
Neural Microfacet Fields for Inverse Rendering
Восстанавливает геометрию, материалы и освещение. Умеет заменять освещение и совмещать объекты из разных сцен в одну. Авторы использовали 100 входных изображений с известными параметрами камеры.
Объемный рендер и поверхностный рендер объединили в поле микрофасеток, в котором каждая точка пространства наделена объемной плотностью и локальной микроповерхностью. Это же не #nerf да?
Код
Полное видео, 2+ минуты
#image2shader #image2material #rendering #novelview #nmf
Восстанавливает геометрию, материалы и освещение. Умеет заменять освещение и совмещать объекты из разных сцен в одну. Авторы использовали 100 входных изображений с известными параметрами камеры.
Объемный рендер и поверхностный рендер объединили в поле микрофасеток, в котором каждая точка пространства наделена объемной плотностью и локальной микроповерхностью. Это же не #nerf да?
Код
Полное видео, 2+ минуты
#image2shader #image2material #rendering #novelview #nmf
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Re-ReND: Real-time Rendering of NeRFs across Devices
Мы прямо сейчас на ICCV презентуем постер по нашей статье Re-ReND. Мы представляем новый метод для запекания NeRF-ов в явную репрезентацию, которую можно очень быстро рендерить до 1000 FPS.
Когда рендерится сцена Нерфом, нужно сделать тысячи прогонов черезе MLP из-за вычисления интеграла вдоль каждого луча.
Чтобы ускорить рендеринг, мы предлагаем:
- выдрать из нерфа примерную мешь
- Дистиллировать radience field в специальный ligth field (это когда по координате точки и углу обзора MLP сразу выдает цвет за один прогон, без интеграции)
- Наш light field предсказывает view-dependent и position-dependent эмбеддиги, скалярный продукт которых дает цвет 3D точки.
- Затем мы запекаем эти эмбеддиги как тектсуры на меши
- В итоге получаем текcтурированную мешь, которую можно быстро рендерить в стандартных графических пайпланах с кастомным шейдером
Скорость: 1000 FPS на десктопе, 74 PFS на Quest Pro (демо на видео) и 30-60 FPS на мобилах.
Код
Статья
@ai_newz
Мы прямо сейчас на ICCV презентуем постер по нашей статье Re-ReND. Мы представляем новый метод для запекания NeRF-ов в явную репрезентацию, которую можно очень быстро рендерить до 1000 FPS.
Когда рендерится сцена Нерфом, нужно сделать тысячи прогонов черезе MLP из-за вычисления интеграла вдоль каждого луча.
Чтобы ускорить рендеринг, мы предлагаем:
- выдрать из нерфа примерную мешь
- Дистиллировать radience field в специальный ligth field (это когда по координате точки и углу обзора MLP сразу выдает цвет за один прогон, без интеграции)
- Наш light field предсказывает view-dependent и position-dependent эмбеддиги, скалярный продукт которых дает цвет 3D точки.
- Затем мы запекаем эти эмбеддиги как тектсуры на меши
- В итоге получаем текcтурированную мешь, которую можно быстро рендерить в стандартных графических пайпланах с кастомным шейдером
Скорость: 1000 FPS на десктопе, 74 PFS на Quest Pro (демо на видео) и 30-60 FPS на мобилах.
Код
Статья
@ai_newz
❤1👍1👎1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Вы спрашивали про Speech-to-Text.
Я процитирую пост Саши Ларьяновского из фб.
Социологам, кастдевщикам и всем, кто занимается расшифровкой аудио-записей срочно тестировать.
"Нашел лучшее решение speech-to-text для расшифровки аудио и видео.
1. Бережно работает с англицизмами в речи. Вот реальный фрагмент результата:
«То есть, это история про accuracy данных, и на данный момент мы не реализовали ни all insights ни raw statistics».
2. Отличная гигиена текста: умеет хорошо расставлять знаки пунктуации и делить текст на абзацы.
3. Быстрый. Часовая беседа расшифровывается меньше чем за полминуты.
4. Работает как бот в телеге и вотсапе (!).
В телеге есть для премиума расшифровка от Дурова. Но там кошмарное readability на длинных сообщениях.
У вотсапа вообще нет такого решения.
5. Бот умеет на вход брать на вход файлы и ссылки (!) , а не только аудиосообщения
6. Он еще на сдачу саммаризирует расшифрованное, но мне не было актуально и я не оценивал эту фичу.
Для телеги: https://yangx.top/JillWhite_voice_notes_bot
Для вотсапа: https://bit.ly/jillwhitevoicenotes
Это как раз хорошая иллюстрация к предыдущему посту, что можно сотворить крутые продукты, дообучая на своих данных чужие ИИ- технологии".
Я процитирую пост Саши Ларьяновского из фб.
Социологам, кастдевщикам и всем, кто занимается расшифровкой аудио-записей срочно тестировать.
"Нашел лучшее решение speech-to-text для расшифровки аудио и видео.
1. Бережно работает с англицизмами в речи. Вот реальный фрагмент результата:
«То есть, это история про accuracy данных, и на данный момент мы не реализовали ни all insights ни raw statistics».
2. Отличная гигиена текста: умеет хорошо расставлять знаки пунктуации и делить текст на абзацы.
3. Быстрый. Часовая беседа расшифровывается меньше чем за полминуты.
4. Работает как бот в телеге и вотсапе (!).
В телеге есть для премиума расшифровка от Дурова. Но там кошмарное readability на длинных сообщениях.
У вотсапа вообще нет такого решения.
5. Бот умеет на вход брать на вход файлы и ссылки (!) , а не только аудиосообщения
6. Он еще на сдачу саммаризирует расшифрованное, но мне не было актуально и я не оценивал эту фичу.
Для телеги: https://yangx.top/JillWhite_voice_notes_bot
Для вотсапа: https://bit.ly/jillwhitevoicenotes
Это как раз хорошая иллюстрация к предыдущему посту, что можно сотворить крутые продукты, дообучая на своих данных чужие ИИ- технологии".
👍9👎3
This media is not supported in your browser
VIEW IN TELEGRAM
Вы это видели?
В Luma.ai прикрутили гауссианы
Говорят что вес сцены до 20 Mb и что-то там про стриминг/рендер на 30 кадрах в секунду в браузере
#imageto3D #image2scene #rendering
В Luma.ai прикрутили гауссианы
Говорят что вес сцены до 20 Mb и что-то там про стриминг/рендер на 30 кадрах в секунду в браузере
#imageto3D #image2scene #rendering
🔥5
Замена лиц сервисом Facemorph в играх. Эксперимент от Corridor Digital
https://youtu.be/7juJgPbQx8w?si=X6PkcmcxxfbNlWGT
Попробовать Facemorph
#faceswap #deepfake
https://youtu.be/7juJgPbQx8w?si=X6PkcmcxxfbNlWGT
Попробовать Facemorph
#faceswap #deepfake
🔥3👍2