💥 SLIP = SimCLR + CLIP, встречайте претрейн от Facebook AI Research & UC Berkeley | Код + Веса
Уже никому не нужно рассказывать про CLIP. Ваша мама знает, что такое CLIP, Ваш сосед юзает его вприкуску с VQ-GAN, Ваших коллег уже тошнит от его упоминания. Вы сами стали CLIP’ом, и за год прибывания в общем пространстве для текстовых и визуальных репрезентаций, перестали обижаться на ругательство «Zero-Shot», доносящееся от мимолетных векторных прохожих.
Но теперь появился SLIP. Коктейль из SimCLR (CosSim между изображением и его аугментациями) + CLIP (CosSim между изображениями и текстами).
И что? Обойдёт ли SLIP CLIP по общественному резонансу? — Нет.. Нельзя войти в одну contrastive language image pretrain реку дважды. Но если в неё ещё и впадает self-supervision, то можно явно обогнать CLIP на ImageNet бенчмарке в Zero-Shot, Linear Probe и Finetune.
📰 paper 💻 code + веса
Уже никому не нужно рассказывать про CLIP. Ваша мама знает, что такое CLIP, Ваш сосед юзает его вприкуску с VQ-GAN, Ваших коллег уже тошнит от его упоминания. Вы сами стали CLIP’ом, и за год прибывания в общем пространстве для текстовых и визуальных репрезентаций, перестали обижаться на ругательство «Zero-Shot», доносящееся от мимолетных векторных прохожих.
Но теперь появился SLIP. Коктейль из SimCLR (CosSim между изображением и его аугментациями) + CLIP (CosSim между изображениями и текстами).
И что? Обойдёт ли SLIP CLIP по общественному резонансу? — Нет.. Нельзя войти в одну contrastive language image pretrain реку дважды. Но если в неё ещё и впадает self-supervision, то можно явно обогнать CLIP на ImageNet бенчмарке в Zero-Shot, Linear Probe и Finetune.
📰 paper 💻 code + веса
Forwarded from Love. Death. Transformers.
#чтивонаночь
CLIP + YOLO
В чем идея - давайте брать YOLO, выредать все обьекты и потом CLIPом скорить их на симилярити по описанию.
Просто и со вкусом.
Коллаб
Репа
Spaces
CLIP + YOLO
В чем идея - давайте брать YOLO, выредать все обьекты и потом CLIPом скорить их на симилярити по описанию.
Просто и со вкусом.
Коллаб
Репа
Spaces
🤗 На HuggingFace теперь доступны две версии нейронного апскейлера!
Теперь рисунки тоже могут быть улучшены через суперрезолюшн на Real-ESRGAN: бесплатно и онлайн. Доступны два домена:
- Фотореалистичный домен
- Аниме домен
👁 https://huggingface.co/spaces/akhaliq/Real-ESRGAN
Теперь рисунки тоже могут быть улучшены через суперрезолюшн на Real-ESRGAN: бесплатно и онлайн. Доступны два домена:
- Фотореалистичный домен
- Аниме домен
👁 https://huggingface.co/spaces/akhaliq/Real-ESRGAN
История самого академического Playboy снимка 1972 года. Спасибо, Лена, ты стала частью Computer Vision истории.
Forwarded from эйай ньюз
👹Dream Field: Нейронка для генерации 3D объектов по текстовому описанию
Google Research
Если вкратце, то это NeRF + CLIP. То есть нейронная сеть оптимизирует неявное представление 3D сцены таким образом, что рендеринг этой сцены с любого угла даёт картинку совпадающую с заданным текстовым описанием. Так как тут идет прямая максимизация похожести с текстовым описанием, то из-за высокой степени свободы и недостатка регуляризации сгенерированные объекты слегка напоминают старый добрый DeepDream.
Подробнее в статье - Zero-Shot Text-Guided Object Generation with Dream Fields.
Сайт проекта >> Статья >> Видео презентация (4 мин)
Google Research
Если вкратце, то это NeRF + CLIP. То есть нейронная сеть оптимизирует неявное представление 3D сцены таким образом, что рендеринг этой сцены с любого угла даёт картинку совпадающую с заданным текстовым описанием. Так как тут идет прямая максимизация похожести с текстовым описанием, то из-за высокой степени свободы и недостатка регуляризации сгенерированные объекты слегка напоминают старый добрый DeepDream.
Подробнее в статье - Zero-Shot Text-Guided Object Generation with Dream Fields.
Сайт проекта >> Статья >> Видео презентация (4 мин)
Forwarded from Denis Sexy IT 🤖
А тем временем модельку которой я генерировал Ивана Айвазовского и других активно допиливуют в сообществе — посмотрите какая красота поулчается, с телефона некоторые картинки не отличить от фотографий уже (Модель теперь может выдавать 1024x768 на A100) | Автор
Я нашел на Reddit Сolab где это генерится, но это такой монстр что пока в нем тяжело разобраться – желающим, успехов.
Я нашел на Reddit Сolab где это генерится, но это такой монстр что пока в нем тяжело разобраться – желающим, успехов.
Denis Sexy IT 🤖
А тем временем модельку которой я генерировал Ивана Айвазовского и других активно допиливуют в сообществе — посмотрите какая красота поулчается, с телефона некоторые картинки не отличить от фотографий уже (Модель теперь может выдавать 1024x768 на A100) | Автор…
Дарвин! Каким говнокодом сделана красота из предыдущего поста Дениса!.
Действительно, ресерч код не обязан бы идеальным. Но это же откровенная и намеренная ресерч-копрофилия.
Действительно, ресерч код не обязан бы идеальным. Но это же откровенная и намеренная ресерч-копрофилия.
🔥3
🎄 МЛ коллеги, друзья по нейронным сетям! С наступающим!
- Готовлю для вас большую обзорную статью: ИИ Итоги 2021 года
- В качестве новогоднего поздравления предлагаю самое доброе и теплое обращение от нейрофизиолога Дубынина Вячеслава Альбертовича
Всех с праздником! Интересного ресерча, крутых нейронок, классных коллабораций, и большого компьюта в 2022 году!
🎁 И, главное, здоровья, любви и крутейших мультимодальных трансформеров!
- Готовлю для вас большую обзорную статью: ИИ Итоги 2021 года
- В качестве новогоднего поздравления предлагаю самое доброе и теплое обращение от нейрофизиолога Дубынина Вячеслава Альбертовича
Всех с праздником! Интересного ресерча, крутых нейронок, классных коллабораций, и большого компьюта в 2022 году!
🎁 И, главное, здоровья, любви и крутейших мультимодальных трансформеров!
👍32🔥21
Forwarded from DL in NLP (nlpcontroller_bot)
The Illustrated Retrieval Transformer
jalammar.github.io/illustrated-retrieval-transformer/
Мы уже обозревали RETRO в этом коротком посте, но на днях Jay Alammar опубликовал новый блогпост, где идея RETRO описывается визуально.
RETRO — это модель, которая работает на уровне GPT-3 175B имея всего 7B параметров. Это делается с помощью того, что модель может обращаться к дополнительной "базе данных" текстов и их продолжений во время генерации текста.
jalammar.github.io/illustrated-retrieval-transformer/
Мы уже обозревали RETRO в этом коротком посте, но на днях Jay Alammar опубликовал новый блогпост, где идея RETRO описывается визуально.
RETRO — это модель, которая работает на уровне GPT-3 175B имея всего 7B параметров. Это делается с помощью того, что модель может обращаться к дополнительной "базе данных" текстов и их продолжений во время генерации текста.
👍16🔥1
Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
GPT для чайников: от токенизации до файнтюнинга
Сделал для вас небольшой colab туториал про GPT. Там подробно и с примерами разобраны такие темы как:
1. Устройство GPT-1,2,3
2. Токенизация
3. Методы генерации текста
4. Файнтюнинг (прям в колабе)
Если вы давно хотели поиграться с GPT, но всё не доходили руки, то новогодние праздники — самое время 😉
Colab
Сделал для вас небольшой colab туториал про GPT. Там подробно и с примерами разобраны такие темы как:
1. Устройство GPT-1,2,3
2. Токенизация
3. Методы генерации текста
4. Файнтюнинг (прям в колабе)
Если вы давно хотели поиграться с GPT, но всё не доходили руки, то новогодние праздники — самое время 😉
Colab
🔥40👍6
Forwarded from Нейроэстетика
🌲🏝 Хвойные леса лазурного тропического острова
спойлер: сгенерировано неизвестной нейронной сетью
спойлер: сгенерировано неизвестной нейронной сетью
🔥22👍5
🎆 V Objective Diffusion: Код, Модель, Веса + Colab
Королева генеративного искусства Rivers Have Wings Катерина выложила аккуратно обученную диффузионную модель, кондишн на текстовых эмбедингах собственно обученного 602M CLIP. Скажем спасибо stability.ai за компьют и помощь в ресерче! По факту подход classifier-free guidance похож на недавний GLIDE от OpenAI.
Генерации просто на высшем уровне. И понимание текста, и целостность (консистентность) изображений, и стилистика. Доступны 481M и 968M модели, обученные на 33M парах изображение-текст, сабсет Yahoo Flickr Creative Commons 100 Million.
💻 Code 🔮 Unofficial Colab
Королева генеративного искусства Rivers Have Wings Катерина выложила аккуратно обученную диффузионную модель, кондишн на текстовых эмбедингах собственно обученного 602M CLIP. Скажем спасибо stability.ai за компьют и помощь в ресерче! По факту подход classifier-free guidance похож на недавний GLIDE от OpenAI.
Генерации просто на высшем уровне. И понимание текста, и целостность (консистентность) изображений, и стилистика. Доступны 481M и 968M модели, обученные на 33M парах изображение-текст, сабсет Yahoo Flickr Creative Commons 100 Million.
💻 Code 🔮 Unofficial Colab
🔥16👍4