Мишин Лернинг 🇺🇦🇮🇱
7.9K subscribers
1.17K photos
141 videos
4 files
634 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
加入频道
🔍 RegionCLIP: CLIP для Object Detection

Вектора CLIP на ViT-16 хорошо зарекомендовали себя для нейронного поиска, zero-shot или few-shot классификации full-size изображений. Но если применять их к отдельным объектам (кропам), то результат не всегда бывает адекватный.

Дело тут в том, что Сontrastive Language-Image Pretrain получали, брав центральный квадратный кроп с полноразмерных изображений. А когда CLIP применят к маленькой зоне (см картинку), то происходит domain shift.

Ресерчеры предлагают взять RN50x4, и получив вектора для объектов (RoIAlign как в MaskRCNN) обучить RegionCLIP, используя contrastive learning и knowledge distillation.

Идея норм. Но я бы тренил contrastive learning на всем изображении как в LiT🔥, взяв претрейн + contrastive лосс RoIAlign на боксах dense captioning (пример сета), замораживая визуальную башню.

p.s.: Про пейпер узнал от Юры. Кстати у него есть разбор использования CLIP для Detection задач.


📰 Paper 💻 Код будет тут
🤵🏻‍♀️🔄🤵🏼‍♀️ Malevich for Zero-Shot Image-2-Image Translation

Поставил эксперимент, показывающий zero-shot возможности нейросети DALL-E для Zero-Shot Image-2-Image Translation.

- слева чб фото лица, справа такое же самое фото лица, но цветное

- слева арт лица, справа такой же самый арт, но отраженный

- слева желтый поп арт лица, справа такой же самый поп арт, но зелёный

- слева арт лица, кропнутый по левой половине, справа такой же самый арт лица, но кропнутый по правой половие

- слева тёплое фото лица, справа такое же самое фото лица, но холодное

- слева арт лица раздражённой девушки, справа такой же самый арт лица, но девушка довольна

🔮 За основу взял колаб от Мишин Лернинг и Denis Sexy IT

🥑 Моя лекция, где я рассказываю историю генеративных моделей от VAE, GAN и до DALL-E

p.s. таким будет фотошоп будущего
🤖🧠 Transformers for Zero-Shot Video Object Segmentation

CLIP подарил нам эпоху доступного и быстрого Zero-Shot для классификации изображений.

Чуть позже, успех CLIP’а подарил нам MDETR, который «довел до ума» DETR. Спасибо еще раз Яну Лекуну!

Но мир не стоит на месте. Представляете себе трансформер для zero-shot стабильной детекции объектов на видео по текстовому описанию?

Если Ваш мозг уже начал рисовать MDETR, базирующийся на Video Swin Transformer на стероидах, то поздравляю, Вы на правильном пути!

Ну а если хотите действительно разобраться в теме, то 20го декабря в 19-30 (GMT+2) на лекцию от Жени!

📚Женя крутейший ресерчер из Technion и автор одного из моих самых любимых телеграм-каналов по ML: Just Links 🔫 Личная рекомендация!

👉 На лекцию в TRANSFORMER

P.S.: записи, увы, не будет.. Ссылка придет на почту за час до начала ивента
🚵 Transformers for Referring Video Object Segmentation | Zero-Shot, VideoSWIN, MDETR, MTTR

Сегодня в 19-30 (GMT+2) YouTube, (бесплатно, онлайн, записи не будет!)


🎓 Evgenii Zheltonozhskii, M.Sc. in Technion
📰 Телеграм Канал 👈 Рекомнедация от Мишин Лернинга | Ссылки на самые свежие пейперы!

Что на лекции:
▪️ Short intro, reminder on Transformers
▪️ Intro to RVOS task, explanation and challenges
▪️ Related work: short overview of previous approaches to RVOS, DETR, VisTR, MDETR
▪️ Our approach overview
▪️ Real life samples, discussion of challenges, limitations and future directions

p.s.: Коллеги, кидаю ссылку на ютуб трансляцию всем! Так как записи не будет, я буду очень благодарен, если поделитесь ссылкой на ивент в своих каналах/чатах и среди единомышленников)

🎥
https://youtu.be/YqlhXgq6hcs
This media is not supported in your browser
VIEW IN TELEGRAM
Как прекрасен мир современных мультимодальных трансформеров! Помогай нейронкам не делами, а словами!

💙 a dog to the left playing with a toy
❤️ a dog to the right playing with a toy

🐶 p.s.: Запись видео будет доступна после CVPR
🎲 OpenAI создали и выложили конкурента DALL-E | GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

Ни для кого не секрет, что диффузионные модели генерируют высококачественные синтетические изображения, особенно в сочетании с CLIP, но возможно его гайденс и не нужен!

Ресерчеры начали прикручивать CLIP к Diffusion уже давно, но тут за дело (Diffusion по текстовому описанию) взялись ребята из OpenAI! Они показали, что большой претрейн и classifier free guidance позволяют обойтись и без clip guidance!

Результат — просто топ! И для синтеза, и для изменения изображений!

Сначала 3.5B (Transformer+ UNet) модель генерит изображение в 64×64, а вторая, делает суперрезолюшн из 64х64 в 256×256. Кроме топовой 3.5B модели, OpenAI выложили модель поменьше (300M) в открытый доступ! Уже сделал колаб..

Добавил в колаб все 3 режима работы:
- Генерация по текстовому описанию GLIDE
- GLIDE для достраивания изображения по части
- GLIDE + CLIP

📰 Paper 💻 Code

🔮 Colab GLIDE OpenAI
👍2
Обернул все 3 режима работы GLIDE от OpenAI в Мишин Лернинг колаб и теперь иду на дейлик с интересной штукой. Спасибо Юре за новость)

Всем хорошего дня и удачных генераций!
Forwarded from ExMuffin
✍️ NeuralCorrector v.1.0 🦦

Вчера появилась новая нейронка GLIDE от OpenAI, которая помимо уже привычной генерации картинок из текстовых описаний умела дорисовывать объекты на изображение, которое мы подадим. Нужно просто маской указать где хочется добавить объект и все. Но требовать от пользователей заранее готовить картинку с этой маской мне не хотелось, поэтому я прямо в колаб добавил рисовалку, которой нужно будет закрашивать изменяемую область. Плюс встроенный переводчик для тех, кто привык писать запросы на родном языке. Ну и учитывая то, что на выходе мы получаем изображение 256х256, я добавил свежий алгоритм апскейла на диффьюзивных моделях. Инструмент очень сырой, поэтому если объект не добавится, нужно перезапустить блок с генерацией.

P.S. На фото «мужчина и пирог на столе»

https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/NeuralCorrector.ipynb
💖🎓 StyleSwin: Transformer-based GAN for High-resolution Image Generation | Microsoft не отстает!

Все мы помним, любим, скорбим и даже … на NVIDIA StyleGAN 1-2-ada-3, и это норма!

StyleGAN зарекомендовал себя как топовая генеративная модель, способная, за «относительно» небольшие деньги и «относительно» небольшой датасет, обучиться генерировать очень качественные и реалистичные изображения!

Архитектуры StyleGAN базируется на сверхточных генераторах и дискриминаторах. Были попытки, обучить TransGAN (на трансформерах), но резолюшен был мал. Зато мы получили важный опыт: нужны трюки с постепенным увеличением attention window для стабильности и ускорения обучения.

А кто у нас такой оконный и классный среди Трансформеров? - SWIN!

С сегодняшнего дня объявлена next-gAn эпоха для GAN-Трансформеров! Свертка мертва, Да здравствует Аттеншн!

p.s.: Андрей, спасибо за новость!

📰 paper 💻 code (будет)

Hi, the code is under review by the company, and we will release it once passing the review. Please stay tuned.
🎸Набросал пайплайн декомпозиции бэкграунда (с диффузионным инпаинтингом и апскейлингом) и главного объекта (Backgroud ремувинг)

Назвал BG-Remover

- Background Matting
- OpenAI GLIDE + Latent-Diffusion
This media is not supported in your browser
VIEW IN TELEGRAM
How To Remove Your Ex-Boyfriend Or Girlfriend From A Photo Using Neural Networks?
Я ничего не обещаю.., но вы бы хотели потыкать такую онлайн демку?)
Anonymous Poll
89%
да
11%
нет