Мишин Лернинг 🇺🇦🇮🇱
7.9K subscribers
1.17K photos
141 videos
4 files
635 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
加入频道
Forwarded from ExMuffin
✍️ NeuralCorrector v.1.0 🦦

Вчера появилась новая нейронка GLIDE от OpenAI, которая помимо уже привычной генерации картинок из текстовых описаний умела дорисовывать объекты на изображение, которое мы подадим. Нужно просто маской указать где хочется добавить объект и все. Но требовать от пользователей заранее готовить картинку с этой маской мне не хотелось, поэтому я прямо в колаб добавил рисовалку, которой нужно будет закрашивать изменяемую область. Плюс встроенный переводчик для тех, кто привык писать запросы на родном языке. Ну и учитывая то, что на выходе мы получаем изображение 256х256, я добавил свежий алгоритм апскейла на диффьюзивных моделях. Инструмент очень сырой, поэтому если объект не добавится, нужно перезапустить блок с генерацией.

P.S. На фото «мужчина и пирог на столе»

https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/NeuralCorrector.ipynb
💖🎓 StyleSwin: Transformer-based GAN for High-resolution Image Generation | Microsoft не отстает!

Все мы помним, любим, скорбим и даже … на NVIDIA StyleGAN 1-2-ada-3, и это норма!

StyleGAN зарекомендовал себя как топовая генеративная модель, способная, за «относительно» небольшие деньги и «относительно» небольшой датасет, обучиться генерировать очень качественные и реалистичные изображения!

Архитектуры StyleGAN базируется на сверхточных генераторах и дискриминаторах. Были попытки, обучить TransGAN (на трансформерах), но резолюшен был мал. Зато мы получили важный опыт: нужны трюки с постепенным увеличением attention window для стабильности и ускорения обучения.

А кто у нас такой оконный и классный среди Трансформеров? - SWIN!

С сегодняшнего дня объявлена next-gAn эпоха для GAN-Трансформеров! Свертка мертва, Да здравствует Аттеншн!

p.s.: Андрей, спасибо за новость!

📰 paper 💻 code (будет)

Hi, the code is under review by the company, and we will release it once passing the review. Please stay tuned.
🎸Набросал пайплайн декомпозиции бэкграунда (с диффузионным инпаинтингом и апскейлингом) и главного объекта (Backgroud ремувинг)

Назвал BG-Remover

- Background Matting
- OpenAI GLIDE + Latent-Diffusion
This media is not supported in your browser
VIEW IN TELEGRAM
How To Remove Your Ex-Boyfriend Or Girlfriend From A Photo Using Neural Networks?
Я ничего не обещаю.., но вы бы хотели потыкать такую онлайн демку?)
Anonymous Poll
89%
да
11%
нет
💥 SLIP = SimCLR + CLIP, встречайте претрейн от Facebook AI Research & UC Berkeley | Код + Веса

Уже никому не нужно рассказывать про CLIP. Ваша мама знает, что такое CLIP, Ваш сосед юзает его вприкуску с VQ-GAN, Ваших коллег уже тошнит от его упоминания. Вы сами стали CLIP’ом, и за год прибывания в общем пространстве для текстовых и визуальных репрезентаций, перестали обижаться на ругательство «Zero-Shot», доносящееся от мимолетных векторных прохожих.

Но теперь появился SLIP. Коктейль из SimCLR (CosSim между изображением и его аугментациями) + CLIP (CosSim между изображениями и текстами).

И что? Обойдёт ли SLIP CLIP по общественному резонансу? — Нет.. Нельзя войти в одну contrastive language image pretrain реку дважды. Но если в неё ещё и впадает self-supervision, то можно явно обогнать CLIP на ImageNet бенчмарке в Zero-Shot, Linear Probe и Finetune.

📰 paper 💻 code + веса
#чтивонаночь

CLIP + YOLO
В чем идея - давайте брать YOLO, выредать все обьекты и потом CLIPом скорить их на симилярити по описанию.
Просто и со вкусом.
Коллаб
Репа
Spaces
🤗 На HuggingFace теперь доступны две версии нейронного апскейлера!

Теперь рисунки тоже могут быть улучшены через суперрезолюшн на Real-ESRGAN: бесплатно и онлайн. Доступны два домена:
- Фотореалистичный домен
- Аниме домен

👁 https://huggingface.co/spaces/akhaliq/Real-ESRGAN
История самого академического Playboy снимка 1972 года. Спасибо, Лена, ты стала частью Computer Vision истории.
Forwarded from эйай ньюз
👹Dream Field: Нейронка для генерации 3D объектов по текстовому описанию
Google Research

Если вкратце, то это NeRF + CLIP. То есть нейронная сеть оптимизирует неявное представление 3D сцены таким образом, что рендеринг этой сцены с любого угла даёт картинку совпадающую с заданным текстовым описанием. Так как тут идет прямая максимизация похожести с текстовым описанием, то из-за высокой степени свободы и недостатка регуляризации сгенерированные объекты слегка напоминают старый добрый DeepDream.

Подробнее в статье - Zero-Shot Text-Guided Object Generation with Dream Fields.

Сайт проекта >> Статья >> Видео презентация (4 мин)
Forwarded from Denis Sexy IT 🤖
А тем временем модельку которой я генерировал Ивана Айвазовского и других активно допиливуют в сообществе — посмотрите какая красота поулчается, с телефона некоторые картинки не отличить от фотографий уже (Модель теперь может выдавать 1024x768 на A100) | Автор

Я нашел на Reddit Сolab где это генерится, но это такой монстр что пока в нем тяжело разобраться – желающим, успехов.