Мишин Лернинг 🇺🇦🇮🇱

Победителями года стали DALL-E и CLIP! Внимание вопрос: Может ли один трансформер генерировать как DALL-E, и сам оценивать свои результаты, как CLIP (при этом обладая zero-shot и linear probe способностями CLIP)? Одним словом можно ли их объединить?

Final Results

86%

Да. Реально обьединить DALL-E и CLIP в одной сети. Я за гипер-модальные трансформеры будущего!

14%

Невозможно. DALL-E это DALL-E, CLIP это CLIP. Одна модель не может и генерировать классифицировать.

👍9🔥7

325 voters3.19K views17:08

Мишин Лернинг 🇺🇦🇮🇱

🦌🎄☃️ One Hyper-Modal Transformer can be
Creative as DALL-E and Smart as CLIP

Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP.

👀 см картинки к посту

Гипермодальный RuDolph может:
▪️ Генерировать текст
▪️ Генерировать изображения по тексту
▪️ «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
▪️ Изменять (inpainting) изображения по описанию
▪️ Генерировать текстовые описания для изображений
▪️ Быть Feature Extractor’ом для few-shot и linear probe классификации
▪️ Ранжировать изображения по текстовому описанию
▪️ Классифицировать изображения в режиме Zero-Shot

💻 Git Код + Веса
📰 Paper [soon]
🦌 HF demo (только 4 картинки)
🤗 Model Card
🔮 Colab со всеми возможностями

🔥23👍16

11.1K views15:32

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Love. Death. Transformers.

🦌🎄☃️
Самое первое практическое применение РУдольфыча и гипермодальных трансформеров.

Задача предсказания КБЖУ по фотке еды скорее не решенная и вряд ли будет решена, просто потому что нельзя предсказать что внутри пирожка.

Ну а мне скучно поэтому я обучил задачу i2t в рудольфыче генерировать КБЖУ
тыкать тут: https://18659.gradio.app

Ноутбуки с примерами фанйтюна на разные задачи выйдут на днях, мы их готовим

👍16

2.59K views13:56

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Технологии | Нейросети | Боты

2:20

This media is not supported in your browser

VIEW IN TELEGRAM

HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video
abs: https://arxiv.org/abs/2201.04127
project page: https://grail.cs.washington.edu/projects/humannerf/

🔥14

2.7K views07:40

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Технологии | Нейросети | Боты

Узнаём калорийность блюда по фото.

Под капотом RuDOLHP точно настроенный для задачи image2text для прогнозирования калорийности пищи.

• RuDOLHP подробнее

• По пробовать

🔥13👍4

2.69K views11:30

Мишин Лернинг 🇺🇦🇮🇱

🧙‍♂️ A ConvNet for the 2020s: Пока трансформеры выиграли битву, но не войну

📰 Ресерчеры из FAIR и Berkeley спроектировали ConvNeXts, проанализировав пределы чисто-Сверточных Сетей в эпоху Трансформеров. (Костя, Спасибо за новость!)

Двадцатые года второго тысячелетия начались с доминации трансформеров в задачах компьютерного зрения! Да, здравствует ViT, прощай ResNet! И Трансформеры быстро вытеснили Сверточные Сети. С другой стороны, ванильный ViT сталкивается с трудностями при применении к таким задачам, как детекция и сегментация. Иерархические трансформеры (Swin) сделали Трансформеры не просто сверх-жизнеспособными, а универсальной основой современного машинного зрения. Но своей силе SWIN больше обязан механизму внимания, нежели inductive bias, предложенному в SWIN.

Ресерчеры постепенно модернизировали ResNet в сторону ViT, и создали семейство ConvNeXt, достигнув 87,8% ImageNet Top-1, обойдя Swin на детекции COCO и сегментации ADE20K, сохраняя простоту и эффективность стандартных ConvNet.

📑 paper 💻 git

👍23🔥2

3.32K viewsedited 11:57

Мишин Лернинг 🇺🇦🇮🇱

1:22

This media is not supported in your browser

VIEW IN TELEGRAM

🧠 Google AI Blog | Google Research: Themes from 2021 and Beyond

📣 TL;DR Summarization of Google Research's works and achievements in 2021

Вышел крутой блокпост, где выделено пять различных трендов, для каждого из которых приведены исследования (в основном с 2021 года), а так же сделан прогноз того, что мы, вероятно, увидим в ближайшие пару лет.

Тренды:
· 1. Более функциональные модели машинного обучения общего назначения
· 2. Постоянное повышение эффективности машинного обучения
· 3. Повышение пользы машинного обучения для личности и общества
· 4. Растущие влияние машинного обучения в науке и здравоохранении
· 5. Более глубокое понимание глубокого обучения

📇 Blog Post | Google Research: Themes from 2021 and Beyond

p.s.: Скажем Chan Kha Vu, спасибо за ссылку, поставим 👍

👍31🔥2

6.73K viewsedited 08:23

Мишин Лернинг 🇺🇦🇮🇱

🦌🎄☃️ Обновление RuDOLPH: Гипер-Модального GPT/DALL-E-like Трансформера со способностями CLIP

Вышли новые веса быстрого 350M GPT-3 RuDOLPH. Экспериментальная модель является GPT-платформой для решения множества задач в zero-shot:
- Генерации и изменения изображений
- Описания изображений
- Ранжирования и классификации

Благодаря претрейну и маленькому весу, модель легко файнтюнить под свои задачи. Автор канала любовь, смерть и ~~голуби~~ трансформеры уже зафайнтюнил RuDOLPH для определения бжу по фото.

RuDOLPH в режиме DALL-E + сортировка в режиме CLIP:
▪️ "Фотография красивой девушки"
▪️ "Девушка в пальто" + 1/2 сверху от предыдущей генерации
▪️ "Старинный собор"
▪️ "Современный собор" + 1/2 сверху от предыдущей генерации
▪️ "Дорога в закат"
▪️ "Озеро" + 1/2 сверху от предыдущей генерации
▪️ "Серый рыжий кот"
▪️ "Кресло в форме авокадо"

RuDOLPH в режиме Image Captioning:
▪️ Реальное изображение + "На картинке "

🚀 Скорость: 336 картинок за 5 мин + 2 мин "проявка" из 128х128 в 1024х1024

🔮 Colab

🔥13👍9

3.63K views21:35

About

Blog

Apps

Platform