Коллеги, друзья. Помогите выбрать победителя для будущей статьи «ИИ Итоги 2021 года» | Мультивыбор
Anonymous Poll
46%
CLIP
50%
DALL-E
14%
VQ-GAN
9%
Perceiver / IO
2%
mDETR
21%
AlphaFold 2
12%
RETRO
3%
LiT
18%
Diffusion Models Beat GAN
11%
CODEX
🔥20👍1
Победителями года стали DALL-E и CLIP! Внимание вопрос: Может ли один трансформер генерировать как DALL-E, и сам оценивать свои результаты, как CLIP (при этом обладая zero-shot и linear probe способностями CLIP)? Одним словом можно ли их объединить?
Final Results
86%
Да. Реально обьединить DALL-E и CLIP в одной сети. Я за гипер-модальные трансформеры будущего!
14%
Невозможно. DALL-E это DALL-E, CLIP это CLIP. Одна модель не может и генерировать классифицировать.
👍9🔥7
🦌🎄☃️ One Hyper-Modal Transformer can be
Creative as DALL-E and Smart as CLIP
Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP.
👀 см картинки к посту
Гипермодальный RuDolph может:
▪️ Генерировать текст
▪️ Генерировать изображения по тексту
▪️ «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
▪️ Изменять (inpainting) изображения по описанию
▪️ Генерировать текстовые описания для изображений
▪️ Быть Feature Extractor’ом для few-shot и linear probe классификации
▪️ Ранжировать изображения по текстовому описанию
▪️ Классифицировать изображения в режиме Zero-Shot
💻 Git Код + Веса
📰 Paper [soon]
🦌 HF demo (только 4 картинки)
🤗 Model Card
🔮 Colab со всеми возможностями
Creative as DALL-E and Smart as CLIP
Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP.
👀 см картинки к посту
Гипермодальный RuDolph может:
▪️ Генерировать текст
▪️ Генерировать изображения по тексту
▪️ «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
▪️ Изменять (inpainting) изображения по описанию
▪️ Генерировать текстовые описания для изображений
▪️ Быть Feature Extractor’ом для few-shot и linear probe классификации
▪️ Ранжировать изображения по текстовому описанию
▪️ Классифицировать изображения в режиме Zero-Shot
💻 Git Код + Веса
📰 Paper [soon]
🦌 HF demo (только 4 картинки)
🤗 Model Card
🔮 Colab со всеми возможностями
🔥23👍16
Forwarded from Love. Death. Transformers.
🦌🎄☃️
Самое первое практическое применение РУдольфыча и гипермодальных трансформеров.
Задача предсказания КБЖУ по фотке еды скорее не решенная и вряд ли будет решена, просто потому что нельзя предсказать что внутри пирожка.
Ну а мне скучно поэтому я обучил задачу i2t в рудольфыче генерировать КБЖУ
тыкать тут: https://18659.gradio.app
Ноутбуки с примерами фанйтюна на разные задачи выйдут на днях, мы их готовим
Самое первое практическое применение РУдольфыча и гипермодальных трансформеров.
Задача предсказания КБЖУ по фотке еды скорее не решенная и вряд ли будет решена, просто потому что нельзя предсказать что внутри пирожка.
Ну а мне скучно поэтому я обучил задачу i2t в рудольфыче генерировать КБЖУ
тыкать тут: https://18659.gradio.app
Ноутбуки с примерами фанйтюна на разные задачи выйдут на днях, мы их готовим
👍16
Forwarded from Технологии | Нейросети | Боты
This media is not supported in your browser
VIEW IN TELEGRAM
HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video
abs: https://arxiv.org/abs/2201.04127
project page: https://grail.cs.washington.edu/projects/humannerf/
abs: https://arxiv.org/abs/2201.04127
project page: https://grail.cs.washington.edu/projects/humannerf/
🔥14
Forwarded from Технологии | Нейросети | Боты
Узнаём калорийность блюда по фото.
Под капотом RuDOLHP точно настроенный для задачи image2text для прогнозирования калорийности пищи.
• RuDOLHP подробнее
• Попробовать
Под капотом RuDOLHP точно настроенный для задачи image2text для прогнозирования калорийности пищи.
• RuDOLHP подробнее
• Попробовать
🔥13👍4
🧙♂️ A ConvNet for the 2020s: Пока трансформеры выиграли битву, но не войну
📰 Ресерчеры из FAIR и Berkeley спроектировали ConvNeXts, проанализировав пределы чисто-Сверточных Сетей в эпоху Трансформеров. (Костя, Спасибо за новость!)
Двадцатые года второго тысячелетия начались с доминации трансформеров в задачах компьютерного зрения! Да, здравствует ViT, прощай ResNet! И Трансформеры быстро вытеснили Сверточные Сети. С другой стороны, ванильный ViT сталкивается с трудностями при применении к таким задачам, как детекция и сегментация. Иерархические трансформеры (Swin) сделали Трансформеры не просто сверх-жизнеспособными, а универсальной основой современного машинного зрения. Но своей силе SWIN больше обязан механизму внимания, нежели inductive bias, предложенному в SWIN.
Ресерчеры постепенно модернизировали ResNet в сторону ViT, и создали семейство ConvNeXt, достигнув 87,8% ImageNet Top-1, обойдя Swin на детекции COCO и сегментации ADE20K, сохраняя простоту и эффективность стандартных ConvNet.
📑 paper 💻 git
📰 Ресерчеры из FAIR и Berkeley спроектировали ConvNeXts, проанализировав пределы чисто-Сверточных Сетей в эпоху Трансформеров. (Костя, Спасибо за новость!)
Двадцатые года второго тысячелетия начались с доминации трансформеров в задачах компьютерного зрения! Да, здравствует ViT, прощай ResNet! И Трансформеры быстро вытеснили Сверточные Сети. С другой стороны, ванильный ViT сталкивается с трудностями при применении к таким задачам, как детекция и сегментация. Иерархические трансформеры (Swin) сделали Трансформеры не просто сверх-жизнеспособными, а универсальной основой современного машинного зрения. Но своей силе SWIN больше обязан механизму внимания, нежели inductive bias, предложенному в SWIN.
Ресерчеры постепенно модернизировали ResNet в сторону ViT, и создали семейство ConvNeXt, достигнув 87,8% ImageNet Top-1, обойдя Swin на детекции COCO и сегментации ADE20K, сохраняя простоту и эффективность стандартных ConvNet.
📑 paper 💻 git
👍23🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Google AI Blog | Google Research: Themes from 2021 and Beyond
📣 TL;DR Summarization of Google Research's works and achievements in 2021
Вышел крутой блокпост, где выделено пять различных трендов, для каждого из которых приведены исследования (в основном с 2021 года), а так же сделан прогноз того, что мы, вероятно, увидим в ближайшие пару лет.
Тренды:
· 1. Более функциональные модели машинного обучения общего назначения
· 2. Постоянное повышение эффективности машинного обучения
· 3. Повышение пользы машинного обучения для личности и общества
· 4. Растущие влияние машинного обучения в науке и здравоохранении
· 5. Более глубокое понимание глубокого обучения
📇 Blog Post | Google Research: Themes from 2021 and Beyond
p.s.: Скажем Chan Kha Vu, спасибо за ссылку, поставим 👍
📣 TL;DR Summarization of Google Research's works and achievements in 2021
Вышел крутой блокпост, где выделено пять различных трендов, для каждого из которых приведены исследования (в основном с 2021 года), а так же сделан прогноз того, что мы, вероятно, увидим в ближайшие пару лет.
Тренды:
· 1. Более функциональные модели машинного обучения общего назначения
· 2. Постоянное повышение эффективности машинного обучения
· 3. Повышение пользы машинного обучения для личности и общества
· 4. Растущие влияние машинного обучения в науке и здравоохранении
· 5. Более глубокое понимание глубокого обучения
📇 Blog Post | Google Research: Themes from 2021 and Beyond
p.s.: Скажем Chan Kha Vu, спасибо за ссылку, поставим 👍
👍31🔥2
🦌🎄☃️ Обновление RuDOLPH: Гипер-Модального GPT/DALL-E-like Трансформера со способностями CLIP
Вышли новые веса быстрого 350M GPT-3 RuDOLPH. Экспериментальная модель является GPT-платформой для решения множества задач в zero-shot:
- Генерации и изменения изображений
- Описания изображений
- Ранжирования и классификации
Благодаря претрейну и маленькому весу, модель легко файнтюнить под свои задачи. Автор канала любовь, смерть иголуби трансформеры уже зафайнтюнил RuDOLPH для определения бжу по фото.
RuDOLPH в режиме DALL-E + сортировка в режиме CLIP:
▪️ "Фотография красивой девушки"
▪️ "Девушка в пальто" + 1/2 сверху от предыдущей генерации
▪️ "Старинный собор"
▪️ "Современный собор" + 1/2 сверху от предыдущей генерации
▪️ "Дорога в закат"
▪️ "Озеро" + 1/2 сверху от предыдущей генерации
▪️ "Серый рыжий кот"
▪️ "Кресло в форме авокадо"
RuDOLPH в режиме Image Captioning:
▪️ Реальное изображение + "На картинке "
🚀 Скорость: 336 картинок за 5 мин + 2 мин "проявка" из 128х128 в 1024х1024
🔮 Colab
Вышли новые веса быстрого 350M GPT-3 RuDOLPH. Экспериментальная модель является GPT-платформой для решения множества задач в zero-shot:
- Генерации и изменения изображений
- Описания изображений
- Ранжирования и классификации
Благодаря претрейну и маленькому весу, модель легко файнтюнить под свои задачи. Автор канала любовь, смерть и
RuDOLPH в режиме DALL-E + сортировка в режиме CLIP:
▪️ "Фотография красивой девушки"
▪️ "Девушка в пальто" + 1/2 сверху от предыдущей генерации
▪️ "Старинный собор"
▪️ "Современный собор" + 1/2 сверху от предыдущей генерации
▪️ "Дорога в закат"
▪️ "Озеро" + 1/2 сверху от предыдущей генерации
▪️ "Серый рыжий кот"
▪️ "Кресло в форме авокадо"
RuDOLPH в режиме Image Captioning:
▪️ Реальное изображение + "На картинке "
🚀 Скорость: 336 картинок за 5 мин + 2 мин "проявка" из 128х128 в 1024х1024
🔮 Colab
🔥13👍9