Мишин Лернинг 🇺🇦🇮🇱
7.9K subscribers
1.17K photos
141 videos
4 files
635 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
加入频道
Коллеги, друзья. Помогите выбрать победителя для будущей статьи «ИИ Итоги 2021 года» | Мультивыбор
Anonymous Poll
46%
CLIP
50%
DALL-E
14%
VQ-GAN
9%
Perceiver / IO
2%
mDETR
21%
AlphaFold 2
12%
RETRO
3%
LiT
18%
Diffusion Models Beat GAN
11%
CODEX
🔥20👍1
Победителями года стали DALL-E и CLIP! Внимание вопрос: Может ли один трансформер генерировать как DALL-E, и сам оценивать свои результаты, как CLIP (при этом обладая zero-shot и linear probe способностями CLIP)? Одним словом можно ли их объединить?
Final Results
86%
Да. Реально обьединить DALL-E и CLIP в одной сети. Я за гипер-модальные трансформеры будущего!
14%
Невозможно. DALL-E это DALL-E, CLIP это CLIP. Одна модель не может и генерировать классифицировать.
👍9🔥7
🦌🎄☃️ One Hyper-Modal Transformer can be
Creative as DALL-E and Smart as CLIP


Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP.

👀 см картинки к посту

Гипермодальный RuDolph может:
▪️ Генерировать текст
▪️ Генерировать изображения по тексту
▪️ «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
▪️ Изменять (inpainting) изображения по описанию
▪️ Генерировать текстовые описания для изображений
▪️ Быть Feature Extractor’ом для few-shot и linear probe классификации
▪️ Ранжировать изображения по текстовому описанию
▪️ Классифицировать изображения в режиме Zero-Shot

💻 Git Код + Веса
📰 Paper [soon]
🦌 HF demo (только 4 картинки)
🤗 Model Card
🔮 Colab со всеми возможностями
🔥23👍16
🦌🎄☃️
Самое первое практическое применение РУдольфыча и гипермодальных трансформеров.

Задача предсказания КБЖУ по фотке еды скорее не решенная и вряд ли будет решена, просто потому что нельзя предсказать что внутри пирожка.

Ну а мне скучно поэтому я обучил задачу i2t в рудольфыче генерировать КБЖУ
тыкать тут: https://18659.gradio.app



Ноутбуки с примерами фанйтюна на разные задачи выйдут на днях, мы их готовим
👍16
Forwarded from Технологии | Нейросети | Боты
This media is not supported in your browser
VIEW IN TELEGRAM
HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video
abs: https://arxiv.org/abs/2201.04127
project page: https://grail.cs.washington.edu/projects/humannerf/
🔥14
Forwarded from Технологии | Нейросети | Боты
Узнаём калорийность блюда по фото.

Под капотом RuDOLHP точно настроенный для задачи image2text для прогнозирования калорийности пищи.

• RuDOLHP подробнее

• По
пробовать
🔥13👍4
🧙‍♂️ A ConvNet for the 2020s: Пока трансформеры выиграли битву, но не войну

📰 Ресерчеры из FAIR и Berkeley спроектировали ConvNeXts, проанализировав пределы чисто-Сверточных Сетей в эпоху Трансформеров. (Костя, Спасибо за новость!)

Двадцатые года второго тысячелетия начались с доминации трансформеров в задачах компьютерного зрения! Да, здравствует ViT, прощай ResNet! И Трансформеры быстро вытеснили Сверточные Сети. С другой стороны, ванильный ViT сталкивается с трудностями при применении к таким задачам, как детекция и сегментация. Иерархические трансформеры (Swin) сделали Трансформеры не просто сверх-жизнеспособными, а универсальной основой современного машинного зрения. Но своей силе SWIN больше обязан механизму внимания, нежели inductive bias, предложенному в SWIN.

Ресерчеры постепенно модернизировали ResNet в сторону ViT, и создали семейство ConvNeXt, достигнув 87,8% ImageNet Top-1, обойдя Swin на детекции COCO и сегментации ADE20K, сохраняя простоту и эффективность стандартных ConvNet.

📑 paper 💻 git
👍23🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Google AI Blog | Google Research: Themes from 2021 and Beyond

📣 TL;DR Summarization of Google Research's works and achievements in 2021

Вышел крутой блокпост, где выделено пять различных трендов, для каждого из которых приведены исследования (в основном с 2021 года), а так же сделан прогноз того, что мы, вероятно, увидим в ближайшие пару лет.

Тренды:
· 1. Более функциональные модели машинного обучения общего назначения
· 2. Постоянное повышение эффективности машинного обучения
· 3. Повышение пользы машинного обучения для личности и общества
· 4. Растущие влияние машинного обучения в науке и здравоохранении
· 5. Более глубокое понимание глубокого обучения

📇 Blog Post | Google Research: Themes from 2021 and Beyond

p.s.: Скажем Chan Kha Vu, спасибо за ссылку, поставим 👍
👍31🔥2
🦌🎄☃️ Обновление RuDOLPH: Гипер-Модального GPT/DALL-E-like Трансформера со способностями CLIP

Вышли новые веса быстрого 350M GPT-3 RuDOLPH. Экспериментальная модель является GPT-платформой для решения множества задач в zero-shot:
- Генерации и изменения изображений
- Описания изображений
- Ранжирования и классификации

Благодаря претрейну и маленькому весу, модель легко файнтюнить под свои задачи. Автор канала любовь, смерть и голуби трансформеры уже зафайнтюнил RuDOLPH для определения бжу по фото.

RuDOLPH в режиме DALL-E + сортировка в режиме CLIP:
▪️ "Фотография красивой девушки"
▪️ "Девушка в пальто" + 1/2 сверху от предыдущей генерации
▪️ "Старинный собор"
▪️ "Современный собор" + 1/2 сверху от предыдущей генерации
▪️ "Дорога в закат"
▪️ "Озеро" + 1/2 сверху от предыдущей генерации
▪️ "Серый рыжий кот"
▪️ "Кресло в форме авокадо"

RuDOLPH в режиме Image Captioning:
▪️ Реальное изображение + "На картинке "

🚀 Скорость: 336 картинок за 5 мин + 2 мин "проявка" из 128х128 в 1024х1024

🔮 Colab
🔥13👍9