Мишин Лернинг 🇺🇦🇮🇱
7.9K subscribers
1.17K photos
141 videos
4 files
635 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
加入频道
Forwarded from ExMuffin
This media is not supported in your browser
VIEW IN TELEGRAM
✍️ NeuroCensor v.1.0 🚫

Версия 1.0, значит пока ничего серьезного. Хоть как-то работает, что уже хорошо, ведь все и всегда с чего-то простого начинается. В общем теперь можно выступать в роли цензора и удалять объекты, аля Черное зеркало, по текстовому описанию. Работает быстро, но есть вероятность, что памяти Колаба может не хватить на тяжелые видео, поэтому я поставил некоторые ограничения. Вместе с этим добавил возможность писать на любом языке (или сразу нескольких).

В видео продемонстрировано удаление «Grizzly bear» и «Мужчины в куртке».

https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/NeuroCensor.ipynb
DeepMind вчера выпустили сетку Gopher на 280 миллиардов параметров (что впечатляет). Судя по их же примерам в релизе, Gopher очень хорошо может отвечать на фактологические вопросы ('Who won Womes's US Open in 2021', 'What can you tell me about cell biology'). Если заглянуть в статью с описанием архитектуры модели окажется, что это достигается не за счет числа параметров, а скорее за счет доступа к огромной базе знаний, то есть сетка частично retrieval based. Для сопоставления с базой данных берут замороженный BERT, получают эмбеддинги входного текста и эмбеддинги из базы знаний, находят ближайших соседей (и потом их используют на этапе аттеншена). Для базы данных используют MassiveText (5 триллионов токенов)

Еще для эффективности обучения используют chunked cross-attention, но под модификацию аттеншенов уже пора отдельный жанр на архиве заводить
🧿 DeepMind опубликовал три новых статьи по большим языковым моделям

На канале DLStories есть описания каждой из трех публикаций. Привожу выжимку:


🏰 Обзор качества генеративных моделей в зависимости от их размера и Gopher в 2 раза больший GPT-3

GPT-3 имеет 175B параметров. Кажется, чтобы сделать более крутую сеть, нужно просто добавить еще параметров. И да и нет: не для всех задач увеличение числа параметров делает качество лучше.


😈 Обзор этических и социальных рисков при использовании языковых моделей

Языковые модели могут выдавать ложные факты и токсичные фразы. Было много случаев, когда люди общались с GPT-3, не подозревая об этом. Предложены идеи для сокращения возможного психологического и социального ущерба.


📚 RETRO: Способ научить нейросеть выдавать источник своих слов

RETRO: Retrieval-Enhanced Transformer. RETRO ищет фрагменты текста, сравнивая близости эмбеддингов запроса и реальных текстов базы, полученных из BERT, и опирается на них для генерации ответа.


🖥 DeepMind Blog
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Дизайнеры интерьеров плачут в сторонке 😢

Тут в NVIDIA научили трансформеры синтезировать расположение предметов интерьера по заданному плану (форме) и типу комнаты. Мебель они, конечно, не генерируют, а используют набор заданных 3D ассетов.

Очень показательный пример того, как трансформерами можно моделировать любые распределения, в том числе и те, где порядок не важен. Комнату можно наполнить одной и той же мебелью начиная обставлять с разных объектов, но в итоге прийти к идентичной расстановке. Читаните статью, если интересно разобраться в деталях. Также есть код.

>> Папира >> Сайт >> Код
This media is not supported in your browser
VIEW IN TELEGRAM
📣 Новая SOTA | GANgealing: GAN-Supervised Dense Visual Alignment

Ресерчеры Adobe, MIT и Беркли предложили GAN-Supervised Learning подход, и применили его к проблеме плотного визуального выравнивания (dense visual alignment).

Ребята вдохновились классическим методом Congealing, и на основе его написали GANgealing (игра слов). По факту добавив в фреймворк гана spatial transformer, способный выучить сложное преобразование.

GANgealing превосходит, по словам авторов, предыдущую SOTA в 3 раза!

GANgealing может быть использован для AR, чтобы, например, перетащить маску Бэтмена на мордочку кошки. И по сравнению с RAFT, GANgealing дает удивительно гладкие результаты при покадровом применении к видео (без использования какой-либо временной информации, смотри видео к посту со звуком 🔊).

📰 paper 💻 code
📝 blog 📼 youtube
👍1
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
Нейронный рендеринг без нейронных сетей?

Помните нейронный рендеринг и нерфы для реконструкции 3D сцены и синтеза новых видов? Так вот, обычно эти подходы требуют значительных временных затрат для обучения на одной конкретной сцене из-за того, что там используются громоздкие MLP (Multi-layer Perceptron), и нужно семплировать очень много тренировочных 3D точек с разных углов обзора.

Но вот поворот! Оказывается, всё то же самое можно делать и без сетей вовсе! Исследователи из Беркли показали, что можно учить напрямую сетку вокселей, сохраняя в ее узлах коэффициенты сферических функций, с помощью которых можно очень быстро отрендерить сцену с любой позиции и угла камеры. Все гениально просто.

Это просто бомба! Не нужны больше никакие Structure-from-motion и прочие классические алгоритмы.

>> Пипира >> Код >> Сайт
🔥1
Forwarded from Denis Sexy IT 🤖
В нейронках вроде ruDall-E меня впечатляет именно потенциал для применения — от окна в мир в условиях без интернета, до формирования гардероба, мебели, или создания быстрых прототипов для вдохновения.

Сейчас это все первые проблески, но вы сами видите какие потенциально красивые вещи генерируют AI-художники с помощью нейронок (CLIP, тот же ruDall-E и тп).

Все это наводит на мысль, что модель весом в пару гигабайт может быть применима почти в любом визуальном контексте — потому что она содержит в себе то, что мы называем «любые картинки в интернете» и умеет их комбинировать между собой, синтезируя новые.

Вдохновляясь этим подходом, мне стало интересно где еще можно применить подобный подход – в мире существует достаточно много недописанных картин, и увы, уже никак не узнать как бы выглядело целостное произведение. Но можно, например, дообучить модель, картинами конкретного художника (и даже взять конкретный период в выборку), и уже эти картины использовать как вдохновление для «дорисовывания» картины.

За основу я взял известный портрет Джорджа Вашингтона 1796 года, который был недописан Гилберт Стюартом, но тем не менее, этот же портрет попал на все купюры в 1$. Указав где какие области картины я хотел бы «догенерировать», я получил не одну версию, а целых 24. Результат хоть и такой себе, но уже вполне применим как способ генерации потенциально возможных работ автора.

В общем, это крутое направление развитие нейронок, думая о котором я всегда улетаю куда-то на пару десятков лет в будущее, потому что все эти нейронные-текстовые-фотошопы только-только появляются.

🖼 Ну и бонус, в этом Colab можно дообучить ruDallE конкретной картинкой, получив что-то такое.
Media is too big
VIEW IN TELEGRAM
👁‍🗨 Тут на канале DLStories вышло классное описание новой технологии Meta для детекции токсичного контента.

Будущее за Zero/Few-Shot Learning!
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Только месяц назад Nvidia показала интерактивную демку (с ужасным UI), где можно генерировать правдоподобные пейзажи из текста, скетчей или карт сегментации, так тут же, в начале декабря, тоже Nvidia, показала подход из этой же серии, но который генерирует картинки настолько хорошо, что уделывает GauGan 2. Очередная демонстрация скорости устаревания алгоритмов 🌚

Правда, интерактивной демки пока нет, но код обещают скоро выложить.

Просто посмотрите видео – уверен такую механику в какой-то момент добавят в фотошоп.

Сайт проекта PoE-GAN, по ссылке больше примеров
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Анимируем детские рисунки с помощью AI
Meta AI

Meta AI выкатили прикольную демку, которая умеет оживлять и анимировать детские рисунки - от соломенного человечка до непонятных кракозябр.

Демка / Блогпост
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️Denoising diffusion GANs
NVIDIA

В этой статье ученые решают три главные проблемы генеративного обучения - ганы не очень стабильно тренирутся и плохо покрывают все моды распределения изображаний в датасете, дифуззионные модели медленные, а вариационные автоэнкодеры не дают желаемого качества.

Скрестив диффузионные модели с ганами, они ускорили генерацию семплов при сохранении качества генерации и широкого охвата мод в тренировочном распределениии. Звучит многообещающе!

Кода пока нет, но скоро появится тут.

https://nvlabs.github.io/denoising-diffusion-gan/
This media is not supported in your browser
VIEW IN TELEGRAM
🧸 ИИ анимации человечков по текстовому описанию

1. Создаем «детский рисунок» или «профессиональный рендер» всего чего хотите «на белом фоне», используя DALL-E Malevich

2. Используем демку от META, основанную на Mask-RCNN для локализации объекта, и выбираем пресеты анимации

p.s.: вот такой чебурашка у меня получился
👍1
🔍 RegionCLIP: CLIP для Object Detection

Вектора CLIP на ViT-16 хорошо зарекомендовали себя для нейронного поиска, zero-shot или few-shot классификации full-size изображений. Но если применять их к отдельным объектам (кропам), то результат не всегда бывает адекватный.

Дело тут в том, что Сontrastive Language-Image Pretrain получали, брав центральный квадратный кроп с полноразмерных изображений. А когда CLIP применят к маленькой зоне (см картинку), то происходит domain shift.

Ресерчеры предлагают взять RN50x4, и получив вектора для объектов (RoIAlign как в MaskRCNN) обучить RegionCLIP, используя contrastive learning и knowledge distillation.

Идея норм. Но я бы тренил contrastive learning на всем изображении как в LiT🔥, взяв претрейн + contrastive лосс RoIAlign на боксах dense captioning (пример сета), замораживая визуальную башню.

p.s.: Про пейпер узнал от Юры. Кстати у него есть разбор использования CLIP для Detection задач.


📰 Paper 💻 Код будет тут
🤵🏻‍♀️🔄🤵🏼‍♀️ Malevich for Zero-Shot Image-2-Image Translation

Поставил эксперимент, показывающий zero-shot возможности нейросети DALL-E для Zero-Shot Image-2-Image Translation.

- слева чб фото лица, справа такое же самое фото лица, но цветное

- слева арт лица, справа такой же самый арт, но отраженный

- слева желтый поп арт лица, справа такой же самый поп арт, но зелёный

- слева арт лица, кропнутый по левой половине, справа такой же самый арт лица, но кропнутый по правой половие

- слева тёплое фото лица, справа такое же самое фото лица, но холодное

- слева арт лица раздражённой девушки, справа такой же самый арт лица, но девушка довольна

🔮 За основу взял колаб от Мишин Лернинг и Denis Sexy IT

🥑 Моя лекция, где я рассказываю историю генеративных моделей от VAE, GAN и до DALL-E

p.s. таким будет фотошоп будущего