эйай ньюз – Telegram

эйай ньюз

70.4K subscribers

1.53K photos

814 videos

7 files

1.86K links

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow

About

Blog

Apps

Platform

эйай ньюз

70.4K subscribers

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Потестил я GEN-2, и готов дать непредвзятую оценку.

Технология интересная, но очевидно, еще в очень ранней стадии. Пиарщики из RunwayML проделали титанический труд, чтобы отобрать и смонтировать ролик из самых лучших примеров. Кажется, даже не побрезговали сделать постобработку и подкрутить цвета.

Модель откровенно забивает на текстовые запросы, особенно если там описано что-то нетипичное. Лица людей генерятся с артефактами, а получить внятное видео можно только с довольно простыми концептами.

Часто вместо видео получается статическая картинка без какого-либо движения. Нейронная сеть тут идет по пути наименьшего сопротивления.

Кажется, лучше всего GEN-2 генерит природу (огонь, воду и пр.). Ну и криповые кадры с собаками, и прочими зверями, которые я выставляю вам на обозрение. Признаюсь, что даже тут мне приходилось выбирать одно видео из трёх, на остальных было либо полное мясо, либо не то, что я просил, либо просто статические кадры.

@ai_newz

17.4K views21:27

эйай ньюз

Ну вы серьезно?

Уже нельзя зайти на coinmarketcap посмотреть котировки без того, чтобы не увидеть инфоцыганщину про ChatGPT в топе новостей.

Кажется до криптанов тоже дошли технологии. Вот только люди, которые пишут такие статьи вообще ничего не понимают в том, как эти технологии работают. Текстовую модель просят предсказать цену эфира 🤦. Найдутся же еще простофили, которые будут следовать такому сигналу.

Я думал, что пик таких статей и обучающих видео прошёл в феврале, но нет.

Мы же тут как раз собрались, чтобы прокачать нейронную грамотность и моментально отфильтровывать такой инфомусор, проходя мимо.

@ai_newz

15.8K views17:42

эйай ньюз

Media is too big

VIEW IN TELEGRAM

Эндрю Ын сегодня созвонился с Джефом Хинтоном, чтобы обсудить LLM и потенциальные риски.

А в твиттере в комментах к этому видео Ян ЛеКун уже набросил на вентилятор (обожаю его). Завтра расскажу поподробнее.

@ai_newz

16.1K viewsedited 22:49

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

"To the moon" 🌝

А вот как реагирует рынок на всю эту мышиную возню с AI.

Я как-то зассал, когда всё начало падать в 2022 и на некоторое время перестал покупать тех стоки, если не считать, что я по уши в Мете сижу. Сейчас буду потихоньку возобновлять регулярные покупки избранных компаний.

@ai_newz

18.6K viewsedited 20:31

эйай ньюз

Вы все также уверены, что нейросети понимают мир и контекст того, что генерируют?

На картинке пример "аутпейнтинга" исторического фото (там, кстати, Эйнштейн в центре). Нейронка дорисовала контекст... с челом в кожанке.

Магии нет, есть статистика, стохастический градиентный спуск и баесы (необъективность) тренировочных датасетов.

@ai_newz

16.0K viewsedited 15:56

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Вот это новость от AMD! Как долго я этого ждал.

AMD наконец вступила в Deep Learning игру и показывает серьезную заявку пошатнуть монополию NVIDIA на рынке AI чипов.

Сегодня они представили новую видеокарту для обучения и инференса нейронных сетей — AMD MI300X.

Эта крошка вполне может тягаться с Nvidia H100.

Вот её характеристики:
— 192 Gb VRAM на одном чипе, (против 80Gb у H100, NVL версия не в счёт)
— 5.2Tb пропускная способность памяти (против 3.35 y H100)
— Бенчмарков по скорости пока нет, но одна Mi300X легко тянет 40B языковую модель Falcon в риалтайме (см на видео). Это первая видеокарта, которая вмещает модель такого размера полность в своей памяти.

Ещё (это очень важно) AMD договорились с Pytorch Foundation о том, что их софтовый стэк ROCm и все обновления будет поддерживаться и сразу запиливаться в Pytorch 2.0. То есть теперь гонять сети на картах AMD станет также легко как и на гпу от Nvidia! Это чудесные новости!

@ai_newz

31.0K viewsedited 10:34

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

А вот Лиза Су показывает риал-тайм демку инференса модельки Falcon 40B на MI300X.

Более того, они договорились с HuggingFace, что те возьмутся за оптимизацию многих моделей с HF хаба под видеокарты AMD 🔥

@ai_newz

21.3K views10:40

эйай ньюз

Кстати, на днях OpenAI обновили модели и публичный API.

Появилась модель gpt-3.5-turbo-16k с контекстом на 16к токенов.
Для сравнения, из всех моделей OpenAI самый большой размер контекста в 32k токенов есть у версии GPT-4, которой пока нет в публичном доступе.

Цена за токен у gpt-3.5-turbo упала на 25%. А цена за использование модели text-embedding-ada-002, вычисляющей эмбеддинги для текста упала на 75%. Забавный факт: раньше можно было посчитать эмбеддинги для всего текста в интернете примерно за $50 мл, сейчас же это обойдется всего в $12.5 млн

Эмбеддинги можно использовать для поиска релевантых параграфов в документах и кормить в ChatGPT как дополнительный контекст. Напимер, если вы хотите поспрашивать чат-гпт по PDF доке, вы первым делом должны посчитать эмбеддинги для текста этой PDF, а затем для каждого запроса искать наиболее релеватный кусок текста и добавлять его в контекст ChatGPT. По сути эмбеддинг - это сжатое представление текста в векторизованном виде, по которому легко искать.

@ai_newz

15.2K viewsedited 08:14

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

Моушн-дизайнерам на заметку!

Все, кто пытался стилизовать видео по текстовому запросу с помощью SD + ControlNet знают, что результат такой генерации начинает прыгать как собака, потому что каждый кадр обрабатывается независимо.

В этой статье эту проблемку частично решают. Решение не научное, а скорее инженерное и не требует перетренировки сеток. Предлагают стилизовать ключевые кадры, причем для достижения консистентности по стилю, пробрасывают cross-attention между ключевыми кадрами. Как я понял, сначала стилизуют один ключевой кадр, а потом используют его как контекст во время стилизации всех других.

Затем авторы пропагируют информацию от ключевых кадров к тем, что между ними. Тут для консистентности формы, текстур и цвета используются трюки в latent пространстве LDM: AdaIN для цвета, ворпинг кадров друг на друга (используя optical flow) для формы.

Подробности в статье.
Результаты на сайте проекта просто🔥

@ai_newz

14.9K views09:21

эйай ньюз

Forwarded from Derp Learning

This media is not supported in your browser

VIEW IN TELEGRAM

Произошел очередной отвал ~~жепы~~ башки на поприще ИИ-ассистентов!

Даем на входе видео с ютуба, скриншот из дискорда, и говорим: я вот дошел до этого шага на видео, покажи на скриншоте, куда мне кликать дальше.

Агенты ищут в видео кусок, описанный юзером, смотрят, что идет дальше, ищут нужный кусок скриншота.

Какой простор для оптимизации техподдержки, 99% работы которой сводится к совместному чтению уже существующих мануалов вместе с юзером.

Hold on to your ~~jobs~~ papers, what a time to be alive intensifies

Магия, да и только!

paper
tweet

11.3K views06:47

эйай ньюз

Французский LLM стартап, который поднял €105 млн через 4 недели после основания (ч.1)

В апреле я отправился из Цюриха в Париж, чтобы пересечься с коллегами из Meta GenAI, работающими над языковыми моделями. В нашем офисе я встретился c Гийомом Лампле (Guillaume Lample). Мы обсуждали LLaMa, ее дальнейшее развитие, поговорили про оптимизацию больших языковы моделей и трюки, которые можно применять для их ускорения во время инференса. В конце нашей встречи Гийом сказал, что он долго не задержится в Meta и через месяц уходит, чтобы создать свой стратап.

Через месяц после нашей встречи Гийом вместе с двумя друзьями основал в Париже стартап Mistral AI. Они намереваются строить большие и по настоящему открытые языковые модели, и возможно подвинуть OpenAI.

Еще через месяц, Mistral AI подняла seed раунд инвестиций на €105 млн и теперь оценивается в €240 млн. Представьте, компания, существующая всего месяц, не имеющая никакого продукта, и в которой всего 3 сотрудника уже оценивается в €240 млн! Давайте попробуем разобраться, почему так дорого, и почему фаундеры решили отдать целых 44% компании на первом же раунде инвестиций.

Итак, у компании три фаундера:
– CEO: Arthur Mensch. PhD в INRIA, 2 года PostDoc в École normale supérieure в Париже. Затем 2.5 года как Research Scientist в DeepMind, где кроме всего прочего внес вклад в известные модели Flamingo и Chinchilla. Имеет массивную экспертизу в языковых моделях.
– CTO: Timothée Lacroix. Работал Software Engineer в исследовательском отделе Facebook AI Research, один из контрибьютеров LLaMa. Самый инженеристый человек в команде Mistral AI, поэтому и CTO.
– Chief Research Officer (CRO): Guillaume Lample. Сделал PhD в Facebook AI Research и получил full-time позицию как Research Scientist в FAIR, а затем в GenAI, где и создал LLaMa. С Гийомом я пересекался еще в 2019, во время моей стажировки в FAIR, когда мы оба писали PhD. Уже тогда он показался мне невероятно продуктивным исследователем, у которого к защите диссертации было ~3000 цитирований. Основной его фокус это NLP и языковые модели, чем он и занимался, начиная с PhD и до основания стартапа. Самый маститый чел в плане науки и инноваций из трех фаундеров.

Как вы видите, команда получилась звездная, правда без бизнес экспертизы. Но я верю, что в ближайший год они нас удивят. Инвест фонд Lightspeed, который в них вложился, говорит так: "Это очень талантливая команда. Мы думаем, что в мире сейчас всего 70-100 человек с такой глубокой экспертизой в языковых моделях и их оптимизаций."

В отличие от OpenAI, где название не соответствует реальности, Mistral AI говорят “Open source is a core part of our DNA", то есть все свои разработки, включая данные и веса моделей, они планируют выкладывать в публичный доступ, что делает их ближе к Stability AI. Также в интервью TechCrunch они рассказали, что планируют строить свои модели только на публичных датасетах, чтобы избежать судебных исков (тут отсылка к Stability AI, у которых сейчас много проблем из-за данных). Пользователи тоже смогут вносить вклад, добавляя свои датасеты (думаю, примерно так как это сделано в Open Assistant).

Интересно что стартап не планирует выпускать продукты для конечных пользователей (вроде ChatGPT), вместо этого компания будет фокусироваться на enterprise клиентах. Я думаю, при их отрытой модели, это имеет смысл, ведь опен-соурс сообщество само позаботится о продуктах для обычных людей, как например это произошло со Stable Diffusion.

Продолжение в следующем посте.

@ai_newz #моемнение

15.1K viewsedited 09:18

эйай ньюз

Mistral AI (ч.2)

Для обучения LLM, нужно очень много вычислительных мощностей, которые будут обходиться компании в десятки миллионов $ в год. Кроме того, парни хотят собрать команду "мирового класса" для создания “самых лучших опен-соурсных моделей”, а зарплаты AI спецов такого уровня могут доходить до миллиона долларов. Поэтому для Mistra AI было важно быстро поднять такую большую сумму в €105 миллионов. Это позволит им начать работу над своей задумкой без промедления.

Да, это стоило им 44% компании, что довольно много для seed раунда. Но, во первых, я думаю Франция будет всячески топить за этот национальный стартап и помогать ему, ведь им важно иметь именно домашний французский AI. Во-вторых, я не исключаю варианта, что компания будет куплена через год два более крупным игроком, и быстрое раздувание оценки оправдается ранним экзитом для фаундеров. Для сравнения, в январе 2015 Google купил DeepMind за $400М (поразительно похожая история на сегодняшнюю). Однако, мне кажется, Mistral AI уже так не продешевит.

На скринах - Google Scholar профили фаундеров.

Читать Ч.1.

@ai_newz #моемнение

14.5K viewsedited 09:39

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Ох, свершилось. Кто-то наконец-то сделал виртуальную примерочную. И не кто-то, а Google.

Над этой проблемой бились долго, и много стартапов полегло. А тут взяли диффузию, на вход – фото человека, вместо текстового промпта – фото целевой одежды, джынь-брынь и готово! На выходе получаем человека, переодетого в заданную одежду.

Попробовать можно прямо в Google Shopping

Кстати, примерно 2.5 года назад гугл выпустил похожий продукт — виртуальную примерку помад.

А вот ещё подборка постов, где я писал про попытки сделать виртуальную примерку а помощью ГАНов (это технология для генерации картинок, которая была актуальна до прихода диффузионок). Можете проследить, как сильно результаты улучшились всего за 2 года:
https://yangx.top/ai_newz/60
https://yangx.top/ai_newz/694
https://yangx.top/ai_newz/733
https://yangx.top/ai_newz/914

Сайт проекта (CVPR 2023)
Блогпост

@ai_newz

27.9K viewsedited 15:16

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

CVPR 2023

Друзья, прямо сейчас я загружаюсь в самолёт и лечу на крупнейшую конференцию в мире — CVPR 2023 (Conference on Computer Vision and Pattern Recognition). Длится она целую неделю и ожидается порядка 10,000 участников. А в первый раз ее провели в1983 г.

На конференции одна из главных для меня вещей — это общение и знакомства. Для этого компании каждый день организуют свои тусовки. Ну, и конечно я буду посещать избранные доклады и постерные сессии, чтобы поговорить с авторами статей. Кроме того, я буду презентовать и свою статью Avatars Grow Legs!

Сделать канадскую визу для меня как и для многих других было отдельным приключением, и только вчера я смог забрать паспорт с заветной наклейкой.

А тех из вас, кто не попал на конфу, я постараюсь взять с собой виртуально и буду показывать самые интересные моменты с места событий.

Расскажите, чтобы бы вы больше всего хотели увидеть на конференции, и о чем мне рассказать. Напишите в комментах.

Если хотите пересечься в Ванкувере — тоже пишите.

@ai_newz

14.1K viewsedited 10:46

эйай ньюз

Нетворкинг на CVPR 2023

Друзья, у нас тут намечается критическая масса в Ванкувере. Поэтому я создал чатик для организации встреч. Добавляйтесь, если вы тоже тут.

https://yangx.top/+mjlZoGcsH0dkNGMy

@ai_newz

13.2K views02:27

эйай ньюз

Пока я летел до Ванкувера, слушал подкаст с Yoshua Bengio. Это канадский профессор, ещё один отец-основатель Глубокого Обучения, помимо Яна ЛеКуна и Джефа Хинтона.

Иошуа поговорил про большие языковые модели и высокоуровневое мышление. Очень интересно было послушать про ботлнек сознания человека — мы можем активно держать в уме только небольшое количество переменных, что концептуально сильно отличается от того как сейчас работают Deep Learning модели. С одной стороны, это ограничивает мощность человеческого мышления. С другой стороны это очень полезный регуляризатор, который, возможно, и позволил человеческому мозгу так быстро развиться в процессе эволюции и "заставил" человека учиться оперировать высокоуровневыми концептами.

Иошуа рассуждает о том, как было бы круто добавить такой индуктивный байес в обучение нейросетей и подводит к тому, что текущие авторегрессионные модели (как, например GPT-4) — это не совсем то, что может обрести интеллект равный человеческому. Он говорит, что не масштабированием единым мы достигнем AGI, и что нам предстоит ещё много чего концептуально улучшить в текущий моделях.

Ещё он много раз ссылается на свои недавние работы, где он со студентами пытается развивать новый тип моделей — Generative Flow Networks (GFlowNets). Я о них впервые услышал только в том подкасте, думаю стоит разобраться, что за они.

Уровень сложности подкаста — выше среднего. Но все равно очень рекомендую к прослушиванию.

Spotify | YouTube

@ai_newz

S3 E1 Turing Award Winner Yoshua Bengio: Equipping AI with Higher Level Cognition and Creativity

S3 E1: Equipping AI with Higher Level Cognition and Creativity -- Guest: Turing Award Winner Yoshua Bengio (Host: Pieter Abbeel)

What's in this episode:
00:00:00 - Yoshua
00:01:40 - sponsors: Index Ventures, Weights and Biases
00:02:46 - language models…

15.5K viewsedited 04:00

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

CVPR День первый: воркшопы и туториалы

Держу вас в курсе. Начался первый день конфы.

Я уже посетил Efficient Neutral Network воркшоп от Снепа. Послушал про эффективные архитектуры трансформеров для мобилок и про SnapFusion — ускоренную Stable Diffusion для мобил. Ребята достигли скорости 1.9 сек 🔥 за картинку на iPhone 14.

Сейчас зашёл на туториал по диффузионным моделям. Это по сути развитие туториала с CVPR 2022, о котором я много раз писал. Очень классная штука, советую. Надеюсь, они выложат записи на ютуб.

#конфа
@ai_newz

14.9K viewsedited 17:43

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

А вот несколько слайдов с доклада "Efficient Text-to-Image Generation", где Снэп рассказывал про свою работу по ускорению Stable Diffusion.

Плюс демка, где они запускали генерации на телефоне.

Модель уменьшили, ускорили, дистиллировали и сконвертировали в Apple CoreML. Во время инференса использовали 8 шагов с DDIM семплером. Скорость генерации 1.9—2.0 сек / картинка на iPhone 14.

Представьте только. На GPU 50 шагов DDIM оригинальной Stable Diffusion в разрешении 512×512 работает примерно 1.7 сек. А тут сделали на мобиле почти за такое же время и без потери в качестве!

Сайт проекта SnapFusion

#конфа
@ai_newz

15.0K views15:11