эйай ньюз
71.7K subscribers
1.56K photos
835 videos
7 files
1.89K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
加入频道
Elevenlabs жестко тролит гугл.

Бедные работяги из DeepMind только выложили блогпост о том, как они научились генерировать звук для видео, так ребята из Elevenlabs за сутки своротили похожую тулзу, да дали доступ к API, да еще и веса выложили.

Я уже было подумал, что последние просто разнесли гугл, лол. Посмотрел, что там да как, и просто орнул. Чуваки из Elevenlabs просто берут пару кадров из инпут-видео, скармливают GPT-4, который пишет промпт для их свежей txt2sfx модели. Рабоатет на удивление не так уж плохо - но хуже гугловской.

В целом, гугловская моделька имеет более фундаментальный подход, где сначала в диффузионную модель кормится текстовый промпт и все токены из видео, а по ним уже генерируется аудиодорожка. Модель хоть как-то да синхронизирует звук и видео - это видно на примерах. Особенно прикольный результат на видосе с гитарой.

Выше сравнение черепиков от DeepMind с моими zero-shot испытаниями Elevenlabs. Сами угадайте, где кто :) Качество видосов такое шакальное, потому что гугл их в таком виде выложили.

В методе Elevenlabs используются 4 кадра из первых 4-х секунд (поэтому последний подрезал в начале, иначе там просто шум), так что местами создается впечатление наличия какой-то синхронизации, особенно если выбрать лучший вариант из 4 предложенных.

video2sfx ElevenLabs
Код
txt2sfx ElevenLabs
Блогпост DeepMind

@ai_newz
Кажись Игра Престолов в Stability пока приостановилась - по данным The Information, в компанию зашла новая группа инвесторов с баблишком. Из их числа будет и новый CEO, Прем Аккараджу. Это бывший CEO Weta, компании созданной для производства спецэффектов в Властелине Колец, а с тех пор делающей самые сложные сцены в Аватаре, Мстителях и других графонистых фильмах.

Компании нужно срочно искать новых клиентов, ведь она теряет деньги бешенными темпами: в первом квартале этого года расходы были 30 миллионов, при доходе в 5. А на балансе компании висит долг в $100 млн за облачные вычисления и прочее.

Похоже новые инвесторы верят что именно они смогут найти новые источники дохода, непонятно как это сочетается с открытыми релизами моделей. Я бы сказал, что это как раз не сочетается, и возможно золотые дни Stability с опесорсами уже сочтены.

@ai_newz
Media is too big
VIEW IN TELEGRAM
Гугл предложил мне перейти на модель Gemini вместо стандартного Google Assistant в моем Pixel 7 – я согласился. Ассистентом я не пользовался почти никогда, а вот Gemini решил затестить. Как раз купил сегондя smart-лампочку, которую можно привязать к Google Home.

И вот что вышло. Если я называл полное имя лампы по английски «Office Lamp», то хоть и с весомой задержкой, но модель понимала, что ей нужно делать – хотя тут и обычный speech2text + регулярки бы справились. Однако, Gemini оказался довольно тупым, если я объяснял инструкцию другими фразами, например «Включи лампу в офисе» или просил поменять свет на холодный. Даже в контексте одного диалога модель была не в состоянии понять, что я имею в виду, и даже съехала на то, что она вообще не умеет управлять физическими предметами 🤡. И это еще учитывая, что у меня Gemini Advanced по премиумной подписке.

Так что AGI еще не здесь. Нужно чуть-чуть подождать, дамы и господа.

С вами был обзорщик LLM-ок и умных лампочек, Артем 😄.


@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Stanford воплотил в жизнь фильм Живая сталь!

Зацените, что там ребята намутили. Подгрузили датасет из 40 часов кожаной мышечной даты, натренировали роботов на legged_gym (это который недавно представили Nvidia вместе с GR00T, писал здесь ) и rsl_rl. Этого было достаточно, чтобы их робот смог в реальном времени, используя одну камеру, в точности повторять движения человека. Получился реальный Зевс из "Живой стали". (Прикрутить бы железа побольше да моторы помощнее).

Дальше больше. Повторяя за человеком, бот учится делать все самостоятельно. Даже вот на пианино играть. Для обретения навыка с успехом в 60-100% нужно всего 40 (не опять, а снова) повторений. Мне покажи 40 раз, как играть, я не научусь, лол.

Видосы самостоятельной работы, конечно, ускорены, но это лишь вопрос компьютера.

Вот вам
Project page,
пейпер,
датасет,
код!,
список всего харда!!! со ссылками на Амазон для покупки.

Это я понимаю опенсорс, теперь можно хоть дома такого собрать :) Железо обойдется в $108,000, если не учитывать 3D принтер.

@ai_newz
Нейродайджест за неделю (#23)

LLM/AGI
- ClosedAI сама подумывает сменить статус компании с нонпрофит на benefit corporation. В целом, от нонпрофит у них осталось только название.
- Суцкевер: возрождение. Илья основал свою новую Safe Superintelligence Inc. Будут пилить AGI без коммерции (и денег, лол).
- GPT 4-o в пролете. Claude 3.5 Sonnet - пушка гонка! + Artifacts.

Что-то про видео
- Анонс Runway GEN-3. Продолжение недели text-2-video порадует. По черрипикам они ближе всех к Sora.
- Showcase Luma. Вот что бывает, когда инструмент используют прямыми руками. Челики выжали из доступной всем нейронки видосы уровня 99% Сора.
- Сразу две video2sfx модели. Elevenlabs тролит Google, «повторив» ресерч DeepMind за сутки.

StabilityAI
- SD3 Medium - мертворожденный продукт. Подробности о внутренней кухне StabilityAI от разраба Comfy UI.
- В стране StabilityAI новый король. В контору зашли новые инвесторы во главе с новым CEO Премом Аккараджу. Может, мы еще увидим новый восход SAI.

Ништяки для кодеров
- Фундаментальное обновление NumPy 2.0. Это первая такая обнова за 18 лет.
- DeepSeek Coder V2. Специальная модель для кода, на уровне Claude 3.5 Sonnet, но очень быстрая и очень эффективная.

Прочее
- Нейросеть из редстоуна. Челик собрал MLP для распознавания рукописных цифр в майнкрафте.
- Коллеги из Мета выпустили две open source модельки: мультимодальный генератор
Chameleon и ускореные LLM с помощью декодинга нескольких токенов за раз (
Multi-Token Prediction Language Model).
- Робот гуманойд своими руками. Stanford заопенсорсили и выложили все необходимые детали для сборки и тренировки собственного робота помощника. А еще он все за вами повторяет как в живой стали, можно идти на ринг🥊
- Мой личный тест ассистента Gemini. Вердикт - рубильник на стене умнее. С вами был обзорщик LLM-ок и умных лампочек, Артем 😄.

> Читать дайджест #22

#дайджест
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Там Китайцы обновили свою модель для видео генерации Kling (пост про нее). Теперь она умеет оживлять фото, "Image-to-Video", как и Luma, а также может продлить видео вплоть до 3 минут – будет генериться по кусочкам, где каждый кусочек контролируется отдельным промптом.

Пёсель очень круто бежит, да так что уши трясутся ❤️.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM