Media is too big
VIEW IN TELEGRAM
⚡PeRFlow: Piecewise Rectified Flow as Universal Plug-and-Play Accelerator
Я уже не успеваю писать обзоры на все новые методы ускорения text2image диффузии (вот тут делал целую подборку). Вот появился еще один метод от китайцев из ТикТока. Заключается он в том, чтобы дистиллировать сильно нелинейные траектории процесса гаусовской диффузии в более прямые траектории, где ошибка не так быстро копится во время инференса с малым числом шагов.
В InstaFlow ранее уже пытались выпрямлять траектории, но там они стремились к полностью линейной траектории, что довольно проблематично. В PeRFlow же предлагают учить кусочно-линейные траектории, что немного релаксирует проблему.
В итоге, показывают результаты лучше чем Latent Consistency Models за 4 и 8 шагов. LCM, конечно, уже не СОТА, но все же.
Статьи еще нет, но код и веса уже есть. Это выглядит довольно странно – думаю, что торопились выложить хоть что-то после выхода статьи SD3 и до релиза их весов.
Обучили PeRFlow пока только для SD1.5 и SD2.1. К тому же показали, что можно применять разницу весов (W_orig - W_PerFlow) на всевозможные LoRA и файнтюны с civitai.com и получать ускорение из коробки – это прям круто!
Код и веса
Сайт проекта с картинками
@ai_newz
Я уже не успеваю писать обзоры на все новые методы ускорения text2image диффузии (вот тут делал целую подборку). Вот появился еще один метод от китайцев из ТикТока. Заключается он в том, чтобы дистиллировать сильно нелинейные траектории процесса гаусовской диффузии в более прямые траектории, где ошибка не так быстро копится во время инференса с малым числом шагов.
В InstaFlow ранее уже пытались выпрямлять траектории, но там они стремились к полностью линейной траектории, что довольно проблематично. В PeRFlow же предлагают учить кусочно-линейные траектории, что немного релаксирует проблему.
В итоге, показывают результаты лучше чем Latent Consistency Models за 4 и 8 шагов. LCM, конечно, уже не СОТА, но все же.
Статьи еще нет, но код и веса уже есть. Это выглядит довольно странно – думаю, что торопились выложить хоть что-то после выхода статьи SD3 и до релиза их весов.
Обучили PeRFlow пока только для SD1.5 и SD2.1. К тому же показали, что можно применять разницу весов (W_orig - W_PerFlow) на всевозможные LoRA и файнтюны с civitai.com и получать ускорение из коробки – это прям круто!
Код и веса
Сайт проекта с картинками
@ai_newz
Jamba - вроде Mamba, вроде MoE, вроде трансформер, и в то же время ничто из этого
Заявляют, что по бенчам на уровне Mixtral 8x7b, параметров в целом чуть больше (52B vs 46.7B у Mixtral), но активируется чуть меньше (12B vs 12.9B у Mixtral). Говорят что поддерживается контекст вплоть до 256к, но относиться к этому стоит скептически. В целом не заслуживало бы внимания, если бы не архитектура.
А вот архитектурно это ОЧЕНЬ странная модель – мешают сразу три типа слоёв (см. вторую каритнку). В каждом блоке в 8 слоёв 4 MoE, 3 Mamba и 1 классический трансформерный. То есть на бумаге там 16 экспертов, из них активных 2, но тем не менее половина активируемых параметров при работе модели – dense.
Зачем так сделали – непонятно, но вроде работает. Главное преимущество по сравнению перед Mixtral - поддержка очень длинного контекста - 140к на одной A100, против 64k у Mixtral, причём на длинных контекстах Jamba вплоть до 3 раз быстрее. Главная проблема таких заявлений – непонятно как эта модель ведёт с такими огромными контекстами. Результатов для Needle In a Haystack бенчмарка нет.
В целом ничего не понятно, но очень интересно.😊
Веса
Блогпост
@ai_newz
Заявляют, что по бенчам на уровне Mixtral 8x7b, параметров в целом чуть больше (52B vs 46.7B у Mixtral), но активируется чуть меньше (12B vs 12.9B у Mixtral). Говорят что поддерживается контекст вплоть до 256к, но относиться к этому стоит скептически. В целом не заслуживало бы внимания, если бы не архитектура.
А вот архитектурно это ОЧЕНЬ странная модель – мешают сразу три типа слоёв (см. вторую каритнку). В каждом блоке в 8 слоёв 4 MoE, 3 Mamba и 1 классический трансформерный. То есть на бумаге там 16 экспертов, из них активных 2, но тем не менее половина активируемых параметров при работе модели – dense.
Зачем так сделали – непонятно, но вроде работает. Главное преимущество по сравнению перед Mixtral - поддержка очень длинного контекста - 140к на одной A100, против 64k у Mixtral, причём на длинных контекстах Jamba вплоть до 3 раз быстрее. Главная проблема таких заявлений – непонятно как эта модель ведёт с такими огромными контекстами. Результатов для Needle In a Haystack бенчмарка нет.
В целом ничего не понятно, но очень интересно.
Веса
Блогпост
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
На этой неделе всплыло две заметных истории на стыке AI и крипты, хороший повод напомнить, что они связаны сильнее чем кажется.
Виталик Бутерин (основатель Ethereum), как оказалось, ещё в 2021 году, задонатил мемкоинов Shiba Inu в Future of Life Institute (FLI) – это авторы петиции о запрете тренировки моделей умнее GPT-4, они же добились ряда ужесточающих правок в недавний Европейский AI Act.
Сам Виталик на тот момент думал, что вывести они смогут всего пару десятков лямов, но его подарок оказался ГОРАЗДО дороже - астрономические, для think tank-ов, 665 миллионов долларов. Это нарушило баланс настолько сильно, что Виталик уже пообещал исправить ситуацию и закинуть монет pro-акселерационистам (тем, кто топит за быстрейшее развити AI). Между тем свои деньги FLI едва ли начал тратить – так что ждите куда больше призывов запретить AI в ближайшем времени.
Другая заметная криптоиистория на этой неделе – про бывшую ранее криптобиржей, а сейчас возвращающую деньги вкладчикам, FTX. Обанкротившаяся биржа продала 2/3 своей доли в Anthropic за $884 миллиона, это стало известно из документов суда. FTX приобрела в 2021 году 8% Anthropic за $500 лямов, в обычной ситуации это считалось бы удачной инвестицией, но, как и многие другие операции FTX, это было сделано за деньги со счетов клиентов, что незаконно. За это их и судят (основатель уже сидит свой срок в 25 лет). Из хороших новостей - с продажи этих акций планируется вернуть деньги вкладчикам.
Обе эти истории начались ещё до глобального AI бума, который начался с выхода ChatGPT в декабре 2022 (пост). А в прошлом году, посмотрев на низкую цену биткоина и почуяв денежный зхапах от хайпа вокруг ChatGPT, куча криптобро резко переобулись и стали AI-интузиастами. Так что криптоденьги точно всплывут где-то ещё и в большем масштабе. Интересно где?
@ai_newz
Виталик Бутерин (основатель Ethereum), как оказалось, ещё в 2021 году, задонатил мемкоинов Shiba Inu в Future of Life Institute (FLI) – это авторы петиции о запрете тренировки моделей умнее GPT-4, они же добились ряда ужесточающих правок в недавний Европейский AI Act.
Сам Виталик на тот момент думал, что вывести они смогут всего пару десятков лямов, но его подарок оказался ГОРАЗДО дороже - астрономические, для think tank-ов, 665 миллионов долларов. Это нарушило баланс настолько сильно, что Виталик уже пообещал исправить ситуацию и закинуть монет pro-акселерационистам (тем, кто топит за быстрейшее развити AI). Между тем свои деньги FLI едва ли начал тратить – так что ждите куда больше призывов запретить AI в ближайшем времени.
Другая заметная криптоиистория на этой неделе – про бывшую ранее криптобиржей, а сейчас возвращающую деньги вкладчикам, FTX. Обанкротившаяся биржа продала 2/3 своей доли в Anthropic за $884 миллиона, это стало известно из документов суда. FTX приобрела в 2021 году 8% Anthropic за $500 лямов, в обычной ситуации это считалось бы удачной инвестицией, но, как и многие другие операции FTX, это было сделано за деньги со счетов клиентов, что незаконно. За это их и судят (основатель уже сидит свой срок в 25 лет). Из хороших новостей - с продажи этих акций планируется вернуть деньги вкладчикам.
Обе эти истории начались ещё до глобального AI бума, который начался с выхода ChatGPT в декабре 2022 (пост). А в прошлом году, посмотрев на низкую цену биткоина и почуяв денежный зхапах от хайпа вокруг ChatGPT, куча криптобро резко переобулись и стали AI-интузиастами. Так что криптоденьги точно всплывут где-то ещё и в большем масштабе. Интересно где?
@ai_newz
POLITICO
The little-known AI group that got $660 million
Powered by a massive cash infusion from a cryptocurrency mogul, the Future of Life Institute is building a network to fixate governments on the AI apocalypse.
Hume.ai - теперь бот способен чувствовать🥹
Нарратив о психологической помощи от AI-ботов с самого начала появления LLM витает в воздухе. Для многих это более доступно чем обратиться к кожаному психологу (конечно, есть сомнения по поводу качества, но мы туда движемся). И, кажется, Hume – это огромный шаг в этом направлении. Он способен понимать эмоции собеседника не только по контексту, но и по его интонации! За этим очень интересно наблюдать на диаграмме внизу экрана, которую разработчики нам гордо оставили. Кстати, в плейграунде Humе.ai также лежит демка, способная определять эмоции по выражению лица, но в чат её пока не прикрутили.
Сейчас модель предлагают использовать для развлечения, а бизнесу - для аналитики разговоров и выявления токсичности в играх.
Из прикольного ещё то, что бот отвечает с разной интонацией (да, он разговаривает), в зависимости от того, какую эмоцию он хочет передать. Да и вообще, всё настроено на болтовню так, чтобы пользователь вообще не замечал, что общается с ботом. Ты просто говоришь, а он тебе сразу же, без задержек, отвечает. Разговор действительно получается довольно живым и интересным.
Рекомендую попробовать - Демо
@ai_newz
Нарратив о психологической помощи от AI-ботов с самого начала появления LLM витает в воздухе. Для многих это более доступно чем обратиться к кожаному психологу (конечно, есть сомнения по поводу качества, но мы туда движемся). И, кажется, Hume – это огромный шаг в этом направлении. Он способен понимать эмоции собеседника не только по контексту, но и по его интонации! За этим очень интересно наблюдать на диаграмме внизу экрана, которую разработчики нам гордо оставили. Кстати, в плейграунде Humе.ai также лежит демка, способная определять эмоции по выражению лица, но в чат её пока не прикрутили.
Сейчас модель предлагают использовать для развлечения, а бизнесу - для аналитики разговоров и выявления токсичности в играх.
Из прикольного ещё то, что бот отвечает с разной интонацией (да, он разговаривает), в зависимости от того, какую эмоцию он хочет передать. Да и вообще, всё настроено на болтовню так, чтобы пользователь вообще не замечал, что общается с ботом. Ты просто говоришь, а он тебе сразу же, без задержек, отвечает. Разговор действительно получается довольно живым и интересным.
Рекомендую попробовать - Демо
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
app.hume.ai
App · Hume AI
Welcome to the Hume AI App. Discover and interact with custom characters powered by Hume AI’s advanced emotional intelligence technology.
Microsoft планирует построить для OpenAI суперкомпьютер за $100 миллиардов (!). Называется Stargate, запустят в 2028, это будет пятой стадией постройкой Microsoft суперкомпьютеров для OpenAI. Третью заканчивают сейчас, четвёртую запустят в 2026 году, а звёздные врата откроют уже в 2028, с планируемым расширением в 2030.
Жрать энергии он будет вплоть до 5 гигаватт, так что питать его скорее всего планируют энергией ядерного синтеза – Microsoft год назад заключила контракт c Helion, компанией в которой у Сэма Альтмана большая доля, на поставку электроэнергии в больших объёмах, и как раз к 2028 году.
Большая часть денег уйдёт на чипы, а так как энергию скорее всего организовывает Альтман, то и с чипами может выйти такая история.
Со слов Альтмана, для создания superintelligence нам скорее всего понадобится значительный прорыв в энергетике.
Проект очень рискован технически – не очень понятно получится ли питать, связывать и охлаждать такое количество чипов, особенно учитывая то что (по слухам) строить это всё будут в пустыне. Под землю что-ли все закопают? Реализация проекта ещё под вопросом и зависит от результатов GPT-5.
Что вообще они там собираются тренировать?😢
@ai_newz
Жрать энергии он будет вплоть до 5 гигаватт, так что питать его скорее всего планируют энергией ядерного синтеза – Microsoft год назад заключила контракт c Helion, компанией в которой у Сэма Альтмана большая доля, на поставку электроэнергии в больших объёмах, и как раз к 2028 году.
Большая часть денег уйдёт на чипы, а так как энергию скорее всего организовывает Альтман, то и с чипами может выйти такая история.
Со слов Альтмана, для создания superintelligence нам скорее всего понадобится значительный прорыв в энергетике.
Проект очень рискован технически – не очень понятно получится ли питать, связывать и охлаждать такое количество чипов, особенно учитывая то что (по слухам) строить это всё будут в пустыне. Под землю что-ли все закопают? Реализация проекта ещё под вопросом и зависит от результатов GPT-5.
Что вообще они там собираются тренировать?
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Дайджест по новым LLM
На неделе появился целый батч новых любопытных моделей, про них и поговорим.
▶️ x.ai Илона Маска анонсировали Grok 1.5. По опубликованным авторами бенчмаркам заметно лучше v1.0, особенно в ризонинге (способности к логическому мышлению). Увеличили длину контекста до 128к. Обещают дать доступ к модели на следующей неделе. Grok 2, по словам Маска, "обгонит современный AI по всем метрикам" 😨 .
▶️ Samba-CoE - семейство франкенштейн-моделек. Авторы берут кучу моделек с HF, даже с разными архитектурами, и делают что-то в духе c-BTM: тренируют ещё одну модель которая выбирает лучшего "эксперта" в зависимости от задачи. Весов нету, есть демка. То есть это монстр из нескольких моделей, где во время инференся динамически выбирается какой токен и через какую модель пропустить. Samba – это хороший пример того, что бенчмарки не совсем отражают полезность модели и воспринимать репорты лучше со щепоткой соли. Особенно здесь, где смешали в кучу сомнительных моделей с хаггингфейса, которые не факт что не тренировали на бенчмарках. Ждем реальных тестов на Chatbot Arena.
▶️ Qwen1.5-MoE-A2.7B - 14.3B MoE моделька от Alibaba, по перформансу на уровне Qwen1.5 7B (был пост про Qwen1.0) при этом в три раза быстрее. Архитектурно - 64 эксперта, 4 из них выбраны по дефолту, ещё 4 выбираются из оставшихся 60. Активно 2.7 миллиарда параметров (отсюда и название): 0.7B эмбеддинги + 2B в теле модели. Хороша если у вас много памяти, чтобы вместить 14.3B параметров, но слабое железо. Напрмиер, если запускаете на CPU, маках и старых enterprise видеокартах. Блогпост с деталями.
▶️ Кроме этого вышли DBRX [тык], Stable Code Instruct 3B [тык] и Jamba [тык], про них были отдельные посты.
#дайджест
@ai_newz
На неделе появился целый батч новых любопытных моделей, про них и поговорим.
#дайджест
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Chatbot Arena: В топе LLM арены в этом месяце заметные перестановки
* GPT-4 уступила своё лидерство Claude 3 Opus
* Старые версии GPT-4 проигрывают даже Claude 3 Haiku - а он ведь дешевле GPT-3.5 (!)
* Command R от Cohere прошла в топ 10, при том что у неё всего 35 миллиарда параметров (а ещё её можно скачать)
Что за Chatbot Arena?
Chatbot Arena – это пожалуй один из самых внушающих доверие рейтингов LLM, т.к. там тестируют модели в "полевых условиях" на случайных запросах от пользователей. За место в рейтинге на Chatbot Arena модели соревнуются путём дуэлей друг с другом – на сайте юзеры общаются с двумя анонимными LLM одновременно и голосуют за лучшую из этих двух. Рейтинг определяется по системе ELO (её также используют для определения рейтинга игроков в шахматах).
Недавней DBRX на лидерборде арены ещё нет из-за недостаточного количества голосов, но это можно исправить – любой может зайти на арену и потестировать пару LLM-ок вслепую.
Почитать подробнее про Арену:
- Блогпост
- Статья
- Лидерборд
#ликбез
@ai_newz
* GPT-4 уступила своё лидерство Claude 3 Opus
* Старые версии GPT-4 проигрывают даже Claude 3 Haiku - а он ведь дешевле GPT-3.5 (!)
* Command R от Cohere прошла в топ 10, при том что у неё всего 35 миллиарда параметров (а ещё её можно скачать)
Что за Chatbot Arena?
Chatbot Arena – это пожалуй один из самых внушающих доверие рейтингов LLM, т.к. там тестируют модели в "полевых условиях" на случайных запросах от пользователей. За место в рейтинге на Chatbot Arena модели соревнуются путём дуэлей друг с другом – на сайте юзеры общаются с двумя анонимными LLM одновременно и голосуют за лучшую из этих двух. Рейтинг определяется по системе ELO (её также используют для определения рейтинга игроков в шахматах).
Недавней DBRX на лидерборде арены ещё нет из-за недостаточного количества голосов, но это можно исправить – любой может зайти на арену и потестировать пару LLM-ок вслепую.
Почитать подробнее про Арену:
- Блогпост
- Статья
- Лидерборд
#ликбез
@ai_newz
Эмад (бывший CEO Stability_ai) заретвитил мой пост про SD3-Turbo и пообещал, что веса и код скоро будут опубликованы ☕️ .
Так что ждем!
@ai_newz
Так что ждем!
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation
Недавно парни из группы Photogrammetry and Remote Sensing (PRS) ETH Zürich выпустили модельку Marigold-LCM для вычисления карты глубины по одному изображению.
Тут используют Latent Consistency Model дистилляцию чтобы осуществлять семплинг карты глубины в ОДИН шаг, вместо обычных 10-50. Благодаря этому, теперь можно обрабатывать видео, что показано в тизере. Это еще один пример того, как ускоряют диффузию с помощью дистилляции (был пост про дистилляцию SD3), только тут вместо фоток генерируются depth map.
Идея
Первая модель Marigold вышла несколько месяцев назад и по сути являлась демонстрацией довольно простой идеи, которую описал мне соавтор статьи, Антон: если современные text-to-image модели способны выдавать фотореалистичные изображения, то они выучили довольно мощный generative prior, который знает проективную геометрию и как выглядят сцены из нашего реального мира. Ну а также из паралелльных миров, включая мемасы, комиксы, и прочую дичь которой занимаются в ComfyUI. А значит, можно брать свежую t2img модель с открытыми весами, минимально допиливать ее на уровне архитектуры чтобы не сильно отойти от натрененных весов, и файнтюнить ее при помощи небольшого набора данных на (почти) любой негенеративный таск. Вычисление карт глубины это как раз такая задача (ее новая, но все еще актуальная), и на ней довольно просто обкатать идею и измерить прогресс.
Что с результатами?
На деле у ребят получился мощный monocular depth estimation, которым вынесли MIDAS и прочие регрессионные U-Net решения, до сих пор используемые в Гугле, Диснее, и других уважаемых компаниях. Его отличительная особенность в том, что модель файнтюнится на синтетических рендерах комнат из датасета HyperSim, а на практике работает на любых сценах. И все благодаря мощному генеративному прайору Stable Diffusion 2, который являлся отправной точкой для файнтюна модели.
Демо (LCM, быстрое)
Демо (DDIM, качественное)
Сайт
Статья
Код
@ai_newz
Недавно парни из группы Photogrammetry and Remote Sensing (PRS) ETH Zürich выпустили модельку Marigold-LCM для вычисления карты глубины по одному изображению.
Тут используют Latent Consistency Model дистилляцию чтобы осуществлять семплинг карты глубины в ОДИН шаг, вместо обычных 10-50. Благодаря этому, теперь можно обрабатывать видео, что показано в тизере. Это еще один пример того, как ускоряют диффузию с помощью дистилляции (был пост про дистилляцию SD3), только тут вместо фоток генерируются depth map.
Идея
Первая модель Marigold вышла несколько месяцев назад и по сути являлась демонстрацией довольно простой идеи, которую описал мне соавтор статьи, Антон: если современные text-to-image модели способны выдавать фотореалистичные изображения, то они выучили довольно мощный generative prior, который знает проективную геометрию и как выглядят сцены из нашего реального мира. Ну а также из паралелльных миров, включая мемасы, комиксы, и прочую дичь которой занимаются в ComfyUI. А значит, можно брать свежую t2img модель с открытыми весами, минимально допиливать ее на уровне архитектуры чтобы не сильно отойти от натрененных весов, и файнтюнить ее при помощи небольшого набора данных на (почти) любой негенеративный таск. Вычисление карт глубины это как раз такая задача (ее новая, но все еще актуальная), и на ней довольно просто обкатать идею и измерить прогресс.
Что с результатами?
На деле у ребят получился мощный monocular depth estimation, которым вынесли MIDAS и прочие регрессионные U-Net решения, до сих пор используемые в Гугле, Диснее, и других уважаемых компаниях. Его отличительная особенность в том, что модель файнтюнится на синтетических рендерах комнат из датасета HyperSim, а на практике работает на любых сценах. И все благодаря мощному генеративному прайору Stable Diffusion 2, который являлся отправной точкой для файнтюна модели.
Демо (LCM, быстрое)
Демо (DDIM, качественное)
Сайт
Статья
Код
@ai_newz
Нейродайджест за неделю (#11)
1. Компьютерное зрение и графика
- RadSplat - рендеринг в VR, с качеством NeRF на скорости 900FPS.
- PeRFlow - новинка от китайцев из тиктока, ускоряющая text2image диффузию с помощью выпрямления нелинейных траекторий диффузии.
- Marigold-LCM - предсказание карты глубины на основе одного изображения.
- Viggle AI - пара мемов и моушн-кэпчер из видоса.
2. Инновации в мире эйай
- Суперкомпьютер Stargate от Microsoft и OpenAI - настолько мощный, что ему нужен свой ядерный реактор.
- Hume.ai - AI-бот, способный "чувствовать" эмоции собеседника. Теперь с gpt-шкой можно слезно поболтать за жизнь.
3. LLM-ки
- Mistral Instruct 7B v0.2 поиграл в дум DOOM и еще пара приколюх с хакатона Mistral.
- Дайджест новых LLM - обзор последних достижений и анонсов в мире моделей больших языковых моделей, включая Grok 1.5 от Илона Маска.
- В топе LLM заметные перестановки. И что такое Chatbot Arena
- DBRX и Stable Code Instruct 3B - новые лидеры open source AI-моделей.
4. Интересное
- Вклад Виталика Бутерина в AI (тот что создал Ethereum) и крипто-история FTX, показывающие взаимосвязь мира криптовалют и развития искусственного интеллекта.
#дайджест
@ai_newz
1. Компьютерное зрение и графика
- RadSplat - рендеринг в VR, с качеством NeRF на скорости 900FPS.
- PeRFlow - новинка от китайцев из тиктока, ускоряющая text2image диффузию с помощью выпрямления нелинейных траекторий диффузии.
- Marigold-LCM - предсказание карты глубины на основе одного изображения.
- Viggle AI - пара мемов и моушн-кэпчер из видоса.
2. Инновации в мире эйай
- Суперкомпьютер Stargate от Microsoft и OpenAI - настолько мощный, что ему нужен свой ядерный реактор.
- Hume.ai - AI-бот, способный "чувствовать" эмоции собеседника. Теперь с gpt-шкой можно слезно поболтать за жизнь.
3. LLM-ки
- Mistral Instruct 7B v0.2 поиграл в дум DOOM и еще пара приколюх с хакатона Mistral.
- Дайджест новых LLM - обзор последних достижений и анонсов в мире моделей больших языковых моделей, включая Grok 1.5 от Илона Маска.
- В топе LLM заметные перестановки. И что такое Chatbot Arena
- DBRX и Stable Code Instruct 3B - новые лидеры open source AI-моделей.
4. Интересное
- Вклад Виталика Бутерина в AI (тот что создал Ethereum) и крипто-история FTX, показывающие взаимосвязь мира криптовалют и развития искусственного интеллекта.
#дайджест
@ai_newz
Telegram
эйай ньюз
🔥RadSplat - качество рендеринга как NeRF, но в 900FPS!
Переносить реальные пространства в VR в высоком разрешении - это то к чему многие ресерчеры стремятся. Но для реального применения, тут важно уметь быстро рендерить реалистичную картинку отсканированных…
Переносить реальные пространства в VR в высоком разрешении - это то к чему многие ресерчеры стремятся. Но для реального применения, тут важно уметь быстро рендерить реалистичную картинку отсканированных…
Suno v3 – Лучшая text2musiс модель + Туториал
Недавно вышла Suno v3, беспрецедентно лучшая txt2music и txt2audio.
Suno v3 способна за раз генерить реально интересные 2-х минутные песни (а то и неограниченно долгие с функцией continue). И да, именно песни! Потому что она также генерит и вокал, который в последней версии мощно апгрейднулся. Скажем так, Suno v3 сейчас на уровне Midjorney v3. Красиво, но с особенностями.
********
Выход Suno v3 похож на появление первой txt2img модели. Сначала все вбивали рандомные идеи в случайной форме в окошко промпта и удивлялись тому, как красиво получается. Потом мы захотели понять, как сделать не просто красиво, а красиво, да чтоб, так как надо. Появились wiki, всякие пдфки, гитхабы со сравнением промптов. Вот и с Cуно так же.
🎸Вот вам prompt engineering гайд по Suno v3:
Заходим на главную, вкладка create. Здесь режим Simple (сгенерит вам песню и текст, но без фишек ниже), а можем выбрать custom mode. Берем, конечно же, второе. Там видим окошко промпта и текста.
Вот что нужно знать:
1. Воркфлоу
Первая генерация max 2 минуты. Обычно это может быть интро, куплет и припев (может больше, если у вас high tempo). Далее тыкаем continue, это + примерно 1 минута — еще куплет и/или припев.
Можно по-разному генерить. Но мне больше всего понравилось так:
1. Вставляем промпт и весь текст.
2. Continue from this track. Вырезаем весь текст, который уже спели и снова генерим. Опционально можно переместить склейку с помощью continue from на конец предыдущего куплета/припева и/или изменить промпт для новой части.
3. Повторяем пункт 2 пока не закончится текст.
4. Get Whole Song - *тык*
5. Регистрируемся на onerpm, генерим обложку, вставляем текст и через две недели ваш трек на всех стримингах 🤭
2. Prompt шаблон.
Лучше всего работает связка:
(Жанр/ы), (описание настроения/темпа/идеи), (какие-то конкретные инструменты, детали).
3. Метатэги наше все!
Метатеги это инструкции внутри [ ] в окне lyrics. Они подсказывают нейронке, что делать. Метатэги — пространство для экспериментов, они могут сработать, а могут и нет. Пишем туда все, что придёт в голову!
Вот пара идей.
Стандартная структура поп трека выглядит так:
Можно обойтись и без нее, но так кусок из куплета не заедет в припев.
- стиль исполнения
[Soft female singing]
[Hyperaggressive lead guitar solo] - да да, инструменты тоже можно
[Epic chorus]
[Rap]
- [instrumental], чтобы суно не галлюцинировал текст сам.
- Можно попытаться прописать партию какого-то инструмента, лол
4. ( текст )
скобки для бэков, хорусов и прочих приколов.
5. Solo Vocals, [Lead Vocalist] и пр.
Suno любит даблы и хор, но качество и разборчивость слов от этого сильно страдает. Рекомендую к применению.
6. Ударения.
Время вспомнить второй класс 😄 Все ради контроля произношения, интонации и ритмических акцентов, особенно на русском языке.
7. Вдохновляемся.
Если понравилась какая-то песня из топа, можно продолжить ее с любого момента и поставить свой текст.
8. Suno 3 умнее чем кажется.
Иногда стоит дать ему больше свободы. А иногда(часто) он будет игнорировать вашитупые не удачные творческие идеи.
Вот так вот. Помните метод тыка привел человека к господству. Он же лежит в идеи обучение нейросетей. А значит и вы научитесь генерить треки!
Аппка суно: https://app.suno.ai/
Вот еще ссылочка на плейлист с черри-пиками.
#туториал
@ai_newz
Недавно вышла Suno v3, беспрецедентно лучшая txt2music и txt2audio.
Suno v3 способна за раз генерить реально интересные 2-х минутные песни (а то и неограниченно долгие с функцией continue). И да, именно песни! Потому что она также генерит и вокал, который в последней версии мощно апгрейднулся. Скажем так, Suno v3 сейчас на уровне Midjorney v3. Красиво, но с особенностями.
********
Выход Suno v3 похож на появление первой txt2img модели. Сначала все вбивали рандомные идеи в случайной форме в окошко промпта и удивлялись тому, как красиво получается. Потом мы захотели понять, как сделать не просто красиво, а красиво, да чтоб, так как надо. Появились wiki, всякие пдфки, гитхабы со сравнением промптов. Вот и с Cуно так же.
🎸Вот вам prompt engineering гайд по Suno v3:
Заходим на главную, вкладка create. Здесь режим Simple (сгенерит вам песню и текст, но без фишек ниже), а можем выбрать custom mode. Берем, конечно же, второе. Там видим окошко промпта и текста.
Вот что нужно знать:
1. Воркфлоу
Первая генерация max 2 минуты. Обычно это может быть интро, куплет и припев (может больше, если у вас high tempo). Далее тыкаем continue, это + примерно 1 минута — еще куплет и/или припев.
Можно по-разному генерить. Но мне больше всего понравилось так:
1. Вставляем промпт и весь текст.
2. Continue from this track. Вырезаем весь текст, который уже спели и снова генерим. Опционально можно переместить склейку с помощью continue from на конец предыдущего куплета/припева и/или изменить промпт для новой части.
3. Повторяем пункт 2 пока не закончится текст.
4. Get Whole Song - *тык*
2. Prompt шаблон.
Лучше всего работает связка:
(Жанр/ы), (описание настроения/темпа/идеи), (какие-то конкретные инструменты, детали).
3. Метатэги наше все!
Метатеги это инструкции внутри [ ] в окне lyrics. Они подсказывают нейронке, что делать. Метатэги — пространство для экспериментов, они могут сработать, а могут и нет. Пишем туда все, что придёт в голову!
Вот пара идей.
Стандартная структура поп трека выглядит так:
Можно обойтись и без нее, но так кусок из куплета не заедет в припев.
[Intro]
[Verse 1]
[Pre\-chorus]
[Chorus]
[Bridge] \- можно вставить куда угодно, так же есть варианты [guitar solo] или [Percussion break]
[Verse 2]
[Pre\-chorus]
[Chorus]
[Outro]
[End] \- без него трек может и не закончиться
- стиль исполнения
[Soft female singing]
[Hyperaggressive lead guitar solo] - да да, инструменты тоже можно
[Epic chorus]
[Rap]
- [instrumental], чтобы суно не галлюцинировал текст сам.
- Можно попытаться прописать партию какого-то инструмента, лол
[Percussion Break]
\. \. \! \. \. \! \. \. \! \- узнали?
[sad trombone]
waah\-Waah\-WAaAaH
4. ( текст )
скобки для бэков, хорусов и прочих приколов.
5. Solo Vocals, [Lead Vocalist] и пр.
Suno любит даблы и хор, но качество и разборчивость слов от этого сильно страдает. Рекомендую к применению.
6. Ударения.
Время вспомнить второй класс 😄 Все ради контроля произношения, интонации и ритмических акцентов, особенно на русском языке.
Русский:
А́ Е́ И́ О́ У́ Ы́ Э́ Ю́ Я́
а́ е́ и́ о́ у́ ы́ э́ ю́ я́
И английский алфавит:
Á É Í Ó Ú Ý
á é í ó ú ý
7. Вдохновляемся.
Если понравилась какая-то песня из топа, можно продолжить ее с любого момента и поставить свой текст.
8. Suno 3 умнее чем кажется.
Иногда стоит дать ему больше свободы. А иногда(часто) он будет игнорировать ваши
Вот так вот. Помните метод тыка привел человека к господству. Он же лежит в идеи обучение нейросетей. А значит и вы научитесь генерить треки!
Аппка суно: https://app.suno.ai/
Вот еще ссылочка на плейлист с черри-пиками.
#туториал
@ai_newz
Suno
Знаю всё про Гэ Пэ Тэ by @acidsickwave906 | Suno
ska-punk, solo male clear lead vocals song. Listen and make your own with Suno.
This media is not supported in your browser
VIEW IN TELEGRAM
Как на изи создать музыкальный трек с клипом (Suno v3)
Вот еще примерчик из твиттора, сгенерированный Suno v3.
Промпт:
Клип: Midjourney для генерации ключевых кадров + Gen-2 от Runway для их анимации.
Изи!😃
Ссылка на туториал по Suno v3.
@ai_newz
Вот еще примерчик из твиттора, сгенерированный Suno v3.
Промпт:
a viking metal song | valhalla atmosphere | thrash epic metal | epic bass and drums | valkyrie chords
Клип: Midjourney для генерации ключевых кадров + Gen-2 от Runway для их анимации.
Изи!
Ссылка на туториал по Suno v3.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
📚Tutorial on Diffusion Models for Imaging and Vision
В копилку к посту с туториалами и блогпостами по Диффузионным Моделям, принес вам еще свежий туториал на 50 стр из Purdue University.
Полезная штука для всех начинающих с диффузией. Туториал включает базу по VAE, DDPM, Score-Matching Langevin Dynamics и стохастическим диффурам.
📖 Pdf
#ликбез
@ai_newz
В копилку к посту с туториалами и блогпостами по Диффузионным Моделям, принес вам еще свежий туториал на 50 стр из Purdue University.
Полезная штука для всех начинающих с диффузией. Туториал включает базу по VAE, DDPM, Score-Matching Langevin Dynamics и стохастическим диффурам.
#ликбез
@ai_newz
Media is too big
VIEW IN TELEGRAM
Gaussian Head Avatar:
Ultra High-fidelity Head Avatar via Dynamic Gaussians
Зацените, на что сейчас творят на Гауссовских Сплатах и нейронном рендеринге. Гипер-реалистичные контролируемые 3д аватары в 2k разрешении!
Интуитивное объяснение "Что Такое Гауссовские сплаты" я делал в этом посте.
Чтобы создать такой аватар нужно от 8 до 16 камер в 2к, одновременно снимающих лицо спереди, равномерно расположенных в секторе размером 120 градусов.
По поводу latency и скорости во время инференса в статье нет никих упоминаний. Подозреваю, что работает далеко не real-time, иначе бы об этом заявили еще в заголовке статьи.
Но результаты все равно качественные!
Сайт проекта
Код
@ai_newz
Ultra High-fidelity Head Avatar via Dynamic Gaussians
Зацените, на что сейчас творят на Гауссовских Сплатах и нейронном рендеринге. Гипер-реалистичные контролируемые 3д аватары в 2k разрешении!
Интуитивное объяснение "Что Такое Гауссовские сплаты" я делал в этом посте.
Чтобы создать такой аватар нужно от 8 до 16 камер в 2к, одновременно снимающих лицо спереди, равномерно расположенных в секторе размером 120 градусов.
По поводу latency и скорости во время инференса в статье нет никих упоминаний. Подозреваю, что работает далеко не real-time, иначе бы об этом заявили еще в заголовке статьи.
Но результаты все равно качественные!
Сайт проекта
Код
@ai_newz
Интро в Трансформеры для чайников
3Blue1Brown, популярный математический ютубер, начал выпускать серию видео о том, как работает трансформер. Первое видео посвящено эмбеддингам и тому, как моделька определяет, какой токен ей выдать. Вышло лучшее объяснение темы "для чайников", с анимациями и довольно простым языком. Обещает ещё две части: одну посвящённую Attention, другую MLP.
Если после просмотра возникнет желание погрузиться в детали:
- У Андрея Карпатого есть видео где он имплементирует и объясняет как саму GPT, так и её токенизатор.
- Лекция Интро в большие языковые модели (LLM), тоже от Карпатого.
#ликбез
@ai_newz
3Blue1Brown, популярный математический ютубер, начал выпускать серию видео о том, как работает трансформер. Первое видео посвящено эмбеддингам и тому, как моделька определяет, какой токен ей выдать. Вышло лучшее объяснение темы "для чайников", с анимациями и довольно простым языком. Обещает ещё две части: одну посвящённую Attention, другую MLP.
Если после просмотра возникнет желание погрузиться в детали:
- У Андрея Карпатого есть видео где он имплементирует и объясняет как саму GPT, так и её токенизатор.
- Лекция Интро в большие языковые модели (LLM), тоже от Карпатого.
#ликбез
@ai_newz
YouTube
Transformers (how LLMs work) explained visually | DL5
Breaking down how Large Language Models work
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
---
Here are a few other relevant resources
Build a GPT from scratch, by Andrej Karpathy
https://youtu.be/kCc8FmEb1nY…
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
---
Here are a few other relevant resources
Build a GPT from scratch, by Andrej Karpathy
https://youtu.be/kCc8FmEb1nY…
Землетрясение в 7.4 балла на Тайване
Кроме человеческих жертв (что несомненно ужасно), почему это важно в контексте AI?
На Тайване производят от 80% до 90% всех high-end чипов в мире (в основном это компания TSMC). И Тайваню пока в этом замены нет. Землетрясение, которое произошло сегодня, было самым сильным на острове за последние 25 лет. И оно уже вызвало перебои в производсте полупроводников.
Все заказы Nvidia на новые AI чипы теперь поступают в TSMC, поэтому даже кратковременные перебои в выпуске продукции, скорее всего, будут иметь последствия. Многое будет зависеть от того, какие заводы компания эвакуировала и как быстро она сможет возобновить нормальную работу. Любое воздействие на логистику и энергетическую инфраструктуру Тайваня также повлияет на поставки новейших чипов.
В общем AGI под угрозой и отсрочивается!😕
Чипов и так не хватает на всех, приходится месяцами ждать отгрузки и делать заблаговременные предзаказы, а тут еще с природными катаклизмами ситуация усугубляется.
@ai_newz
Кроме человеческих жертв (что несомненно ужасно), почему это важно в контексте AI?
На Тайване производят от 80% до 90% всех high-end чипов в мире (в основном это компания TSMC). И Тайваню пока в этом замены нет. Землетрясение, которое произошло сегодня, было самым сильным на острове за последние 25 лет. И оно уже вызвало перебои в производсте полупроводников.
Все заказы Nvidia на новые AI чипы теперь поступают в TSMC, поэтому даже кратковременные перебои в выпуске продукции, скорее всего, будут иметь последствия. Многое будет зависеть от того, какие заводы компания эвакуировала и как быстро она сможет возобновить нормальную работу. Любое воздействие на логистику и энергетическую инфраструктуру Тайваня также повлияет на поставки новейших чипов.
В общем AGI под угрозой и отсрочивается!
Чипов и так не хватает на всех, приходится месяцами ждать отгрузки и делать заблаговременные предзаказы, а тут еще с природными катаклизмами ситуация усугубляется.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM