Метаверсище и ИИще
38K subscribers
4.79K photos
2.96K videos
40 files
5.8K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
加入频道
Опенсорсный Суно?

Его зовут Е.

В голосе песочек, в аранжировке жестяной призвук, но в целом очень неплохо для китайского проекта. Только довольно мудреная система моделей.
Из интересного, может переключаться с одного языка на другой в одной песне.

Послушайте образцы тут:
https://map-yue.github.io/

Код и ссылки на модели тут:
https://github.com/multimodal-art-projection/

Но есть моментик:
For GPUs with 24GB memory or less: Run up to 2 sessions concurrently to avoid out-of-memory (OOM) errors.
For full song generation (many sessions, e.g., 4 or more): Use GPUs with at least 80GB memory.

@cgevent
Ну и дабы показать мощь Суно и мощь крутых подписчиков из чата, вынесу из коментов два творения от Алексея Кондакова. В обоих отсылки к Меркури, но это не так важно.

А важно, то что один трек (dust) - это просто готовый жирномясый хитяра, который качает.
А второй - отличный интеллектуальный микс из Леди Гаги и Фредди Меркури, причем микс в латентном пространстве, слушается и головой и сердцем.

А уж какие видосы генерятся в чате..

@cgevent
Forwarded from AI для Всех (Artemii)
Еще на шаг ближе к сингулярности: ИИ оптимизирует собственный код! 🤖💨

Пока стоки NVIDIA стремительно летят вниз (как по мне - временно), спешу поделиться потрясающей новостью из мира искусственного интеллекта! Помните популярный open-source проект llama.cpp, который позволяет запускать мощные AI модели локально? Так вот, его только что ускорили в два раза - и самое удивительное здесь то, что оптимизацию в основном написал… DeepSeek R1! 🚀

В чём суть прорыва:
- Скорость web-версии (WASM) увеличилась вдвое
- Разработчик использовал DeepSeek-R1 для написания 99% оптимизационного кода
- Улучшения подтверждены на разных типах моделей
- Точность осталась на прежнем уровне

Давайте взглянем на цифры! 📊
- Некоторые операции ускорились в 2.8 раза
- Стабильное ускорение более чем в 2 раза для моделей разного размера
- При этом точность не пострадала от такого апгрейда

Почему это важно? 🤔
У нас появилось еще одно свидетельство того, что ИИ теперь способен оптимизировать свой собственный код! Причём речь идёт о сложных низкоуровневых оптимизациях, с которыми не каждый опытный программист справится.

Реакция сообщества просто огонь! 💭 Один из разработчиков метко заметил: "Представьте, если такое начнёт происходить по всей инфраструктуре кода..." И правда, захватывающая перспектива!

Ссылка на PR
Судя по тому, какая истерика творится вокруг ДипСика, в деле точно поучаствовали журналисты и телеграм каналы, которые разогнали некоторые преувеличения до размеров сверхобобщений.

Я вот не очень понимаю связь между падением акций Нвидия и Дипсиком - тренировали-то на кластере из H100 и нехилом таком, ну то есть без Нвидии никуда. Но кто-то решил, что это из-за дипсика и понеслось "миллиардеры теряют свои миллиарды".

Я честно почитал истерику и даже послушал Трампа - он действительно произносит слово "ДипСик" - задумайтесь, как это пропустила пресс-служба, которая затрет любое лого и замьютит любой бренд.

Но как по мне, это фантастический пример спонтанной бесплатной рекламы китайской компании в масштабах планеты. ИИ-Артефакт.

Поэтому я подсобрал вам пару мемов про Дипсичищще и пару статей про него от гораздо более умных людей, чем я. Чем и поделюсь ниже, пытаясь успокоить истерику в умах.

Если вкратце, все идет своим чередом, нет повода истерить.

@cgevent

⬇️⬇️⬇️⬇️
Вообще, конечно, история с реакцией рынков на новости о DeepSeek V3 и R1 это пример глупости помноженной на дилетантизм и истеричную природу массового сознания в эпоху кликбейт-экономики

Коротко по тезисам:

1. Нет, DeepSeek не «умнее на голову» всех в моделей. В разных бенчмарках результаты разные, но в среднем GPT-4o и Gemini-2 лучше. Можете посмотреть на ChatBot Arena, например (https://www.reddit.com/r/LocalLLaMA/comments/1i8u9jk/deepseekr1_appears_on_lmsys_arena_leaderboard/). Даже в результатах, опубликованных в статье авторов DeepSeek (https://github.com/deepseek-ai/DeepSeek-V3/blob/main/figures/benchmark.png) можно заметить, что в ряде тестов модель уступает, например, GPT-4o от мая 2024 года, то есть модели, которая в ChatBot Arena сейчас на 16-м месте.

2. Нет, на обучение DeepSeek не ушло 6 млн долларов «в 100 раз меньше, чем на GPT-4». В 6 млн долларов обошёлся финальный запуск обучения опубликованной модели. Тут не учитывались никакие предыдущие эксперименты, ни предыдущие версии модели, ни время людей. Чистый вычислительный бюджет на финальный запуск обучения. Эта сумма +/- такая же, как у моделей того же класса

3. Непонятно, за что пострадала Nvidia :)) Ну так-то, конечно, так им и надо, пускай снижают цены на железо, но учился-то DeepSeek на железках того самого Nvidia. И нет, теперь их не нужно меньше. И вычислительный бюджет на обучение там +/- обычный и на инференс такой большой модели (а это, напомню MoE с 671 млрд параметров, где при генерации токена используется 37 млрд параметров, то есть цена инференса там примерно как у 70B dense-модели) нужно много железа. И, естественно, успех DeepSeek отмасштабируют, вкинув ещё больше железа и сделав модель больше

4. Значит ли это, что модель плохая? Нет, модель очень хорошая. Мы с самого начала следим за коллегами из DeepSeek и с удовольствием использовали некоторые из их идей. Вообще, я бы сказал, что у нас в команде DeepSeek всегда рассматривалась как фаворит среди китайских моделей. DeepSeek лучше подавляющего большинства open-source-моделей, и это очень круто. Искренне рады за китайских коллег и за прогресс в области LLM-строения и машинного обучения в целом

5. В некоторых источниках пишут, что DeepSeek якобы полностью решил проблему «галлюцинаций». Nyet

Я думаю, что паника и шумиха случилась из-за того, что на западе обычно плохо знают про состояние дел в китайском ML, среди многих американских и европейских специалистов наблюдалось немного пренебрежительное и снисходительное отношение к Китаю в области ИИ. Дескать: ну что они там могут сделать, клепают свои низкокачественные плохо воспроизводимые работы, куда им с белым человеком тягаться? Всё это умножилось на антикитайскую риторику властей США, а при Трампе фокус на Китае как на главном противнике усилился. Помните истерическую статью Ашенбреннера? Теперь вот Гари Маркус вопит, требует наказать Цукерберга за Llama, дескать из-за опен-сорса китайцы украли все секреты. Это, конечно, типичный пример того, как валят с больной головы на здоровую. Виноваты в недостаточном прогрессе открытых моделей в США скорее люди типа Маркуса, со своей истерикой про опасности ИИ, запретительными и просто глупыми регуляторными инициативами и пр. «Знает кошка, чьё мясо съела»

Ну а в целом акции отрастут, ресурсы выделят, идеи получат широкое распространение, модели будут становиться лучше, прогресс не остановить (надеюсь)

Пусть расцветают сто цветов, пусть соперничают сто школ © Мао Цзэдун
OpenAI потихоньку переобувается GosuslugiAI.


Вот, что выборы животворящие делают.


"Сегодня мы объявляем о выпуске ChatGPT Gov, новой адаптированной версии ChatGPT, предназначенной для предоставления государственным учреждениям США дополнительного доступа к пограничным моделям OpenAI.

Агентства могут развернуть ChatGPT Gov в своем собственном коммерческом облаке Microsoft Azure или в облаке Azure Government поверх сервиса OpenAI Microsoft Azure. Самостоятельное размещение ChatGPT Gov позволяет агентствам легче управлять собственными требованиями к безопасности, конфиденциальности и соответствию нормативным требованиям."

https://openai.com/global-affairs/introducing-chatgpt-gov/

@cgevent
Forwarded from Neural Shit
Тем временем мамкины спамеры начали переключать шлюхоботов на Deepseek (тому шо дешевле в 10 раз).

Что могло пойти не так?
This media is not supported in your browser
VIEW IN TELEGRAM
Ну вот, пошли интеграции с Блендором для 3Д генераторов

На гитхабе у Хуньяня 3Д 2.0 появился блендор-аддон.

Правда рядом с Блендором вам придется поднять апи-сервер хунька.

Инструкции тут:
https://github.com/Tencent/Hunyuan3D-2?tab=readme-ov-file#blender-addon

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
DiffSplat для гиков.

Тут в тиктоке зафайнтюнили диффузионные картинкогенераторы так, чтобы они сразу генерили Гауссиановые Сплаты. Напрямую.
Внимание - за 1-2 секунды, по промпту или одной картинке.

DiffSplat is a generative framework to synthesize 3D Gaussian Splats from text prompts & single-view images in ⚡️ 1~2 seconds. It is fine-tuned directly from a pretrained text-to-image diffusion model

Надо бы обновить тему сплатов - это один из кандидатов на новые игровые и неигровые движки.

https://chenguolin.github.io/projects/DiffSplat/

@cgevent
Media is too big
VIEW IN TELEGRAM
Ну, за танцоров.

В Китае празднуют победу ДипСика Новый год.

Я, как ни странно, ровно дышу к теме робатов. Никогда не мог понять стремления делать их антропоморфными - более неуклюжей, медленной и негибкой твари, чем кожаный еще поискать надо. Одна из гипотез - антропоморфных удобно тренировать на видеоданных про кожаных и для кожаных.

Ну и пока ни один робат-пылесос не задавил хозяина, а представьте двух-метровую махину "кухонный помощник Optimus", который упал на любимую псину или жену\мужа? Адвокаты быстро прикроют лавочку-индустрию таких помогаторов по дому.

Но вот смотрите, где они точно не навредят, так это в шоу бизнесе. Пусть радуют народ. Кормить, поить, репетировать - не надо. Требуется 1000 танцоров? - алло, гараж, склад номер 2 откройте. Какой автобус? Сами дойдут!

В принципе и в зал их тоже можно посадить, вон они как лихо хлопают, а в конце (кто досмотрит) даже чепчики бросают.

Хореографией займется GenAI - давно уже постил, что по входной музыке научили генерить движения для болванов в Блендоре на основе простой мокап базы.

В цирке тоже пригодятся. Пятерное сальто назад без страховки.

И тут я задумался про синхронное плавание (которое не очень почитаю за спорт) - и такие картинки у меня в голове...

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Minimax Hailuo T2V-01-Director Model, конечно, интересная.

Переходы теперь делать легче.
Видел хорошие примеры Camera Shake.

Но.

Вообще-то говоря, надо ЗНАТЬ, как ставить и двигать камеру. Что есть восьмерки, несочетаемые планы и много, очень много всякой специфики.

И вопрос в том, "знает\помнит" ли ИИ о этом и что там у него было в датасетах.

Впрочем, не исключаю, что новому поколению, насмотренному на рилсах и тиктоках, глубоко фиолетово на восьмерки, и что все эти правила могут остаться в музее "Первые сто лет кино". Когда это поколение начнет снимать свое кино.

А я вам щас подкину работу, где подписчик без всякого T2V-01 делает умопомрачительные переходы.

@cgevent