Media is too big
VIEW IN TELEGRAM
TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation
Легковесная китайская модель для разделения речи, музыки, эффектов
Хвастаются что бьют #SOTA модель TF-GridNet
Код
#audioseparation #demix #unmix
Легковесная китайская модель для разделения речи, музыки, эффектов
Хвастаются что бьют #SOTA модель TF-GridNet
Код
#audioseparation #demix #unmix
👍7❤1😁1🤔1
Media is too big
VIEW IN TELEGRAM
Minimax Hailuo 02
Главная новость минувшей ночи
Новый видеоген, побивший на арене VEO3 Preview
- лучший в своем классе по следованию промпту
- нативный 1080p
- умеет в акробатику и прочую экстремальную физику
Из описания бесплатного тарифа убрали ежедневную раздачу кредитов. Press F
На офсайте его нет (у меня, я халявщик) но есть во вчера релизнутом агенте MiniMax-M1
Говорят, там вообще даром и пусть никто не уйдет обиженным
- Самое длинное в мире контекстное окно: ввод 1 млн токенов, вывод 80 тыс.
- SOTA по агентам в опенсорсе
- RL с непревзойденной эффективностью: обучение всего за 534 700 долларов
HF
Гитхаб
Чат
#text2video #agent #sota #assistant
Главная новость минувшей ночи
Новый видеоген, побивший на арене VEO3 Preview
- лучший в своем классе по следованию промпту
- нативный 1080p
- умеет в акробатику и прочую экстремальную физику
Из описания бесплатного тарифа убрали ежедневную раздачу кредитов. Press F
На офсайте его нет (у меня, я халявщик) но есть во вчера релизнутом агенте MiniMax-M1
Говорят, там вообще даром и пусть никто не уйдет обиженным
- Самое длинное в мире контекстное окно: ввод 1 млн токенов, вывод 80 тыс.
- SOTA по агентам в опенсорсе
- RL с непревзойденной эффективностью: обучение всего за 534 700 долларов
HF
Гитхаб
Чат
#text2video #agent #sota #assistant
❤6👍1
Baidu выпустили в опенсорс семейство моделей ERNIE 4.5
#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.
Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)
Попробовать
Веса
Гитхаб
AI Studio
#assistant #reasoning #VLM
#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.
Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)
Попробовать
Веса
Гитхаб
AI Studio
#assistant #reasoning #VLM
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
ContentV: Efficient Training of Video Generation Models with Limited Compute
Новая видеогенерилка от ByteDance, 8B параметров, минималистичная архитектура
Умеет в разные разрешения и хронометражи
Хвастаются временнОй согласованностью
#SOTA , 85.14 на VBench
Основано на SD3.5 Large и Wan-VAE
Гитхаб
HF
#text2video
Новая видеогенерилка от ByteDance, 8B параметров, минималистичная архитектура
Умеет в разные разрешения и хронометражи
Хвастаются временнОй согласованностью
#SOTA , 85.14 на VBench
Основано на SD3.5 Large и Wan-VAE
Гитхаб
HF
#text2video
👍3👎2🔥1🤮1
This media is not supported in your browser
VIEW IN TELEGRAM
FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model
Морфинг (плавное перетекание) одного заданного кадра в другой за 30 секунд. Полагаю, можно использовать как интерполятор кадров
В 10X ~ 50X быстрее существующих методов, #SOTA в морфинге
Код
#frameinterpolation #morphing
Морфинг (плавное перетекание) одного заданного кадра в другой за 30 секунд. Полагаю, можно использовать как интерполятор кадров
В 10X ~ 50X быстрее существующих методов, #SOTA в морфинге
Код
#frameinterpolation #morphing
🔥13👍4❤1
Нейронавт | Нейросети в творчестве
В четверг в 6 утра по Москве релиз Grok 4 Твит #news
Grok 4
Релизнули.
– Фокус на рассуждениях и академических способностях
– Контекст 256k токенов
– Есть две версии модели: обычная Grok 4 и продвинутая Grok 4 Heavy
– Grok 4 Heavy прошел тест по математике AIME25 на 100%
– В самом сложном бенчмарке «Последний экзамен человечества» обе модели побили прошлый рекорд, набрав 38,6% и 44,4% соответственно
– обещают, что Grok 4 может генерировать видеоигры по одному промпту и с высокой вероятностью редсказывать исход различных спортивных событий (не читал, думаю, высокая вероятность это где-то в районе 60%)
Ну все, наконец тотализаторы загнутся. Правда, и кожаные перестанут играть в игры и состязаться. А зачем если результат известен.
Доступен на офсайте по подписке
Grok 4 за $300 в год
Grok 4 Heavy за $3000 в год
в халявном твиттере все еще 3 версия, разумеется
#news #assistant #sota
Релизнули.
– Фокус на рассуждениях и академических способностях
– Контекст 256k токенов
– Есть две версии модели: обычная Grok 4 и продвинутая Grok 4 Heavy
– Grok 4 Heavy прошел тест по математике AIME25 на 100%
– В самом сложном бенчмарке «Последний экзамен человечества» обе модели побили прошлый рекорд, набрав 38,6% и 44,4% соответственно
– обещают, что Grok 4 может генерировать видеоигры по одному промпту и с высокой вероятностью редсказывать исход различных спортивных событий
Ну все, наконец тотализаторы загнутся. Правда, и кожаные перестанут играть в игры и состязаться. А зачем если результат известен.
Доступен на офсайте по подписке
Grok 4 за $300 в год
Grok 4 Heavy за $3000 в год
в халявном твиттере все еще 3 версия, разумеется
#news #assistant #sota
😁6👍5🤯3
NeMo Canary-Qwen-2.5B
#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.
Влез на вершину Open ASR Leaderboard
Гитхаб
HF
Демо
#ASR #speech2text #stt #llm #leaderboard
#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.
Влез на вершину Open ASR Leaderboard
Гитхаб
HF
Демо
#ASR #speech2text #stt #llm #leaderboard
👍10
X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again
Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные
Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров
Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском
Код
Веса ~20Gb
Демо
#multimodal #text2image
Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные
Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров
Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском
Код
Веса ~20Gb
Демо
#multimodal #text2image
❤5👍2🔥1
FLUX.1 Krea [dev]
Новая модель Flux, опенсорсная версия Krea-1
#SOTA в фотореализме
Полная архитектурная совместимость с FLUX.1 [dev]
12B параметров
Демо
Веса
Гитхаб
воркфлоу
#ComfyUI #text2image #workflow
Новая модель Flux, опенсорсная версия Krea-1
#SOTA в фотореализме
Полная архитектурная совместимость с FLUX.1 [dev]
12B параметров
Демо
Веса
Гитхаб
воркфлоу
#ComfyUI #text2image #workflow
🔥11👍5👨💻2
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Genie 3: A new frontier for world models
Новое поколение модели от Googleб #SOTA в создании игровых миров с навигацией по ним
Я тут перечислял что он умеет но тг сожрал текст и сказал что ничего не было.
Да и пофиг, потому что попробовать все равно не дают а только хвастаются
#text2world #research #text2game
Новое поколение модели от Googleб #SOTA в создании игровых миров с навигацией по ним
Я тут перечислял что он умеет но тг сожрал текст и сказал что ничего не было.
Да и пофиг, потому что попробовать все равно не дают а только хвастаются
#text2world #research #text2game
👍4🔥4😁4
This media is not supported in your browser
VIEW IN TELEGRAM
Kitten TTS
#sota маленьких голосовых моделей.
Работает без GPU, всего 15М параметров. Оптимизирована для рилтайма
По языкам нет информации. Должна завестись даже на Raspberry Pi
Младшая весит всего 25 мегабайт.
За две недели сделали - огонь!
Код
Веса
#tts #text2speech #realtime
#sota маленьких голосовых моделей.
Работает без GPU, всего 15М параметров. Оптимизирована для рилтайма
По языкам нет информации. Должна завестись даже на Raspberry Pi
Младшая весит всего 25 мегабайт.
За две недели сделали - огонь!
Код
Веса
#tts #text2speech #realtime
🔥12😱2🤔1
MiDashengLM
Модель понимания аудио от Xiaomi, #sota
Распознает тембр голоса, музыкальные инструменты, прочие звуки, отвечает на вопросы
Код
Демо
Веса ~50Гб
#audio2text #alm #assistant
Модель понимания аудио от Xiaomi, #sota
Распознает тембр голоса, музыкальные инструменты, прочие звуки, отвечает на вопросы
Код
Демо
Веса ~50Гб
#audio2text #alm #assistant
🔥5👍2🤔1👀1
Разработчики Genie 3 сходили в картину Эдварда Хоппера Полуночники.
Пусть покажут что в кейсе у Джулса
#text2world #research #text2game #news
Пусть покажут что в кейсе у Джулса
#text2world #research #text2game #news
5🔥11😁4❤3👍1
👍7😁5❤1
💡LightSwitch💡: Multi-view Relighting with Material-guided Diffusion
Изменение освещения на изображениях (релайтинг) с учётом свойств материалов объектов.
Пишут что побили #SOTA
Обрабатывает любое количество входных изображений, собирая информацию о материалах.
Пока дело доходит до релайтинка данные уже превращаются в сцену на гауссианах. И на выходе тоже гауссианы.
А там видимо рендерите чем хотите.
Авторы тестировали на A100
Код
#relighting
Изменение освещения на изображениях (релайтинг) с учётом свойств материалов объектов.
Пишут что побили #SOTA
Обрабатывает любое количество входных изображений, собирая информацию о материалах.
Пока дело доходит до релайтинка данные уже превращаются в сцену на гауссианах. И на выходе тоже гауссианы.
А там видимо рендерите чем хотите.
Авторы тестировали на A100
Код
#relighting
👍6❤1
StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation
🥁🥁🥁 барабанная дробь
И у нас еще один оживлятор картинок по звуку от Microsoft Research Asia, Hunyuan, Tencent
Много примеров с пением, видимо фокус на эту нишу. Но есть и просто речь.
Обещают неограниченный по длительности оживляж с сохранением идентичности персонажа.
Мне кажется или липсинк не такой уж и синк, не попадает в речь?
Ну и конечно есть видео превосходства над #SOTA моделями-конкурентами
Построен на базе Wan2.1-1.3B
Разрешение: 512x512, 480x832, 832x480
5-секундное видео (480x832, fps=25) генерируется 3 минуты на 4090 и требует 18GB VRAM
Код
#lipsync #portraitanimation #characteranimation #speech2video #avatar
🥁🥁🥁 барабанная дробь
И у нас еще один оживлятор картинок по звуку от Microsoft Research Asia, Hunyuan, Tencent
Много примеров с пением, видимо фокус на эту нишу. Но есть и просто речь.
Обещают неограниченный по длительности оживляж с сохранением идентичности персонажа.
Мне кажется или липсинк не такой уж и синк, не попадает в речь?
Ну и конечно есть видео превосходства над #SOTA моделями-конкурентами
Построен на базе Wan2.1-1.3B
Разрешение: 512x512, 480x832, 832x480
5-секундное видео (480x832, fps=25) генерируется 3 минуты на 4090 и требует 18GB VRAM
Код
#lipsync #portraitanimation #characteranimation #speech2video #avatar
👍6🔥4❤1
Miromind
Полностью опенсорсный фреймворк для deepresearch, по приборам побивающий Opean AI
MiroThinker - набор моделей deepresearch
MiroTrain / MiroRL - микроструктура для обучения MiroThinker
MiroFlow - #sota агент умеющий пользоваться инструментами.
Я дал ему задание найти средний рост мужчин за последние 1000 лет. Выдал подробный результат за 1 минуту, см картинку
Попробовать
#deepresearch #assistant
Полностью опенсорсный фреймворк для deepresearch, по приборам побивающий Opean AI
MiroThinker - набор моделей deepresearch
MiroTrain / MiroRL - микроструктура для обучения MiroThinker
MiroFlow - #sota агент умеющий пользоваться инструментами.
Я дал ему задание найти средний рост мужчин за последние 1000 лет. Выдал подробный результат за 1 минуту, см картинку
Попробовать
#deepresearch #assistant
👍9
NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale
Новая модель от Степана (Stepfun). Генератор-редактор картинок на авторегрессии (картинка создается последовательно, пиксель за пикселем, а не итеративно как в диффузии)
#sota авторегресии на генерации изображений. 14B параметров, 60Гб весов. Результаты трудно разглядеть. Предположительно, качество на уровне SD1.5. Астрологи объявили эру неподъемных моделей с незаметным качеством, но послушных (но это неточно)
Офсайт не прогружается
Гитхаб
HF
#text2image #imageediting
Новая модель от Степана (Stepfun). Генератор-редактор картинок на авторегрессии (картинка создается последовательно, пиксель за пикселем, а не итеративно как в диффузии)
#sota авторегресии на генерации изображений. 14B параметров, 60Гб весов. Результаты трудно разглядеть. Предположительно, качество на уровне SD1.5. Астрологи объявили эру неподъемных моделей с незаметным качеством, но послушных (но это неточно)
Офсайт не прогружается
Гитхаб
HF
#text2image #imageediting
❤5👀3👎2🤔1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Distilled-3DGS: Distilled 3D Gaussian Splatting
Сокращает примерно в десять раз количество гауссиан необходимых для высококачественного рендеринга сцен, без потери качества изображения.
Обеспечивает качество рендеринга, сравнимое с лучшими существующими методами (#SOTA) или даже превосходящее их
Код ждем
#gaussian #rendering #novelview
Сокращает примерно в десять раз количество гауссиан необходимых для высококачественного рендеринга сцен, без потери качества изображения.
Обеспечивает качество рендеринга, сравнимое с лучшими существующими методами (#SOTA) или даже превосходящее их
Код ждем
#gaussian #rendering #novelview
1👍12🔥4
Tripо 3.0
Обновка 3D генератора.
Под капотом TripoSF - не знаю та ли версия что была выложена в марте.
Картинки генерятся силами Flux Kontext и GPT-4o
#SOTA PBR текстуры
Обещают сделать 3D видеогенератор
Попробовать
#3d #textto3d #imageto3d #pbr
Обновка 3D генератора.
Под капотом TripoSF - не знаю та ли версия что была выложена в марте.
Картинки генерятся силами Flux Kontext и GPT-4o
#SOTA PBR текстуры
Обещают сделать 3D видеогенератор
Попробовать
#3d #textto3d #imageto3d #pbr
❤2👍2🔥2