Kimi k1.5
Еще одна китайская рассуждалка, мультимодальная
Чат - непонятно какая тут версия, все на китайском, русский понимает, по ссылкам ходит
Гитхаб - здесь только технический отчет
#assistant #mllm #mlm #reasoning
Еще одна китайская рассуждалка, мультимодальная
Чат - непонятно какая тут версия, все на китайском, русский понимает, по ссылкам ходит
Гитхаб - здесь только технический отчет
#assistant #mllm #mlm #reasoning
👍5🔥2
Kimi k1.5
Похоже, китайская мультимодальная модель чуть обновилась
- Контекстное окно 200 тысяч токенов
- Готова переварить до 50 файлов
- Ищет в интернете. Пишут что на 1000+ сайтов - это подозрительно, что за поиск в интернете по всего 1000 сайтов?
- Поддерживает русский язык
Все пишут что она на уровне Open AI o1, но отчет, похоже, двухмесячной давности
Чат
#assistant #mllm #mlm #reasoning
Похоже, китайская мультимодальная модель чуть обновилась
- Контекстное окно 200 тысяч токенов
- Готова переварить до 50 файлов
- Ищет в интернете. Пишут что на 1000+ сайтов - это подозрительно, что за поиск в интернете по всего 1000 сайтов?
- Поддерживает русский язык
Все пишут что она на уровне Open AI o1, но отчет, похоже, двухмесячной давности
Чат
#assistant #mllm #mlm #reasoning
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 2.0 Flash
В Gemini завезли обещанную еще в прошлом году нативную генерацию картинок самой языковой моделью. Можно не только создавать но и редактировать с попиксельной точностью
Заходим в AI Studio, выбираем Gemini 2.0 Flash Experimental, выбираем в Output format «Image and text»
#assistant #mlm #vlm #imageediting #text2image
В Gemini завезли обещанную еще в прошлом году нативную генерацию картинок самой языковой моделью. Можно не только создавать но и редактировать с попиксельной точностью
Заходим в AI Studio, выбираем Gemini 2.0 Flash Experimental, выбираем в Output format «Image and text»
#assistant #mlm #vlm #imageediting #text2image
👍7🤯2
Gemini Image Editing NextJS Quickstart
Официальный шаблон интеграции в ваш сервис редактора/генератора картинок Gemini 2.0 Flash
Вот например в Freepik уже прикручено
Демо, и даже без впн
Код
#assistant #mlm #vlm #imageediting #text2image
Официальный шаблон интеграции в ваш сервис редактора/генератора картинок Gemini 2.0 Flash
Вот например в Freepik уже прикручено
Демо, и даже без впн
Код
#assistant #mlm #vlm #imageediting #text2image
❤4🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Grok Edit Image
Вслед за Gemini, в Grok добавили функцию редактирования картинок текстовыми указаниями
Идем в Grok, ищем кнопку Edit Image
#assistant #mlm #vlm #imageediting #text2image
Вслед за Gemini, в Grok добавили функцию редактирования картинок текстовыми указаниями
Идем в Grok, ищем кнопку Edit Image
#assistant #mlm #vlm #imageediting #text2image
🔥12👍5😭1
This media is not supported in your browser
VIEW IN TELEGRAM
FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement
Разработка DeepMind. Осмысленное размещение языковыми моделями объектов в 3D сцене с учётом геометрии и констрейнов
А я думал, Клод с MCP уже намного больше может
Кода нет
#mlm #assistant #3d
Разработка DeepMind. Осмысленное размещение языковыми моделями объектов в 3D сцене с учётом геометрии и констрейнов
А я думал, Клод с MCP уже намного больше может
Кода нет
#mlm #assistant #3d
👍6
Llama 4 (скачать здесь, если осмелитесь)
Мета объявила новую эру мультимодальности
Новое семейство Llama из 3 моделей
У Llama 4 Scout контекст 10 миллионов токенов
Блог
Попробовать (притворитесь что вы не в РФ)
#assistant #news #mlm
Мета объявила новую эру мультимодальности
Новое семейство Llama из 3 моделей
У Llama 4 Scout контекст 10 миллионов токенов
Блог
Попробовать (притворитесь что вы не в РФ)
#assistant #news #mlm
1👍6🔥3❤1
Liquid: Language Models are Scalable and Unified Multi-modal Generators
Единая языковая модель в качестве мультимодального генератора без костылей типа CLIP. В данном случае картинки/текст, 7B параметров
Код
Демо
Веса
#llm #mlm #text2image#image2text #text2text
Единая языковая модель в качестве мультимодального генератора без костылей типа CLIP. В данном случае картинки/текст, 7B параметров
Код
Демо
Веса
#llm #mlm #text2image#image2text #text2text
🔥4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Jarvis Art
Фоторедактор от ByteDance и Ко
Код ждем
Демо ждем
#imageediting
Фоторедактор от ByteDance и Ко
Построен на базе #MLM, имитирует работу профессиональных художников и координирует более 200 инструментов в Adobe Lightroom.
Превосходит GPT-4o по точности воспроизведения контента
Код ждем
Демо ждем
#imageediting
👍6🔥4😁2
Kimi K2
Новая версия китайской мультимодалки.
Пишут что убийца cHatGPT и DeepSeek, но как всегда преувеличивают
Архитертура #MoE, Триллион параметров, из них 32B активных. Заточена на агентные и программерские задачи. Есть две версии:
Kimi-K2-Base: Базовая модель, с которой можно начинать работу исследователям и разработчикам, которым нужен полный контроль для точной настройки и создания пользовательских решений.
Kimi-K2-Instruct: модель после обучения, которая лучше всего подходит для работы с клиентами, общения в чате общего назначения и взаимодействия с агентами. Это модель рефлекторного уровня, о которой не нужно долго думать.
- Обрабатывает 100 тысяч строк данных за раз - Строит визуализации
- Создаёт игры в вебе, на создание клона Minecraft у Kimi K2 ушла одна попытка
- Планирует путешествия через 17 инструментов
- Токены в 5 раз дешевле чем у конкурентов
Уже на Perplexity
Хотя какая разница если можно пользоваться прямо на офсайте и в мобильном приложении
Мультимодальные функции пока не работают
Гитхаб
Веса - вам точно это надо?
Попробовать на офсайте - в левом нижнем углу переключаем на английский
На мобиле не факт что K2 уже есть, не проверял
AppStore
Android
#assistant #mllm #mlm #reasoning #mobile #ios
Новая версия китайской мультимодалки.
Пишут что убийца cHatGPT и DeepSeek, но как всегда преувеличивают
Архитертура #MoE, Триллион параметров, из них 32B активных. Заточена на агентные и программерские задачи. Есть две версии:
Kimi-K2-Base: Базовая модель, с которой можно начинать работу исследователям и разработчикам, которым нужен полный контроль для точной настройки и создания пользовательских решений.
Kimi-K2-Instruct: модель после обучения, которая лучше всего подходит для работы с клиентами, общения в чате общего назначения и взаимодействия с агентами. Это модель рефлекторного уровня, о которой не нужно долго думать.
- Обрабатывает 100 тысяч строк данных за раз - Строит визуализации
- Создаёт игры в вебе, на создание клона Minecraft у Kimi K2 ушла одна попытка
- Планирует путешествия через 17 инструментов
- Токены в 5 раз дешевле чем у конкурентов
Уже на Perplexity
Хотя какая разница если можно пользоваться прямо на офсайте и в мобильном приложении
Мультимодальные функции пока не работают
Гитхаб
Веса - вам точно это надо?
Попробовать на офсайте - в левом нижнем углу переключаем на английский
На мобиле не факт что K2 уже есть, не проверял
AppStore
Android
#assistant #mllm #mlm #reasoning #mobile #ios
❤6👍1