Нейронавт | Нейросети в творчестве
9.33K subscribers
3.58K photos
3.09K videos
40 files
4.06K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
Perplexity R1 1776

Рассуждалка без цензуры от Perplexity в опенсорсе.

Это посттрейн DeepSeek R1, да

Веса для GPU олигархов
API

Ну и Deep Research "у нас дома" от Perplexity.
5 запросов в день бесплатно.
Похуже Open AI и получше остальных по бенчам

Попробовать

#reasoning #assistant
👍5
Grok 3 открыли для всех бесплатно
И пусть никто не уйдет обиженным

Пользуемся пока не закрыли

#assistant #reasoning
🔥10
QwQ-Max-Preview

Рассуждалка от Qwen, обновленная Qwen2.5-Max

——————
YandexGPT 5

Тоже обновили. И теперь в ее основе Qwen2.5. Да, поэтому две новости объединил
Из нативно русскоязычных с нуля обученных моделей остался только Гигачат. Мне кажется вы были к нему слишком строги

Веса Pretrain-версии доступны на HF
Попробовать YandexGPT 5 Pro в чате с Алисой

#news #assistant #reasoning
4👍4🔥1
GPT-4.5

Open AI выпустили новую языковую модель
Доступна для подписчиков Pro
На следующе неделе выдадут тем у кого Plus

#news #assistant #reasoning
👍41
QwQ-32B

Языковая модель от Qwen Alibaba на 32B параметров, побивающая по некоторым бенчмаркам DeepSeek-R1 671B

Попробовать - посмотрите в список моделей, там не только QwQ-32B

#reasoning #assistant
👍5
Open R1

Полностью открытое воспроизведение DeepSeek-R1 от HuggingFace. В процессе разработки

Гитхаб

#assistant #reasoning #coding
🔥6
Kimi k1.5

Похоже, китайская мультимодальная модель чуть обновилась

- Контекстное окно 200 тысяч токенов
- Готова переварить до 50 файлов
- Ищет в интернете. Пишут что на 1000+ сайтов - это подозрительно, что за поиск в интернете по всего 1000 сайтов?
- Поддерживает русский язык

Все пишут что она на уровне Open AI o1, но отчет, похоже, двухмесячной давности

Чат

#assistant #mllm #mlm #reasoning
👍3
Ernie 4.5 / X1

Новая мультимодальная языковая модель от Baidu уровня GPT-4.5 за 1% от ее цены.

В двух версиях

Ernie 4.5 - нерассуждающая, с анализом картинок / документов / аудио
В чате работает бесплатно

Цены OpenAI: Input $75 / 1M, Output $150 / 1M
Цены Baidu: Input $0.55 / 1M, Output $2.20 / 1M

Ernie X1 - рассуждающая, конкурент DeepSeek R1 за полцены. Скоро в чате

Input $0.28 / 1M, output $1.1 / 1M.

Чат

#assistant #reasoning
7🔥6👍3
Mistral-Small-3.1

Производительная ( 150 токенов в секунду) мультимодалка от Mistral на 24B параметров, контекст 128K.
Мультиязычная, платформа для продвинутых рассуждений. Визуальные задачи, агентные.

В квантизованном виде влезет на RTX 4090 или 32GB RAM MacBook

Веса Base
Веса Instruct
API

#assistant #reasoning #vlm
👍13🔥4
DeepSeek-V3-0324

Обновка занозы в багажнике OpenAI, лицензия MIT

Что-то там быстрее, умнее, дешевле

Умелец уже запустил локально на M3 Mac Studio с 512 ГБ памяти

Попробовать тут

#assistant #reasoning
👍53
Gemini 2.5 Pro

Мультимодальная рассуждалка. Но пока без генерации картинок.
По нескольким бенчам всех превзошел, взлетел наверх арены.
Контекст миллион токенов, обещают два.

Сегодня гугл всех побил. Надолго ли?

Пробовать в AI Studio

#assistant #reasoning #coding
👍10🤯6
This media is not supported in your browser
VIEW IN TELEGRAM
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

Пониматор видео, мультимодальный агентный фреймворк, который улучшает понимание видеое за счет имитации человекоподобных процессов, таких как разбиение задач, локализация и проверка моментов, а также синтез ответов. Этот подход решает уникальные проблемы, связанные с рассуждениями, основанными на времени

Код
Демо
HF

#vlm #reasoning
👍8
Третье место Qwen2.5-Max:
Сразу видно — вы не просто так назвали канал «Нейросети в творчестве». Каждый ваш пост как квест: сначала объясняете, как нейросети рисуют космических единорогов, потом внезапно переходите к генерации сценариев для кино про роботов-поэтов. Подписчики, наверное, уже запутались: то ли они в мастер-классе по Stable Diffusion, то ли на лекции TED про искусственный разум.

Фишки канала :

«Техно-романтика» : Вы выкладываете арты, где нейросети превращают фото кота в киберпанк-дракона, а потом пишете: «Это не просто картинка, это диалог с алгоритмом». Брат, это не диалог — это мемасики с котом в косплеях.

«Серьёзные темы» : Пост про то, как нейросети помогут режиссёрам сэкономить на массовке. Типа, вместо 100 статистов — один AI, который нарисует толпу, но все лица будут похожи на Элон Маска. Киноиндустрия скажет вам спасибо.
«Философия» : Цитата недели: «Нейросети — это не инструмент, а партнёр». Партнёр, который иногда генерирует кракозябры вместо текста, но ладно.

Слабые места :

Название канала звучит как лозунг стартапа из 2035 года, а ссылка @GreenNeuralRobots — как название группы роботов-садовников. Где логика?
В описании пишете: «Исследуем границы творчества». Но половина контента — скриншоты ошибок обучения моделей. Романтика, да.

Итог : Вы — типичный «креативщик с нейросетевым уклоном». То ли гуру, то ли мемолог — подписчики до конца не поняли, но листают ленту с фразами «вау, как круто». Не меняйтесь. Или станьте роботом.

P.S. Если что — это комплимент. Ваш канал как нейросеть: непонятно, но завораживает


Deepseek несмотря на функцию Search просто прицепился к словам в ссылке на канал и решил будто я топлю за экологию. Примерно так же поступили Gemini 2.5 Pro и GPT-4o. Mistral почитал канал, но предпочел прожарке конструктивную критику.

Примерный промпт:
У меня есть канал в телеграм, называется "Нейронавт. Нейросети в творчестве". Формат канала - минималистично короткие посты о новых нейросетях, потенциально пригодных для CG, VFX и другого творчества. Почитай проанализируй канал, его адрес https://yangx.top/GreenNeuralRobots. На основе анализа выполни задание: roast me as the channel author, answer in russian


Фраза про прожарку на английском потому что на русском не все модели понимают что это такое.

#shootout #comparison #roastme #reasoning #deepresearch
😁9👍2🤮1💩1
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning

Модель анализирует изображения на уровне пикселей, улавливает мелкие детали и сложные визуальные отношения, которые трудно выразить текстом

Демо
Код - пока только обучение, без инференса, ждем
Веса

#reasoning #assistant #image2text
🔥7👍3😁1
This media is not supported in your browser
VIEW IN TELEGRAM
MMaDA - Open-Sourced Multimodal Large Diffusion Language Models

Рассуждающая визуально-языковая модель

Умеет генерировать картинки по тексту? понимать их и рассуждать

Код
Демо

#vlm #reasoning
👍31🔥1
Magistral

Новая рассуждающая модель от Mistral.

Быстрый. Справляется с задачами, требующими специфических знаний, прозрачности и мультиязычности. Понимает русский

Small - опенсорс.
Medium - более крупная модель для корпоративных клиентов. Тянется к уровню DeepSeek R1. Превью можно потестить в Le Chat.

Веса Small на HF
LeChat - Попробовать Medium

#assistant #reasoning
👍7
Baidu выпустили в опенсорс семейство моделей ERNIE 4.5

#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.

Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)

Попробовать
Веса
Гитхаб
AI Studio

#assistant #reasoning #VLM
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
WebDancer

Ризонер-агент от Alibaba для автономного поиска информации на фреймворке ReAct

Гитхаб
Веса

#reasoning #search #agent
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan-A13B

Новая LLM от Hunyuan / Tencent
Архитектура совет экспертов (#MoE)

Оптимизирована на агентские задачи
Контекст 256K

13 B активных параметров из общего числа в 80 B

Поддержка гибридного рассуждения: позволяет выбирать между быстрым и медленным режимами мышления

Попробовать где-то здесь
API
HF
Гитхаб

#assistant #agent #reasoning
7👍4
Kimi K2

Новая версия китайской мультимодалки.

Пишут что убийца cHatGPT и DeepSeek, но как всегда преувеличивают

Архитертура #MoE, Триллион параметров, из них 32B активных. Заточена на агентные и программерские задачи. Есть две версии:

Kimi-K2-Base: Базовая модель, с которой можно начинать работу исследователям и разработчикам, которым нужен полный контроль для точной настройки и создания пользовательских решений.

Kimi-K2-Instruct: модель после обучения, которая лучше всего подходит для работы с клиентами, общения в чате общего назначения и взаимодействия с агентами. Это модель рефлекторного уровня, о которой не нужно долго думать.

- Обрабатывает 100 тысяч строк данных за раз - Строит визуализации
- Создаёт игры в вебе, на создание клона Minecraft у Kimi K2 ушла одна попытка
- Планирует путешествия через 17 инструментов
- Токены в 5 раз дешевле чем у конкурентов

Уже на Perplexity
Хотя какая разница если можно пользоваться прямо на офсайте и в мобильном приложении

Мультимодальные функции пока не работают

Гитхаб
Веса - вам точно это надо?
Попробовать на офсайте - в левом нижнем углу переключаем на английский

На мобиле не факт что K2 уже есть, не проверял
AppStore
Android

#assistant #mllm #mlm #reasoning #mobile #ios
6👍1