Нейронавт | Нейросети в творчестве
9.25K subscribers
3.53K photos
3.05K videos
40 files
4.02K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
Google Cloud начал давать доступ к Gemini 1.5 Flash и 1.5 Pro - LLM c конекстом в 2 миллиона токенов.

Добавлена поддержка поиска Google и готовые приложения Gemini в Google Workspace.

Готовые Gems в Gemini в Google Workspace и пачка агентов искусственного интеллекта, предназначенных для взаимодействия с клиентами и общения с ними

#assistant #llm #news
👍61
Arch-Guard

От взлома языковых моделей защищаются всерьез.

Коллекция Katanemo Arch-Guard — это коллекция самых современных (SOTA) #LLM, специально разработанных для задач обнаружения взлома. Попытки взлома — это вредоносные запросы, предназначенные для изменения предполагаемого поведения базовой модели LLM приложения. Они часто нарушают правила безопасности модели.

Война технологий продолжается

#news #jailbreak
😁3👀3
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages

Мультимодальная #LLM на 39 языков, русский в их числе. 7B параметров. "Полный" опенсорс

Код
Демо

#Multimodal #Mllm
😁11👍3
Ultravox

Голосовая разговорная LLM на базе Llama3.1-70B-Instruct и whisper-large-v3-turbo, опенсорс.
Голосовые данные для нее являются родными, как и текст.
Работает в реальном времени.
Поболтал с ней пару минут - задержка вообще незаметна. Прекрасно говорит по-русски!

Умеет клонировать голос, в демо этого нет
Есть онлайн сервис с API

Гитхаб
Веса
Демо

#voiceassistant #assiatant #voicecloning #translation #LLM #realtime #online
🔥18👍4👎1
Anychat

Неплохой подарочек
В этом демоспейсе есть большинство топовых LLM, даже Pixtral Large уже завезли.

Для коммерческих конечно понадобится токен

#assistant #llm
👍61
R1-Lite

Способная к рассуждениям #LLM от DeepSeek, конкурент o1, ждем в опенсорсе

По бенчмаркам лучше o1-preview в кодинге и математике, в остальном послабее

Попробовать можно на их сайте, включив «Deep Think». Дают 50 сообщений в день бесплатно

Попробовать

#assistant
👍5🎃1
Marco-o1

Рассуждающая #LLM от Alibaba.
Дообученная Qwen2-7B-Instruct. Обучали на английских и китайских данных. Но смог ответить мне на русском.

Получается, еще один конкурент закрытоИИшной o1

HF
Гитхаб
Демо
Демо 2
Демо 3 - этот сразу ответил, остальные тупят

#assistant
🔥8👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Multi-Model Consensus Chat

В Anychat добавили экспериментальную функцию. Здесь разные #LLM коллегиально решат вашу задачу

#assistant
👍7🔥1
Pleias

Семейство небольших языковых моделей, обученных только на открытых данных.

350M, 1.2B и 3B параметров

- мультиязычные, несколько европейских языков (каких?)
- безопасные, самые низкие результаты в тесте токсичности
- эффективны при выполнении ключевых задач, таких как поиск знаний.
- способны эффективно работать на локальном железе потребительского уровня (CPU, без квантизации)

веса

#news #llm
👍41
MiniMax-01

Hailuo AI выпустили языковую модель MiniMax-01 с контекстом 4 миллиона токенов. Это ооочень много

MiniMax-VL-01 - визуально-языковая
MiniMax-Text-01 - гибридная архитектура Lightning Attention / Softmax Attention / Mixture-of-Experts (MoE) на 456B параметров


PS. Мертвых с косами тоже приписал Цою и Есенину, как и Deepseek. Это заговор

Попробовать можно на офсайте - там же генерируем видео и речь, есть изолятор голоса на аудио
Или тут (API) - там у них и генератор речи есть speech-01 и генератор музыки music-01

Гитхаб

Демо MiniMax-VL-01
Демо MiniMax-Text-01

#vlm #llm #assistant #text2speech #tts #voiceisolation
👍42
This media is not supported in your browser
VIEW IN TELEGRAM
FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces

Мультиагентная платформа для автоматизации и оптимизации производства фильмов.

FilmAgent имитирует ключевые роли съемочной группы — режиссеров, сценаристов, актеров и кинематографистов. Процесс делится на три этапа: планирование, написание сценария и "съемки"

Все это работает на #LLM и #Unity

Код

#agent #assistant #text2movie #filmmaking
🔥8
LLM Arena: Бенчмарк LLM моделей на русском языке

Арена русскоязычных моделей.
А вот на днях еще и запустили приложение в тг

#arena #leaderboard #llm
👍5🥴4👎2
Liquid: Language Models are Scalable and Unified Multi-modal Generators

Единая языковая модель в качестве мультимодального генератора без костылей типа CLIP. В данном случае картинки/текст, 7B параметров

Код
Демо
Веса

#llm #mlm #text2image#image2text #text2text
🔥4👍1
Hunyuan-TurboS

Hunyuan выкатил показал свою #LLM, вдохновленную, на минуточку, человеческими когнитивными процессами

По-русски шпрехает, вот доказательства

Демо

#assistant
😁10🤷‍♂3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights

Немножко ресерча, который скоро вдохнет новые силы в LLM

TLDR: LoRa для языковых моделей без дообучения

Проект Drag-and-Drop LLMs (DnD) — это метод, который позволяет быстро адаптировать большие языковые модели к новым задачам без дополнительного обучения. Модель использует текстовые подсказки для создания необходимых параметров и работает быстрее, чем традиционные методы настройки. Это делает её эффективной для решения различных задач, включая математику, кодирование и анализ мультимодальных данных

Код ждем

#llm #research
10👍4
HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context

Ресерч.
Если встретите название HumanOmniV2, не путайте его с OmniHuman

Проект HumanOmniV2 от Alibaba направлен на улучшение способности больших языковых моделей (LLM) понимать и интерпретировать человеческие намерения и эмоции через мультимодальные данные.

Если кому нужен код, вот

Код

#llm #research
👍6
NeMo Canary-Qwen-2.5B

#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.

Влез на вершину Open ASR Leaderboard

Гитхаб
HF
Демо

#ASR #speech2text #stt #llm #leaderboard
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights

Метод позволяет быстро адаптировать большие языковые модели к различным задачам без необходимости их полного переобучения.

Параметры настройки генерируются за секунды на основе текстового промпта и упаковываются в LoRa

Код
Демо

#llm #lora #finetuning
👍101