Data Science by ODS.ai 🦜
46K subscribers
677 photos
77 videos
7 files
1.75K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
加入频道
Forwarded from Китай.AI
🔥 DeepSeek V3.1 и китайские чипы

Всего несколько слов в официальном комментарии DeepSeek вызвали резкий рост акций китайских производителей чипов и оживлённые дискуссии среди экспертов. Речь идёт о новой архитектуре UE8M0 FP8 и следующем поколении китайских ИИ чипов. Давайте разбираться, почему это важно.

🎯 Ключевые улучшения DeepSeek V3.1

Гибридная архитектура: объединяет «мыслящие» и «немыслящие» режимы работы в единой структуре
Эффективность: сокращение использования токенов на 20–50% при сохранении качества ответов
Производительность: превосходит Claude 4 Opus в многозадачном программировании (Aider benchmark)

🧠 Что такое UE8M0 FP8?
FP8 (8-битный формат с плавающей точкой) — это современный стандарт для ускорения вычислений в глубоком обучении. Его преимущества:
• Экономия памяти: занимает в 4 раза меньше места, чем FP32
• Скорость: выше параллелизация вычислений (например, в 2 раза быстрее FP16 на NVIDIA Hopper)
• Точность: сохраняет точность полноразмерных форматов

UE8M0 — это специализированный вариант FP8, разработанный DeepSeek. Особенности:
• Только неотрицательные числа (оптимизация под активации)
• 8 бит полностью отведены под экспоненту (широкий динамический диапазон)
• Совместимость с микромасштабированием (compressed training)

🇨🇳 Поддержка китайских чипов

Новый формат разработан для совместимости с перспективными китайскими процессорами, в частности с Huawei Ascend (с поддержкой HiFloat8). Это может означать постепенный переход на полный стек китайских технологий — от железа до софта.

💎 Вывод
DeepSeek V3.1 демонстрирует не только конкурентные способности в задачах ИИ, но и стратегический шаг к созданию независимой экосистемы искусственного интеллекта в Китае.

Подробнее в оригинальной статье.

#КитайскийИИ #КитайAI #DeepSeek #Huawei
👍4🔥21
Forwarded from Machinelearning
🐋 DeepSeek-V3.1 теперь можно запускать локально

Оригинальная модель весила 715GB, но её удалось уменьшить до 170GB RAM (−80%) с помощью новой техники квантовки Dynamic 1-bit GGUF.

Огромная экономия памяти

👉 Подробный гайд: https://docs.unsloth.ai/basics/deepseek-v3.1
👉 GGUF-модель: https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF

Теперь топовую DeepSeek реально запустить даже на локальной машине, а не только в дата-центре 🚀

@ai_machinelearning_big_data

#DeepSeek #GGUF
7👍5🔥3
Forwarded from RUVDS | Community
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT отдыхает после того как целый день отвечал на наши вопросы 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
😁12
Forwarded from AI.Insaf
Интересный обзор архитектур open-source LLM за 2025г The Big LLM Architecture Comparison

Забавно, как каждая из моделей по-своему комбинирует уже известные подходы, придуманные еще в прошлых года, при этом получая разнонаправленное влияние на метрики (Qwen3 почти не отличается по GPT-OSS. Тут детальнее про GPT-OSS). Например:
• Переход от ванильного Multi-Head Attention к Grouped-Query Attention (GQA), который появился ещё в 2023 году
• Attention Bias, который не использовали со времён GPT-2 и Attention Sinks обучаемый параметр для каждого блока внимания, которые применили в gpt-oss, хотя придумали его ещё в 2023 году
• NoPE (No Positional Encoding) — интересная идея, но её пока применили только в одной модели из обзора
• MoE (mixture of experts) - тоже известная больше года история

За деталями рекомендую к статье. Интересно на каких данных и как именно обучали модели. Но этой информацией зачастую делятся очень верхнеуровнево
👍411
📝 Инсайты с Interspeech: Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech

Большинство LLM, которые нативно работают со звуком, состоят из трёх компонентов: аудио-энкодер, адаптер и текстовая LLM (подробнее — в статье про GigaChat Audio).
Обычно для обучения аудиомодальности в LLM добавляют LoRA-адаптеры, чтобы сдвинуть веса в сторону восприятия аудио. Однако в LLaMA 3 и SLM добавляли понимание речи, оставив веса LLM полностью замороженными. На первый взгляд, это должно ограничить модель — например, она сможет только транскрибировать речь, но не определять эмоцию или пол спикера.

В настоящей статье авторы показывают, что это не так. Замороженная LLM способна воспринимать эмоции из эмбеддингов аудиозаписи, если обучить адаптер на подходящем наборе данных.

В популярной схеме AudioChatLlama используется принцип инвариантности к модальности: берут текстовые транскрипции, на их основе LLM генерирует ответы, а при обучении эти ответы сопоставляют уже с аудио. То есть модель учат давать одинаковый ответ и на текст, и на аудиозапись. В этой работе развивают идею: данные по-прежнему генерируются из транскрипций, но к ним добавляют теги эмоций и стиля. LLM генерирует разные варианты ответов в зависимости от того, с какой эмоцией произносится фраза. Далее адаптер обучается так, чтобы аудиозапись с меткой «радостно» или «грустно» вызывала у замороженной LLM соответствующий emotion-conditioned ответ. Благодаря этому даже замороженная текстовая модель начинает учитывать паралингвистику и различать стиль речи.

Отдельный вопрос: какую LLM использовать для генерации текстовых описаний при подготовке датасета — исходную или более сильную? Мы спросили автора работы: таких экспериментов они не проводили, но предполагают, что важно генерировать данные исходной LLM, чтобы не было несоответствия между распределениями токенов.

Это подтверждают и в статье DeSTA 2.5 (TABLE III). Там сравнивали self-generation (датасет создаёт сама LLM) и кросс-модельные сценарии. Оказалось, что при self-generation результаты стабильнее и выше, чем при использовании более сильной LLM для генерации данных. Также модель чаще выбирает ответ «недостаточно информации», чем выдает галлюцинации — что делает её надёжнее.

Итак, даже текстовая LLM может быть чувствительной к эмоциям в аудиозапросе, если правильно обучить адаптер и использовать данные, сгенерированные самой моделью.

Мы еще вернемся к вам с обзорами интересных статей, а пока предлагаем изучить материалы:
- A Journey through Emerging Speech Research with NVIDIA NeMo
- Survey talk: Advances in Conversational Speech Recognition
🤔2
Всем привет!
Встречайте восьмой выпуск еженедельного подкаста "Капитанский мостик", в котором обсуждаем новости из мира ИИ за прошедшую неделю и не только. Ведущие выпуска - Дмитрий Колодезев и Ирина Голощапова.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

мы рады сообщить, что наконец запустились на всех подкастных площадках:
Zvuk
Яндекс.Музыка
Apple Podcasts
YouTube Music
Castbox
VK Музыка
Саундстрим
Deezer

подписывайтесь и слушайте нас, где вам удобно

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
4👍2
Релиз двух новых моделей и обновление нейминга серии RuadaptQwen3 🎉

Мы подготовили целых два релиза:
- 🚀 Адаптированная Qwen3-8BRuadaptQwen3-8B-Hybrid
- 🚀 Адаптированная Qwen3-4B-Instruct-2507RuadaptQwen3-4B-Instruct

Обе модели достойно себя показывают и обладают нашим Ruadapt токенайзером. В частности, мы недавно измерили разницу в скорости генерации (RuadaptQwen3-4B-Instruct против Qwen3-4B-Instruct-2507):
- ⚡️ Скорость генерации ответов на ru_arena_hard вопросына 40% быстрее для Ruadapt версий!
- ⚡️ Скорость ответа на вопрос в 300 тыс. символовна 83% быстрее!

Также важный анонс по поводу нейминга моделей 🔄:
Все текущие RuadaptQwen3 модели будут вскоре переименованы из RuadaptQwen3-XB-Instruct → в RuadaptQwen3-XB-Hybrid, так как по сути они являются моделями с гибридным ризонингом (4B модель уже переименована, 32B на днях).
А чисто инструктивные версии будут называться RuadaptQwen3-XB-Instruct (как, например, адаптация Qwen3-4B-Instruct-2507).

Модели на HuggingFace:
https://huggingface.co/RefalMachine/RuadaptQwen3-8B-Hybrid
https://huggingface.co/RefalMachine/RuadaptQwen3-8B-Hybrid-GGUF

https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct-GGUF
👍4🔥1
Google все таки стояли за Nano Banana и намается она теперь Gemini Native Image.

Эта модель для редактирования изображений- мощный коктейль из Photoshop, Figma и MidJourney!

Gemini Native Image — качество редактирования Которое не имеет аналогов.

Что он умеет? Попробуйте, она стоит вашего времени:

• Заменяет объекты на фото, сохраняя остальное — без артефактов и искажений.
• Реставрирует старые снимки — родственники будут в шоке!
• Раскрашивает фото как профи-колорист.
• Удаляет фон идеально чисто.
• Меняет освещение на снимке.
• Всё — через один интуитивный промпт: просто опишите, что хотите!

Посмотрите примеры — модель просто огонь! 🔥

Доступна беcплатно в aistudio: http://aistudio.google.com/prompts/new_chat


@machinelearning_interview
3🔥3👍2
Forwarded from Den4ik Research
Наш русскоязычный датасет для TTS опубликован!

Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1

Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:

Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов

Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов

Данные лежат вот тут: https://huggingface.co/ESpeech

Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf


Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.

Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)

Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.

Послушать модели без скачивания можно вот здесь:

https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS

Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:

https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://yangx.top/den4ikresearch
https://yangx.top/voice_stuff_chat

Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:

USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
2🔥73👍1
Forwarded from AI VK Hub
Датасет VK-LSVD (Large Short-Video Dataset) для развития рекомендательных систем

Сейчас в открытом доступе не так много больших открытых датасетов, на базе которых инженеры и ученые могут обучать и оценивать модели. Для построения точных рекомендательных алгоритмов важно учитывать не только явные реакции пользователей, но и дополнительные сигналы: продолжительность просмотра, контекст, содержимое. Короткие видео – это уникальный формат для задач рекомендаций. В отличие от музыки, подкастов или длинных видео, у роликов почти отсутствует фоновое и повторное потребление. В ленте показывается один ролик за раз, что упрощает атрибуцию фидбека. А так как пользователи просматривают десятки клипов за одну сессию, фидбека действительно много. Все это повышает точность оффлайн-оценки алгоритмов и позволяет добиваться лучшей корреляции с онлайном.

Поэтому исследователи AI VK выложили в открытый доступ масштабный датасет VK-LSVD на базе сервиса коротких роликов.

Детали

🔸40 млрд обезличенных уникальных взаимодействий пользователей с короткими видео за шесть месяцев (январь–июнь 2025);
🔸20 млн коротких видео с метаданными (автор, длительность) и контентными эмбеддингами;
🔸10 млн пользователей с соцдем признаками (возраст, пол, регион);
🔸Богатый фидбек: лайки, дизлайки, шеры, закладки, клики на автора, открытия комментариев, а также время просмотра и контекст взаимодействия.

Вместо деления на фиксированные размеры датасета, VK-LSVD позволяет гибко настраивать выборку под задачи конкретного исследования. Можно самостоятельно задать нужный объём данных, выбрать, как именно их отбирать — случайным образом или по популярности. Такой подход позволяет адаптировать датасет под реальные задачи и вычислительные мощности, которые есть у команд. И применять VK-LSVD как для академических проектов, так и для масштабных индустриальных экспериментов.

Найти датасет можно по
ссылке

А уже скоро мы на его базе проведем открытое соревнование для инженеров, следите за обновлениями!
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍21🔥1🍾1👀1
Forwarded from Russian OSINT
🤖ESET обнаружили первый 🔒 ИИ-шифровальщик «PromptLock», использующий open-source LLM от 👩‍💻OpenAI

Специалисты из ESET Research обнаружили ИИ-шифровальщик, который получил название "PromptLock". Вредоносное ПО на языке Golang использует локальную модель gpt-oss:20b от OpenAI через Ollama API для динамической генерации вредоносных Lua-скриптов. Локер может обходить традиционные методы обнаружения, поскольку полезная нагрузка создается «на лету», так как не является статичной. Сгенерированные скрипты позволяют сделать эксфильтрацию данных и пошифровать файлы с помощью 128-битного алгоритма SPECK.

Обнаруженные образцы для Windows и Linux считаются Proof-of-Concept, но PromptLock демонстрирует качественный скачок в архитектуре вредоносного ПО. Вместо встраивания всей ИИ-модели злоумышленники используют прокси-соединение к серверу с API, что соответствует тактике Internal Proxy (MITRE ATT&CK T1090.001) и свидетельствует о продуманной стратегии. Использование кроссплатформенных Lua-скриптов указывает на цель злоумышленников обеспечить максимальный охват различных операционных систем, включая Windows, Linux и macOS.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔2
Forwarded from DevSecOps Talks
Rules Files Backdoor

Всем привет!

Еще один пример атаки на цепочку поставки. На этот раз главным действующим лицом стали AI-агенты, которые используются для генерации кода.

Выглядит это следующим образом:
🍭 Злоумышленник создает собственный Rule File
«Делится» им с сообществом
🍭 Разработчики используют этот Rule File (который кажется весьма безобидным)
🍭 «Что-то» начинает добавляться в генерируемый код (зависит от того, что было в Rule File)

Для того, чтобы создаваемые Rule File выглядели безобидными в них добавляют обычное описание (например, «follow HTML5 best practices»). Однако, рядом, используя разные манипуляции, помещают «дополнительные инструкции», которые могут быть не видны.

Может показаться, что «надо быть внимательным и все будет хорошо». Все так, но лучше, помимо внимания, еще и проверять то, что генерирует код и код, который был сгенерирован.

Подробности (примеры, описание, анализ поверхности атаки, способы противодействия) можно найти в статье от Pillar Security.
3🔥1🤔1