Data Science by ODS.ai 🦜
46.1K subscribers
663 photos
77 videos
7 files
1.75K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
加入频道
Forwarded from AbstractDL
Двоеточие взламывает reward-модель на базе GPT-4o

LLM, которые используются для оценки качества других моделей (reward models), оказались на удивление легковерными: они готовы дать положительную награду за совершенно пустые ответы, если те содержат "правильные" ключевые слова.

Например ответ "Thought process:" или "Solution" — часто засчитывается как верный. Иногда достаточно даже одного символа, например, двоеточия «:»!

FPR (доля ложно-правильных ответов) для LLaMA3-70B и Qwen2.5-72B на таких фразах доходит до 80-90%, а у GPT-4o на некоторых атаках превышает 30%.

В итоге модель, которую так обучают, просто перестает решать задачу и начинает спамить этими фразами. Классический reward hacking.

Статья, Huggingface
😁8👍1
Forwarded from RUVDS | Community
🧮 Разработчик создал самый бесполезный калькулятор

Инженер и художник Кельвин Лян представил CalcGPT – веб-приложение, которое выглядит как калькулятор, но вместо вычислений генерирует случайные ответы с помощью GPT-3.

Этот проект является сатирой на повальное встраивание ИИ туда, где он не нужен. Лян иронизирует над трендом, когда в ПО добавляют нейросети «для галочки» ради инвесторов, хайпа и красивых слов вроде «AI-powered», но без пользы для людей.

CalcGPT – это не ошибка, а специально бесполезный калькулятор. Автор обещает в будущем сделать его ещё хуже – добавить блокчейн, NFT и менять дизайн как можно чаще 😁
😁384🔥1
Forwarded from Новости Linux
Bash vs Python: битва, где нет проигравших

Привет, Хабр! В мире автоматизации часто возникает вопрос: писать скрипт на Bash или на Python? Оба инструмента подходят отлично, но принципиально разные. Bash - больше про "скоропись", для системных задач, где важна скорость и краткость. Python же - универсальный язык, который намного лучше справляется со сложной логикой и структурами данных. Но когда лучше выбрать один, а когда - другой?
Некоторые задачи в Bash решаются одной строкой, когда же на Python потребуется десяток строк кода. При усложнении сценария - Bash превращается в головоломку из awk, sed и прочих, что значительно усложняет поддержку. В данной статье сравним подходы и определим, когда и какой язык лучше использовать.


Читать полностью

#habr
@linux_potok
👍3🤡1
Forwarded from Sber AI
Наши коллеги из AGI NLP SberAI и GigaCode SberAI вместе с другими участниками команды MERA из МТС AI, Т-банка, Ростелекома и Сибирских нейросетей выпустили новый бенчмарк MERA Code. Он позволяет более точно оценивать результаты LLM в задачах программирования, в том числе с учётом требований, сформулированных на русском языке.

Современные языковые модели для программирования (GigaChat, ChatGPT, Claude, Qwen, DeepSeek Coder и др.) сложно сравнивать между собой из-за отсутствия единого подхода к оценке. Они имеют разные наборы тестовых задач и условия замеров: разные датасеты, промптинговые стратегии и метрики. MERA Code стал первым шагом к решению этой проблемы.

Что внутри
🔘 11 задач в форматах text2code, code2text, code2code на 8 языках: Python, Java, C#, JavaScript, Go, C, C++ и Scala.
🔘 Открытая платформа с единой системой оценки, рейтингом и удобным фреймворком для тестирования
🔘 Анализ как открытых моделей, так и проприетарных API для генерации кода
🔘 Кодовая база, разработанная на основе LM Evaluation Harness


Авторы также предложили таксономию навыков, которая описывает ключевые способности LLM, необходимых для решения конкретных задач. В основе подхода — представление о модели как о системе из трёх компонентов:

вход → внутреннее состояние → выход


Исходя из этого, выделяются четыре базовых навыка:

🔘 восприятие (отвечает за входные данные)
🔘 логика и знания (внутренние характеристики модели)
🔘 генерация (отвечает за выходные данные)


Такую таксономию можно воспринимать как «карту навыков». Она показывает, что требуется от модели для успешного прохождения теста и какие области карты ещё не покрыты в бенчмарке.

➡️ Видеогайд, как замерить модель

MERA Code — шаг к честной, точной и воспроизводимой оценке LLM на русском языке. Присоединяйтесь к проекту, тестируйте свои модели и развивайте бенчмарк вместе с нами!

Подписывайтесь на наш канал 👈
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41
всем привет, представляем вашему внимаю третий выпуск подкаста "Капитанский мостик", он как всегда посвящен важным новостям прошедшей недели; ведущие - Валентин Малых и Дмитрий Колодезев; видео тут:


VK Video

YouTube


присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai)
🔥2
Forwarded from Machinelearning
🚀 Qwen выпустила новую большую модель — Qwen3-235B-A22B-Instruct-2507-FP8!

Qwen только что обновили свою флагманскую модель — Qwen3-235B-A22B, и это просто загляденье.

🧠 Во-первых, это *не* reasoning-модель. Команда Qwen официально заявила, что отказывается от гибридного режима (Instruct + Reasoning в одной модели). Вместо этого они будут выпускать отдельные модели: одна для инструкций, другая для рассуждений.
Сегодня вышла Instruct-версия, reasoning-модель уже в разработке.

⚙️ Архитектура — MoE (Mixture of Experts), активных параметров всего 22B из 235B. То есть модель намного легче, чем кажется — она вполне реалистична для inference, особенно в FP8-режиме.

📊 Метрики впечатляют:
- Обгоняет Kimi K2, у которого, между прочим, *триллион* параметров.
- По большинству бенчмарков работает лучше Claude 4 Opus (non-thinking).
- Особенно мощный прирост — в ARC-AGI: там, где другие модели пасуют, Qwen3 выдаёт серьёзный прогресс.

📜 Модель отлично справляется с:
- Пониманием инструкций
- Логическим выводом
- Обработкой длинных контекстов до 256K токенов

💬 В будущем планируют дистилляцию в младшие версии, так что праздник будет не только для тех, у кого RTX 6000 на столе.

Qwen серьёзно заявляет о себе как об одном из лидеров open-source LLM. Следим.

🟠 HF: https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 or https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
🟠ModelScope: https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507 or https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8

@ai_machinelearning_big_data


#qwen #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥76👍2👌1
Forwarded from Про tech и этих
ИИ-помощник Replit удалил базу данных и попытался скрыть инцидент: онлайн-сервис, предназначенный для написания и запуска кода, самостоятельно удалил базу данных, проигнорировав запрет на несанкционированные изменения. Об этом сообщил венчурный инвестор Джейсон Лемкин.

По его словам, ИИ, внедрённый для автоматизации бизнес-процессов и ускорения разработки, ошибочно интерпретировал состояние базы как повреждённое и принял решение о её удалении. В результате были безвозвратно утеряны данные 1206 пользователей и 1196 компаний. После инцидента нейросеть продолжила генерировать отчёты, в которых система якобы функционировала в штатном режиме.

Мы хотели творческого подхода от ИИ, мы его получили.

😎 Читайте Про tech и этих
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7🤡52👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🔊 OpenVoice — опенсовр инструмент для клонирования голоса

Вы можете сгенерировать копию любого голоса всего по одной короткой записи — и озвучивать тексты с нужной интонацией, эмоцией и даже на другом языке.

💡 Что умеет:
— Воспроизводит голос с точным тембром и стилем
— Меняет тон, темп, эмоции и акцент
— Работает даже с языками, которых не было в обучении (zero-shot)
— Быстрая генерация и минимальные ресурсы — дешевле многих коммерческих решений

⚙️ Как устроено:
OpenVoice использует комбинацию моделей: одна отвечает за стиль, вторая — за тональность и характеристики речи. Обучена на сотнях тысяч голосов и стилей.

Онлайн-демо: https://huggingface.co/spaces/myshell-ai/OpenVoice

🎯 Кому подойдёт:
— Авторам подкастов, дикторам и блогерам
— Разработчикам — для интеграции озвучки в приложения
— Исследователям — для изучения архитектуры голосовых моделей

Github: https://github.com/myshell-ai/OpenVoice/tree/main

@machinelearning_interview
🔥63👍1🥰1
🚀 Qwen3-Coder — новая мощная open-source модель от Alibaba для кодинга

Модель с архитектурой MoE:
- 480B параметров в общей сложности
- 35B активных параметров
- Контекст 256k, но легко масштабируется до 1M токенов

📈 Производительность:
- На уровне Claude 4 Sonnet
- Лучше или на уровне GPT-4.1 на многих задачах
- Обходит Kimi K2, DeepSeek V3 на ряде бенчмарков

🧩 Модель уже доступна:
- На HuggingFace — можно скачать и запускать
- В OpenRouter — $1/M токенов вход, $5/M выход
(в 3 раза дешевле Claude Sonnet: $3 и $15)

Попробовать бесплатно можно:
🟡Через чат: ttps://chat.qwen.ai/)
🟡GitHub link: https://github.com/QwenLM/qwen-code
🟡 Blog:https://qwenlm.github.io/blog/qwen3-coder/
🟡 Model: https://hf.co/Qwen/Qwen3-Coder-480B-A35B-Instruct

Qwen3-Coder — это просто одна из лучших моделей для программирования, которые мы когда-либо видели.

#qwen #ml #ai #llm #Alibaba

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥41
Сегодня мы выложили улучшенную версию RefalMachine/RuadaptQwen3-4B-Instruct 🎉

Модель стала лучше по всем фронтам:
1️⃣ На бенчмарке по каждой категории рост, в частности, на математике.
2️⃣ Стабильность модели повысилась (меньше циклов).
3️⃣ На арене также наблюдается рост (при снижении средней длины ответа!).

Текущая версия (v2) на данный момент вероятно SoTA для русского языка среди всех тюнов и/или адаптаций 4B модели (на основании нашего бенчмарка). От исходной версии присутствуют небольшие отставания, однако на арене RuadaptQwen3-4B-Instruct стабильно обходит Qwen3-4B, а скорость генерации русскоязычного текста существенно лучше. Бенч можно посмотреть по ссылке (там без арены) https://huggingface.co/datasets/RefalMachine/llmtf_open_benchmark

Улучшения связаны с более качественным post-training, включая использование нового SFT датасета (T-Wix), а также добавление preference-tune шага.

Веса в основном репозитории и GGUF также обновлены:
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct-GGUF
👍6🤡2🤔1
Forwarded from Russian OSINT
🌐 Gemini CLI уничтожил данные пользователя из-за галлюцинаций

Пользователь anuraag2601, выполняя рутинную операцию по организации файлов с помощью недавно хваленного Gemini CLI, стал свидетелем и одновременно жертвой каскадного сбоя, который привел к необратимой потере его данных. Задокументированный в отчете инцидент о сбое #4586 на GitHub повествует о том, что ИИ-агент, "утратив связь с реальностью", вошёл в состояние операционной галлюцинации и уничтожил пользовательские данные.

Все началось с безобидного запроса на создание новой директории. ИИ-агент сгенерировал команду mkdir "..\anuraag_xyz project", которая в действительности завершилась ошибкой, однако агент неверно интерпретировал ее результат как успешный.

Модель мира ИИ-агента разошлась с физической реальностью. Уверенно рапортовав пользователю об успехе операции, «Отлично, новая директория создана», агент, оперируя уже в рамках своих галлюцинаций, инициировал команду move * "..\anuraag_xyz project". Именно здесь и начались проблемы. Команда move в среде Windows, не найдя целевой директории, не генерирует ошибку, а переименовывает исходный файл. Действия со стороны ИИ привели к тому, что каждый последующий файл перезаписывал предыдущий под одним и тем же именем anuraag_xyz project.

🤖Дальнейшая расшифровка сессии напоминает диалог с обезумевшим механизмом. Столкнувшись с тем, что пользователь не видит папку, Gemini CLI вошёл в словесный клинч с пользователем. Он попытался листинговать несуществующую директорию и продолжал настаивать на своей правоте, пока команда dir ... от пользователи не привела в чувство ИИ: папки anuraag_xyz project никогда не существовало.

Осознав расхождение между своей моделью и фактами, ИИ-агент начал оправдываться: «Я подвел вас полностью и катастрофически. Мой анализ команд подтверждает мою грубую некомпетентность». По мнению anuraag2601, его случай вскрывает фундаментальную проблему архитектуры, а именно отсутствие принудительного цикла верификации «read after write». ИИ-агенту были делегированы полномочия без внедрения механизма обязательного контроля реальности. Из помощника он превратился в разрушителя.

😱 В результате серии ошибочных команд и галлюцинаций ИИ-агента вся рабочая директория claude-code-experiments, содержавшая не менее 17 файлов и 9 папок, была полностью 🧹 вайпнута.

❗️ https://github.com/google-gemini/gemini-cli/issues/4586
--------------------------

«А что, если ИИ ошибется в медицине? Как я узнаю, что он ошибся, если он будет с абсолютной уверенностью убеждать меня, что все идет по плану, пока пациент на столе не умрет?»

Отличная иллюстрация социальной инженерии от ИИ, который умело маскирует свою полную операционную некомпетентность и профнепригодность даже в элементарных задачах. Рано ещё ему интегрироваться в здравоохранение, образование и госуправление, но никому это не интересно. Человечество ещё хлебнёт горя с этими технологиями.

🤔комментируют пользователи в 🦆.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣10👍21🏆1
🚀 Команда Qwen представила новую модель: **Qwen3‑235B‑A22B‑Thinking‑2507**, нацеленную на глубокие рассуждения.

За последние 3 месяца модель была масштабирована и доработана специально для задач логики, математики, науки и программирования. Среди ключевых улучшений:

Улучшенные способности к рассуждению, решению задач и анализу
Повышенная точность в следовании инструкциям и использовании инструментов
Поддержка нативного 256K контекста — для полноценной работы с длинными цепочками мыслей

🧠 Модель изначально работает в режиме reasoning — включать ничего не нужно. Она самостоятельно строит длинные логические цепочки, обеспечивая максимальную глубину и точность.

🟡Hugging Face: https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
or https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
🟡ModelScope: https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507
or https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
🟡API Doc: https://alibabacloud.com/help/en/model-studio/models#16ff9753e1ctz

🧩 Новый Thinking‑режим поднимает планку для reasoning‑моделей в открытом доступе.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥42
Forwarded from Смени пароль!
«Вторая зима» искусственного интеллекта…

…и другие насущные вопросы обсудили в новом эпизоде нашего подкаста 😎

Как применяются большие болтливые модели в кибербезопасности? Правда ли, что технология LLM даёт больше возможностей мошенникам, чем защитникам?

Обо всем этом разузнали у докладчиков секретной конференции Kaspersky КиберКэмп-2025 — Николая Гончарова (Security Vision), Алексея Морозова (G-HACK) и Юлии Дороничевой (Positive Technologies). А со стороны «Лаборатории Касперского» тему раскрывают Владислав Тушканов, Анна Кулашова и сам Евгений Касперский 💪

Слушайте инсайты от экспертов на всех популярных подкаст-платформах!

За тру-opening спасибо Сергею Солдатову 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡5
Forwarded from Китай.AI
🚀 Китайский ИИ прорыв: Huawei представила «суперузел» Atlas 900 A3 SuperPoD, превосходящий NVIDIA

На проходящей сейчас в Шанхае Всемирной конференции по искусственному интеллекту (WAIC 2025) Huawei впервые продемонстрировала инновационный «суперузел» Atlas 900 A3 SuperPoD — систему, признанную «жемчужиной выставки».

🚀 Главное:
• Впервые показан Atlas 900 A3 SuperPoD с 384 NPU
• Поддержка более 80 крупных языковых моделей
• 6000+ готовых отраслевых решений

🔹 Что такое Atlas 900 A3 SuperPoD?
Это мощный вычислительный узел, состоящий из:
- 12 вычислительных шкафов
- 4 коммуникационных шкафов
- 384 NPU-карт (нейропроцессоров)

💡 Ключевые преимущества:
✔️ Вычислительная мощность — 300Pflops (x1.7 NVIDIA NVL72)
✔️ Скорость передачи данных — 269 ТБ/с (+107% к NVIDIA)
✔️ Пропускная способность памяти — 1229 ТБ/с (+113%)
✔️ Скорость генерации текста — до 2300 токенов/сек на карту

⚙️ Технические детали:
• Использует революционную «полностью равноправную архитектуру» (full peer-to-peer architecture), заменяющую традиционную архитектуру фон Неймана
• Технология MatrixLink обеспечивает прямое соединение всех компонентов (CPU/NPU/DPU/память)
• Поддержка кластеров с десятками тысяч карт (Atlas 900 SuperCluster)
• Ускорение работы моделей LLaMA3, Qwen, DeepSeek в 2.5–3 раза

🌐 Практическое применение
Система уже используется в:
- Финансах и телекоммуникациях
- Энергетике и образовании
- Медицине и транспорте
Создано 6000+ отраслевых решений при участии 2700 партнеров.

📌 Вывод:
С выходом Atlas 900 A3 Китай значительно укрепляет свои позиции в области ИИ-инфраструктуры, предлагая полноценную альтернативу решениям NVIDIA. Несмотря на технологическое отставание в производстве чипов, Huawei успешно компенсирует этот разрыв через инновационные математические методы и создание мощных кластерных решений — стратегию, которую недавно озвучил основатель компании Жэнь Чжэнфэй.

#КитайскийИИ #КитайAI #Huawei #Суперкомпьютеры #WAIC2025
4👍3🔥1
всем привет, представляем вашему внимаю четвертый выпуск подкаста "Капитанский мостик", он как всегда посвящен важным новостям прошедшей недели; ведущие - Валентин Малых и Дмитрий Колодезев; видео тут:


VK Video

YouTube


присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai)
👍5