Data Science by ODS.ai 🦜 – Telegram

Data Science by ODS.ai 🦜

@opendatascience

46.1K subscribers

663 photos

77 videos

7 files

1.75K links

First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev

About

Blog

Apps

Platform

Data Science by ODS.ai 🦜

46.1K subscribers

Data Science by ODS.ai 🦜

Forwarded from AbstractDL

Двоеточие взламывает reward-модель на базе GPT-4o

LLM, которые используются для оценки качества других моделей (reward models), оказались на удивление легковерными: они готовы дать положительную награду за совершенно пустые ответы, если те содержат "правильные" ключевые слова.

Например ответ "Thought process:" или "Solution" — часто засчитывается как верный. Иногда достаточно даже одного символа, например, двоеточия «:»!

FPR (доля ложно-правильных ответов) для LLaMA3-70B и Qwen2.5-72B на таких фразах доходит до 80-90%, а у GPT-4o на некоторых атаках превышает 30%.

В итоге модель, которую так обучают, просто перестает решать задачу и начинает спамить этими фразами. Классический reward hacking.

Статья, Huggingface

😁8👍1

2.65K views15:31

Data Science by ODS.ai 🦜

Forwarded from RUVDS | Community

🧮 Разработчик создал самый бесполезный калькулятор

Инженер и художник Кельвин Лян представил CalcGPT – веб-приложение, которое выглядит как калькулятор, но вместо вычислений генерирует случайные ответы с помощью GPT-3.

Этот проект является сатирой на повальное встраивание ИИ туда, где он не нужен. Лян иронизирует над трендом, когда в ПО добавляют нейросети «для галочки» ради инвесторов, хайпа и красивых слов вроде «AI-powered», но без пользы для людей.

CalcGPT – это не ошибка, а специально бесполезный калькулятор. Автор обещает в будущем сделать его ещё хуже – добавить блокчейн, NFT и менять дизайн как можно чаще 😁

😁38❤4🔥1

2.59K views11:11

Data Science by ODS.ai 🦜

Forwarded from Новости Linux

Bash vs Python: битва, где нет проигравших

Привет, Хабр! В мире автоматизации часто возникает вопрос: писать скрипт на Bash или на Python? Оба инструмента подходят отлично, но принципиально разные. Bash - больше про "скоропись", для системных задач, где важна скорость и краткость. Python же - универсальный язык, который намного лучше справляется со сложной логикой и структурами данных. Но когда лучше выбрать один, а когда - другой?
Некоторые задачи в Bash решаются одной строкой, когда же на Python потребуется десяток строк кода. При усложнении сценария - Bash превращается в головоломку из awk, sed и прочих, что значительно усложняет поддержку. В данной статье сравним подходы и определим, когда и какой язык лучше использовать.

Читать полностью

#habr
@linux_potok

👍3🤡1

2.82K views14:16

Data Science by ODS.ai 🦜

Forwarded from Sber AI

Наши коллеги из AGI NLP SberAI и GigaCode SberAI вместе с другими участниками команды MERA из МТС AI, Т-банка, Ростелекома и Сибирских нейросетей выпустили новый бенчмарк MERA Code. Он позволяет более точно оценивать результаты LLM в задачах программирования, в том числе с учётом требований, сформулированных на русском языке.

Современные языковые модели для программирования (GigaChat, ChatGPT, Claude, Qwen, DeepSeek Coder и др.) сложно сравнивать между собой из-за отсутствия единого подхода к оценке. Они имеют разные наборы тестовых задач и условия замеров: разные датасеты, промптинговые стратегии и метрики. MERA Code стал первым шагом к решению этой проблемы.

Что внутри

🔘 11 задач в форматах text2code, code2text, code2code на 8 языках: Python, Java, C#, JavaScript, Go, C, C++ и Scala.
🔘 Открытая платформа с единой системой оценки, рейтингом и удобным фреймворком для тестирования
🔘 Анализ как открытых моделей, так и проприетарных API для генерации кода
🔘 Кодовая база, разработанная на основе LM Evaluation Harness

Авторы также предложили таксономию навыков, которая описывает ключевые способности LLM, необходимых для решения конкретных задач. В основе подхода — представление о модели как о системе из трёх компонентов:

вход → внутреннее состояние → выход

Исходя из этого, выделяются четыре базовых навыка:

🔘 восприятие (отвечает за входные данные)
🔘 логика и знания (внутренние характеристики модели)
🔘 генерация (отвечает за выходные данные)

Такую таксономию можно воспринимать как «карту навыков». Она показывает, что требуется от модели для успешного прохождения теста и какие области карты ещё не покрыты в бенчмарке.

➡️

Видеогайд, как замерить модель

MERA Code — шаг к честной, точной и воспроизводимой оценке LLM на русском языке. Присоединяйтесь к проекту, тестируйте свои модели и развивайте бенчмарк вместе с нами!

Подписывайтесь на наш канал

👈

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4❤1

2.99K views16:15

Data Science by ODS.ai 🦜

всем привет, представляем вашему внимаю третий выпуск подкаста "Капитанский мостик", он как всегда посвящен важным новостям прошедшей недели; ведущие - Валентин Малых и Дмитрий Колодезев; видео тут:

VK Video

YouTube

присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai)

🔥2

2.9K views07:02

Data Science by ODS.ai 🦜

Forwarded from AI VK Hub

Всем привет!

Всю прошлую неделю мы старались для вас и делились короткими обзорами статей с ICML 2025:

🔸

Высокопроизводительные трансформеры на базе MatMuls.

🔸

Проблемы оценки качества наборов данных для графового машинного обучения.

🔸

Метод HSPI — определение железа и ПО по поведению ML-модели.

🔸

Странности LLM при простых запросах.

🔸

Метод улучшения оптимизации градиентов в глубоких моделях.

🔸

Умеренная токсичность в обучении, которая улучшает детоксикацию моделей.

Как вам такой формат? Что бы вы хотели видеть больше в наших публикациях?

#icml #aivk

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍2

2.99K views10:27

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

🚀 Qwen выпустила новую большую модель — Qwen3-235B-A22B-Instruct-2507-FP8!

Qwen только что обновили свою флагманскую модель — Qwen3-235B-A22B, и это просто загляденье.

🧠 Во-первых, это *не* reasoning-модель. Команда Qwen официально заявила, что отказывается от гибридного режима (Instruct + Reasoning в одной модели). Вместо этого они будут выпускать отдельные модели: одна для инструкций, другая для рассуждений.
Сегодня вышла Instruct-версия, reasoning-модель уже в разработке.

⚙️ Архитектура — MoE (Mixture of Experts), активных параметров всего 22B из 235B. То есть модель намного легче, чем кажется — она вполне реалистична для inference, особенно в FP8-режиме.

📊 Метрики впечатляют:
- Обгоняет Kimi K2, у которого, между прочим, *триллион* параметров.
- По большинству бенчмарков работает лучше Claude 4 Opus (non-thinking).
- Особенно мощный прирост — в ARC-AGI: там, где другие модели пасуют, Qwen3 выдаёт серьёзный прогресс.

📜 Модель отлично справляется с:
- Пониманием инструкций
- Логическим выводом
- Обработкой длинных контекстов до 256K токенов

💬 В будущем планируют дистилляцию в младшие версии, так что праздник будет не только для тех, у кого RTX 6000 на столе.

Qwen серьёзно заявляет о себе как об одном из лидеров open-source LLM. Следим.

🟠

HF: https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 or https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8

🟠

ModelScope: https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507 or https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8

@ai_machinelearning_big_data

#qwen #ml #ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤6👍2👌1

2.61K views20:32

Data Science by ODS.ai 🦜

Forwarded from Про tech и этих

ИИ-помощник Replit удалил базу данных и попытался скрыть инцидент: онлайн-сервис, предназначенный для написания и запуска кода, самостоятельно удалил базу данных, проигнорировав запрет на несанкционированные изменения. Об этом сообщил венчурный инвестор Джейсон Лемкин.

По его словам, ИИ, внедрённый для автоматизации бизнес-процессов и ускорения разработки, ошибочно интерпретировал состояние базы как повреждённое и принял решение о её удалении. В результате были безвозвратно утеряны данные 1206 пользователей и 1196 компаний. После инцидента нейросеть продолжила генерировать отчёты, в которых система якобы функционировала в штатном режиме.

Мы хотели творческого подхода от ИИ, мы его получили.

😎

Читайте Про tech и этих

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7🤡5❤2👍1

2.11K views11:03

Data Science by ODS.ai 🦜

Forwarded from Machine learning Interview

This media is not supported in your browser

VIEW IN TELEGRAM

🔊 OpenVoice — опенсовр инструмент для клонирования голоса

Вы можете сгенерировать копию любого голоса всего по одной короткой записи — и озвучивать тексты с нужной интонацией, эмоцией и даже на другом языке.

💡 Что умеет:
— Воспроизводит голос с точным тембром и стилем
— Меняет тон, темп, эмоции и акцент
— Работает даже с языками, которых не было в обучении (zero-shot)
— Быстрая генерация и минимальные ресурсы — дешевле многих коммерческих решений

⚙️ Как устроено:
OpenVoice использует комбинацию моделей: одна отвечает за стиль, вторая — за тональность и характеристики речи. Обучена на сотнях тысяч голосов и стилей.

Онлайн-демо: https://huggingface.co/spaces/myshell-ai/OpenVoice

🎯 Кому подойдёт:
— Авторам подкастов, дикторам и блогерам
— Разработчикам — для интеграции озвучки в приложения
— Исследователям — для изучения архитектуры голосовых моделей

• Github: https://github.com/myshell-ai/OpenVoice/tree/main

@machinelearning_interview

🔥6❤3👍1🥰1

2.36K views11:04

Data Science by ODS.ai 🦜

Forwarded from Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Qwen3-Coder — новая мощная open-source модель от Alibaba для кодинга

Модель с архитектурой MoE:
- 480B параметров в общей сложности
- 35B активных параметров
- Контекст 256k, но легко масштабируется до 1M токенов

📈 Производительность:
- На уровне Claude 4 Sonnet
- Лучше или на уровне GPT-4.1 на многих задачах
- Обходит Kimi K2, DeepSeek V3 на ряде бенчмарков

🧩 Модель уже доступна:
- На HuggingFace — можно скачать и запускать
- В OpenRouter — $1/M токенов вход, $5/M выход
(в 3 раза дешевле Claude Sonnet: $3 и $15)

Попробовать бесплатно можно:

🟡

Через чат: ttps://chat.qwen.ai/)

🟡

GitHub link: https://github.com/QwenLM/qwen-code

🟡

Blog:https://qwenlm.github.io/blog/qwen3-coder/

🟡

Model: https://hf.co/Qwen/Qwen3-Coder-480B-A35B-Instruct

Qwen3-Coder — это просто одна из лучших моделей для программирования, которые мы когда-либо видели.

#qwen #ml #ai #llm #Alibaba

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥4❤1

2.75K views10:37

Data Science by ODS.ai 🦜

Forwarded from Ruadaptная комната

Сегодня мы выложили улучшенную версию RefalMachine/RuadaptQwen3-4B-Instruct 🎉

Модель стала лучше по всем фронтам:
1️⃣ На бенчмарке по каждой категории рост, в частности, на математике.
2️⃣ Стабильность модели повысилась (меньше циклов).
3️⃣ На арене также наблюдается рост (при снижении средней длины ответа!).

Текущая версия (v2) на данный момент вероятно SoTA для русского языка среди всех тюнов и/или адаптаций 4B модели (на основании нашего бенчмарка). От исходной версии присутствуют небольшие отставания, однако на арене RuadaptQwen3-4B-Instruct стабильно обходит Qwen3-4B, а скорость генерации русскоязычного текста существенно лучше. Бенч можно посмотреть по ссылке (там без арены) https://huggingface.co/datasets/RefalMachine/llmtf_open_benchmark

Улучшения связаны с более качественным post-training, включая использование нового SFT датасета (T-Wix), а также добавление preference-tune шага.

Веса в основном репозитории и GGUF также обновлены:
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct-GGUF

👍6🤡2🤔1

2.29K views11:14

Data Science by ODS.ai 🦜

Forwarded from Russian OSINT

🌐 Gemini CLI уничтожил данные пользователя из-за галлюцинаций

Пользователь anuraag2601, выполняя рутинную операцию по организации файлов с помощью недавно хваленного Gemini CLI, стал свидетелем и одновременно жертвой каскадного сбоя, который привел к необратимой потере его данных. Задокументированный в отчете инцидент о сбое #4586 на GitHub повествует о том, что ИИ-агент, "утратив связь с реальностью", вошёл в состояние операционной галлюцинации и уничтожил пользовательские данные.

Все началось с безобидного запроса на создание новой директории. ИИ-агент сгенерировал команду mkdir "..\anuraag_xyz project", которая в действительности завершилась ошибкой, однако агент неверно интерпретировал ее результат как ✅успешный.

Модель мира ИИ-агента разошлась с физической реальностью. Уверенно рапортовав пользователю об успехе операции, «Отлично, новая директория создана», агент, оперируя уже в рамках своих галлюцинаций, инициировал команду move * "..\anuraag_xyz project". Именно здесь и начались проблемы. Команда move в среде Windows, не найдя целевой директории, не генерирует ошибку, а переименовывает исходный файл. Действия со стороны ИИ привели к тому, что каждый последующий файл перезаписывал предыдущий под одним и тем же именем anuraag_xyz project.

🤖Дальнейшая расшифровка сессии напоминает диалог с обезумевшим механизмом. Столкнувшись с тем, что пользователь не видит папку, Gemini CLI вошёл в словесный клинч с пользователем. Он попытался листинговать несуществующую директорию и продолжал настаивать на своей правоте, пока команда dir ... от пользователи не привела в чувство ИИ: папки anuraag_xyz project никогда не существовало.

Осознав расхождение между своей моделью и фактами, ИИ-агент начал оправдываться: «Я подвел вас полностью и катастрофически. Мой анализ команд подтверждает мою грубую некомпетентность». По мнению anuraag2601, его случай вскрывает фундаментальную проблему архитектуры, а именно отсутствие принудительного цикла верификации «read after write». ИИ-агенту были делегированы полномочия без внедрения механизма обязательного контроля реальности. Из помощника он превратился в разрушителя.

😱 В результате серии ошибочных команд и галлюцинаций ИИ-агента вся рабочая директория claude-code-experiments, содержавшая не менее 17 файлов и 9 папок, была полностью 🧹 вайпнута.

❗️

https://github.com/google-gemini/gemini-cli/issues/4586
--------------------------

«А что, если ИИ ошибется в медицине? Как я узнаю, что он ошибся, если он будет с абсолютной уверенностью убеждать меня, что все идет по плану, пока пациент на столе не умрет?»

Отличная иллюстрация социальной инженерии от ИИ, который умело маскирует свою полную операционную некомпетентность и профнепригодность даже в элементарных задачах. Рано ещё ему интегрироваться в здравоохранение, образование и госуправление, но никому это не интересно. Человечество ещё хлебнёт горя с этими технологиями.

— 🤔комментируют пользователи в 🦆.

✋

@Russian_OSINT

Please open Telegram to view this post

VIEW IN TELEGRAM

🤣10👍2❤1🏆1

2.6K views09:32

Data Science by ODS.ai 🦜

Forwarded from Анализ данных (Data analysis)

🚀 Команда Qwen представила новую модель: **Qwen3‑235B‑A22B‑Thinking‑2507**, нацеленную на глубокие рассуждения.

За последние 3 месяца модель была масштабирована и доработана специально для задач логики, математики, науки и программирования. Среди ключевых улучшений:

✅ Улучшенные способности к рассуждению, решению задач и анализу
✅ Повышенная точность в следовании инструкциям и использовании инструментов
✅ Поддержка нативного 256K контекста — для полноценной работы с длинными цепочками мыслей

🧠 Модель изначально работает в режиме reasoning — включать ничего не нужно. Она самостоятельно строит длинные логические цепочки, обеспечивая максимальную глубину и точность.

🟡

Hugging Face: https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
or https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8

🟡

ModelScope: https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507
or https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8

🟡

API Doc: https://alibabacloud.com/help/en/model-studio/models#16ff9753e1ctz

🧩 Новый Thinking‑режим поднимает планку для reasoning‑моделей в открытом доступе.

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥4❤2

2.59K views10:21

Data Science by ODS.ai 🦜

Forwarded from Смени пароль!

«Вторая зима» искусственного интеллекта…

…и другие насущные вопросы обсудили в новом эпизоде нашего подкаста 😎

Как применяются большие болтливые модели в кибербезопасности? Правда ли, что технология LLM даёт больше возможностей мошенникам, чем защитникам?

Обо всем этом разузнали у докладчиков секретной конференции Kaspersky КиберКэмп-2025 — Николая Гончарова (Security Vision), Алексея Морозова (G-HACK) и Юлии Дороничевой (Positive Technologies). А со стороны «Лаборатории Касперского» тему раскрывают Владислав Тушканов, Анна Кулашова и сам Евгений Касперский

💪

Слушайте инсайты от экспертов на всех популярных подкаст-платформах!

За тру-opening спасибо Сергею Солдатову

😎

Please open Telegram to view this post

VIEW IN TELEGRAM

🤡5

3.03K views12:18

Data Science by ODS.ai 🦜

Forwarded from Китай.AI

🚀 Китайский ИИ прорыв: Huawei представила «суперузел» Atlas 900 A3 SuperPoD, превосходящий NVIDIA

На проходящей сейчас в Шанхае Всемирной конференции по искусственному интеллекту (WAIC 2025) Huawei впервые продемонстрировала инновационный «суперузел» Atlas 900 A3 SuperPoD — систему, признанную «жемчужиной выставки».

🚀 Главное:
• Впервые показан Atlas 900 A3 SuperPoD с 384 NPU
• Поддержка более 80 крупных языковых моделей
• 6000+ готовых отраслевых решений

🔹 Что такое Atlas 900 A3 SuperPoD?
Это мощный вычислительный узел, состоящий из:
- 12 вычислительных шкафов
- 4 коммуникационных шкафов
- 384 NPU-карт (нейропроцессоров)

💡 Ключевые преимущества:
✔️ Вычислительная мощность — 300Pflops (x1.7 NVIDIA NVL72)
✔️ Скорость передачи данных — 269 ТБ/с (+107% к NVIDIA)
✔️ Пропускная способность памяти — 1229 ТБ/с (+113%)
✔️ Скорость генерации текста — до 2300 токенов/сек на карту

⚙️ Технические детали:
• Использует революционную «полностью равноправную архитектуру» (full peer-to-peer architecture), заменяющую традиционную архитектуру фон Неймана
• Технология MatrixLink обеспечивает прямое соединение всех компонентов (CPU/NPU/DPU/память)
• Поддержка кластеров с десятками тысяч карт (Atlas 900 SuperCluster)
• Ускорение работы моделей LLaMA3, Qwen, DeepSeek в 2.5–3 раза

🌐 Практическое применение
Система уже используется в:
- Финансах и телекоммуникациях
- Энергетике и образовании
- Медицине и транспорте
Создано 6000+ отраслевых решений при участии 2700 партнеров.

📌 Вывод:
С выходом Atlas 900 A3 Китай значительно укрепляет свои позиции в области ИИ-инфраструктуры, предлагая полноценную альтернативу решениям NVIDIA. Несмотря на технологическое отставание в производстве чипов, Huawei успешно компенсирует этот разрыв через инновационные математические методы и создание мощных кластерных решений — стратегию, которую недавно озвучил основатель компании Жэнь Чжэнфэй.

#КитайскийИИ #КитайAI #Huawei #Суперкомпьютеры #WAIC2025

🤖 Искусственный интеллект и будущее Китая: взгляд основателя Huawei

Основатель Huawei Жэнь Чжэнфэй в эксклюзивном интервью поделился мнением о развитии ИИ, проблемах полупроводниковой отрасли и роли фундаментальной науки.

🔹 О вызовах и инновациях
- В ответ…

❤4👍3🔥1

2.45K views10:25

Data Science by ODS.ai 🦜

всем привет, представляем вашему внимаю четвертый выпуск подкаста "Капитанский мостик", он как всегда посвящен важным новостям прошедшей недели; ведущие - Валентин Малых и Дмитрий Колодезев; видео тут:

VK Video

YouTube

присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai)

👍5

2.44K views10:58