288K subscribers
3.98K photos
693 videos
17 files
4.56K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
⚡️ Google готовится к запуску модели Nano Banana.

По слухам, которые появились из-за поста инженера DeepMind Патрика Лоебера в сети Х, на этой неделе мы увидим инпейнт-модель для редактирования изображений под названием Nano Banana.

Модель наделала шуму на Lmarena, да и тестеры предварительных версий отмечают способность вносить очень точечные изменения в изображение, не затрагивая другие его элементы.

При этом качество изображений, генерируемое Nano Banana сопоставимо с результатами более крупных и ресурсоемких систем.

Официально Google пока не объявляла дату запуска и не раскрывала информацию о ценах.

🟢 Обновление: Модель вышла и потестить бесплатно ее можно в aistudio: http://aistudio.google.com/prompts/new_chat

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
58👍18🔥14😁5❤‍🔥1
✔️ Российские учёные предложили новый способ борьбы с галлюцинациями ИИ

Одна из главных проблем больших языковых моделей — они могут генерировать правдоподобные, но ложные ответы.

Исследователи из Сбера разработали метамодели, которые повышают точность обнаружения ложных ответов обучаемыми локальными моделями почти на 30% при использовании малого количества данных для обучения. На тестах подход сработал лучше, чем многие закрытые коммерческие решения: уже при обучении на 250 примерах удалось добиться результатов, сопоставимых с применением крупнейших LLM в качестве оценщиков.

Выгода очевидна — компании могут сильно сэкономить ресурсы на разметку данных, ученые получают новый инструмент для анализа больших языковых моделей, а пользователи — более точные ответы от AI-моделей.
76👍43🤣30🔥14😁8🤔7🤷2😢1👨‍💻1
📌 Во Флориде школы начнут тестировать дроны с перцовым газом для борьбы со стрелками.

Три округа во Флориде готовятся к испытаниям системы беспилотников, предназначенной для нейтрализации нападающих. Дроны, разработанные компанией Campus Guardian Angel, могут быть активированы в течение 5 секунд после сигнала тревоги и достигнуть стрелка за 15 сек.

Они оснащены шариками с перцовым спреем, чтобы ослепить или замедлить преступника, могут разбивать окна для отвлечения внимания и транслировать видео в реальном времени для правоохранителей.

По словам CEO компании, если это не поможет, дроны будут «продолжать таранить» нападающего до прибытия полиции.

Проект уже вызвал серьезные этические вопросы, касающиеся безопасности, но штат выделил на пилотный проект 557 тыс. долларов. Установка систем в школах запланирована на осень, а полноценный запуск — на январь.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9125😁21🔥11🤔4🙈3👀1
Исследователи из Yandex B2B Tech и ШАДа совместно с Педиатрическим университетом Петербурга представили первую в России нейросеть для анализа МРТ головного мозга младенцев. Модель работает в облаке и за несколько минут определяет соотношение серого и белого вещества с точностью более 90%.

Для обучения использовали 1500 обезличенных снимков и открытый датасет MICCAI Grand Challenge. Архитектура включает BIBSNet для автоматической разметки и ResNet с U-Net для сегментации изображений. Разработчики отмечают, что основной вызов был связан с малым количеством доступных данных и сложностью разметки.

Система уже проходит пилот в клинике и доступна врачам на специальной странице сервиса на платформе Yandex Cloud. В дальнейшем её планируют выложить в опенсорс, чтобы расширить возможности исследований и внедрения подобных решений в здравоохранении.
120👍37🔥14😁4🤔3👾2💯1👀1
📌DeepConf: фильтрация мусорных СoT c высокой точностью.

Deep Think with Confidence (DeepConf) - способ улучшить рассуждения LLM, который в отличие от стандартного голосования по большинству, предлагает фильтровать варианты на лету, используя внутренние сигналы уверенности самой модели.

Идея в том, чтобы не ждать генерации полной цепочки рассуждений, а отслеживать её качество в реальном времени. Для этого придумали метрику "групповой уверенности" (group confidence) — усредненную уверенность модели на небольшом скользящем окне токенов.

Если эта метрика падает ниже определенного порога, генерация траектории рассуждения просто останавливается. Это позволяет отсекать низкокачественные цепочки на ранней стадии, экономя огромное количество токенов. При этом сам метод не требует дополнительного обучения или тюнинга гиперпараметров.

🟡DeepConf работает в 2 режимах.

В офлайн-режиме, когда все варианты уже сгенерированы, он позволяет применять взвешенное голосование или фильтрацию. Вместо простого подсчета голосов, каждый ответ взвешивается по уверенности породившей его цепочки рассуждений.

Результаты на бенчмарке AIME 2025: для GPT-OSS-120B стандартное голосование по 512 вариантам (cons@512) даёт точность 97.0%. Взвешивание с фильтрацией по уверенности (DeepConf@512) поднимает эту планку до 99.9%, практически решая бенчмарк.

🟡Но самый большой выигрыш даёт онлайн-режим.

Здесь происходит та самая ранняя остановка генерации. Для GPT-OSS-120B на том же AIME 2025 DeepConf в агрессивной конфигурации DeepConf-low сокращает количество сгенерированных токенов на 84.7% по сравнению с полной генерацией 512 вариантов. При этом точность не только не падает, а даже немного растeт — с 97.1% до 97.9%.

В более консервативном режиме, DeepConf-high, экономия токенов составляет 56.0%, а точность остается на уровне 97.0%. Схожие результаты наблюдаются и на моделях DeepSeek-8B и Qwen3-32B, где экономия токенов достигает 77.9% и 66.8% соответственно.

Для оценки уверенности прогнали несколько метрик, но наиболее эффективными оказались те, что фокусируются на слабых местах в рассуждениях. Например, метрика Bottom 10% Group Confidence (средняя уверенность по 10% наименее уверенных групп токенов) и Tail Confidence (уверенность на последних токенах цепочки) оказались лучше, чем простое усреднение по всему трейсу.

Порог для ранней остановки определяется на лету для каждого нового промпта. Сначала генерируется небольшое количество "разогревочных" трасс, на основе которых вычисляется порог уверенности. Затем запускается основная генерация, и любой вариант, чья групповая уверенность падает ниже этого порога, немедленно останавливается.

▶️Попробовать DeepConf на практике можно пока только в vLLM, есть примеры для онлайн и оффлайн режима. Отдельного репозитория проекта пока нет.


🟡Страница проекта
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #CoT #DEEPCONF
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
44🔥18👍13🗿3
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Wan2.2-S2V — модель с 14 миллиардами параметров для генерации видео кинематографического качества на основе аудио.

🎬 Новая версия Wan способна превращать статичные изображения и аудио в динамичные видео с реалистичными выражениями лиц, естественными движениями тела и профессиональной работой камеры.

Ключевые особенности:
- Высокая динамическая согласованность — модель генерирует плавную и устойчивую анимацию на протяжении всего видео
- Высокое качество аудио-видео синхронизации — точное соответствие мимики и артикуляции звуку
- Контроль движения и среды через текстовые промпты — возможно задавать жесты, эмоции, фон и поведение персонажа (например, человек «идёт по рельсам», «девочка поёт под дождём», «старик играет на пианино у моря»)
- Поддержка сложных сценариев — включая движение камеры, дождь, ветер, парашют, съёмку в движущемся поезде и другие кинематографические эффекты

🖼️ + 🎵 = 🎥
Wan2.2-S2V принимает на вход одно изображение и аудиофайл, а на выходе создаёт синхронизированное видео, соответствующее заданному промпту.

📊 По результатам тестов модель демонстрирует лучшие или близкие к лучшим показатели среди конкурентов:
- FID ↓ 15.66 — высокое качество видео
- EFID ↓ 0.283 — естественность выражения лица
- CSIM ↑ 0.677 — сохранение идентичности персонажа
- Хорошие результаты на SSIM, PSNR и Sync-C подтверждают визуальную чёткость, стабильность и аудиосинхронизацию

🔓 Проект полностью открытый — исходный код, веса модели.

И судя по всему, что модель совместима с LoRA-адаптерами от Wan 2.x

🟢Попробовать онлайн: https://wan.video
🟢GitHub: https://github.com/Wan-Video/Wan2.2
🟢Проект: https://humanaigc.github.io/wan-s2v-webpage
🟢Декма на Hugging Face: https://huggingface.co/spaces/Wan-AI/Wan2.2-S2V
🟢Демо на ModelScope: https://modelscope.cn/studios/Wan-AI/Wan2.2-S2V
🟢Веса: https://huggingface.co/Wan-AI/Wan2.2-S2V-14B

@ai_machinelearning_big_data

#AI #ML #Wan
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67🔥3615🏆3🗿1
Media is too big
VIEW IN TELEGRAM
✔️ OpenGV Lab выпустила семейство моделей InternVL 3.5.

InternVL 3.5 - набор мультимодальных моделей размером от 1 до 38 млрд. параметров, плюс варианты с архитектурой MoE на 241 млрд. Семейство показывает SOTA-результаты в работе с изображениями и текстом. По сравнению с предыдущей версией, производительность в логических задачах выросла на 16%, а скорость инференса - в 4 раза.

Такой прогресс - заслуга фреймворка Cascade Reinforcement Learning, который сочетает офлайн- и онлайн-обучение для улучшения способности модели к рассуждениям. Все модели InternVL3.5 доступны на Hugging Face под лицензией Apache 2.0.
huggingface.co

✔️ Apple рассматривает возможность покупки Mistral и Perplexity.

Apple провела внутренние обсуждения о возможном приобретении Mistral AI и Perplexity AI. Обсуждения находятся на ранней стадии и сталкиваются с внутренними разногласиями. Глава сервисного подразделения Эдди Кью является главным сторонником сделки, а вот руководитель разработки ПО Крейг Федериги предпочитает развивать ИИ-технологии внутри компании.

Покупка любой из этих компаний станет крупнейшей сделкой в истории Apple, значительно превысив приобретение Beats за 3 миллиарда долларов в 2014 году. Оценка Mistral составляет около 10 миллиардов, а Perplexity — от 14 до 18 миллиардов долларов.

Ситуацию осложняет неопределенность с многомиллиардным соглашением с Google, которое обеспечивает статус поисковика по умолчанию на iPhone.
theinformation.com

✔️ Google Translate получил режим синхронного перевода разговоров и уроки иностранных языков.

Google представила 2 крупных обновления для мобильного приложения Translate. Новый режим "Live translate" позволяет вести диалоги на более чем 70 языках, переводя речь и отображая текст на экране почти в реальном времени. Инструмент работает на моделях Gemini, умеет распознавать паузы, акценты и фоновый шум. Он уже доступен на iOS и Android в США, Индии и Мексике.

Вторая новинка - пилотная функция для практики языков. Она генерирует персонализированные упражнения на аудирование и говорение, основываясь на уровне и целях пользователя. Бета-версия доступна бесплатно и на старте поддерживает несколько языковых пар.
blog.google

✔️ Prefect запустила облачную платформу для быстрого развертывания MCP-серверов.

Prefect открыла публичное бета-тестирование платформы FastMCP Cloud. Она позволяет разворачивать серверы, использующие протокол MCP из GitHub-репозитория менее чем за минуту. Сервис предоставляет безопасный и масштабируемый эндпоинт одним кликом, избавляя от необходимости настраивать хостинг и CI/CD-пайплайны.

FastMCP Cloud предлагает встроенную OAuth-аутентификацию, бессерверное автомасштабирование и аналитику. Платформа уже интегрирована с Claude, GPT и Cursor. Сервис бесплатен на время беты, а в будущем появится постоянный бесплатный тариф.
prefect.io

✔️ Исследование Стэнфорда: генеративный ИИ снизил занятость молодых специалистов на 13%.

Лаборатория цифровой экономики Стэнфордского университета представила одни из первых статистических доказательств влияния ИИ на рынок труда. Анализ данных о заработной плате миллионов работников в США с конца 2022 по середину 2025 года показал, что занятость среди специалистов в возрасте от 22 до 25 лет в профессиях, наиболее подверженных влиянию генеративного ИИ, сократилась на 13%.

Потери в основном коснулись должностей начального уровня в разработке ПО и обслуживании клиентов, где ИИ способен полностью автоматизировать задачи. При этом занятость их старших коллег на тех же позициях осталась стабильной или даже выросла. Уровень заработной платы существенно не изменился, что говорит о том, что компании скорее сокращают наем, чем урезают зарплаты. В то же время, в профессиях, где ИИ дополняет, а не заменяет человека, сокращения рабочих мест не наблюдается.
stanford.edu

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4022💋3🤝2🔥1🥰1
🔥 VK выложил VK-LSDV, датасет коротких видео для рекомендательных систем

📊 Что внутри:
- 40 миллиардов уникальных обезличенных взаимодействий
- 20 миллионов единиц контента
- 10 миллионов пользователей
- период: январь-июнь 2025
- данные: лайки, дизлайки, шеры, длительность просмотра, реакции, контекст воспроизведения

🟢 Возможности для инженеров и исследователей:
- Настраивать выборку под задачу: задавать нужный объём данных
- Выбирать метод отбора - случайный или по популярности
- Адаптировать датасет под доступные вычислительные мощности

⚡️ Почему это важно:
🟠 Это большой открытый датасет сервиса коротких видео для систем рекомендаций.
🟠 Позволяет строить и проверять модели на реальных и качественных данных, а не на «игрушечных» выборках.
🟠 VK-LSVD - шаг к созданию полноценной исследовательской среды, где можно тестировать гипотезы и развивать алгоритмы персонализации.

Такой ресурс открывает новые возможности для ученых и инженеров по всему миру и поднимает планку в развитии рекомендательных технологий.

🟠 SET: https://huggingface.co/datasets/deepvk/VK-LSVD
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣70🔥2822👍19🥱2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Anthropic сделала ИИ-агента Claude для браузера Chrome.

Anthropic запустила в режиме исследовательского превью ИИ-агента, который интегрируется в Chrome в виде расширения. Агент работает на базе Claude и позволяет общаться с чат-ботом в боковом окне, которое сохраняет контекст всего происходящего в браузере. Агент может выполнять некоторые задачи от имени пользователя, получив на это разрешение.

В Anthropic заверяют, что предусмотрели меры безопасности. Пользователи могут ограничить доступ агента к определенным сайтам, а по умолчанию уже заблокированы финансовые сервисы и ресурсы с NSFW контентом.

Перед выполнением "рискованных" действий, таких как публикация данных или совершение покупок, агент будет запрашивать разрешение.

Доступ к Claude for Chrome открыт для 1000 подписчиков тарифа Max. Для остальных желающих открыт лист ожидания.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6214🔥6🤬3🤷‍♂2🕊2🫡2🤔1🥱1
🌟 MiniCPM-V 4.5: компактная модель, которая бьет гигантов в мультимодальном ИИ.

Проект OpenBMB выпустил MiniCPM-V 4.5, мультимодальную модель на основе Qwen3-8B и SigLIP2-400M для распознавания изображений, серий изображений и видео, которая может работать на мобильных устройствах на более чем 30 языках.

OpenBMB - некоммерческое подразделение китайской технологической компании ModelBest, под патронажем Университета Цинхуа.

Среди инвесторов материнской ModelBest - Habo (Huawei), Primavera Capital Group и государственный Shenzhen Guozhong Venture Capital Management.


🟡Киллер-фича модели - эффективная работа с видео.

Благодаря унифицированному 3D-Resampler модель сжимает видео в 96 раз: шесть кадров разрешением 448x448 преобразуются всего в 64 токена, тогда как большинству MLLM для этого потребовалось бы 1536 токенов.

Это позволяет обрабатывать видео с частотой кадров до 10 FPS и длинные ролики без роста вычислительных затрат, что подтверждается топовыми результатами на наборах Video-MME, LVBench и MLVU.

Архитектура LLaVA-UHD позволяет модели работать с изображениями до 1,8 мегапикселей и любым соотношением сторон, используя в 4 раза меньше визуальных токенов.

Модель предлагает гибкий режим работы: быстрый ризонинг для повседневных задач и глубокий для сложных сценариев, переключаемый по требованию.

При общем объеме в 8 млрд. параметров, MiniCPM-V 4.5 набирает 77.0 баллов по комплексному бенчу OpenCompass. Этот результат не просто улучшает предыдущие версии, модель превосходит GPT-4o-latest и Gemini-2.0 Pro, обходит открытую Qwen2.5-VL с 72 миллиардами параметров и устанавливает новый стандарт для общего MLLM на OmniDocBench.

🟡С инференсом тоже нет проблем.

Доступны варианты для CPU через llama.cpp и ollama, есть квантованные версии в форматах int4, GGUF и AWQ, поддержка бэкендов SGLang и vLLM, возможность дообучения через Transformers и LLaMA-Factory, а также WebUI и оптимизированное iOS-приложение.

▶️ Чтобы было проще разобраться во всех вариантах запуска, разработчики заботливо подготовили подробный cookbook.


📌Лицензирование: MiniCPM Model License.


🟡Модель
🟡Demo
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #MiniCPM #OpenBMB
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
54👍16🔥14🍾2
Media is too big
VIEW IN TELEGRAM
6️⃣7️⃣8️⃣9️⃣🔟
Поиск айтишников вышел за рамки GitHub и Хабр

Теперь мы идём прямо на улицы города, чтобы найти будущих лидеров цифровой трансформации. Может, это именно ты?

Подавай заявку до 18 сентября.

Погнали менять будущее вместе с нами, hackathon is coming...👀

💥 Подробности в нашем канале
Please open Telegram to view this post
VIEW IN TELEGRAM
😁3416🌚10🔥6😴5❤‍🔥4🗿4🤔3🤬2🙈2🌭1
🌟 NVIDIA Jet-Nemotron: гибридная архитектура, которая быстрее SOTA-моделей в 53 раза.

Jet-Nemotron - новая архитектура языковых моделей, которая, по заявлениям NVIDIA, превосходит по эффективности топовые опенсорс-модели.

На H100 обещают ускорение пропускной способности при генерации до 53.6 раз, если работать с контекстом в 256 тыс. токенов и максимальным размером батча. Такой скачок производительности стал возможен благодаря двум ключевым инновациям: пайплайну PostNAS и новому блоку линейного внимания JetBlock.

🟡PostNAS (Post Neural Architecture Search).

Суть PostNAS состоит в отказе от дорогостоящего обучения новых архитектур с нуля. Вместо этого берут уже предварительно обученную модель и запускают процесс постобработки. Пайплайн сначала анализирует модель и определяет, какие слои внимания вносят наибольший вклад в её работу, а какие - не так уж и важны. Дальше он ищет оптимальное расположение для слоёв полного внимания и подбирает улучшенный дизайн для остальных блоков.

🟡JetBlock - модуль линейного внимания.

Его фишка - динамические сверточные ядра, генерируемые на лету в зависимости от входных данных и применяемые к value-токенам.

Прямое сравнение с Mamba2 Block, проведенное на идентичных данных и с одинаковыми параметрами обучения, показало существенный прирост в точности при сохранении той же пропускной способности во время обучения и инференса.

🟡Третий элемент успеха - аппаратно-ориентированный поиск архитектуры.

Вместо того чтобы использовать количество параметров в качестве прокси-метрики для эффективности, авторы напрямую оптимизируют архитектуру под целевое железо (H100), используя в качестве цели именно пропускную способность генерации.

Ключевое открытие тут в том, что размер KV-кэша, а не количество параметров, является критическим фактором, ограничивающим скорость генерации на длинных контекстах, поскольку декодирование упирается в пропускную способность памяти.

Фиксируя размер кэша, они провели поиск по размерности ключей/значений и числу голов внимания, обнаружив конфигурации, которые при том же объеме кэша и схожей пропускной способности используют больше параметров для достижения более высокой точности.

Итоговый дизайн Jet-Nemotron, построенный на базе Qwen 2.5, включает всего 2 full-attention слоя (для retrieval) и 2 слоя со скользящим вниманием (SWA, для MMLU), остальные — JetBlock.

Что касается конкретных моделей, то уже есть Jet-Nemotron-2B и Jet-Nemotron-4B. По результатам тестов, они как минимум не уступают по точности ведущим эффективным моделям, например, Qwen3, на целом ряде бенчмарков. При этом младшая модель Jet-Nemotron-2B работает в 21 раз быстрее, чем Qwen3-1.7B-Base, а старшая, Jet-Nemotron-4B, обгоняет её уже в 47 раз.

▶️ Код и веса моделей обещают опубликовать сразу после завершения юридической проверки.


🟡Страница проекта
🟡Arxiv
🖥GitHub (Coming Soon)


@ai_machinelearning_big_data

#AI #ML #LLM #NVIDIA #JetNemotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5828🔥20💘2❤‍🔥1👏1
Media is too big
VIEW IN TELEGRAM
✔️ Grok Code Fast 1: быстрая модель кодинга для разработчиков.

xAI выпустила модель Grok Code Fast 1, ориентированную на разработчиков и быстрое написание кода. Модель предлагает контекстное окно в 256 000 токенов при стоимости использования $0.20 за миллион входных токенов и $1.50 за миллион выходных.

Grok Code Fast 1 до 2 сентября доступна бесплатно в GitHub Copilot. Первые пользователи отмечают, что модель работает в несколько раз быстрее Claude Code и эффективно справляется с поиском и исправлением ошибок, хотя для лучших результатов требует детальных запросов.
github.blog

✔️ Китай обнародовал стратегию тотального внедрения ИИ в экономику.

Правительство Китая опубликовало план "AI Plus", который ставит целью глубокую интеграцию ИИ практически во все сферы экономики. Документ призывает к усилению финансовой поддержки, строительству сверхбольших вычислительных кластеров и развитию отечественной экосистемы ИИ-чипов и ПО.

К 2027 году Пекин планирует внедрить ИИ более чем в 70% ключевых отраслей - от производства и здравоохранения до госуправления и потребительской электроники, а к 2030 году этот показатель должен превысить 90%. Дорожная карта предусматривает массовое распространение беспилотных автомобилей, роботов, ПК, смартфонов и носимых устройств до 2035 года.

На фоне этого, китайские производители чипов намерены в следующем году утроить национальное производство ИИ-ускорителей, чему будет способствовать запуск новых фабрик.
ft.com

✔️ ByteDance представила универсальную модель генерации видео.

ByteDance анонсировала Waver 1.0, модель для генерации из текста в видео, изображения в видео и текста в изображение. Система поддерживает разрешение до 1080p и длину роликов от 2 до 10 секунд. По заявлениям разработчиков, Waver отлично справляется со сложным движением и превосходит аналоги на бенчмарках Waver-Bench 1.0 и Hermes.

В основе Waver 1.0 - гибридная архитектура DiT и двух текстовых энкодеров: flan-t5-xxl и Qwen2.5-32B. Для генерации в 1080p используется отдельный компонент Waver-Refiner, который повышает разрешение с помощью диффузионного процесса. Для улучшения реализма на этапе инференса применяется технология APG, подавляющая артефакты.

Планы по публикации весов модели не заявлены, но попробовать Waver можно в Discord-сообществе.
waver.video

✔️ OpenAI и Anthropic провели перекрестное исследование безопасности своих моделей.

В рамках беспрецедентного сотрудничества OpenAI и Anthropic протестировали друг у друга модели, чтобы создать эталон для независимой оценки ИИ. Исследователи получили временный взаимный доступ к API-интерфейсам конкурирующих систем.

Результаты выявили взаимные профили рисков. Модели Claude Opus 4 и Sonnet 4 отказывались отвечать на вопросы, в которых были не уверены в 70% случаев. В то же время, модели OpenAI, o3 и o4-mini, пытались дать ответ гораздо чаще, но при этом генерировали больше галлюцинаций. Руководители обеих компаний согласились, что оптимальным был бы подход, сочетающий более частые отказы при неопределенности с меньшим количеством ложной информации.

Компании надеются повторить подобное перекрестное тестирование в будущем и призывают другие лаборатории присоединиться.
bloomberg.com

✔️ PromptLock: вирус-шифровальщик, использующий локальную модель.

Исследователи из ESET выявили новый тип программы-вымогателя под названием PromptLock, который использует локально развернутую модель gpt-oss-20b от OpenAI для генерации уникальных вредоносных скриптов при каждом запуске.

Поскольку модель работает на зараженной машине через Ollama API, вирус не делает сетевых запросов для получения инструкций, что позволяет ему обходить традиционные системы обнаружения вторжений.

Анализ показал, что PromptLock способен похищать данные и шифровать файлы, а в будущих версиях, вероятно, сможет и полностью уничтожать информацию. Уже замечены версии для Windows и Linux, и, по мнению экспертов, адаптация под macOS не составит труда.
thehackernews.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
36👍25🔥7🤬3👾1
📌 Andreessen Horowitz выпустили пятый рейтинг TOP 100 ИИ-приложений.

Главный вывод из пятого ежегодного списка Top 100 AI Apps — экосистема ИИ начинает приходить в равновесие.

В веб-рейтинге появилось всего 11 новых имен, что заметно меньше, чем было мартовском отчете. В мобильном сегменте, напротив, новичков больше — целых 14, но это связано с тем, что App Store активно вычищают "клонов ChatGPT", освобождая место для оригинальных приложений.

🟡Главным событием стало укрепление позиций Google.

Их флагманский ассистент Gemini занял 2 место после ChatGPT и в вебе, и на мобильных устройствах. Правда, разрыв пока существенный: в вебе Gemini набирает примерно 12% от трафика ChatGPT. А вот на мобильных платформах ситуация иная - у Gemini уже почти половина ежемесячно активных пользователей ChatGPT.

Интересная деталь: почти 90% мобильной аудитории Gemini сидит на Android, тогда как у ChatGPT доля Android-пользователей составляет 60%.


Помимо Gemini, в топ-10 ворвался Google AI Studio. Следом идeт NotebookLM на 13-м месте, а экспериментальная площадка Google Labs заняла 39-ю строчку, получив в мае 2025 года прирост трафика более чем на 13% после запуска видеомодели Veo 3.

🟡В общей битве ChatGPT все еще лидирует.

Grok занял четвeртое место в вебе и 23-е на мобильных. Его мобильный рост особенно впечатляет: с нуля в конце 2024 года до более чем 20 миллионов MAU сейчас. В июле 2025 года, после релиза модели Grok 4, использование приложения подскочило почти на 40%.

У Марка Цукербкрга успехи скромнее: 46-е место в вебе и полное отсутствие в мобильном топе.

Perplexity продолжает уверенно расти, а вот Claude и DeepSeek показывают смешанные результаты. DeepSeek особенно сильно просел в вебе, потеряв более 40% трафика со своего пика в феврале 2025 года.

🟡Отдельного внимания заслуживает Китай.

Сразу 3 компании, ориентированные на внутренний рынок, вошли в топ-20 веб-рейтинга: Quark от Alibaba (№9), Doubao от Bytedance (№12) и Kimi от Moonshot AI (№17). Более 75% их трафика приходится на Китай, где доступ к ChatGPT или Claude ограничен.

Ещё более поразительна картина на мобильных устройствах. По оценкам, 22 из 50 приложений в топе были разработаны в Китае, но используются преимущественно за его пределами. Особенно сильна их концентрация в категории "фото и видео": одна только компания Meitu представлена 5-ю продуктами, включая BeautyPlus и Wink. Bytedance также не отстаёт с ассистентами Doubao и Cici.

🟡Ветераны рейтинга — 14 компаний, которые попадали в каждый из 5 списков Top 100 AI Apps.

Это ChatGPT, Civitai, Poe, Perplexity, LeonardoAI, VEED, Gamma, QuiliBot, CutOut, Character AI, Midjourney, Photoroom, Eleven Labs и HuggingFace.

Из этой "звёздной" команды только 5 компаний разрабатывают собственные модели, 7 используют сторонние API или опенсорс-решения, а 2 являются агрегаторами моделей.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6728🔥10😁6🤔1