287K subscribers
3.98K photos
691 videos
17 files
4.56K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
✔️ Deepseek DualPipe: алгоритм параллелизма для обучения LLM.

Deepseek в рамках марафона "5 дней opensource-проектов" опубликовал проект DualPipe. Это алгоритм двунаправленного конвейерного параллелизма для повышения эффективности обучения больших языковых моделей. DualPipe совмещает вычисления и передачу данных в процессе обучения за счет одновременного выполнения прямого и обратного проходов, тем самым нивелирует периоды простоя или неэффективного использования вычислительных ресурсов.

С помощью этого алгоритма обучались Deepseek V3 и R1 и теперь он в доступен под лицензией MIT. Подробности и примеры использования - в репозитории deepseek-ai/DualPipe на GitHub.
Deepseek в X (Twitter)

✔️ Ideogram 2a: релиз новой text-to-image модели.

Ideogram выпустила новую модель - Ideogram 2a, которая. по заверению создателей, обещает стать самой быстрой и экономичной разработкой компании, позволяя создавать высококачественную графику с текстом и фотореалистичные изображения всего за несколько секунд.

Стоимость Ideogram 2a на 50% ниже, чем у ее предшественника, Ideogram 2.0. Модель доступна как в веб-сервисе Ideogram, так и через API.
Ideogram в X (Twitter)

✔️ Claude получила интеграцию с Github и обновление tool use.

Алекс Альберт, руководитель отдела по связям с клиентами Antropic, в X сообщил, что интеграция GitHub с Claude теперь открыта для всех пользователей.

Помимо этого, новейшая модель 3.7 Sonnet сегодня получила более эффективную реализацию использования инструментов - теперь она использует в среднем на 14% меньше токенов и показывает заметное улучшение производительности. Обновление имеет заголовок token-efficient-tools-2025-02-19.
Alex Albert в X (Twitter)

✔️ Mercury Coder - первая коммерческая диффузионная LLM-модель.

Inception Labs представила Mercury Coder, diffusion large language models (dLLM), которая обещает перевернуть представление о скорости и эффективности. dLLM, по словам разработчиков, до 10 раз быстрее и дешевле существующих LLM.

Утверждается, что Mercury Coder способна обрабатывать более 1000 токенов в секунду на NVIDIA H100s. В отличие от традиционных LLM, dLLM не ограничены последовательным созданием текста, что позволяет им лучше рассуждать и структурировать ответы.

В бенчмарках на Copilot Arena Mercury Coder Mini занял 2 место, превзойдя GPT-4o Mini и Gemini-1.5-Flash. Inception Labs предлагает доступ к инференсу через API и on-premise развертывания, заявлена поддержка файнтюнинга. Попробовать можно бесплатно в плейграунде.
inceptionlabs.ai

✔️ Cloudflare на защите ИИ: релиз Guardrails в AI Gateway.

Cloudflare представила Guardrails в AI Gateway – решение, созданное, чтобы сделать использование ИИ более безопасным и предсказуемым. Инструмент выступает в роли "модератора", контролирующего взаимодействие пользователей с онлайн ИИ моделями OpenAI, Anthropic и DeepSeek.

Guardrails анализирует запросы пользователей и ответы моделей на предмет нежелательного контента, используя Llama Guard. Система может блокировать или помечать опасные запросы и ответы, обеспечивая соответствие нормативным требованиям и защиту от репутационных рисков.
blog.cloudflare.com

✔️ В плагине Material Theme для VS Code обнаружен вредоносный код.

Пользователи сообщества VS Code провели анализ и обнаружили, что Material Theme содержит вредоносный код, это подтвердили и эксперты по безопасности Microsoft, которые определили, что плагин содержит бэкдоры.

В настоящее время VS Code удалил плагин из маркета и попросил всех его пользователей немедленно деинсталлировать Material Theme из соображений безопасности. Разработчик плагина был заблокирован. Сообщений о возможном сборе данных и последствиях злонамеренного вторжения пока не поступало.
news.ycombinator.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍449🥰1
⚡️Agentic Reward Modeling –свежий проект от THU-KEG, цель которого переосмыслить подход к обучению агентных систем.

Этот инструмент направлен на разработку методов вознаграждения, где агент не просто выполняет команды, а учится понимать свои действия в контексте более сложных задач и долгосрочных целей.

Основные особенности:

- Вместо стандартных методов RL, где вознаграждения зачастую зависят от заранее заданных критериев, здесь акцент сделан на выработку более сложных стратегий, адаптирующихся под изменяющуюся среду и цели.
- Инструмент помогает моделировать вознаграждения таким образом, чтобы агент мог самостоятельно корректировать свои действия, учиться на ошибках и, в итоге, демонстрировать более «человеческое» принятие решений.
- Разработчики могут использовать данный подход в многоагентных системах и комплексных задачах, где важна динамическая оценка эффективности действий.

Этот инструмент интересен не только своим теоретическим потенциалом, но и практическими применениями в области создания более автономных и интеллектуальных систем. Agentic Reward Modeling открывает новые возможности для исследования агентов, способных обучаться в реальном времени, что делает его перспективным для дальнейших исследований и интеграций в реальные приложения.

Paper: https://arxiv.org/abs/2502.19328
Code:
https://github.com/THU-KEG/Agentic-Reward-Modeling

@ai_machinelearning_big_data

#ai #ml #opnesource #agents #aiagents
👍3110🔥5
🌟 MatAnyone: модель для выделения по маске людей на видео.

MatAnyOne - memory-based модель для видео-маттинга, разработанная для получения стабильных и точных результатов в сценариях реального постпродакшена. В отличие от методов, требующих дополнительного аннотирования, MatAnyOne использует только кадры видео и маску сегментации целевого объекта, определенную на первом кадре.

MatAnyOne оперирует регионально-адаптивным слиянием памяти, где области с небольшими изменениями сохраняют данные из предыдущего кадра, а области с большими изменениями больше полагаются на информацию из текущего кадра. Такая техника позволяет MatAnyOne эффективно отслеживать целевой объект, даже в сложных и неоднозначных сценах, сохраняя при этом четкие границы и целые части переднего плана.

При создании модели применялась уникальная стратегия обучения, которая опирается на данные сегментации для улучшения стабильности выделения объекта. В отличие от распространенных практик, MatAnyOne использует эти данные непосредственно в той же ветви, что и данные маски. Это достигается путем применения регионально-специфичных потерь: пиксельная потеря для основных областей и улучшенная DDC-потеря для граничных областей.

Для обучения был специально создан кастомный набор данных VM800, который вдвое больше, разнообразнее и качественнее, чем VideoMatte240K, что по итогу значительно улучшило надежность обучения объектному выделению на видео.

В тестах MatAnyOne показал высокие результаты по сравнению с существующими методами как на синтетических, так и на реальных видео:

🟠На VideoMatte и YouTubeMatte, MatAnyOne - лучшие результаты по MAD (средняя абсолютная разница) и dtSSD (расстояние преобразования формы);

🟢В бенчмарке с реальными видео MatAnyOne достиг MAD 0.18, MSE 0.11 и dtSSD 0.95, что значительно лучше, чем у RVM10 (MAD 1.21, MSE 0.77, dtSSD 1.43) и MaGGIe12 (MAD 1.94, MSE 1.53, dtSSD 1.63.


⚠️ Согласно обсуждению в issues репозитория, MatAnyOne способен работать локально от 4 GB VRAM и выше с видео небольшой длительности. Реальных технических критериев разработчик не опубликовал.

▶️Локальная установка и запуск web-demo на Gradio:

# Clone Repo
git clone https://github.com/pq-yang/MatAnyone
cd MatAnyone

# Create Conda env and install dependencies
conda create -n matanyone python=3.8 -y
conda activate matanyone

pip install -e .

# Install python dependencies for gradio
pip3 install -r hugging_face/requirements.txt

# Launch the demo
python app.py


📌Лицензирование: S-Lab License 1.0.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VideoMatte #MatAnyone
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31👍206🥰3🤔1
✔️ Microsoft выпустила приложение Copilot для Mac.

Microsoft представила нативное приложение Copilot для macOS, функционально схожее с версией для Windows. Приложение дает доступ к веб-интерфейсу Microsoft AI Assistant, позволяя загружать изображения и генерировать текст.

Copilot для macOS получил темную тему оформления и сочетание клавиш (Command + Space) для оперативной активации AI-ассистента, аналогично комбинации Alt + Space в Windows. На данный момент Copilot доступен для пользователей в США, Великобритании и Канаде. Обновление также затронет версию для iPad, в которой появилась функция разделения экрана.

Пользователи iPhone и iPad теперь могут входить в Copilot с Apple ID и загружать текст или PDF для получения ответов на вопросы по документу или суммаризации. Функция автоматического обобщения документов в скором времени станет доступна и в версии для macOS.
theverge.com

✔️ AMD представила видеокарты серии Radeon RX 9070.

AMD официально выпустила видеокарты Radeon RX 9070 и 9070 XT со стартовой ценой 549 долларов США. Они должны поступить в продажу 6 марта и будут напрямую конкурировать с серией RTX 50 от Nvidia.

RX 9070 использует архитектуру RDNA 4 и поддерживает технологию сверхвысокого разрешения FSR 4 нового поколения. Обе модели имеют 16 ГБ видеопамяти, интерфейс PCIe 5.0, обновленный медиа-движок и технологию генерации кадров AFMF 2.1, которая уменьшает артефакты изображения. На презентации также анонсировали RX 9060 начального уровня во втором квартале 2025 года.
amd.com

✔️ Apple разрабатывает технологию для определения возраста пользователей соцсетей.

Apple планирует внедрить новую технологию, которая позволит соцсетям определять, пытаются ли несовершеннолетние пользователи младше 16 лет получить доступ к их приложениям на устройствах iPhone и iPad.

Новая функция для определения возрастного диапазона будет доступна разработчикам приложений. С согласия родителей она сможет знать, относится ли пользователь к категории младше 18, 16 или 13 лет. На основе этой информации приложения смогут ограничивать доступ к определенному контенту или полностью блокировать использование приложений.
theguardian.com

✔️ OpenAI открыла доступ к Sora в Европе и Великобритании.

С 28 февраля пользователи в Великобритании и Европе могут воспользоваться Sora, системой генерации видео от OpenAI, которая ранее была доступна только в США и других странах. Sora включена без дополнительной платы для подписчиков ChatGPT Pro и Plus, но с некоторыми ограничениями на использование.

Для пользователей ChatGPT Plus доступно до 50 видео в месяц с разрешением 720p и длиной до 5 секунд. Подписчики Pro получают неограниченную медленную генерацию, 500 быстрых генераций и возможность создавать видео 1080p длиной до 20 секунд.

В рамках запуска Sora для ЕС OpenAI планирует запустить каналы Sora в Discord для обсуждений и проводить еженедельные "Sora Office Hours".
OpenAI в X (Twitter)

✔️ Google выпустила сверхсложный бенчмарк BIG-Bench Extra Hard.

BIG-Bench Extra Hard (BBEH), продукт Google DeepMind, предназначенный для оценки высокоуровневых способностей LLM к рассуждениям. BBEH значительно повышает сложность за счет замены задач в BIG-Bench Hard.

Результаты тестов на этом бенчмарке показывают, что производительность топовых моделей далека от идеала: средняя точность общих моделей составляет всего 9,8 %, и даже специализированная ризонинг- модель o3-mini (high) достигает только 44,8 %. Исследования показали, что модели рассуждений приносят значительную пользу при решении формальных задач, но имеют ограниченные преимущества при работе со сложными сценариями реального мира, включающими здравый смысл, юмор и т. д.
arxiv.org

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4117🥰3
🌟 MASt3R-SLAM: детализированный SLAM с априорными данными 3D-реконструкции в реальном времени.

MASi3R-SLAM - проект, который умеет строить детальные 3D-карты окружающей среды и отслеживать движение камеры в реальном времени без предварительной калибровки. Система работает даже с изменяющимися во аремени параметрами, например, при зумировании или оптических искажениях.

Основа MASi3R-SLAM - алгоритм, использующий модели DUSi3R и MASi3R для восстановления геометрии сцены по 2 изображениям. DUSi3R анализирует пары изображений, предсказывая детальные карты 3D-точек в общей системе координат, а MASi3R дополнительно генерирует дескрипторы для каждого пикселя, повышая точность сопоставления даже при большом смещении кадров.

Полученные данные от моделей обрабатывает уникальный алгоритм, который анализирует «карты точек», прогнозируемые нейросетью, и находит соответствия между кадрами за 2 миллисекунды, что в 40 раз быстрее аналогов.

В тестировании на наборах TUM RGB-D и EuRoC, показали: MASi3R-SLAM превосходит DROID-SLAM и другие системы по точности траектории (средняя ошибка — 3 см) и детальности 3D-моделей.

На сегодняшний день основное ограничение MASi3R-SLAM — скорость декодера из-за его вычислительной нагрузки: полный цикл обработки одного ключевого кадра занимает в среднем 26–27 миллисекунд, что примерно 64% общего времени работы паплайна.

Например, при разрешении 512 пикселей по длинной стороне декодер MASi3R тратит до 2 секунд на глобальный поиск соответствий, тогда как алгоритм сопоставления сокращает это время до 2 мс. На выходе создается «бутылочное горлышко», которое ограничивает частоту кадров до 15 FPS.

⚠️ Перед установкой необходимо загрузить модели и установить версию Pytorch, соответствующую установленной версии CUDA.


▶️Локальная установка и примеры запуска для live-режима и видео:

# Create Conda env 
conda create -n mast3r-slam python=3.11
conda activate mast3r-slam

# Clone Repo
git clone https://github.com/rmurai0610/MASt3R-SLAM.git --recursive
cd MASt3R-SLAM/

# Install dependencies
pip install -e thirdparty/mast3r
pip install -e thirdparty/in3d
pip install --no-build-isolation -e .

# Launch Live demo with camera
python main.py --dataset realsense --config config/base.yaml

# Or running on a MP4 video
python main.py --dataset <path/to/video>.mp4 --config config/base.yaml
python main.py --dataset <path/to/folder> --config config/base.yaml


📌Лицензирование: CC-BY-NC-SA-4.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #CV #3D #SLAM #Robotics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍40🔥1811😁1
🚀 6 День недели опенсорса: DeepSeek-V3/R1 Inference System!

DeepSeek выкатил подробный обзор своего инференса для моделей DeepSeek-V3/R1 – с акцентом на архитектурные инновации и невероятную экономическую эффективность.

DeepSeq R1 ежедневно приносит более $560 000, причем затраты на GPU составляют всего $87 000. Что озночает рентабельность в 545 %.

При таких расчетах теоретическая годовая выручка могла бы превысить $200 млн.

Компания также отметила, что затраты на обучение моделей составили менее $6 млн. Для сравнения, американские конкуренты, такие как OpenAI, инвестируют миллиарды долларов в обучение ИИ с использованием чипов NVIDIA H100. DeepSeek использует менее мощные NVIDIA H800, но это не мешает её моделям успешно конкурировать на глобальном рынке.

Данные за 24 часа:
– Входные токены: 608 млрд (с 56.3% cache hit rate)
– Выходные токены: 168 млрд при скорости 20–22 токена/с

Разительный контраст с американскими конкурентами, работающими в убыток.

Такой уровень доходности достигается за счёт оптимизированного распределения вычислений и гибкой архитектуры.

🌟 В DeepSeek-V3/R1 используется Cross-node Expert Parallelism (EP) — метод, при котором модель делится между GPU-узлами, а каждая видеокарта обрабатывает лишь небольшую часть модели. Эксперты распределяются между узлами кластера, что снижает нагрузку на память GPU, увеличивает размер батча и позволяет равномерно загружать видеокарты, избегая простоев. Это ускоряет вычисления и минимизирует задержки.

🌟 Для обработки данных DeepSeek-V3/R1 использует двухфазную стратегию инференса.

1) Prefilling фаза — здесь bспользуется EP32, где каждый GPU получает 9 направляемых экспертов и 1 общего эксперта, что позволяет минимизировать расходы на обработку данных.

2) Для Decoding используется EP144, перераспределяющий нагрузку так, что каждый GPU управляет 2 направляемыми экспертами и 1 общим экспертом. Такая стратегия помогает достичь высокой производительности без потери качества ответа.

– ~73.7k токенов/с для prefilling
– ~14.8k токенов/с для декодинга на одном узле H800

Данные за 24 часа:
– Входные токены: 608 млрд (с 56.3% cache hit rate)
– Выходные токены: 168 млрд при скорости 20–22 токена/с


🔗 Подробнее: *клик*

@ai_machinelearning_big_data


#AI #DeepLearning #DeepSeek #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
32👍22🔥10👏1
🔥 Самые интересные ИИ Релизы из Китая за февраль 2025

MLLM:
Ovis2 - мультимодальная LLM, выпущенная командой Alibaba AIDC.

Аудио:
Step Audio TTS от StepFun ai качественная модель синтеза речи.
InspireMusic от Alibaba – модель для генерации музыки.
Baichuan Audio от BaichuanAI – Audio LLM

Видео:
Wan2.1 от Alibaba – мощный опенсорсный генератор видео,
URL:
Stepvideo-T2V модель Text-to-Video
SkyReels-V1 еще один Text-to-Video.
С фокусом на человека в кадре
LLaDA-8B – диффузионная 8B модель обученная полностью с нуля и конкурирующую с LLaMA3 8B по производительности.

MoE:
Moonlight-16B - мощная модель с архитектурой MoE для сложных задач.

Reasoning:
TinyR1-32B - перспективная модель рассуждений на 32B

• Целая неделя опенсорса от DeepSeek.

Датасет:
Chinese DeepSeek R1-Distill data -110k – масштабный датаяет обучения и на китайском.

•ByteScale представили новую стратегию параллелизма, и рассказ про эффективное масштабирование обучения LLM с длиной контекста 2048 КБ на более чем 12 000 графических процессоров

@ai_machinelearning_big_data


#ai #releases #opensource #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥156
✔️ Создатель C++ бьет тревогу из-за "серьезных атак" на язык программирования.

Бьярне Страуструп, создатель C++, обратился к сообществу с призывом защитить язык, который в последние годы подвергается критике со стороны кибербезопасности и технических экспертов из-за проблем с ручным управлением памяти. C и C++ полагаются на него, что приводит к ошибкам выхода за пределы чтения и записи, которые, в свою очередь становятся источником для уязвимостей и составляют большинство проблем в крупных проектах.

Страуструп признает, что C++ нуждается в срочных мерах для улучшения безопасности, особенно в свете рекомендаций правительственных агентств, которые рекомендуют отказаться от использования "небезопасных" языков к 2026 году. Он предлагает использовать фреймворк "Profiles", который может помочь в решении этих проблем, но скептики считают, что это решение не будет готово вовремя.
theregister.com

✔️ ByteDance выпустила первую в Китае ИИ-IDE Trae

ByteDance официально выпустила «Trae», интегрированную среду разработки ИИ (AI IDE). Trae работает с моделью Doubao 1.5 Pro и может переключаться на полноценные версии DeepSeek R1 и V3.

Trae поддерживает автодополнение кода, понимание кода, исправление ошибок и генерацию кода на основе естественного языка. В ней есть новый режим Builder, который позволяет разработчикам быстро генерировать и оптимизировать код с текстовых помощью описаний.

Внутренняя версия Trae оптимизирована для сценариев разработки в Китае и предлагает версии для Mac и Windows, версия для Linux и возможность подключения в API провайдеров языковых моделей будут выпущены позже.
trae.com.cn

✔️ Microsoft представила Dragon Copilot: ИИ для врачей.

Dragon Copilot - инструмент с голосовыми возможностями на базе ИИ, его цель - облегчить бремя административных задач для медицинских работников. Он объединяет в себе возможности Dragon Medical One и DAX Copilot, позволяя врачам оперативно получать доступ к медицинской информации и автоматически формировать различные документы, выписки и направления.

По словам представителей Microsoft, Dragon Copilot должен вернуть врачам возможность сосредоточиться на пациентах, а не на рутинной бумажной работе, что, как ожидается, приведет к улучшению качества медицинской помощи. Доступ к Dragon Copilot будет осуществляться через мобильное приложение, браузер или десктопное приложение, с интеграцией в различные виды электронных медсистем.
news.microsoft.com

✔️ Google SpeciesNet : модель ИИ для идентификации видов животных.

Google опубликовала SpeciesNet, опенсорс-модель для идентификации биологических видов на основе анализа фотоснимков, полученных с автоматических камер слежения.
Исследователи в различных регионах мира используют подобные устройства для изучения популяций диких животных, но обработка получаемых данных представляет собой трудоемкий процесс из-за их объема. SpeciesNet, обученная на массиве из 65 млн. изображений, оптимизирует процедуру анализа.

Система способна классифицировать изображения по 2 тыс. категорий - как отдельные виды животных, так и более широкие таксономические группы.
techcrunch.com

✔️ Sinumerik Machine Tool Robot от Siemens: новая эра в промышленной робототехнике.

Siemens AG объявила о выпуске революционного продукта в области промышленной робототехники – Sinumerik Machine Tool Robot (MTR). Он обеспечивает увеличение точности траектории на 200–300 % по сравнению с традиционными промышленными роботами, а повышение производительности достигает 20–40 % благодаря инновационным концепциям управления.

В основе MTR лежит интеллектуальная система управления Sinumerik One - цифровая система ЧПУ нового поколения от Siemens. Она наделяет промышленных роботов характеристиками станков, делая их идеальными для высокоточных операций даже при обработке сверхтвердых материалов.

Технология будет представлена на выставках JEC, EMO (на стендах Danobat и Siemens) и Automatica (на стенде Siemens).
press.siemens.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5721🥰5🌚1😐1
CogView4-6B – свежая Text2Image
Модель генерации изображений, разработанный командой THUDM.

По качеству она конкурирует с flux/lumina.

Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.

CogView4 поддерживает очень длинный контекст.

Генерирует изображения от 512 до 2048 пикселей.

Ввод на китайском, и на английском.

Лицензия
: Apache 2.0

Model: https://huggingface.co/THUDM/CogView4-6B
Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
Github: https://github.com/THUDM/CogView4
Paper: https://arxiv.org/abs/2403.05121

@ai_machinelearning_big_data


#AI #CogView4 #OpenSource #TextToImage
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33🔥1191