Проект написан на CUDA и рассчитан исключительно на использование тензорных ядер архитектуры NVIDIA Hopper, что уже само по себе делает его очень современным
В основе DeepGEMM лежит идея максимально эффективного выполнения операций умножения матриц с использованием 8-битной точности.
Для решения проблемы накопления в FP8 (которое может давать неточные результаты) разработчики внедрили двухуровневое накопление, которое использует возможности CUDA-ядра для повышения точности без потери производительности.
Что действительно радует – это минимализм кода.
✔ Ядро библиотеки представлено всего в одном ключевом модуле, состоящем примерно из 300 строк, что позволяет легко разобраться в его работе и даже внести собственные улучшения.
При этом все ядра компилируются «на лету» с помощью легковесного JIT-компилятора, так что нет долгого этапа сборки при установке.
DeepGEMM поддерживает разные режимы работы: обычные GEMM для плотных моделей, а также группированные операции для моделей типа Mix-of-Experts, где требуется обрабатывать данные в нескольких форматах – как в «континуальном», так и в «masked» виде. Это особенно актуально для современных решений в области глубокого обучения.
Оптимизации, заложенные в DeepGEMM, включают использование новых функций Hopper, таких как Tensor Memory Accelerator (TMA) для асинхронной передачи данных, а также тонкую настройку блоковых размеров и оптимизацию инструкций FFMA для лучшего перекрытия вычислений и загрузки данных. Результаты говорят сами за себя: производительность этой библиотеки на ряде тестовых примеров сравнима или даже превосходит решения, построенные на базе CUTLASS.
DeepGEMM – это лаконичный и эффективный инструмент, который может послужить отличной базой для исследований и практических разработок в области ускорения вычислений для глубокого обучения.
▪ Github
#ai #deepseek #opensource #DeepEP #OpenSourceWeek:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍22❤16🥰2😴1
Благодаря специальному расширению цикл разработки и доставка обновлений существенно ускоряются: теперь разработчики могут напрямую публиковать созданные на GitVerse мобильные приложения.
Теперь достаточно встроить автоматизированный этап в CI/CD-конвейер и отправить приложение на модерацию через консоль RuStore или API. Кроме того, для запуска сборки теперь нужен всего один клик. Новые функции не требуют локальных настроек и значительно уменьшают вероятность ошибок.
@ai_machinelearning_big_data
#RuStore #GitVerse
Please open Telegram to view this post
VIEW IN TELEGRAM
🥱28🔥13👍10🗿4🥰3🤣2❤1😐1
OpenAI полностью откроет улучшенную и обновленную функцию deep research для пользователей ChatGPT Plus, Team, Edu и Enterprise. Вместе с анонсом опубликована карта deep research системы, в которой подробно рассказывается о том, как OpenAI проводили глубокие исследования, оценивали их возможности и риски, а также повышали уровень безопасности.
Новая версия поддерживает обработку изображений и улучшает возможности понимания и цитирования загруженных файлов. Пользователи Plus, Team, Enterprise и Edu могут использовать 10 deep research запросов в месяц, а на тарифе Pro месячная квота составит 120 запросов.
OpenAI в X
Nvidia подтвердила, что RTX 5080 имеют недостаточное количество блоков рендеринга на некоторых чипах из-за производственных дефектов, что приводит к усредненному падению производительности примерно на 4%. Ранее компания только заявляла, что проблема наблюдается только с RTX 5090, 5090D и 5070 Ti.
Бен Беллиондо, директор по глобальным коммуникациям Nvidia GeForce, сообщил, что у ранних моделей RTX 5080 был «редкий» дефект (затронувший менее 0,5%), но на производительность с ИИ и вычисления он не повлиял. Он пояснил, что RTX 5070 не были затронуты, и признал, что компания не обнаружила дефект до выпуска, но производственная проблема была решена.
theverge.com
Apple планирует построить завод по производству микросхем в Хьюстоне (Техас) для производства серверов с искусственным интеллектом, оснащенных высокопроизводительными чипами M5. Завод будет построен в сотрудничестве с Foxconn и, как ожидается, будет введен в эксплуатацию в 2026 году. Его площадь составит 23 тыс. кв.м.
macrumors.com
DeepSeek ускорит выпуск своей новой модели R2, которая, как ожидается, превзойдет многих западных конкурентов. Этот шаг может усилить конкуренцию на мировом рынке ИИ и заставить американские компании пересмотреть свои стратегии.
DeepSeek планировала выпустить R2 в мае, но теперь стремится сделать это как можно скорее. Компания утверждает, что новая модель будет лучше в программировании и сможет рассуждать на разных языках, а не только на английском.
reuters.com
Cisco и NVIDIA объявили о расширении партнерства, направленного на упрощение создания сетей для ЦОДов, готовых к работе с ИИ. В рамках сотрудничества компании планируют разработать единую архитектуру, которая объединит технологии Cisco Silicon One и NVIDIA SuperNICs в платформе NVIDIA Spectrum-X. Это сделает Cisco единственным партнером, чьи решения будут интегрированы в Spectrum-X.
Новая инициатива позволит клиентам стандартизировать использование технологий Cisco и NVIDIA в своих центрах обработки данных тем самым упростит управление сетями как для предприятий, так и для облачных провайдеров.
Ожидается, что первые обновления, включающие совместимость с Spectrum-X, появятся в середине 2025 года. Это позволит клиентам воспользоваться преимуществами технологий адаптивной маршрутизация, телеметрии и низкой задержки пакетов в сетях.
newsroom.cisco.com
✔️Copilot теперь доступен бесплатно и без ограничений — Microsoft предоставила полный доступ к голосовым функциям Voice и режиму размышлений Think Deeper. В основе сервиса лежат модели o1 от OpenAI.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37❤15🔥3🥰2
Проект "Deepdive Llama3 from scratch" - расширенный форк гайд-репозитория по созданию LLama-3 c нуля шаг за шагом.
Исходный проект был переработан, проактуализирован, улучшен и оптимизирован для того, чтобы помочь всем желающим понять и освоить принцип реализации и детальный процесс ризонинга модели Llama3.
@ai_machinelearning_big_data
#AI #ML #LLM #Tutorial #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤38👍23🔥8❤🔥2😨1
⚡️ Magma-8B – это экспериментальная модель от Microsoft, которая объединяет обработку текста и изображений в одном решении для ИИ-агентов.
Чем полезен инструмент:
- Мультимодальность: Возможность работать с изображениями, видео и текстом позволяет строить комплексные системы – от навигации по пользовательским интерфейсам до управления робототехникой.
Агентские возможности: Модель не просто описывает содержимое картинки, а умеет генерировать план действий, что особенно ценно для интерактивных приложений.
- ИспользованиеSet-of-Mark и Trace-of-Mark, помогает связать визуальные элементы с текстовыми командами, обеспечивая более точное понимание и планирование.
Magma-8B специально разработан для сценариев работы с агентами – акцент не только на генерации текста, но и на взаимодействии с реальными объектами (например, интерфейсами).
Модель обучалась на разнообразных источниках, включая неразмеченные видео, в результате этого удалось добиться понимания динамики и пространственных отношений в видео.
Современные технические решения и масштабируемость, что позволяет адаптировать модель под разные задачи.
Минусы:
- На данном этапе модель ориентирована на исследовательские проекты, поэтому может требовать доработки перед использованием в боевых условиях.
- Ограничения по языкам: основной фокус сделан на английском, что может усложнить работу с другими языками.
Возможны нестабильные результаты - в некоторых сценариях, особенно если задача выходит за рамки обучающих данных, что требует осторожности при внедрении в реальные приложения.
В целом, Magma-8B – это интересный экспериментальный инструмент, который может стать отправной точкой для создания новых, более «умных» агентных систем, объединяющих восприятие и действие в одном флаконе.
https://huggingface.co/microsoft/Magma-8B
#microsoft #magma #multimodal
Чем полезен инструмент:
- Мультимодальность: Возможность работать с изображениями, видео и текстом позволяет строить комплексные системы – от навигации по пользовательским интерфейсам до управления робототехникой.
Агентские возможности: Модель не просто описывает содержимое картинки, а умеет генерировать план действий, что особенно ценно для интерактивных приложений.
- ИспользованиеSet-of-Mark и Trace-of-Mark, помогает связать визуальные элементы с текстовыми командами, обеспечивая более точное понимание и планирование.
Magma-8B специально разработан для сценариев работы с агентами – акцент не только на генерации текста, но и на взаимодействии с реальными объектами (например, интерфейсами).
Модель обучалась на разнообразных источниках, включая неразмеченные видео, в результате этого удалось добиться понимания динамики и пространственных отношений в видео.
Современные технические решения и масштабируемость, что позволяет адаптировать модель под разные задачи.
Минусы:
- На данном этапе модель ориентирована на исследовательские проекты, поэтому может требовать доработки перед использованием в боевых условиях.
- Ограничения по языкам: основной фокус сделан на английском, что может усложнить работу с другими языками.
Возможны нестабильные результаты - в некоторых сценариях, особенно если задача выходит за рамки обучающих данных, что требует осторожности при внедрении в реальные приложения.
В целом, Magma-8B – это интересный экспериментальный инструмент, который может стать отправной точкой для создания новых, более «умных» агентных систем, объединяющих восприятие и действие в одном флаконе.
pip install torchvision Pillow open_clip_torch
https://huggingface.co/microsoft/Magma-8B
#microsoft #magma #multimodal
👍32❤11🔥8
olmOCR — проект, созданный для преобразования PDF-файлов и изображений документов в структурированный текст Markdown формата. Он способен справляться с уравнениями, таблицами и рукописным текстом, сохраняя правильный порядок чтения даже в самых сложных многоколоночных макетах.
olmOCR обучен эвристическим признакам для обработки распространенных ошибок парсинга и метаданных и поддерживает работу в SGLang и vLLM, где может масштабироваться одного до сотен GPU, что что делает его уникальным решением для крупномасштабных задач.
Ключевое преимущество olmOCR - его экономическая эффективность. Обработка 1 млн. страниц PDF обойдется всего в $190 (при аренде GPU), что составляет примерно 1/32 от стоимости использования API GPT-4o для того же объема.
Команда разработки создала уникальный метод «document anchoring» чтобы улучшить качество извлеченного текста. Он использует текст и метаданные из PDF-файлов для повышения точности обработки. Области изображений и текстовые блоки извлекаются, конкатенируются и вставляются в промпт модели. Когда VLM запрашивает обычную текстовую версию документа, "привязанный" текст используется вместе с растрированным изображением страницы.
В тестах olmOCR показал высокие результаты по сравнению с Marker, MinerU и GOT-OCR 2.0. В ходе тестирования olmOCR был предпочтен в 61,3% случаев против Marker, в 58,6% — против GOT-OCR и в 71,4% — против MinerU.
poppler-utils
sglang
с flashinfer
для GPU-инференса# Install dependencies
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools
# Set up a conda env
conda create -n olmocr python=3.11
conda activate olmocr
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .
# Convert a Single PDF
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/test.pdf
# Convert Multiple PDFs
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf
@ai_machinelearning_big_data
#AI #ML #LLM #OCR #Olmocr
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46🔥17❤13😁1👻1
С 26 февраля Advanced Voice на базе GPT-4o mini доступна бесплатным пользователям ChatGPT на всех платформах.
Free tier имеет ежедневные ограничения на использование входных и выходных аудиоданных. Пользователи ChatGPT Plus могут использовать полную версию Advanced Voice на основе GPT-4o с дневным лимитом, который в 5 раз превышает лимит бесплатной версии, и могут продолжать использовать функции видео и демонстрации экрана в расширенном голосовом режиме. Подписчики ChatGPT Pro не имеют дневного лимита.
OpenAI в X
Microsoft открыла всем пользователям бесплатный доступ к функциям «Think Deeper» и голосовому управлению Copilot, а также снимет предыдущие ограничения на использование для бесплатных пользователей. Это означает, что пользователи могут вести неограниченное количество "бесед" и голосовых взаимодействий с Copilot. Think Deeper работает на основе модели логического вывода OpenAI o1, которую Microsoft сделала бесплатной в прошлом месяце.
microsoft.com
Octave, TTS-модель, анонсированная в конце декабря 2024 года, стала доступной через web и API. Модель умеет не просто "читать" слова, а понимает их смысл в контексте. Octave способна отыгрывать персонажей, генерировать голоса по запросу и изменять эмоциональную окраску и стиль речи.
Благодаря функции Voice Design, Octave может создать любой ИИ-голос по текстовому описанию. От "терпеливого, чуткого консультанта с голосом ASMR" до "средневекового рыцаря" – Octave воплотит любую фантазию. В ближайшем будущем планируется запуск функции клонирования голоса.
В ходе слепого сравнительного исследования, Octave превзошла систему ElevenLabs Voice Design по качеству звука (71,6%), естественности (51,7%) и соответствию голоса заданному описанию (57,7%).
hume.ai
DeepSeek объявил о введении скидок до 75% на использование своих AI-моделей в непиковые часы. Это решение может оказать давление на конкурентов как в Китае, так и за рубежом, вынуждая их пересматривать свои ценовые стратегии. Согласно информации на сайте компании, в период с 16:30 до 00:30 по Гринвичу стоимость использования API DeepSeek будет значительно снижена. Для моделей R1 и V3 скидки составят 75% и 50% соответственно.
reuters.com
Samsung выпустит первую потребительскую серию PCIe 5.0 SSD 9100 Pro в марте. Впервые среди NVMe SSD от Samsung в линейке будет модель с 8 ТБ (ожидается, что будет доступен во второй половине 2025 года). В спецификации M.2 предусмотрены две дополнительные версии с радиатором или без него, с тремя конфигурациями: 1 ТБ (199,99 долл. США), 2 ТБ (299,99 долл. США) и 4 ТБ (549,99 долл. США).
Серия 9100 Pro демонстрирует значительные улучшения: в ней используется специализированный контроллер и флэш-память V-NAND TLC 7-го поколения. В синтетических тестах скорости последовательного чтения и записи достигают 14,8 ГБ/с и 13,4 ГБ/с, что вдвое больше, чем у предыдущего поколения 980 Pro и примерно на 2–3 ГБ/с быстрее, чем у конкурирующих продуктов, а производительность случайного чтения и записи улучшена до 2200 тыс./2600 тыс. IOPS, что более чем 2х превышает показатели PCIe 4.0.
news.samsung.com
Hf
@ai_machinelearning_big_data
#news #ai #ml #microsoft #openai #DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39❤15🔥11
ElevenLabs представила Scribe — своё первое решение для преобразования речи в текст, которое уже завоевало звание лидера по точности в этой области. В независимых тестах Scribe достигла Word Error Rate всего 7.7%, что значительно лучше результатов Whisper v2 и v3 (~10%).
Scribe поддерживает 99 языков, включая русский.
Основные преимущества:
- Отличное различение голосов разных спикеров
- Возможность экспорта результатов в самые популярные форматы, включая SRT для субтитров на YouTube
- Бесплатное использование доступно до 9 апреля
💰 Ценообразование: Scribe относится к премиум-классу и стоит 6,67 долл. за 1 тыс. минут аудио, что значительно ниже, чем у Hyperscaler, но выше, чем у Whisper.
▪Бенчмарки: https://artificialanalysis.ai/speech-to-text
▪ Потестить можно здесь: https://elevenlabs.io/speech-to-text
@ai_machinelearning_big_data
#ElevenLabs #tts
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥19❤12