DINO создаёт высококачественные плотные признаки, отлично понимая как смысл (семантику) сцены, так и её геометрию.
Зачем это нужно:
Раньше на ImageNet лучшие результаты показывали модели с полной или слабой разметкой. Теперь DINOv3 с чистым SSL догнал их по качеству — и это огромный шаг вперёд.
Модель особенно хороша в задачах, где важны детальные признаки: мульти-модальные LLM, видео и 3D-анализ, робототехника, генеративные модели.
С замороженным ❄️ backbone DINOv3 получены новые рекорды:
- Обнаружение объектов: 66.1 mAP (COCO)
- Сегментация: 63 mIoU (ADE)
- Оценка глубины: 4.3 ARel (NYU)
Даже встраивание в готовые пайплайны даёт новый SOTA.
- ViT-7B — флагман
- ViT-S/S+/B/L/H+ (от 21M до 840M параметров)
- ConvNeXt — для быстрого инференса
- Text-aligned ViT-L (dino.txt)
- ViT-L/7B для спутниковых снимков
📡 Для спутниковых данных DINOv3 даёт топовые результаты в геопространственных задачах, например в оценке высоты деревьев, и создаёт впечатляющие карты признаков.
Это и есть магия SSL — универсальные признаки, которые работают в самых разных областях.
@machinelearning_interview
#dino3 #cv #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30❤9🥰3