InkSight - модель, разработанная в Google Research, для конвертации изображений рукописных заметок в цифровой формат, воспроизводящий процесс написания. Эта технология, "derendering", позволяет преобразовать физический почерк в цифровую форму, сохраняя его индивидуальность и динамику.
InkSight в отличие от OCR , выполняет захват рукописного текста в виде набора штрихов, а не просто преобразует его в текст.
Процесс преобразования входного изображения с рукописным текстом разбит на три этапа: OCR для извлечения слов, обработка каждого слова по отдельности и замена пиксельного представления слов штрихами.
Для обучения модели используются пары изображений текста и соответствующих цифровых штрихов. Штрихи, полученные из траекторий письма в реальном времени, представляются в виде последовательности точек, а соответствующее изображение создается путем рендеринга этих штрихов.
Уникальный этап в обучении модели - "
ink tokenizer
", преобразующий точки в формат, удобный для обработки LLM.Архитектура InkSight вдохновлена моделью Pali и состоит из кодера ViT и кодер-декодера mT5. Были обучены три варианта модели:
Все модели используют контекст длиной 1024 для инференса и 128 для ввода.
Результаты качественной оценки с базовым методом GVS (General Virtual Sketching) показали, что модели InkSight более точно воспроизводят текстовое содержимое, игнорируя нерелевантный фон, и лучше справляются с окклюзиями по сравнению с GVS.
Количественная оценка показала, что большинство штрихов, сгенерированных моделью Large-i, сопоставимы по качеству с результатами, полученными вручную.
⚠️ В открытый доступ опубликована модель InkSight small-p в вариантах для запуска на CPU\GPU и TPU, дополнительные материалы, упомянутые в техническом отчете и ноутбук с инфренсом модели на нескольких примерах + пример кода для выполнения инференса.
# Clone the huggingface space
git clone https://huggingface.co/spaces/Derendering/Model-Output-Playground
# Install the dependencies (skip if you have them already)
pip install gradio gdown
# Run the Gradio Playground
python app.py
@ai_machinelearning_big_data
#AI #ML #InkSight #GoogleResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤11🔥8🐳2😁1