НОВОСТИ На чем тестировать алгоритмы распознавания и обработки документов, удостоверяющих личность?

BDFINFO2.0 · 18.03.2020

Как известно, мы в

You must be registered for see links

занимаемся системами компьютерного зрения и распознавания документов, а также научными исследованиями в этой области. В течение нескольких лет в фокусе нашего внимания находились системы распознавания документов, удостоверяющих личность. Одной из критичных проблем, возникающих при подготовке научных статей, является отсутствие открытых датасетов, на которых можно демонстрировать сообществу разработанные нами алгоритмы и подходы. В связи с этим два года назад мы начали работу над серией открытых пакетов изображений и видеоклипов ID-документов, предназначенных, главным образом, для исследователей, и о результатах этой работы хотели бы рассказать вам под катом.

Про что это

Думаем, что всем давно понятно, что использование смартфонов и других портативных девайсов стало де-факто стандартом в финтехе, государственных услугах, sharing economy и т.п. В большом количестве кейсов пользователю необходимо вносить свои персональные данные, будь то данные паспорта, загранпаспорта, водительских прав или банковской карточки. Вводить данные на мобильнике вручную — не самое быстрое и удобное занятие, поэтому большое количество компаний внедряют различного рода системы распознавания и анализа документов для упрощения этой процедуры. Стоит отметить, что целью таких внедрений является не только ускорение и упрощения процедуры ввода данных, но и автоматизация проверки действительности документа и детектирования недобросовестных пользователей. Современные системы распознавания должны работать в неконтролируемых условиях — как в хорошо освещенном офисе, так и на пригородной железнодорожной платформе в сумерках.

Несколько исследовательских команд, как за рубежом так и в России, занимаются проблемами мобильного распознавания и анализа документов в сложных условиях. Помимо того, что эта задача сама по себе непростая, важной проблемой является недоступность данных для проверки результатов. В особенности это касается документов, удостоверяющих личность — в этом случае публикация датасетов настоящих документов попросту невозможна. Это приводит к тому, что исследователи и разработчики вынуждены работать с синтетически сгенерированными данными, которые плохо отражают реальность, а тестироваться либо на своих собственных документах (которых мало), либо на публично доступных сэмплах, которых тоже мало. И хотя существует несколько открытых баз примеров идентификационных документов (к примеру,

You must be registered for see links

или

You must be registered for see links

), изображения в этих базах, как правило, не отражают реальных юзкейсов, а правовые ограничения не позволяют (в большинстве случаев) создавать на их основе производных датасетов.

Нужно отметить, что некоторое количество открытых датасетов документов все же существует, однако они недостаточны для бенчмаркинга полного цикла распознавания документов, удостоверяющих личность, в особенности если речь идет о применении распознавания на мобильных устройствах и в видеопотоке. Ссылки на несколько открытых датасетов приведены в Таблице 1.

Таблица 1. Несколько открытых датасетов, которые можно использовать для работы над отдельными задачами анализа и распознавания документов.

Задача	Датасеты
Детектирование и локализация документа	You must be registered for see links
Сегментация текста	You must be registered for see links
Бинаризация изображений документов	You must be registered for see links
Распознавание символов	You must be registered for see links , You must be registered for see links
Супер-разрешение в документах	You must be registered for see links
Детектирование подделок	You must be registered for see links
Классификация изображений документов	You must be registered for see links
Разбор шаблона документа	You must be registered for see links You must be registered for see links
Оценка качества изображений документов	You must be registered for see links You must be registered for see links

Поскольку нам крайне интересны алгоритмы обработки и распознавания документов, удостоверяющих личность, в видеопотоке, полученном при помощи камеры мобильного телефона, мы решили создать датасет, в котором будут содержаться видеоклипы несколько различных ID-документов, снятые в различных условиях. Почему именно видео? Во-первых, анализ нескольких последовательных кадров позволяет применять различные техники фильтрации и уточнения при решении одной из главных задач систем распознавания документов — поиска и типизации. Во-вторых, для решения задачи выбора наилучшего представления какого-нибудь объекта (например, фотографии), необходим датасет, содержащий множество кадров. Во-третьих, использование множества изображений одного и того же объекта позволяет применять технологии “супер-разрешения” для повышения точности распознавания, или применять многократное распознавание с комбинирование полученных результатов.

Полученный датасет получил название MIDV-500. MIDV, потому что Mobile Identity Documents in Videostream, а 500 — потому что датасет содержал 500 видеоклипов при своем первом релизе. Датасет доступен для скачивания

You must be registered for see links

.

Структура датасета

Первый вопрос, конечно — откуда взялись документы. Для создания датасета мы прошерстили википедию в поисках семплов ID-документов, которые были бы либо не защищены авторскими правами, либо распространялись с открытой лицензией. Удалось найти 50 типов документов, включая 17 типов ID-карт, 14 типов паспортов, 13 типов водительских удостоверений и 6 других типов (перечислены

You must be registered for see links

). Каждый документ мы распечатали, заламинировали (чтобы хоть каким-то образом имитировать блики), и сняли для каждого 10 видеороликов в 5 разных условиях с использованием iPhone 5 и Samsung Galaxy S3. Список условий съемки представлен в Таблице 2.

Таблица 2. Условия съемки MIDV-500. Первая буква идентификатора кодирует условие, вторая — устройство (A — Apple iPhone 5, S — Samsung Galaxy S3).

Идентификатор	Описание
TS, TA	Table — самый простой случай, документ лежит на столе с однородным фоном.
KS, KA	Keyboard — документ лежит на клавиатуре, что усложняет использование простых методов поиска прямолинейных границ.
HS, HA	Hand — документ держится в руке.
PS, PA	Partial — документ “пролетает” через область съемки, на некоторых изображениях документ частично или полностью за кадром.
CS, CA	Clutter — документ снят на фоне множества разнообразных объектов, по мотивам 5-го фона You must be registered for see links .

Каждый из 500 клипов снимался не менее 3-х секунд, и первые 3 секунды были раскадрованы с частотой 10 FPS. Итого получили 15000 кадров, все с разрешением 1080х1920px.

К каждому из 15000 кадров прилагается JSON-файл с координатами углов документа в следующем формате:

{
"quad": [ [0, 0], [111, 0],
[111, 222], [0, 222] ]
}

Если углы документа находятся вне кадра, координаты экстраполировались таким образом, чтобы отрезки, соединяющие вершины четырехугольника, соответствовали видимым границам документа.

Для каждого из 50-ти документов в датасете присутствует JSON-файл, содержащий информацию о расположении полей (на выравненном изображении документа) и значения его текстовых полей, в следующем формате:

{
"field01": {
"value": "Erika",
"quad": [ [983, 450], [1328, 450],
[1328, 533], [983, 533] ]
},
// ...
"photo": {
"quad": [ [78, 512], [833, 512],
[833, 1448], [78, 1448] ]
}
}

Всего в датасете 48 полей типа “фотография”, 40 полей типа “подпись” и 546 текстовых полей на разных языках.

Спустя год после первой публикации датасета MIDV-500 мы начали получать первый фидбек от исследователей и по его результатам подготовили и опубликовали расширение датасета под названием MIDV-2019. Были добавлены 200 видеоклипов тех же 50-ти документов, однако снятые в двух новых условиях: с сильными проективными искажениями и при низком освещении. Новые клипы были сняты с разрешением 2160x3840px с помощью более современных смартфонов iPhone XS Max и Samsung Galaxy S10. Расширение MIDV-2019 доступно

You must be registered for see links

.

Эксперименты

С момента первого выкладывания датасета MIDV-500 в открытый доступ прошло почти 2 года, и на его основе опубликовано некоторое количество работ, как наших сотрудников, так и исследователей из других научных и коммерческих групп. В Таблице 3 приведены несколько публикаций (конечно, далеко не все), в которых приводятся экспериментальные результаты алгоритмов решения задач, связанных с ID-документами, полученные при помощи MIDV-500 и MIDV-2019.

Таблица 3. Подборка публикаций.

Суть эксперимента	Ссылка
Поиск лица и распознавание текстовых полей при шумном детектировании границ документа. Основная публикация MIDV-500.	You must be registered for see links
Распознавание текстовых полей в условиях проективных искажений документа и низкой освещенности. Основная публикация MIDV-2019.	You must be registered for see links
Идентификация документа по ключевым словам	You must be registered for see links
Поиск и оценка качества изображений ID-документов	You must be registered for see links
Быстрый поиск и идентификация ID-документа	You must be registered for see links
Распознавание текстовых строк	You must be registered for see links
Поиск лица на изображениях ID-документов	You must be registered for see links
Поиск и маскировка чувствительных текстовых данных	You must be registered for see links
Поиск точек схода на изображении документа при помощи HoughNet	You must be registered for see links
Детектирование моноширинности шрифта	You must be registered for see links
Задача останова при распознавании текстовой строки в видеопотоке	You must be registered for see links

Мы продолжаем работу над расширением датасета, в особенности уделяя внимание вариативности текстовых/графических данных, фонов и условий съемки. Мы надеемся что публикация подобных данных даст возможность научным коллективам проводить бенчмарки своих алгоритмов анализа изображений и успешно публиковать свои результаты.

НОВОСТИ На чем тестировать алгоритмы распознавания и обработки документов, удостоверяющих личность?

BDFINFO2.0