Dahua выиграла в конкурсе по чтению китайских уличных вывесок
Компания Dahua Technology, точнее ее команда – DH_OCR, выиграла в двух основных категориях соревнований Robust Reading Competition on Reading Chinese Texts on Signboard (ReCTS), что представляет собой конкурс по считыванию текстов. Алгоритмы считывания текстов Dahua доминировали в категории распознавания символов и распознавания строк.
Robust Reading (Грамотное чтение) представляет собой область исследований, которая занимается обнаружением и распознаванием текстовой информации на изображениях при неограниченных настройках. Соревнования по грамотному чтению проводятся с 2011 года и каждая задача соревнований строится на сценарии из реальной жизни, которых в наборе соревнований большое количество. ReCTS занимается решением тех же проблем, которым посвящена Международная конференция по анализу и распознаванию документов (ICDR).
Набор данных ReCTS состоит из 25 000 изображений с надписями, собранными произвольно камерами смартфонов. В большей степени это вывески ресторанов. ReCTS разделен на обучающий набор из 20 тыс. изображений и тестовый – из 5 000 изображений.
Задача 1: Распознавание символов на вывеске
Задача 1 состоит в распознавании символов из обрезанного изображения вывески с текстом. Для решения задачи команда Dahua использовала серии EfficientNet, обученные с разной глубиной и разной шириной. Также были использованы синтетические семплы, созданные алгоритмом Дахуа. Для баланса данных образцы были обработаны с использованием методов сглаживания, вырезания и вращения. Сама модель была обучена с использованием обучающих данных ReCTS и синтетических данных. Итоговый результат команды Dahua составил 97,73%.
Задача 2: Распознавание текстовой строки на вывеске
В задаче 2, где необходимо распознать текстовую строку на вывеске, также необходимо определить обрезанные изображения текстовых строк и координаты ограничительных рамок прямоугольников на изображениях. Команда Dahua использовала тренировочные данные ReCTS, LSVT, RCTW, ART и некоторые высококачественные искусственные синтетические данные. Для распознавания текста использовался фреймворк CRNN и различные структуры, такие как SAResNET. Команда также использовала многомодельное слияние, чтобы предсказать окончательный результат. В итоге Dahua достигла 96,93%.
Автоматическое обнаружение и распознавание текстов в естественных сценах привлекает все большее внимание благодаря широкому спектру приложений, где оно может быть использовано, а также является важным требованием для нескольких задач анализа изображений на основе содержимого.
В Dahua говорят, что успех участия в ReCTS – плод многолетнего непрерывного внедрения инноваций в этой области, что говорит о стремлении компании к прорыву в технологиях искусственного интеллекта.
Материалы по теме