Описаны архитектура и принципы работы прототипа ядра системы распознавания документов

Вид материалаДокументы
Подобный материал:

УДК 004.4(06) Технологии разработки программных систем


П.С. СЁМИН, С.О. СТАРКОВ

Обнинский государственный технический университет атомной энергетики,

Калужская область


ПРОТОТИП ЯДРА СИСТЕМЫ РАСПОЗНАВАНИЯ

ДОКУМЕНТОВ ДЛЯ UNIX-ПОДОБНЫХ

ОПЕРАЦИОННЫХ СИСТЕМ


Описаны архитектура и принципы работы прототипа ядра системы распознавания документов. Приведены сведения о полученных результатах, существующих проблемах и возможных путях их решения.


Долгое время операционная система (ОС) Linux не воспринималась специалистами всерьез как конкурент Windows на домашних компьютерах рядовых пользователей, однако события последних лет свидетельствуют о том, что производители программного обеспечения (ПО) всерьез заинтересовались молодым рынком. Такие компании как Adobe, Google, Opera Software ASA, Skype Limited, Xara Ltd и многие другие стали предлагать свои продукты не только для Windows, но и для Linux, причем речь идет не о каком-то специфическом ПО, а о программах, рассчитанных на рядовых пользователей. С другой стороны, существует класс программ, которые практически не представлены в Linux – это системы распознавания документов (OCR).

Авторами разработан прототип ядра системы распознавания документов, которое может стать частью полноценной OCR. Ядро выполнено в виде библиотеки на языке C и распространяется на условиях лицензии LGPL. Основная платформа для разработки – Linux.

Процесс распознавания документа состоит из нескольких этапов:
  • подготовительный этап, включающий в себя загрузку изображения документа с диска и преобразование его во внутренне представление (не представляет научного интереса);
  • этап предварительной обработки, во время которого определяется угол наклона текстовых строк на изображении и оно поворачивается таким образом, что строки располагаются горизонтально [1];
  • этап сегментации, когда из исходного изображения выделяются группы связанных пикселей, образующие фрагменты символов, и выполняется предварительный анализ их пространственного положения;
  • этап углубленного анализа пространственного положения групп связанных пикселей, во время которого происходит объединение нескольких групп в одну и определение границ отдельных слов;
  • этап распознавания, в ходе которого производится распознавание изображения отдельных символов с использованием ИНС.

Перед началом этапа сегментации изображение бинаризуется. Далее, с помощью простого рекурсивного алгоритма на изображении выявляются группы 8-ми связанных переднеплановых пикселей. Для каждой такой группы запоминаются координаты всех входящих в нее пикселей, а также координаты прямоугольника, внутрь которого можно вписать данную группу. Одновременно с выделением групп идет предварительный анализ их взаимного расположения. По окончанию этапа сегментации, группы разделены по строкам, которые упорядочены «сверху вниз», а внутри каждой строки группы упорядочены «слева направо».

На этапе углубленного анализа находятся и объединяются группы, которые являются частью одного символа. К примеру, изображение буквы «й» состоит из двух групп, буквы «ё» - из трех. Кроме того, на этапе углубленного анализа определяются границы отдельных слов.

Распознавание символов производится с использованием трехслойного персептрона, имеющего два активных слоя нейронов. Количество нейронов в каждом слое задается на этапе обучения персептрона и может варьироваться от одного языка распознавания к другому [2].

Главными достоинствами предлагаемой технологии является простота адаптации под новые языки распознавания и высокая достоверность распознавания.


Список литературы

  1. Сёмин П.С. Алгоритм коррекции угла наклона строк текста для системы оптического распознавания символов. // III Региональная студенческая научная конференция «Применение кибернетических методов в решении проблем общества XXI века». Тезисы докладов (Обнинск, 18-20 апреля 2005 г.).- Обнинск: ИАТЭ, 2005. – 56 с.
  2. Yann LeCun, Leon Bottou, Genevieve B. Orr, Klaus-Rober Müller. Efficient BackProp. // “Neural Networks: tricks of the trade”, Springer, 1998.




ISBN 5-7262-0710-6. НАУЧНАЯ СЕССИЯ МИФИ-2007. Том 2