Описаны архитектура и принципы работы прототипа ядра системы распознавания документов

Вид материала

Подобный материал:

Данная работа посвящена описанию прототипа динамической интеллектуальной системы, реализованному, 30.77kb.
Рабочая программа По дисциплине «Сетевые технологии» По специальности 230102. 65 Автоматизированные, 210.65kb.
Алгоритмы обучения и архитектура нейронных сетей. Нейросетевые системы обработки информации, 21.42kb.
Система на кристалле мцст-r500S, 101.82kb.
Признаки корреляционного типа в системе распознавания текстурных изображений, 28.43kb.
И. Закарян И. Филатов, 3215.74kb.
Техническое задание на выполнение курсовой работы на тему: Исследование моделей представления, 32.74kb.
Р. А. Обозов организация системы риск-менеджмента, 396.68kb.
Программа Государственного экзамена по подготовке магистра по направлению «Физика ядра, 32.88kb.
Сти, гибкости системы администрирования и удобства использования кластера в прикладных, 809.98kb.

УДК 004.4(06) Технологии разработки программных систем

П.С. СЁМИН, С.О. СТАРКОВ

Обнинский государственный технический университет атомной энергетики,

Калужская область

ПРОТОТИП ЯДРА СИСТЕМЫ РАСПОЗНАВАНИЯ

ДОКУМЕНТОВ ДЛЯ UNIX-ПОДОБНЫХ

ОПЕРАЦИОННЫХ СИСТЕМ

Описаны архитектура и принципы работы прототипа ядра системы распознавания документов. Приведены сведения о полученных результатах, существующих проблемах и возможных путях их решения.

Долгое время операционная система (ОС) Linux не воспринималась специалистами всерьез как конкурент Windows на домашних компьютерах рядовых пользователей, однако события последних лет свидетельствуют о том, что производители программного обеспечения (ПО) всерьез заинтересовались молодым рынком. Такие компании как Adobe, Google, Opera Software ASA, Skype Limited, Xara Ltd и многие другие стали предлагать свои продукты не только для Windows, но и для Linux, причем речь идет не о каком-то специфическом ПО, а о программах, рассчитанных на рядовых пользователей. С другой стороны, существует класс программ, которые практически не представлены в Linux – это системы распознавания документов (OCR).

Авторами разработан прототип ядра системы распознавания документов, которое может стать частью полноценной OCR. Ядро выполнено в виде библиотеки на языке C и распространяется на условиях лицензии LGPL. Основная платформа для разработки – Linux.

Процесс распознавания документа состоит из нескольких этапов:

подготовительный этап, включающий в себя загрузку изображения документа с диска и преобразование его во внутренне представление (не представляет научного интереса);
этап предварительной обработки, во время которого определяется угол наклона текстовых строк на изображении и оно поворачивается таким образом, что строки располагаются горизонтально [1];
этап сегментации, когда из исходного изображения выделяются группы связанных пикселей, образующие фрагменты символов, и выполняется предварительный анализ их пространственного положения;
этап углубленного анализа пространственного положения групп связанных пикселей, во время которого происходит объединение нескольких групп в одну и определение границ отдельных слов;
этап распознавания, в ходе которого производится распознавание изображения отдельных символов с использованием ИНС.

Перед началом этапа сегментации изображение бинаризуется. Далее, с помощью простого рекурсивного алгоритма на изображении выявляются группы 8-ми связанных переднеплановых пикселей. Для каждой такой группы запоминаются координаты всех входящих в нее пикселей, а также координаты прямоугольника, внутрь которого можно вписать данную группу. Одновременно с выделением групп идет предварительный анализ их взаимного расположения. По окончанию этапа сегментации, группы разделены по строкам, которые упорядочены «сверху вниз», а внутри каждой строки группы упорядочены «слева направо».

На этапе углубленного анализа находятся и объединяются группы, которые являются частью одного символа. К примеру, изображение буквы «й» состоит из двух групп, буквы «ё» - из трех. Кроме того, на этапе углубленного анализа определяются границы отдельных слов.

Распознавание символов производится с использованием трехслойного персептрона, имеющего два активных слоя нейронов. Количество нейронов в каждом слое задается на этапе обучения персептрона и может варьироваться от одного языка распознавания к другому [2].

Главными достоинствами предлагаемой технологии является простота адаптации под новые языки распознавания и высокая достоверность распознавания.

Список литературы

Сёмин П.С. Алгоритм коррекции угла наклона строк текста для системы оптического распознавания символов. // III Региональная студенческая научная конференция «Применение кибернетических методов в решении проблем общества XXI века». Тезисы докладов (Обнинск, 18-20 апреля 2005 г.).- Обнинск: ИАТЭ, 2005. – 56 с.
Yann LeCun, Leon Bottou, Genevieve B. Orr, Klaus-Rober Müller. Efficient BackProp. // “Neural Networks: tricks of the trade”, Springer, 1998.

ISBN 5-7262-0710-6. НАУЧНАЯ СЕССИЯ МИФИ-2007. Том 2