Описаны архитектура и принципы работы прототипа ядра системы распознавания документов
Вид материала | Документы |
- Данная работа посвящена описанию прототипа динамической интеллектуальной системы, реализованному, 30.77kb.
- Рабочая программа По дисциплине «Сетевые технологии» По специальности 230102. 65 Автоматизированные, 210.65kb.
- Алгоритмы обучения и архитектура нейронных сетей. Нейросетевые системы обработки информации, 21.42kb.
- Система на кристалле мцст-r500S, 101.82kb.
- Признаки корреляционного типа в системе распознавания текстурных изображений, 28.43kb.
- И. Закарян И. Филатов, 3215.74kb.
- Техническое задание на выполнение курсовой работы на тему: Исследование моделей представления, 32.74kb.
- Р. А. Обозов организация системы риск-менеджмента, 396.68kb.
- Программа Государственного экзамена по подготовке магистра по направлению «Физика ядра, 32.88kb.
- Сти, гибкости системы администрирования и удобства использования кластера в прикладных, 809.98kb.
УДК 004.4(06) Технологии разработки программных систем
П.С. СЁМИН, С.О. СТАРКОВ
Обнинский государственный технический университет атомной энергетики,
Калужская область
ПРОТОТИП ЯДРА СИСТЕМЫ РАСПОЗНАВАНИЯ
ДОКУМЕНТОВ ДЛЯ UNIX-ПОДОБНЫХ
ОПЕРАЦИОННЫХ СИСТЕМ
Описаны архитектура и принципы работы прототипа ядра системы распознавания документов. Приведены сведения о полученных результатах, существующих проблемах и возможных путях их решения.
Долгое время операционная система (ОС) Linux не воспринималась специалистами всерьез как конкурент Windows на домашних компьютерах рядовых пользователей, однако события последних лет свидетельствуют о том, что производители программного обеспечения (ПО) всерьез заинтересовались молодым рынком. Такие компании как Adobe, Google, Opera Software ASA, Skype Limited, Xara Ltd и многие другие стали предлагать свои продукты не только для Windows, но и для Linux, причем речь идет не о каком-то специфическом ПО, а о программах, рассчитанных на рядовых пользователей. С другой стороны, существует класс программ, которые практически не представлены в Linux – это системы распознавания документов (OCR).
Авторами разработан прототип ядра системы распознавания документов, которое может стать частью полноценной OCR. Ядро выполнено в виде библиотеки на языке C и распространяется на условиях лицензии LGPL. Основная платформа для разработки – Linux.
Процесс распознавания документа состоит из нескольких этапов:
- подготовительный этап, включающий в себя загрузку изображения документа с диска и преобразование его во внутренне представление (не представляет научного интереса);
- этап предварительной обработки, во время которого определяется угол наклона текстовых строк на изображении и оно поворачивается таким образом, что строки располагаются горизонтально [1];
- этап сегментации, когда из исходного изображения выделяются группы связанных пикселей, образующие фрагменты символов, и выполняется предварительный анализ их пространственного положения;
- этап углубленного анализа пространственного положения групп связанных пикселей, во время которого происходит объединение нескольких групп в одну и определение границ отдельных слов;
- этап распознавания, в ходе которого производится распознавание изображения отдельных символов с использованием ИНС.
Перед началом этапа сегментации изображение бинаризуется. Далее, с помощью простого рекурсивного алгоритма на изображении выявляются группы 8-ми связанных переднеплановых пикселей. Для каждой такой группы запоминаются координаты всех входящих в нее пикселей, а также координаты прямоугольника, внутрь которого можно вписать данную группу. Одновременно с выделением групп идет предварительный анализ их взаимного расположения. По окончанию этапа сегментации, группы разделены по строкам, которые упорядочены «сверху вниз», а внутри каждой строки группы упорядочены «слева направо».
На этапе углубленного анализа находятся и объединяются группы, которые являются частью одного символа. К примеру, изображение буквы «й» состоит из двух групп, буквы «ё» - из трех. Кроме того, на этапе углубленного анализа определяются границы отдельных слов.
Распознавание символов производится с использованием трехслойного персептрона, имеющего два активных слоя нейронов. Количество нейронов в каждом слое задается на этапе обучения персептрона и может варьироваться от одного языка распознавания к другому [2].
Главными достоинствами предлагаемой технологии является простота адаптации под новые языки распознавания и высокая достоверность распознавания.
Список литературы
- Сёмин П.С. Алгоритм коррекции угла наклона строк текста для системы оптического распознавания символов. // III Региональная студенческая научная конференция «Применение кибернетических методов в решении проблем общества XXI века». Тезисы докладов (Обнинск, 18-20 апреля 2005 г.).- Обнинск: ИАТЭ, 2005. – 56 с.
- Yann LeCun, Leon Bottou, Genevieve B. Orr, Klaus-Rober Müller. Efficient BackProp. // “Neural Networks: tricks of the trade”, Springer, 1998.
ISBN 5-7262-0710-6. НАУЧНАЯ СЕССИЯ МИФИ-2007. Том 2