Распознавание графических символов

Курсовой проект - Компьютеры, программирование

Другие курсовые по предмету Компьютеры, программирование

СОДЕРЖАНИЕ

 

ВВЕДЕНИЕ

1. ПОСТАНОВКА ЗАДАЧИ

2. ОПИСАНИЕ ИСПОЛЬЗОВАННЫХ АЛГОРИТМОВ

2.1 Алгоритм сегментации текста

2.2 Алгоритм распознавания слова. Персептрон

3. РАЗРАБОТКА И РЕАЛИЗАЦИЯ ПО

3.1 Архитектура программы

3.2 Интерфейс программы

3.3 Описание разработанных классов

4. ТЕСТИРОВАНИЕ ПО

4.1 Запуск приложения

ВЫВОДЫ

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

ПРИЛОЖЕНИЕ A ЛИСТИНГ ПРОГРАММЫ

ОПИСЬ ЛИСТОВ ГРАФИЧЕСКОЙ ЧАСТИ

 

ВВЕДЕНИЕ

 

В последние годы распознавание образов находит все большее применение в повседневной жизни. Распознавание речи и рукописного текста значительно упрощает взаимодействие человека с компьютером, распознавание печатного текста используется для перевода документов в электронную форму.

Реализация методов распознавания необходима в автоматизированных системах, предназначенных для использования в криминалистике, медицине, военном деле.

Особо следует отметить распознавание полноценных изображений. Область применения данного раздела многогранна. Например, на современных заводах контроль качества производимой продукции зачастую производят с использованием систем распознавания, которые отсеивают брак. Распознавание полноценных изображений применяется также на дорогах, для определения и распознавания номеров автомобилей, контроль их скорости. Обработка изображений актуальна и при анализе снимков из космоса и с самолётов. Таким образом, видно, что область применения распознавания изображений широка и многогранна и позволяет намного сократить и упростить рабочий процесс и вместе с тем повысить его качество. Однако, возможности интеллектуального анализа изображений с помощью компьютеров оставляют желать лучшего. Можно с уверенностью отметить лишь успехи в распознавании букв и цифр в документах и текстах, а также анализе изображений специального вида. Такая область как распознавание текстур, исследование в которой проводятся не одно десятилетие, пока не имеет универсальных методов.

Задачей распознавания изображений является применение методов, позволяющих либо получить некоторое описание изображения, поданного на вход системы, либо отнести это изображение к некоторому определенному классу. Процедура распознавания применяется к некоторому изображению и обеспечивает преобразование его в некоторое абстрактное описание: набор чисел, цепочку символов или граф. Последующая обработка такого описания позволяет отнести исходное изображение к одному из нескольких классов.

Но возникает ряд трудностей и проблем. Чаще всего это связано с тем, что изображения предъявляются на сложном фоне или изображения эталона и входные изображения отличаются положением в поле зрения, или входные изображения не совпадают с эталонами за счет случайных помех.

В данном курсовом проекте разработано приложение, позволяющие на изображении какого либо документа, либо просто текста находить слово "Указ". Входное изображение может быть любого размера, ориентация текста должна быть горизонтальной.

Приложение реализовано в среде программирования MS Visual Studio 2008 на языке C#. Платформа .Net дает широкий набор классов для работы с изображениями и обработки результатов.

 

1. ПОСТАНОВКА ЗАДАЧИ

 

Согласно заданию к курсовому проекту необходимо спроектировать приложение, реализованное на языке C# в среде разработки Microsoft Visual Studio 2008, реализующее распознавание слова "Указ" на изображении документа.

Исходные данные:

  1. Растровое изображение документа.
  2. Текст документа должен быть написан на белом фоне, черным шрифтом.
  3. Шрифт текста не должен быть курсивным либо полужирным.
  4. Размер изображения может быть любым.
  5. Положение текста на изображении горизонтальное.

Приложение должно выполнять следующие задачи:

  1. Загрузка изображения в приложение.
  2. Сегментация текста на слова.
  3. Распознавание среди слов слово "Указ".

Выходные данные:

  1. Таблица найденных слов "Указ".

 

2. ОПИСАНИЕ ИСПОЛЬЗОВАННЫХ АЛГОРИТМОВ

 

2.1 Алгоритм сегментации текста

 

Процесс сегментации текста состоит из двух этапов: выделение строк текста и выделение слов в строках.

Поиск строк осуществляется путем просмотра пикселей изображения сверху вниз. При проходе запоминаются вертикальные координаты всех полностью белых полос на изображении (рисунок 2.1).

 

Рисунок 2.1 Разбиение текста на строки

 

После нахождения всех белых горизонтальных полос анализируются их индексы. Для исключения соседних линий, строкой текста считается растр находящийся между двумя последовательными в списке, но не соседними белыми полосками.

Процесс поиска слов в строке заключается в анализировании вертикальных полос на изображении строки. При нахождении первой не полностью бело линии координата запоминается и считается начальной координатой слова, затем анализируются расстояния между буквами. При превышении некоторого порога слово "вырезается" из строки. Процесс продолжается до конца строки.

Алгоритм сегментации текста представлен в графической части

 

2.2 Алгоритм распознавания слова. Персептрон

 

Распознавание слова "Указ" в разработанном приложении, реализовано на базе персептрона. Алгоритм обучения персептрона без учета правильности ответа. Персептрон построен по схеме "Несколько суммато?/p>