Лекция 1 "введение в дисциплину"

Вид материалаЛекция

Содержание


Сегментация документа
Распознавание текста документа.
Подобный материал:
1   ...   10   11   12   13   14   15   16   17   18

СЕГМЕНТАЦИЯ ДОКУМЕНТА


Под естественным порядком распознавания текста понимается последовательное распознавание строк слева направо. Однако, если текст разбит на несколько колонок (столбцов) или содержит врезки, подрисуночные подписи, примечания, таблицы и другие элементы форматирования, его распознавание в естественном порядке невозможно. В таких случаях программа разбивает текст на блоки, каждый из которых представляет собой цельный фраг­мент текста, распознаваемый в естественном порядке. Такое раз­биение документа называется сегментацией.

Автоматическая сегментация — не простая задача для программы. Программа разыскивает промежутки между строками, а также зоны начала и конца строк. Если последовательность строк, иду­щих подряд, имеет одинаковые зоны начала и конца, то програм­ма рассматривает такую область как текстовый блок.

Если промежутки между строками вообще отсутствуют, то, по всей видимости, речь идет об иллюстрации. Если обнаруживается большое число вертикальных и горизонтальных фрагментов, образующих правильную структуру, то, вероятно, в текст включена таблица.

Сегментирование возможно в трех вариантах:
  • сегментирование активной страницы (видимой в окне "Изображение");
  • сегментирование выделенных страниц в окне "Пакет" (для группового выделения используются клавиши Ctrl, Shift);
  • сегментирование оставшихся в пакете несегментированных страниц.

Выбрав режим сегментирования и щелкнув на кнопке "Сегментировать", запускаем процесс сегментирования. После окончания сегментирования на изображении страницы видны выделенные блоки в виде прямоугольников (многоугольников) различного цвета, зависящего от типа блока.

Программа FineReader различает следующие типы блоков: текст, картинка, таблица, штрих-код. Текстовые блоки обводятся зеленой линией, картинки - красной, таблицы - коричневой, штрих-коды - светло-зеленой.

Если вас устраивают результаты автоматического сегментирования, то второй этап преобразования документа можно считать законченным.

Правда, если изображение документа имеет невысокое качество, то сегментация может быть произведена неудачно, что проявится в избыточном количестве слишком мелких блоков.

В таких случаях можно вручную указать границы блоков или изменить автоматическое разбиение. Новые прямоугольные блоки создают методом протягивания мыши. При протягивании созда­ваемый блок выделяется пунктирной рамкой, которая в момент создания блока превращается в сплошную зеленую линию.

Один из созданных блоков всегда является текущим. Он обведен более жирной линией, а его вершины помечены маркерами. Пере­таскиванием этих маркеров можно регулировать границы блока.

Для создания блока непрямоугольной формы или изменения последовательности блоков используют кнопки панели инстру­ментов Инструменты - создать, удалить, переместить, перенумеровать блок; добавить, удалить часть блока. Кнопки "добавить вертикальную", "добавить горизонтальную" линию или "удалить линию" предназначены для редактирования блоков-таблиц. Чтобы изменить тип блока, следует щелкнуть в пределах блока правой кнопкой мыши и выбрать нужный тип в меню. Если вы хотите вообще исключить из процесса распознавания фрагменты текста и не включать их в текстовый документ, то их необходимо выделить и пометить как нераспознаваемые (цвет контура серый).

РАСПОЗНАВАНИЕ ТЕКСТА ДОКУМЕНТА.


После сегментации и установления порядка следования тексто­вых блоков

выполняют последний этап работы — собственно распознавание. Обычно этот этап проходит автоматически. Если документ напечатан достаточно стандарт­ным шрифтом, который, к тому же, был хорошо воспроизведен при сканировании, то щелчка на кнопке "Распознать открытую страницу" достаточно, чтобы документ был распознан. Если бумажный документ имеет недостаточную контрастность или необычный шрифт, процедура несколько усложняется. В этом случае программа может не справляться с распознаванием опреде­ленных символов и допускать однотипные ошибки. В таких случаях для больших документов целесообразно сначала провести обучение программы в соответствии с особенностями данного документа. Это достаточно трудоемкий процесс, но он все же проще, чем ручной ввод многостраничного документа.

Настройку распознавания начинают с создания эталона, в котором сохраняются особенности данного документа. Для этого надо дать команду "Сервис - Редактор эталонов", щелкнуть в открывшем­ся диалоговом окне "Эталоны" на кнопке "Новый эталон" и ввести имя создаваемого эталона.

1. Для подключения эталона при распознавании, надо щелкнуть на раскрывающей кнопке рядом с кнопкой "Распознать открытую страницу" и выбрать пункт "Опции". В открывшемся диалоговом окне в группе "Обучение" следует выбрать только что созданный эталон. Если предполагается распознавание документа, соот­ветствующего эталону, который был создан и настроен ранее, то выбирается не новый, а старый эталон.

2. Для "обучения" эталона следует установить флажок "Распозна­вание с обучением".

3. Режим распознавания в этом случае несколько изменяется. Всякий раз, когда программа не может уверенно распознать символ, она выдает диалоговое окно "Ручное обучение эталона". В верхней части этого диалогового окна приводится увеличенное изображение текущей распознаваемой строки. Текущий символ заключен в рамку.

4. В поле со списком "Символ" приведен символ, который, как пола­гает программа, находится в рамке.

5. Необходимо убедиться, что символ в поле указан верно, и заме­нить его в случае необходимости. После этого надо щелкнуть на кнопке "Обучить".

6. Если неверно указаны границы символа, то кнопки "Сдвинуть влево" и "Сдвинуть вправо" позволяют поправить положение рамки.

7. Если верно расположить рамку не удается или в тексте встре­тился редкий символ, который правильно интерпретировать нельзя, следует щелкнуть на кнопке "Пропустить".

Результаты обработки страниц в дальнейшем объединяются в единый текстовый файл.