АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ СРАВНЕНИЕ OCR-СИСТЕМ НА ОСНОВЕ ТОЧНОСТИ АНАЛИЗА ИЗОБРАЖЕНИЯ А.И. Андрианов, бакалавр кафедры Распознавание изображений и обработка текста, Московский

Физико-Технический Институт (Государственный Университет).

Адрес: 129301, Россия, Москва, а/я 49, компания ABBYY, e-mail: atwice@yandex.ru.

В статье описаны методы оценки и сравнения OCR-систем по качеству анализа графического изображения. Приведена модель разметки структуры графического изобра жения, содержащего текст. Предложены два вида сравнительнойоценки блока анализа OCR-системы. На основании предложенных оценок проведено сравнение двух OCR-систем, разработанных компанией ABBYY: FineReader 8 и FineReader 9.

Ключевые слова: OCR, анализ изображения, распознавание текста, оценка и сравнение OCR-систем.

Введение распознавания. Однако на сегодняшний день точ ность практически всех систем распознавания тек современном деловом документообороте ста превышает 99,9%. Эта точность фактически широкое распространение получили без означает, что на каждую страницу печатного тек В бумажные информационные технологии и ста приходится в среднем 1-2 неверно распознан системы электронного документооборота. Основ ных символа. Следовательно, результат оцифровки ной проблемой при переходе на новые технологии любой OCR-системой пока требует человеческого является перевод информации с бумажных носи контроля. Таким образом, точность распознавания телей в электронную форму. Эта задача решается является недостаточным критерием для сравнения системами оптического распознавания символов OCR-систем.

(OCR-системы, от англ. optical char recognition).

Важной подзадачей оцифровки электронного Большинство OCR-систем работают с растровым документа является анализ изображения. На этапе изображением, которое получено через факс анализа в графическом документе OCR-системы модем, сканер, цифровую фотокамеру или другое выделяет зоны разнотипной информации и со устройство. Результатом работы системы распозна храняет расположение и размеры этих областей.

вания текста является отформатированный доку Текстовые области анализируются дополнительно.

мент, сохраненный на компьютере в одном из рас При этом выделяются отдельные строки текста.

пространенных форматов данных.

Несмотря на кажущуюся простоту, это не такая В связи с тем, что на рынке представлено до очевидная задача, так как на практике неизбежны статочно много систем OCR, возникает задача перекос изображения страницы или фрагментов сравнения и оценки данных систем. Основным критерием оценки систем оптического распозна- страницы при сгибах. Даже небольшой наклон при вания символов традиционно является точность водит к тому, что левый край одной строки стано БИЗНЕС-ИНФОРМАТИКА №4(10)Ц2009 г.

АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ вится ниже правого края следующей, особенно при Анализ графического документа маленьком межстрочном интервале. В результате Под задачей анализа понимают следующую задачу.

возникает проблема определения строки, к которой На входе дан графический документ. На выходе относится тот или иной фрагмент изображения. На имеется разметка документа. В общем случае, доку пример, для букв j, й, ё при небольшом наклоне уже мент имеет произвольную форму. Документ может сложно определить, к какой строке относится верх содержать информацию разного рода: отдельные няя (отдельная) часть символа (в некоторых случаях символы, текст, форматированный текст, картинки, ее можно принять за запятую или точку).

таблицы, диаграммы, штрих-код и графики.

На этом же этапе анализируется структура та Результатом задачи анализа должна быть раз блиц. После анализа распознаванию будут под метка документа. Разметка представляет собой на лежать конкретные строки, а также области ячеек бор областей того или иного типа. Области текста, в таблицах. Неклассифицированные области, со штрих-кода или картинки характеризуются только держащие графическую информацию, система рас типом и границами. Область таблицы должна также познавания помечает как лизображение. Изобра содержать разметку для ячеек.

жение не подлежит распознаванию, а переносится Пример.

в целевой документ с сохранением масштаба и по Для текстового документа (рисунок 1) должна ложения в документе.

быть получена разметка (рисунок 2).

От результатов анализа изображения так же за висит другой этап оцифровки - синтез. На этапе Ошибки в задаче анализа синтеза по атрибутам символов система OCR вос станавливает шрифт текста, в частности начер Примером неправильного анализа документа тание (полужирный, курсив), размер, цвет. Текст могут служить следующие ошибки:

форматируется в соответствии с расположением Маркер маркированного списка в строке областей, полученным во время анализа. То есть потерян. Теряется информация о том, что данный создается разметка для колонок, задаются отступы текст является списком.

строк, межстрочные интервалы и т.п.

Потеря двоеточия в конце строки.

Таким образом, от результата анализа зависят два Подписи в диаграмме ошибочно принимаются других этапа оцифровки документов: распозна за часть картинки.

вание и синтез. В данная статья рассмотрен метод В следующем примере цвет букв сливается с оценки качества анализа графического изображе внешним фоном и строка целиком теряется.

ния, основанный на типичных ошибках анализа.

Рис. 1 Рис. БИЗНЕС-ИНФОРМАТИКА №4(10)Ц2009 г.

АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ Несколько колонок в тексте ошибочно систем будут отличаться, тогда просто необходимо объединены в одну. привести их к одному виду.

Существует много разных типов ошибок. При этом Наконец, в любом случае, правильная разметка разные типы ошибок неравнозначны. Одни ошибки не уникальна. Захват дополнительной пустой об приводят к совершенно неверному распознаванию ласти в любую другую не является ошибкой. При текста, другие же просто приводят к незначительным выделении колонок также неважно, в каком месте потерям информации. Ошибки также неравнозначны пройдет разделение между колонками. Если колон по времени, затрачиваемому на их исправление.

ки распознаны отдельно - ошибки нет.

Например, маркированный список можно создать Примитивы модели.

уже после распознавания текста за несколько секунд, В предложенной модели разметки графического однако неправильно выделенную картинку сложной документа всего 6 видов блоков разметки:

формы придется выделять вручную заново, при этом 2. Линия текста;

необходимо заново распознавать страницу.

3. Картинка;

Для того, чтобы можно было сравнивать резуль 4. Таблица;

таты анализа графического документа необходимо 5. Штрих-код;

во-первых, иметь эталонную разметку документа, 6. Разделитель;

а во-вторых, классифицировать ошибки. Обе эти 7. Мусор.

задачи решает разметка структуры документа, опи Каждый блок разметки, кроме вида таблица, санная ниже.

представляет собой прямоугольник. Внутри одного такого прямоугольника содержится только инфор мация данного типа.

Линия текста - это блок, в который заключена одна строка текста, содержащая единый смысл. На пример, в тексте, разделенном на 2 колонки линия текста - это одна строка из одной колонки.

Картинка - блок, содержащий графическую ин формацию, которая должна быть перенесена в элек тронный документ, но не подлежащая распозна ванию. Часто картинки имеют не прямоугольные очертания. В таком случае, область картинки долж на быть помечена несколькими, возможно, пересе кающимися элементами разметки вида картинка.

Рис. 3 Разметка структуры документа Таблица - в блоке этого вида разметки указыва Разметка структуры служит для того, чтобы аб- ются не только границы таблицы, но и внутренняя страгироваться от конкретных реализаций выделе- структура, т.е. указываются все столбцы и строки ния зон документа. Например, в ABBYY FineReader таблицы, а также объединенные ячейки (если есть).

зона текста выделяется целым текстовым блоком Штрих-код - блок, изображение внутри которого с горизонтальными и вертикальными границами, должно быть распознано, как штрих код. С точки при этом пользователь не видит границы выделе зрения дальнейшего распознавания текста, штрих ния конкретных строк (рис. 3). Для оценки качества код - это просто картинка, однако если система анализа такой формат разметки плох.

умеет распознавать штрих-код, то необходимо оце На рис. 3 области 1, 2, 3 - текстовые, 4 - область нивать качество выделения данной зоны.

картинки. Видно, что часть картинки (облако) по Разделитель - это служебный элемент, обычно в падает в текстовую область 3, однако это не приве виде тонкой линии. Смысл его в том, что один тек дет к ошибке, т.к. строки символов будут распозна стовый блок не может содержать строки одновре ны как текст, а облако не попадет в эти области.

менно справа и слева от разделителя. Проще говоря, Тем не менее, при оценке мы точно должны знать, строки текста не должны пересекать разделитель.

когда система OCR пытается распознать картинку, Мусор. Графический документ может содержать так как это является ошибкой.

элементы, не несущие информацию. Шумы и му Другой пример - необходимость сравнивать ка сор нужно выделять специальным блоком, чтобы чество анализа документа систем разных произ эта информация не подлежала распознаванию и не водителей. Возможно, форматы разметки таких переносилась в распознанный документ.

БИЗНЕС-ИНФОРМАТИКА №4(10)Ц2009 г.

АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ Классификация ошибок (часть ячеек объединены или каждая ячейка содер на основе унифицированной разметки жит разнородную информацию, например, разны ми шрифтами).

На основе примитивов модели выделяются сле Разметка структуры документа является сред дующие ошибки, характерные системам OCR при ством оценки модуля анализа OCR-систем. Чтобы анализе документа:

оценить качество анализа, система OCR при рас Незаконченная строка. Возникает, если анализа познавании, основываясь на результатах анали тор не целиком выделил строку текста, то есть часть за, генерирует унифицированную разметку, соот строки потеряна. Примером такой ошибки являет ветствующую результатам своего анализа. Затем ся неучтенный при анализе маркер маркированно эта разметка сравнивается с разметкой введенной го списка. Маркер является частью строки, однако вручную. На большом пакете документов под анализатор часто теряет его. Подобная ошибка про считывается количество ошибок разного вида. На исходит со знаками препинания в конце строки.

основе информации об этих ошибках составляется Другой пример этой ошибки - знак подчеркивания оценка анализатора системы OCR.

земля, как поле для заполнения. Обычно текст на Положительной чертой данной разметки являет ходится по обе стороны от подчеркивания на одной ся то, что она сглаживает возможные неоднознач строке, но анализатор, подлежащий оценке, считает ности разметки. Очевидно, что не существует един такую конструкцию разными блоками текста.

ственно правильной разметки. Если система OCR Картинка вместо текста. Возникает, если раз захватит в текстовый блок пустое пространство, то меткой выделен текст, а испытуемый анализатор это не повлечет ошибок. Такая ситуация предусма считает эту строку частью картинки. Такие ошибки тривается унифицированной разметкой так: вруч часто возникают, если фон картинки и текста одного ную выделяются только строки текста, если эти цвета, или текст находится очень близко к картинке, строки целиком попали в блок, который выделила например подпись к диаграмме или фотографии.

система OCR, ошибки нет, однако если часть стро Неправильное выделение абзаца. Обычно возни ки не попала в блок, значит она не будет распозна кает сразу несколько ошибок данного типа, когда на - это ошибка.

анализатор объединяет несколько абзацев. Чаще Другой пример - две колонки. Вручную между всего появляется, если границы текста имеют сме колонками должен быть вставлен блок Раздели щения, например, из-за картинки внутри текста.

тель. Если система OCR выделила блок, пересека Потеря строки. Возникает, если анализатор не ющий разделитель, это значит, что она не распозна нашел целую линию текса. Такая ошибка часто воз ла в тексте 2 колонки. В противном случае, неважно никает, если буквы в колонтитулах очень малень как границы разных колонок расположены между кие или ошибочно выделена таблица.

собой. Колонки распознаны отдельно, ошибки нет.

Пересечение разделителя. Возникает, если какой Также к положительным чертам предложенной либо блок разметки пересекает разделитель. Эта модели следует отнести возможность автоматиче ошибка признак того, что текст из разных колонок ской генерации такой разметки. Действительно, объединен в один блок.

любая система распознавания выделяет строки тек Текст вместо картинки. Возникает, если ана ста, абзацы, таблицы и картинки. Также любая об лизатор считает текстом часть области картинки.

ласть может быть представлена в виде объединения Ошибка часто появляется, если в картинке присут прямоугольников.

ствуют буквы или при анализе диаграмм.

Однако у данной модели разметки есть также от Захват региона штрих-код. Возникает если часть рицательные стороны. Во-первых, все блоки пред области штрих-код помечена как текстовая область.

ставляют собой прямоугольник. Это играет важ Захват мусора. Возникает если часть области му ную роль при составлении разметки для картинок.

сор помечена как текстовая область.

Ошибка поиска таблицы. Возникает, если анали- Очень многие картинки в современных печатных затор пропускает таблицу или находит несуще- изданиях имеют диагональные или фигурные гра ницы. Если текст расположен непосредственно ствующую таблицу. Чаще всего появляется, если в вблизи картинки, то выделение такой области мо картинке содержатся клетки или текст организован в виде похожем на таблицу. жет занять у оператора большое количество вре Ошибка анализа таблицы. Возникает, если в та- мени. Однако, вертикальные и горизонтальные блице неправильно выделены границы ячеек. границы вполне объяснимы. С такой разметкой Чаще всего появляется, если таблица не регулярная значительно проще вычислить, входит ли одна об БИЗНЕС-ИНФОРМАТИКА №4(10)Ц2009 г.

АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ ласть в другую. Иначе, вычислительная сложность номической тематики, а другая часть содержала алгоритмов проверки повышается. информацию о компьютерах, то неизбежно в доку Во-вторых, часто приходится сталкиваться с лого- ментах присутствовали графики, диаграммы, а так типами. Логотипы с одной стороны - это картинки, же изображения со снимками окон компьютерных с другой стороны в них может присутствовать текст, программ. В пакете также присутствовали таблицы который системы OCR может распознать. Если по- разной сложности (с сеткой и без), были таблицы метить логотип блоком картинка, а в нем присут- со слиянием ячеек. Присутствовал текст, оформ ствует текст, то возникает ошибка Захват картин- ленный в виде таблицы, но, по сути, таблицей не являющийся, например содержание книги. В жур ки. Если же пометить весь логотип, как текстовое нальных статьях присутствовали картинки с непря поле, то будет потеряна картинка и, соответственно, суть логотипа. Однако даже если такая ошибка бу- моугольными краями.

Итак, графические документы были довольно дет встречаться при распознавании довольно часто, сложны для анализа. FineReader 9 на всем пакете она может быть легко исправлена в системе OCR делал ошибки всех вышеперечисленных типов. Та выделением логотипа как картинки. Таким образом, ким образом, можно считать, что пакет документов можно считать этот минус несущественным.

удовлетворяет требованиям.

Инструмент для задания Целевой метод сравнения результатов анализа разметки структуры документа Целевой метод предполагает выбор системы, со Компанией ABBYY был специально разработан вершающей наименьшее количество ошибок за инструмент для задания описанной разметки. Он данного типа. Пользователь, который имеет дело называется BatchAnalyzer. Эта программа позволя с оцифровкой большого количества документов, ет не только интерактивно задавать разметку для содержащих таблицы, не заинтересован в OCR целого пакета документов, но также вызывать блок системе, которая производит анализ лучше других анализа одной из версий системы OCR FineReader систем. Такому пользователю нужна OCR-система, 7, 8 или 9. После анализа, BatchAnalyzer автомати которая лучше других систем умеет анализировать чески сверяет разметку полученную системой OCR именно табличные данные. Пользователю, ко и заданную вручную оператором, считает количе торый оцифровывает журнальные статьи, нужна ство ошибок каждого вида и даже может выделить OCR-система, которая не теряет текст около кар ошибочно распознанные области. В программе тинки. Таким образом, получаем оценку, отвечаю BatchAnalyzer также предусмотрена возможность щую нуждам пользователя, работающего с одно сравнения двух результатов анализа, сопоставле типными данными.

ния ошибок и просмотр отличий результатов.

Таблица 1.

С помощью инструмента BatchAnalyzer было про Количество ошибок разных типов ведено сравнение работы модуля анализа двух OCR в сравниваемых версиях FineReader.

систем: FineReader 8 и FineReader 9.

Количество ошибок Пакет данных для сравнения OCR-систем Тип ошибки FineReader 8 FineReader К пакету документов, на котором проводится Незаконченная строка 885 сравнение OCR-систем предъявляется требования содержать достаточно сложнее документы, чтобы Картинка вместо текста 0 были возможны ошибки анализа всех типов. Тре Неправильный абзац 327 бовалось выявить как можно больше промахов раз личных систем OCR. Однако в пакете не должны Потеря строки 410 содержаться документы нестандартной структуры, Пересечение разделителя 35 такие как описанные ниже в разделе Одна строка - Текст вместо картинки 745 одна ошибка (см. рис. 5).

Пакет содержал 300 графических документов из Лишний текст 66 различных источников. Большинство документов - отсканированные страницы из журналов и книг. Потеря таблицы 94 Также пакет содержал снимки экранов интернет Лишняя таблица 0 страниц. Поскольку часть документов была эко БИЗНЕС-ИНФОРМАТИКА №4(10)Ц2009 г.

АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ В табл. 1 приведено количество ошибок в паке- анализа будет являться сумма ошибок анализатора.

те из 300 документов для систем FineReader 8 и Чем больше строк проанализировано правильно, FineReader 9. тем меньше это число.

Как описывалось выше, суммарное количество не обусловлено случайными выпадами количеств ошибок того или иного анализатора. Количество ошибок каждого типа растет в среднем пропорцио нально размеру пробного пакета. Таким образом, данные из таблицы действительно отражают реаль ную картину распределения ошибок по типам.

Сравним общее количество ошибок анализа по каждому из типов. Из результатов видно, что ана лизатор FineReader9 делает больше ошибок типа Потеря строки, однако другие ошибки в резуль тате работы встречаются реже.

Нули в строках Картинка вместо текста и Лиш няя таблица не говорят о том, что анализатор FineReader8 правильно находит картинки и не дела ет лишних таблиц. Этих ошибок нет, потому что этот анализатор просто не выделяет таблицы и картинки.

Становится понятно, почему нужно учитывать не Рис. 4.

только количество сделанных ошибок, но и количе Оценка основана на том, что распознавание ство правильно найденных элементов данного типа.

текста проходит построчно. Таким образом, если анализ теряет строку, выделяет её не целиком или Метод Одна строка - одна ошибка ошибочно объединяет с другой строкой, то рас На первый взгляд может показаться, что объ- познавание будет проведено неверно для того же ективной интегральной оценкой качества анали- числа строк. Оценка лодна строка - одна ошибка за графического изображения могла бы выступать ориентирована на правильное распознавание мак сумма или взвешенная сумма ошибок, допущен- симального количества строк текста.

ных модулем анализа OCR-системы. Однако, это Однако данный метод имеет недостатки. Рассмо не так. Ошибки, основанные на модели разметки трим пример (рис. 5). Данные в документе органи структуры документа не аддитивны. Например, зованы в табличном виде, в ячейках, но таблицей если документ состоит из одной таблицы на целый этот документ не является. Нет единого признака у лист, то разметкой такого документа является один каждого столбца или у каждой строки таблицы. Это блок таблица. Соответственно, если анализатор просто набор отдельных записей.

ошибается и не находит таблиц, то оценка учиты- Анализатор OCR-системы ошибается и прини вает эту ошибку, как одну ошибку типа Поиск мает данный документ за таблицу. Несмотря на то, таблицы. Однако таблица состояла из сотни яче- что все строки текста внутри ячеек будут распозна ек, в каждой по строке текста. Некоторые строки в ны правильно, такой анализ согласно оценке будет дальнейшем не будут распознаны, между другими иметь очень низкую оценку. Чтобы избежать это, будут потеряны связи, возможно в один блок будут можно усложнять оценку, учитывая отдельно стро объединены строки из разных колонок. Налицо не- ки, отдельно контекст, в котором они распознаны соответствие оценки результату. На рис. 4 приведен правильно или неправильно (таблица или просто пример такого документа. Таблица неверно разбита текст), однако усложнять оценку нежелательно.

на несколько блоков. Смысл данных потерян. Для простоты откажемся от документов такого вида Чтобы учитывать такие ошибки, предлагается ис- и исключим их из оценочного пакета. Это - не пользовать метод Одна строка - одна ошибка. То распространенная форма документа, а составлять есть, ошибкой считается каждая неправильно про- оценку на нестандартных формах неразумно.

анализированная строка текста. Если в одной ячей- Итак, рассмотренный метод даёт разумные оцен ке таблицы три строки текста, то при потере ячейки ки работе анализаторов, но следует исключить из такой таблицы предложенный метод оценки счита- пробного пакета некоторые документы нестандарт ет, что анализатор совершил три ошибки. Оценкой ной формы.

БИЗНЕС-ИНФОРМАТИКА №4(10)Ц2009 г.

АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ FineReader 8 это составляет 42,75%. На основании этих данных можно судить об улучшении качества анализа OCR-системы FineReader 9 по сравнению с предыдущей версией.

Выводы В работе типы ошибок анализа были формализо ваны с помощью унифицированной системы раз метки документа. Ошибки анализа делятся на типов. Эти ошибки разнородны, их нельзя склады вать для получения оценки вида Количество оши бок. Поэтому предложены два типа оценки.

Первый тип оценки - сравнение количества ошибок определенного типа. Эта дифференциаль ная оценка, позволяет сравнивать 2 системы OCR.

Анализатор системы FineReader 8 лучше справит ся с задачей поиска всех строк текста в документе.

Но по количеству других ошибок эта система явно уступает системе FineReader 9.

Второй тип оценки - направлен на улучшение Рис. распознавания текста. Эта оценка точнее, посколь При сравнении OCR-систем FineReader 8 и ку она учитывает все неверно распознанные стро FineReader 9 было подсчитано количество ошибок, ки. Однако для этой оценки нужно осторожнее согласно методу Одна строка - одна ошибка.

выбирать документы для проверочного пакета до Данные приведены в табл. 2.

кументов.

Таблица 2.

По количеству строк, неверно проанализиро Количество ошибок, приводящих OCR-система ванных двумя системами, можно сказать, что к неверному распознаванию строки FineReader 9 лучше предыдущей версии на 43%.

FineReader 8 Таким образом, FineReader 9 часто проводит FineReader 9 4398 анализ документа качественнее, чем 8-я версия системы, что согласуется с субъективной оценкой FineReader 9 сделал на 3284 ошибки меньше (т.е.

качества анализа. Предложенные оценки действи правильно распознал на 3284 строк больше). От тельно могут использоваться для оценки блока общего количества ошибок сделанных системой анализа.

Литература 1. Арлазаров В.Л., Славин О.А. Алгоритмы распознавания и технологии ввода текстов в ЭВМ. Ч Ин формационные технологии и вычислительные системы № 1, 2. Славин О.А., Федоров Г.О. Вопросы распознавания текста, оцифрованного с помощью видеокамер.

ftp://ftp.dol.ru/pub/users/cgntv/download/sbornic/sbornic3/FEDOROV.DOC 3. Н. Е. Бузикашвили Выделение и представление картинок на немонохромных изображениях.

ftp://ftp.dol.ru/pub/users/cgntv/download/sbornic/sbornic1/buzik2.doc 4. Владимир Вежневец Оценка качества работы классификаторов view/106/60/ 5. Kazem Taghva, Julie Borsack, Steven Lumos, Allen Condit A comparison of automatic and manual zoning.Ч International Journal on Document Analysis and Recognition, Volume 6, Number 4 / April, 6. Дуда Р., Харт П. Распознавание образов и анализ сцен. М., Мир, 7. Коулмен Г. Б., Эндрюс Х. С. Сегментация изображений при помощи автоматической классификации.

ТИИЭР, 1979, т. 67, №5, с. 39- БИЗНЕС-ИНФОРМАТИКА №4(10)Ц2009 г.

Книги, научные публикации