Работа с документами

Информация - Компьютеры, программирование

Другие материалы по предмету Компьютеры, программирование

;

Рис. 10. Стоит исправить две-три ошибки, и текст готов. Fine Reader 5.0 неплохо поработал.

Рис. 11. Такого типа ошибки, как сейчас совершил Cuneiform 2000 Master, раньше были у Fine Reader 4.0.

 

Теперь давайте посмотрим, какие результаты у нас получатся, если распознавать ксерокс плохого качества.

 

Рис. 12. Так выглядит наш образец плохого ксерокса. Имея достаточно терпения и знания, его можно было бы улучшить, используя возможности Photoshop.

 

Fine Reader - 1 мин 48 с, а Cuneiform - около 30 с. Тут явно проиграл Fine Reader. Посмотрим, что же удалось распознать нашим участникам. Картина явно меняется: Cuneiform за 30 с со всей страницы едва ли распознал правильно более одного-двух десятков слов. С Fine Reader, несмотря на плохое качество исходного материала, было получено максимальное количество распознанного текста, который, имея оригинал, можно было бы привести в нормальный вид. А пользователям Cuneiform пришлось бы набирать весь текст вручную. Тише едешь - дальше будешь.

 

Рис. 13. Cuneiform не справился с задачей, и такой текст нельзя считать распознанным.

Рис. 14. Сравните этот текст с текстом, полученным в Cuneiform 2000, и вы поймете, насколько лучше Fine Reader справился с таким нелегким делом.

 

Итак, показатель времени распознавания у программ совершенно разный, и сказать, какой из них быстрее, довольно сложно. Однако нельзя не заметить, что у Fine Reader 5.0 время распознавания напрямую зависит от качества оригинала: она старается распознать максимально много и поэтому затрачивает больше времени на распознавание изображения плохого качества. Ну а у Cuneiform 2000 время распознавания не настолько зависит от качества оригинала, поэтому распознавание занимает меньше времени, но из-за этого страдает качество. Вывод: Fine Reader 5.0 лучше всего использовать при распознавании как хорошего, так и плохого исходного материала. Ну, а Cuneiform 2000 в лучшем свете выглядит при распознавании среднего и чуть выше среднего качества оригиналов, т. к. при этом он тратит время на распознавание гораздо меньше, а качество лишь немного уступает победителю данного теста - Fine Reader.

Таблицы и формы

На этом этапе мы рассмотрим, насколько точно будет производиться определение таблиц и форм. Для того чтобы провести его более точно, мы возьмем два основных вида таблиц и один документ договора.

 

Рис. 15. Пример простой таблицы. Такого типа таблицы очень часто встречаются в экономической литературе и справочниках.

 

Для первого примера мы используем небольшую таблицу (рис. 15).

 

Рис. 16. Результат распознавания Fine Reader 5.0 здесь требуется доработка.

Рис. 17. Результат распознавания Cuneiform 2000 наиболее близок к оригиналу.

 

Таким образом, мы получили две идентичные таблицы (за исключением форматирования), недостатки которых в наших программах следующие: в Fine Reader 5.0 каждая ячейка заканчивается ненужным вводом (рис. 16), а Cuneiform 2000 (рис. 17) сохраняет разбивку на строки за счет вставки символа "конец строки" (Shift+Enter в MS Word).

Теперь можно взять более сложную таблицу (рис. 18).

 

Рис. 18. Сложная таблица линии в ней не все явно заданы.

 

При попытке разметить ее автоматически только Fine Reader нашла здесь какое-то подобие таблицы, ну а Cuneiform 2000 вообще решил, что здесь находится только текст. И только после того как вручную выделили табличный блок, программы решили распознавать таблицу.

Результаты распознавания мы видим на рис. 19, 20. Наиболее точно и близко к оригиналу у нас оказался Fine Reader 5.0, но все же не совсем так, как бы хотелось. Cuneiform 2000 вообще решил, что в таблице вся сетка должна быть полностью видимой - после таких распознаваний придется еще повозиться с таблицей достаточно основательно. Тем более Cuneiform 2000 еще не совсем точно распознал текст в самой таблице.

 

Рис. 19. Cuneiform 2000 таблицу, конечно, распознал, но вот только не так уж близко к оригиналу, как Fine Reader 5.0.

Рис. 20. Довольно близко к оригиналу, но поработать еще придется.

 

Для того чтобы хорошо и наиболее точно распознавалась таблица, можно самому отредактировать вертикальные и горизонтальные линии таблицы до распознавания текста. Это доступно в обеих программах.

Проведя исследование на распознавание таблиц, мы переходим к формам. Что же мы в данном случае под ними понимаем? А все очень просто: анкеты, договора и прочие документы, содержащие достаточно сложное оформление. Если у вас возникает вопрос, а зачем такое исследование проводить, то очень просто привести пример из жизни. Вам нужно изменить текст договора или анкеты имеющегося у вас образца, а в электронном виде его у вас нет. Время на набор и оформление ограничено, поэтому приходится использовать программу распознавания.

Итак, покончим с лирикой и возьмемся за дело. Образцом для нашего теста послужит стандартный договор найма.

При автоматической разметке страницы на блоки возникает примерно такая же ситуация, как при определении сложной таблицы, поэтому мы всю страницу определяем единым текстовым блоком вручную. Это приходится делать, поскольку в Fine Reader страница разделяется на три блока, а в Cuneiform 2000 - порядка пятнадцати.

В Fine Reader спустя 50 с мы получаем уже готовый договор, ну а в Cuneiform 2000 ждем всего 10 с, но документ в результате требует исправлений. Например, некоторые точки распознались запятыми, а вместо символа номер (№) получаем пару других символов, и точность распознавания самого текста немного страдает. Однако само форматирование договора в обеих программах сохранилось достаточно ?/p>