Лекция 1 "введение в дисциплину"

Вид материалаЛекция

Содержание


Подключения сканера к компьютеру
Необходимость преобразования графических текстов
Программы распознавания текстов
Программа finereader
Подобный материал:
1   ...   7   8   9   10   11   12   13   14   ...   18

ПОДКЛЮЧЕНИЯ СКАНЕРА К КОМПЬЮТЕРУ


Существуют сканеры со специальной платой расширения - контролером. Плату устанавливают в одно из гнезд расширений материнской платы компьютера, а сканер подклю­чают к разъему платы.

Некоторые сканеры подключают к свободному параллельному порту (порту принтера). А сам принтер подключается к специальному разъему сканера. В таком случае передача данных проис­ходит медленнее, зато никаких дополнительных устройств для подключения сканера не требуется.

Поскольку аппаратные интерфейсы сканеров отличаются много­образием, были предприняты специальные меры для стандарти­зации программного интерфейса, обеспечивающего связь между сканерами и операционной системой. Этот интерфейс основан на специальном протоколе TWAIN. Если сканер поддерживает данный протокол, то операционная система Windows способна обеспечить взаимодействие между сканером и программным приложением, предназначенным для работы с ним. Все современ­ные сканеры поддерживают стандарт TWAIN. При установке сканера в сис­теме Windows 95 необходимо использовать драйверы, поставляю­щиеся вместе с ним. В операционной системе Windows 98 стандарт TWAIN поддерживается по умолчанию. При присоединении к компьютеру сканера, в окне папки Панель управления появляется соответствующий значок, позволяющий производить настройку.

После сканирования графические файлы, в зависимости от типа исходного материала подвергаются обработке. Фотографии иллюстративного характера - ретуши, фотомонтажу. Специальные фотографии (рентгеновские снимки) - повышению контрастности. Текстовые файлы - преобразованию в текстовый формат.

НЕОБХОДИМОСТЬ ПРЕОБРАЗОВАНИЯ ГРАФИЧЕСКИХ ТЕКСТОВ


После обработки документа сканером получается графическое изо­бражение документа (графический образ). Но графический образ еще не является текстовым документом. С точки зрения компьютера, документ после сканиро­вания превращается в набор точек разного уровня яркости, а вовсе не в текстовый документ. Текстовые процессоры не могут обрабатывать графические тексты.

В текстовом документе каждый символ кодируется 8-разрядным числом. В графическом документе символ представлен большим количеством точек (7000 для шрифта 14 размера), и каждая точка кодируется числом. Для перевода графического документа в текстовый необходимо выделить графический объект, распознать его и заменить соответствующим кодом. После преобразования, текстовый документ имеет в сотни раз меньший размер, чем тот же документ в графическом формате.

Преобразование текста - достаточно сложная научно-техническая задача, сводящаяся к проблеме распознавания образов в составе точечного графического изображения. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов. Реальный технический прорыв в этой области произошел лишь в последние годы. До этого распоз­навание текста было возможно только путем сравнения обнару­женных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Авторы программ задавали критерий «похожести», используемый при идентификации сим­волов. Подобные системы назывались OCR (Optical Character Recogni­tion -оптическое распознавание символов) и опирались на специ­ально разработанные шрифты, облегчавшие такой подход. Если приходилось сталкиваться с произвольным и, тем более, сложным шрифтом, программы такого рода начинали давать серьезные сбои.

Последние научные достижения в области распознавания образов буквально перевернули представление об оптическом распознавании символов. Современные программы вполне могут справляться с различными (и весьма вычурными) шрифтами без перенастройки. Многие распознают даже рукописный текст.

ПРОГРАММЫ РАСПОЗНАВАНИЯ ТЕКСТОВ


Поскольку потребность в распознавании текста отсканированных документов достаточно велика, неудивительно, что имеется зна­чительное число программ, предназначенных для этой цели. Так как разные научные методы распознавания текста развивались независимо друг от друга, многие из этих программ используют совершенно разные алгоритмы.

Эти алгоритмы могут давать разные результаты на разных докумен­тах. Например, упоминавшиеся выше системы OCR способны распознавать только стандартный специально подготовленный шрифт и дают на этом шрифте наилучшие результаты, которые не может превзойти ни одна из более универсальных программ.

Современные алгоритмы распознавания текста не ориентируются ни на конкретный шрифт, ни на конкретный алфавит. Большин­ство программ способно распознавать текст на нескольких языках. Одни и те же алгоритмы можно использовать для распознавания латинского, русского, украинского, арабского и других алфавитов и даже сме­шанных текстов. Разумеется, программа должна знать, о каком алфавите идет речь.

Наиболее широко известны и распространены программы FineReader и CuneiForm. Мы подробно остановимся на программе FineReader, обеспечива­ющей высокое качество распознавания и удобство применения. С момента выхода FineReader 4.0 Std/Pro завоевал 26 наград за точность и простоту использования.

ПРОГРАММА FINEREADER


Программа FineReader - продукт группы компаний ABBYY.

ABBYY - один из ведущих производителей программного обеспечения в области лингвистики, семантики, обработки текстов и систем оптического распознавания символов. Группа компаний ABBYY состоит из штаб-квартиры ABBYY в Москве, ABBYY Украины (Киев), ABBYY США (Фримонт, Калифорния), ABBYY Европы (Мюнхен, Германия).

Программные продукты ABBYY :
  • семейство систем распознавания FINE READER, которые позволяют автоматизировать ввод в компьютер текстов, таблиц, форм анкет и бланков;
  • FINE READER РУКОПИСЬ обеспечивает распознавание форм, заполненных печатными буквами от руки;
  • система FINE READER БАНК автоматизирует ввод платежных поручений;
  • ABBYY Retrieval & Morphology Engine - инструментарий разработчика для интеграции полнотекстового поиска и лингвистических технологий во внешние приложения ;
  • система электронных англо-русских и русско-английских словарей LINGVO.

Программа FineReader предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках, а также для распознавания смешанных двуязычных текстов.

Программа имеет ряд удобных возможностей. Она позволяет объединять сканирование и распознавание в одну операцию, рабо­тать с пакетами документов (или с многостраничными докумен­тами) и с бланками. Программу можно обучать для повышения качества распознавания неудачно напечатанных текстов или сложных шрифтов. Она позволяет редактировать распознанный текст и проверять его орфографию. FineReader работает с разными моделями сканеров и поддерживает стандарт TWAIN.

Преобразование бумажного документа в электронный происходит в три этапа.
  1. Первый этап — сканирование. Сканер под управлением драйвера, поддерживающего протокол TWAIN, преобразует документ в совокупность графических файлов (по числу страниц). При необходимости пользователь может переустановить параметры сканирования.

Изображение с листа бумаги может быть преобразовано в цифровую форму и с помощью других средств, таких, например, как цифровые фотоаппараты и циф­ровые видеокамеры.
  1. Второй этап — сегментация текста. Сегментация - это процесс выделения в документе однородных фрагментов (блоков) изображения - текста, рисунков, таблиц. Блоки обрабатываются и вклю­чаются в документ в порядке нумерации блоков. Сегментация может выполняться в автоматическом режиме. Если исходный документ имеет сложную структуру - содержит иллюстра­ции, подрисуночные подписи к ним, текст размещается в нескольких колонках, то сегментация производится в ручном режиме. В результате сегментации образуются файлы, хранящие описание блоков каждой страницы.
  2. Последний третий этап работы программы — непосредственно рас­познавание. Он касается только блоков, содержащих текст и таблицы. Графические блоки просто пересылаются в формируемый файл. Распознанный текст отображается в отдельном окне в виде форматированного текстового документа. Программа выделяет цветом те символы, которые она сама рассматривает как неоднозначно опознанные. Это упрощает поиск ошибок. Этот этап обычно не требует вмешательства поль­зователя, за исключением тех случаев, когда текст некачественно отпечатан или набран неизвестным шрифтом. Тогда пользователь может "обучить" программу распознавать данный текст.

Созданный текстовый файл "теряет связь" с исходным изображением и может редактироваться и формати­роваться независимо от него. Средствами про­граммы в полученном тексте можно также провести проверку грамматики.

Каждый из этих этапов программа FineReader может выполнять как автоматически, так и под контролем пользователя. Существует режим, когда все три этапа выполняются автоматически под управлением "мастера". В этом случае преобразование документа происходит за один прием.


Полученный текст можно сохранить в виде форматированного или неформатированного документа. Предусмотрена также возможность прямой передачи полученного текста в программы Word или Excel, а также в буфер обмена Windows.

Процесс сканирования, сегментирования и распознавания многостраничного текстового документа достаточно продолжительный и не всегда может быть закончен за один прием.. FineReader предоставляет возможность разбить этот процесс на части. Работа по преобразованию документа может быть перервана на любом этапе. При этом вся текущая информация по обработке документа - графические файлы, сегментные файлы, формируемый текстовый файл и служебные файлы записываются в папку с названием "Пакет". При возобновлении работы все необходимые файлы считываются из папки "Пакет" и процесс преобразования документа продолжается с прерванного места.