Обработки информации

Вид материалаУчебное пособие

Содержание


8. СКАНИРОВАНИЕ И ПРЕОБРАЗОВАНИЕ ДОКУМЕНТОВ 8.1.Работаем со сканером
Типы сканеров.
Примеры использования
Получение оцифрованных изображений
Преобразование текста (OCR) и графики
Как ПОЛУЧИТЬ ОЦИФРОВАННУЮ КАРТИНКУ
ПОЛЕЗНЫЕ советы
8.2. Программы РАСПОЗНАВАНИЯ ТЕКСТА (OCR)
Вопросы и задания
Подобный материал:
1   ...   10   11   12   13   14   15   16   17   18

8. СКАНИРОВАНИЕ И ПРЕОБРАЗОВАНИЕ ДОКУМЕНТОВ

8.1.Работаем со сканером


Всего несколько лет назад сканеры были ужасно дорогие и неповоротливые устройства и применялись только профессиональными художниками при оформлении журналов и газет. Сегодня все изменилось - сканеры есть в каждом компьютерном магазине, да и скорость работы заметно возросла.

Типы сканеров.


Планшетные. Один из наиболее удобных сканеров. Внешне напоминает "копировальный" аппарат: имеет съемную (открывающуюся) верхнюю крышку. Удобен для сканирования, как фотографий, так и текста.

Листовые76. Предназначены для тех, кто работает с материалами на отдельных листах. Занимают очень мало места на рабочем столе.

Слайд - сканеры. Предназначены для сканирования слайдов и пленок.

Ручные. Область применения ручных сканеров ограничена77. В основном используются для сканирования небольших картинок, например из книги, или журнала.

Примеры использования


Сканер - типичное устройство ввода информации в компьютер. Позволяет получить "цифровую" копию различных изображений.

Полученные изображения хранятся в виде файлов, например: sun001.jpg или image.tif. Размер файла напрямую зависит от разрешения78, режима сканирования и размеров "оригинала".

Главным "показателем" сканера является разрешающая способность - число точек (dpi). Различают "оптическое" разрешение (обычно 300, 600 или 1200 dpi) и "интерполяционное", то есть программное.

Получение оцифрованных изображений


Наличие ОС с графическим интерфейсом позволяет использовать оцифрованные картинки в самых разных областях: для оформления текстов и документов, создания "компьютерных" фотоальбомов, изготовления различных брошюр, буклетов и журналов, WEB страничек.

Оцифрованные фото с успехом используются при создании рекламных роликов, обучающих и игровых программ, энциклопедий.

Преобразование текста (OCR) и графики


Наличие сканера и программ распознавания текста (OCR) позволяет решить проблему ввода в ПК больших объемов текстовой информации, различных данных. На переднем крае этой технологии - распознавание рукописного текста (например, FineReader версия 4.0).

Применение сканера возможно для ввода в компьютер различных карт и чертежей.

Специальные программы, - трассировщики "повторяют" (обрисовывают) контуры сканируемых чертежей и создают легко масштабируемые "цифровые" изображения.

Как ПОЛУЧИТЬ ОЦИФРОВАННУЮ КАРТИНКУ


Чтобы отсканировать картинку или фотографию потребуются: ПО (программное обеспечение) - графический редактор и сканер, который нужно включить до запуска программы.

В меню "файл" выбираем команду "asquire"79 (получить, сканировать).


В появившемся диалоговом окне (драйвер сканера) необходимо выбрать режим, разрешение (resolution) и область сканирования.

Различают следующие режимы сканирования:

Black&White (черно-белый) - предназначен для сканирования текстов и контурных рисунков.

Gray (серый) - 256 оттенков серого цвета. Используйте этот режим для сканирования черно-белых фотографий, или если у вас не цветной принтер.

Color (цветной) - для получения цветных картинок и фотографий.

Кнопка "preview" или “prescan” предназначена для пробного сканирования. Позволяет увидеть положение картинки и задать с помощью специального "пунктирного" прямоугольника (рамки) область сканирования.

Кнопка "Scan" (сканировать, начать) запускает основной процесс сканирования, в результате которого мы видим на экране ПК получившуюся фотографию. Остается сохранить ее на диске для дальнейшего использования.

ПОЛЕЗНЫЕ советы


Прежде чем начать сканирование нужно включить сканер.

Маленькие по размеру (3х4см) фотографии всегда сканируйте с наибольшим разрешением, так как возможно картинку придется увеличивать.

Если вы работаете с изображениями, предназначенными только для вывода на экран ПК, применяйте разрешение 75 - 150 dpi. Этого вполне достаточно (разрешение экрана примерно 72 -96 dpi).

Сократить размер файла с картинкой можно используя меньшее количество цветов. Для этого преобразуйте ее в формат "Optimized 256 color". Хороший результат получается при сохранении файла с расширением *.JPG.

Не стоит выбирать разрешение сканирования выше, чем может выдать имеющийся принтер, картинка от этого лучше не станет, да и работа с большим по объему файлом будет происходить гораздо медленнее.

8.2. Программы РАСПОЗНАВАНИЯ ТЕКСТА (OCR)


Применяя сканер можно не только получать "электронные" фотографии, но и использовать его для преобразования текста, напечатанного на бумаге в "текст пригодный для редактирования".

Конечно текст сам собой превращаться не будет - необходима программа распознавания текста (OCR) - например FineReader .

Принцип действия таких программ следующий: сканируется фотография текста, затем методом сравнения множества образцов, черно-белая фотография (читай: картинка текста) преобразуется в "обычный текст", такой, если бы вы его напечатали с клавиатуры.

Пользователю остается только сохранить текст на диске или скопировать его через буфер обмена в любой текстовый редактор.

FineReader автоматически распознает разные участки текста: текст как таковой, картинку (рисунок), таблицу и так называемые "нераспознаваемые" блоки.

Несколько слов о параметрах сканирования. Для "хорошего" текста (белая бумага, качественная печать) достаточно разрешения 200 dpi. Газетные статьи и текст, отпечатанный на матричном принтере, сканируйте с разрешением 300 - 400 dpi.

В программе есть возможность "настройки" на конкретный текст (меню - сервис - параметры - установки сканера). Если вы сканируете документ из графического редактора - устанавливайте режим "B\W" и разрешение 300 dpi.

Перед началом работы следует включить сканер и положить оригинал (обычно лицом вниз, если только вы не используете ручной сканер).

После запуска FineReader появляется "совет дня" - краткое описание какой-либо операции. Для продолжения работы вам нужно закрыть это окно. Шпаргалка - необходима лишь самым "ленивым" пользователям.


На панели инструментов находятся кнопки "сканировать", "выделить блоки" и "распознать". Можно выполнять указанные операции и через меню (Scan&Read).

Для получения "фотографии текста" используем кнопку "сканировать". Наш компьютер все ресурсы во время выполнения этой операции отдает сканеру.

На рисунке: фрагмент окна FineReader с "распознанным" текстом.

Когда процесс завершается, вы увидите окно с изображением текста.

Ручную установку блоков80 (рамка с помощью левой кнопки мыши) применяйте, если нужно распознать только часть текста.

Для большинства случаев сразу нажимайте на кнопку инструмента "распознать" и подтвердите автоматическое определение блоков. Процесс распознавания будет "иллюстрироваться" серой закраской участков текста.

В новом окне с именем "текст" вы увидите распознанный программой текст, который был напечатан на листе бумаги.

Возможно, вам придется исправить ошибки, так как точность распознавания FineReader около 92- 97 %, да и при печати книг и газет на бумаге иногда не прилипает или осыпается краска. Это хорошо видно в окне "крупный план" с увеличенным масштабом. Как только вы измените положение курсора в окне "текст" или "увеличительного стекла" в окне "image", поменяет позицию и "крупный план".

Чтобы отправить текст в буфер обмена необходимо его выделить (редактирование - выделить все), а затем использовать команду "копировать", доступную из меню или через панель инструментов.

Если вы будете распознавать и другие документы, тогда сохраните содержимое окна текст в виде файла (инструмент "дискета" или команда меню - файл - сохранить.

К сведению: на панели инструментов есть "поля" с режимами распознавания ("авто" и "русско-английский"). Для сканирования документов с другим языком выберите нужный из списка.


ВОПРОСЫ И ЗАДАНИЯ:
  1. Какие типы сканеров вы знаете?
  2. Что такое "разрешение", в каких единицах оно измеряется?
  3. Даны две оцифрованные картинки. Первая - получена в режиме "Gray", вторая в режиме "Color". Какая из них будет занимать больше места на жестком диске, если при сканировании использовался один и тот же образец?
  4. Назначение и сфера применения программ OCR
  5. Можно ли распознать фотографию текста записанную в виде файла?
  6. Какой стороной нужно помещать "оригинал" в сканер?
  7. Какие типы распознаваемых блоков вы знаете?
  8. Как распознать только часть текста сканируемого документа?
  9. Опишите последовательность сканирования фотографии в редакторе растровой графики.
  10. С каким разрешением Вы будете сканировать большую фотографию, которую в дальнейшем собираетесь показывать на экране компьютера?