Лекція 1 "введення у дисципліну"

Вид материала

Содержание

Необхідність перетворення графічних текстів
Програми розпізнавання текстів
Програма finereader

Подобный материал:

1 ... 7 8 9 10 11 12 13 14 ... 17

НЕОБХІДНІСТЬ ПЕРЕТВОРЕННЯ ГРАФІЧНИХ ТЕКСТІВ

Після обробки документа сканером утворюється графічне зображення документа (графічний образ). Але графічний образ ще не є текстовим документом. З погляду комп'ютера, документ після сканування перетворюється в набір точок різного рівня яскравості, а зовсім не в текстовий документ. Текстові процесори не можуть опрацьовувати графічні тексти.

У текстовому документі кожний символ кодується 8-розрядним числом. У графічному документі символ поданий великою кількістю точок (7000 для шрифту 14 розміру), і кожна точка кодується числом. Для переводу графічного документа в текстовий необхідно виділити графічний об'єкт, розпізнати його і замінити відповідним кодом. Після перетворення, текстовий документ має в сотні разів менший розмір, чим той же документ у графічному форматі.

Перетворення тексту - досить складна науково-технічна задача, що зводиться до проблеми розпізнавання образів у складі точечного графічного зображення. Подібні задачі вирішують за допомогою спеціальних програмних засобів, що називаються засобами розпізнавання образів. Реальний технічний прорив у цій області відбувся лише в останні роки. До цього розпізнавання тексту було можливо тільки шляхом порівняння виявлених конфігурацій точок із стандартним зразком (еталоном, що зберігається в пам'яті комп'ютера). Автори програм задавали критерій «схожості», використовуваний при ідентифікації символів. Подібні системи називалися OCR (Optical Character Recognition -оптичне розпізнавання символів) і спиралися на спеціально розроблені шрифти, що полегшували такий підхід. Якщо доводило стикатися з довільним і, тим більше, складним шрифтом, програми такого роду починали давати серйозні збої.

Останні наукові досягнення в області розпізнавання образів буквально перевернули представлення про оптичне розпізнавання символів. Сучасні програми цілком можуть справлятися з різноманітними (і дуже вигадливими) шрифтами без перенастройки. Багато програм розпізнають навіть рукописний текст.

ПРОГРАМИ РОЗПІЗНАВАННЯ ТЕКСТІВ

Оскільки потреба в розпізнаванні тексту відсканованих документів достатньо велика, тому є велика кількість програм, призначених для цієї мети. Так як різні наукові методи розпізнавання тексту розвивалися незалежно один від одного, більшість з цих програм використовують цілком різні алгоритми.

Ці алгоритми можуть давати різні результати на різних документах. Наприклад, системи OCR, що згадувалися вище, спроможні розпізнавати тільки стандартний спеціально підготовлений шрифт і дають на цьому шрифті найкращі результати, які не може перевершити жодна з більш універсальних програм.

Сучасні алгоритми розпізнавання тексту не орієнтуються ні на конкретний шрифт, ні на конкретний алфавіт. Більшість програм здатна розпізнавати текст кількома мовами. Ті ж самі алгоритми можна використовувати для розпізнавання латинського, російського, українських, арабського й інших алфавітів і навіть змішаних текстів. Зрозуміло, програма повинна знати, про який алфавіт мова йде.

Найбільш широко відомі і поширені програми FineReader і CuneiForm. Ми докладно зупинимося на програмі FineReader, що забезпечує високу якість розпізнавання і зручність застосування. З моменту виходу FineReader 4.0 Std/Pro завоював 26 нагород за точність і простоту використання.

ПРОГРАМА FINEREADER

Програма FineReader - продукт групи компаній ABBYY.

ABBYY - один із головних виробників програмного забезпечення в області лінгвістики, семантики, опрацювання текстів і систем оптичного розпізнавання символів. Група компаній ABBYY складається зі штаб-квартири ABBYY у Москві, ABBYY України (Київ), ABBYY США (Фримонт, Каліфорнія), ABBYY Європи (Мюнхен, Німеччина).

Програмні продукти ABBYY :

сімейство систем розпізнавання FINE READER, що дозволяють автоматизувати введення в комп'ютер текстів, таблиць, форм анкет і бланків;
FINE READER РУКОПИС забезпечує розпізнавання форм, заповнених друкованими літера від руки;
система FINE READER БАНК автоматизує введення платіжних доручень;
ABBYY Retrieval & Morphology Engine - інструментарій розроблювача для інтеграції повнотекстового пошуку і лінгвістичних технологій у зовнішні додатки ;
система електронних англо-російських і російсько-англійських словників LINGVO.

Програма FineReader призначена для розпізнавання текстів на російській, англійській, німецькій, українській, французькій і багатьох інших мовах, а також для розпізнавання змішаних двомовних текстів.

Програма має ряд зручних можливостей. Вона дозволяє об'єднувати сканування і розпізнавання в одну операцію, працювати з пакетами документів (або з Багатосторінковими документами) і з бланками. Програму можна вчати для підвищення якості розпізнавання погано надрукованих текстів або складних шрифтів. Вона дозволяє редагувати розпізнаний текст і перевіряти його орфографію. FineReader працює з різними моделями сканерів і підтримує стандарт TWAIN.

Перетворення паперового документа в електронний відбувається в три етапи.

Перший етап - сканування. Сканер під керуванням драйвера, що підтримує протокол TWAIN, перетворює документ у сукупність графічних файлів (по числу сторінок). При необхідності користувач може переустановити параметри сканування.

Зображення з листа паперу може бути перетворене в цифрову форму і за допомогою інших засобів, таких, наприклад, як цифрові фотоапарати і цифрової відеокамери.

Другий етап - сегментація тексту. Сегментація - це процес виділення в документі однорідних фрагментів (блоків) зображення - тексту, малюнків, таблиць. Блоки опрацьовуються і включаються в документ у порядку нумерації блоків. Сегментація може виконуватися в автоматичному режимі. Якщо вихідний документ має складну структуру - містить ілюстрації, підмалюночні підписи до них, текст розміщається в декількох колонках, то сегментація здійснюється у ручному режимі. У результаті сегментації утворюються файли, що зберігають опис блоків кожної сторінки.
Останній третій етап роботи програми - безпосередньо розпізнавання. Він стосується тільки блоків, що містять текст і таблиці. Графічні блоки просто пересилаються у формований файл. Розпізнаний текст відображається в окремому вікні у вигляді форматованого текстового документа. Програма виділяє кольором ті символи, які вона сама розглядає як неоднозначно пізнані. Це спрощує пошук помилок. Цей етап звичайно не потребує втручання користувача, за винятком тих випадків, коли текст неякісно надрукований або набраний невідомим шрифтом. Тоді користувач може "навчити" програму розпізнавати даний текст.

Створений текстовий файл "втрачає зв'язок" із вихідним зображенням і може редагуватися і форматуватися незалежно від нього. Засобами програми в отриманому тексті можна також провести перевірку граматики.

Кожний із цих етапів програма FineReader може виконувати як автоматично, так і під контролем користувача. Існує режим, коли всі три етапи виконуються автоматично під керуванням "майстра". У цьому випадку перетворення документа відбувається за один прийом.

Отриманий текст можна зберегти у виді форматованого або неформатованого документа. Передбачено також можливість прямої передачі отриманого тексту в програми Word або Excel, а також у буфер обміну Windows.

Процес сканування, сегментування і розпізнавання багатосторінкового текстового документа досить тривалий і не завжди може бути закінчений за один прийом. . FineReader надає можливість розбити цей процес на частини. Робота з перетворення документа може бути припинена на будь-якому етапі. При цьому вся поточна інформація з опрацювання документа - графічні файли, сегментні файли, формований текстовий файл і службові файли записуються в папку з назвою "Пакет". При поновленні роботи всі необхідні файли зчитуються із папки "Пакет" і процес перетворення документа продовжується з перерваного місця.