Повышение эффективности работы опечаточника

Информация - Компьютеры, программирование

Другие материалы по предмету Компьютеры, программирование

Министерство образования РФ

Нижегородский государственный университет

Факультет вычислительной математики и кибернетики

Кафедра математического обеспечения ЭВМ

 

 

 

 

 

 

 

 

 

 

Реферат

Повышение эффективности работы опечаточника

 

 

Выполнил: студент группы 83-09Комин А.В

Научный руководитель: к.ф.-м.н., Окатьев В. В.

 

 

 

 

 

Н. Новгород 2012 г.

 

 

Оглавление

 

Введение

Общие сведения об исправлении опечаток

Где используется исправление опечаток

Алгоритмы, используемые опечаточниками

Алгоритм нечеткого поиска

Расстояние Левенштейна

Обобщения

Формула

Алгоритм Вагнера - Фишера

Различные модели ошибок опечаточников

Используемая схема работы

Используемые данные

Принцип работы данной схемы

Постановка задачи

Общая схема решения поставленной задачи

Алгоритм исследования одного параметра

Библиография

 

 

Введение

 

В настоящее время можно с уверенностью утверждать, что автоматизированные информационные технологии прочно вошли жизнь современного общества и играют в нем важнейшую роль. С течением времени наблюдается непрерывный рост их значения для всего человечества.

При создании перспективных информационных технологий проблемы автоматической обработки текстовой информации, представленной естественными языками, выступают на передний план. Это определяется, прежде всего, тем, что мышление человека тесно связано с его языком. Более того, естественный язык является инструментом мышления. Он является также универсальным средством общения между людьми.

Проблемами обработки естественного языка в интеллектуальных информационных системах занимается компьютерная лингвистика. Эта наука возникла на рубеже пятидесятых и шестидесятых годов прошлого столетия. Компьютерная лингвистика - направление искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков. В компьютерной лингвистике основное внимание обращается на расчленение процесса понимания языка и на теоретическую лингвистическую корректность и адекватность предложенных моделей.

Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике, можно условно разделить на две части: декларативную и процедурную. К декларативной части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, к процедурной части - средства манипулирования единицами языка и речи, текстами и грамматическими таблицами.

Успех в решении прикладных задач компьютерной лингвистики зависит, прежде всего, от полноты и точности представления в памяти ЭВМ декларативных средств и от качества процедурных средств. На сегодняшний день необходимый уровень решения этих задач пока еще не достигнут, хотя работы в области компьютерной лингвистики ведутся во всех развитых странах мира. Можно отметить серьезные научные и практические достижения в области компьютерной лингвистики. Так в ряде стран (Россия, США, Япония, и др.) построены экспериментальные и промышленные системы машинного перевода текстов с одних языков на другие, построен ряд экспериментальных систем общения с ЭВМ на естественном языке, ведутся работы по созданию терминологических банков данных, тезаурусов, двуязычных и многоязычных машинных словарей (Россия, США, Германия, Франция и др.), строятся системы автоматического анализа и синтеза устной речи (Россия, США, Япония и др.), ведутся исследования в области построения моделей естественных языков.

Компьютерная лингвистика является интересной как для исследователей и научных работников, т. к. предоставляет обширное поле для научной деятельности, так и для коммерческих разработчиков программного обеспечения, - главным образом из-за растущего спроса на системы интеллектуального взаимодействия человека и компьютера.

Одной из направлений компьютерной лингвистики, требующее развития является исправление опечаток.

В данной работе представлен отчет о деятельности автора по улучшению качества работы исправителя опечаток в рамках проекта Dictum, и о результатах, полученных авторов в результате этой научной деятельности.

текстовый автоматический опечатка исправление

 

Общие сведения об исправлении опечаток

 

С развитием информационных технологий все чаще, информация, в том числе и текстовая, хранится в электронном виде. При наборе текста на компьютере неизбежно возникают опечатки.

Опечатка - ошибка в печатном тексте. Чаще всего, в результате опечатки нарушается порядок букв в слове (деврь вместо дверь), одна буква исчезает из слова (чловек вместо человек) или одна буква заменяется другой (чтатья вместо статья), также может использоваться неправильная раскладка клавиатуры.

Для исправления разного рода опечаток, используются специальные программы - так называемые опечаточники.

Действия, которые производят опечаточники, в большинстве случаев схожи. Проверяющая программа анализирует введенный текст с целью отыскания разного рода опечаток. При нахождении опечатки, программа определяет наиболее близкие для нее варианты исправления. При этом все варианты должны сортироваться таким образом, чтобы первыми выдавались наиболее вероятные исправления. В