Частотный исследование текста
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
Введение
В настоящее время компьютеры широко применяются в самых разных областях: науке, промышленности, медицине, образовании. Применение компьютеров в лингвистике в настоящее время позволяет произвести глубокий анализ лингвистических особенностей различных языков, автоматизировать получение статистики встречаемости слов или букв того или иного языка.
Созданная в данном курсовом проекте программа частотного анализа текста (пословного) может быть использована для выявления наиболее часто встречающихся слов разных языков, для формирования словарей, для получения статистической информации.
1. Теоретические основы разработки.
.1 Описание предметной области
Частотность - термин лексикостатистики, предназначенный для определения наиболее употребительных слов. Раiет осуществляется по формуле:
Где - частотность слова х, - количество словоупотреблений слова х, а - общее количество слов. В большинстве случаев, частотность выражается в процентах.
Аналогичным образом, определяется частотность для букв. Большая частотность согласных на данном отрезке текста (например, в стихотворениях) получила название аллитерация. Высокие показатели частотности гласных называются ассонансом. Частотный анализ текста (посимвольный) используется в криптографии для выявления наиболее частотных букв того или иного языка. Частотный анализ текста (пословный) используется для выявления наиболее часто употребляемых слов того или иного языка. В словарях частотность слов может отражаться пометами - употребительное, малоупотребительное и т.д.
1.2 Анализ методов решения
Частотный анализ текста может быть реализован следующими способами:
- Ручным: этот способ является трудоемким и требует больших затрат времени.
- Автоматизированным: исходные данные вводятся вручную, а результат расiитывается программой на компьютере.
- Автоматическим: исходные данные автоматически iитываются с внешнего устройства (например, с файла на диске) и обрабатываются программой.
Автоматический способ может быть использован, если требуется обрабатывать большие объемы текстов, в таком случае можно заранее подготовить файл исходных данных и затем использовать его в качестве входных данных программы. В нашем случае более целесообразно использовать автоматический способ, то есть вводить исходные данные из файла. При этом, можно предусмотреть возможность также и ручного ввода данных с клавиатуры.
1.3 Обзор средств программирования
Язык Pascal, в настоящее время это язык имеет более широкую сферу применения, чем предусматривалось при его создании. Свое признание Паскаль получил с появлением пакета Турбо Паскаль (Turbo Pascal). Этот язык отличается простотой понимания, стройностью и структурностью алгоритмов, быстротой компилятора и удобными средствами создания и отладки программ.
Достоинствами языка Паскаль являются:
1.Простой синтаксис языка. Небольшое число базовых понятий. Программы на Паскале достаточно легко читаемы.
2.Достаточно низкие аппаратные и системные требования как самого компилятора, так и программ, написанных на Паскале.
.Универсальность языка. Язык Паскаль применим для решения практически всех задач программирования.
.Поддержка структурного програмирования, программирования сверху-вниз, а также объектно-ориентированного программирования.- среда программирования, в которой используется язык программирования Object Pascal. Начиная со среды разработки Delphi 7.0, в официальных документах Borland стала использовать название Delphi для обозначения языка Object Pascal.
Мечта программистов о среде программирования, в которой бы простота и удобство сочетались с мощью и гибкостью, стала реальностью с появлением среды Delphi. Она обеспечивала визуальное проектирование пользовательского интерфейса, имела развитый объектно-ориентированный язык Object Pascal (позже переименованный в Delphi) и уникальные по своей простоте и мощи средства доступа к базам данных. Язык Delphi по возможностям значительно превзошел язык Basic и даже в чем-то язык C++, но при этом он оказался весьма надежным и легким в изучении (особенно в сравнении с языком C++). В результате, среда Delphi позволила программистам легко создавать собственные компоненты и строить из них профессиональные программы. Среда оказалась настолько удачной, что по запросам любителей C++ была позже создана среда C++Builder - клон среды Delphi на основе языка C++ (с расширенным синтаксисом).
1.4 Описание языка Delphi
программирование модуль язык delphi
Object Pascal - результат развития языка Турбо Паскаль, который, в свою очередь, развился из языка Паскаль. Паскаль был полностью процедурным языком, Турбо Паскаль, начиная с версии 5.5, добавил в Паскаль объектно-ориентированные свойства, а в Object Pascal - динамическую идентификацию типа данных с возможностью доступа к метаданным классов (то есть к описанию классов и их членов) в компилируемом коде, также называемом интроспекцией - данная технология получила обозначение RTTI. Так как все классы наследуют функции базового класса TObject, то любой указатель на объект можно преобразовать к нему, после чего воспользоваться методом ClassType и функцией TypeInfo, которые и обеспечат интроспекцию.
Также отличительным свойством Object Pascal от С++ является то, что объекты по умолчанию располагаются в динамической памяти. Однако можно переопреде?/p>