Система контент-анализа естественно-языковых текстов

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование



?елию

Программный продукт, разрабатываемый в рамках дипломного проекта должен удовлетворять следующему перечню требований пользователя (заказчика):

1)объект - морфологический словарь,

2)основная функция - частотный анализ текста,

)возможность дополнения морфологического словаря,

)возможность редактирования и дополнения стоп-словаря,

)загрузка словарей из текстовых файлов,

6)возможность установки порогового значения при частотном анализе,

)возможность поиска группы морфологически родственных слов для заданного слова,

8)вывод результатов - на экран и в файл,

)форматы вывода - txt,

)требования к операционной среде - ос windows 2000/xp/vista,

)требования к языку программирования - java.

2.2.3 Входные данные

Входными данными является файл, содержащий обрабатываемый текст, файл морфологического словаря и файл стоп-словаря, содержащий слова, не учитывающиеся при анализе текста.

2.2.4 Выходные данные

Список возможных ключевых слов с указанием их частоты появления в заданном тексте.

2.2.5 Требования к интерфейсу

Программный продукт должен содержать меню, в котором будет реализована возможность сохранения и открытия файлов словарей, запуска анализ текста, настройки порогового значения.

Для увеличения удобства работы пользователя необходимо реализовать интерфейс для просмотра и редактирования стоп-словаря, дополнения морфологического словаря, а также получения различного рода статистической информации. Результаты работы должны выводиться в виде списка в текстовое поле, или в файл.

.2.6 Требования к составу и параметрам технических средств

Модули программного продукта должны быть совместимы между собой на уровне исходного языка, а также форматов используемых данных.

На основе анализа существующего технического обеспечения в высшем учебном заведении программный продукт должен удовлетворительно работать на следующей аппаратной конфигурации:

-процессор, аналогичный Intel Pentium 4 и выше;

-оперативная память объемом не менее 512 Мб;

-накопитель на жестком диске со свободным местом 100 Мб;

-видеоадаптер SVGA;

-клавиатура;

-манипулятор типа мышь.

Программа не должна требовать специфических аппаратных средств для функционирования.

В комплект поставки программного продукта должны входить следующие компоненты:

-исходные тексты модулей, согласно заданию на дипломную работу, в среде Net Beans 6.0;

-программная документация;

-откомпилированный JAR-файл.

Продукт должен размещаться в виде исходных, или откомпилированных файлов на гибких магнитных дисках. В процессе работы могут использоваться Flash, CD-R/-RW, DVD-R/RW, или другие носители информации.

2.2.7 Модель вариантов использования

В соответствии с основными требованиями пользователя можно выделить следующие действующие лица (Таблица 1).

Таблица 1 - Действующие лица

ТерминЗначениеПользовательЛицо, желающее провести частотный анализ текста

Набор функций (вариантов использования) реализуемый разрабатываемой программной системой представлен в таблице 2.

Таблица 2 - Набор вариантов использования

ТерминЗначениеДополнить морфословарьДобавление словоформ в словарьОткрыть стоп-словарьОткрытие файла стоп-словаря и подгрузка его в память в соответствующую структуру данныхВыходЗакрытие программыРедактировать стоп-словарьРедактирование динамической структуры словаря с возможностью последующего сохранения в файл.Сохранение результатов анализаСохранение результирующего списка в файлАнализЗапуск анализа текстаПоиск словоформПоиск группы родственных слов для заданного пользователем слова

В соответствии с выделенными вариантами использования и действующими лицам составим диаграмму вариантов использования (Рисунок 2).

Рисунок 2 - Диаграмма вариантов использования

2.2.8 Описание варианта использования Редактировать стоп-словарь

Для каждого варианта использования разрабатывается iенарий, на основании которого определяется поведение системы. Ниже приведен iенарий (основной поток событий) для варианта использования Редактировать стоп-словарь (таблица 3).

Таблица 3 - iенарий варианта использования Редактировать стоп словарь

Действия пользователяДействия системы1. Выбор в меню системы Редактирование стоп словаря.2. Система обрабатывает запрос, подгружает стоп-словарь и открывает форму редактирования.3. Выбор положения редактируемого слова в списке с помощью мыши4. Система запоминает индекс слова.5. Нажатие кнопки Редактировать. (Альтернативный поток A1)6. Систем подгружает в поле для редактирования выбранное слово.7. Ввод необходимых исправлений и нажатие кнопки ОК.8. Система обрабатывает запрос, сохраняет изменения, и отображает новое слово в списке.9. Нажатие кнопки Сохранить (Альтернативный поток A2)10. Система сохраняет данные в файл, закрывает форму редактирования. Вариант использования завершается.

Альтернативный поток А1. Нажата кнопка Удалить

Удаление выбранного слова и переход к пункту 3.

Альтернативный поток А2. Нажата кнопка Выход

Отмена всех внесенных изменений, закрытие диалогового окна. Вариант использования завершается.

Предусловия. Пользователь должен открыть в меню системы вкладку Файли в появившемся контекстном меню выбрать Редактировать стоп-словарь.

Постусловия. В резу