Технология извлечения знаний из нейронных сетей: апробация, проектирование ПО, использование в психо...
Дипломная работа - Математика и статистика
Другие дипломы по предмету Математика и статистика
? носителем знаний. Кроме трудности нахождения эксперта (его может и не быть), необходимо добавить еще и возможные трудности взаимодействия эксперта со специалистом-когнитологом (именно последний, путем диалога с экспертом, оформляет полученные от эксперта знания в выбранном формализме представления знаний).
Перечисленные трудности препятствуют широкому применению теоретических методов и программных оболочек ЭС на практике.
1.2.2. Методы извлечения знаний из таблиц данных
1.2.2.1. Технология извлечения знаний из таблиц данных
В настоящей работе исследуется извлечение знаний из таблиц данных при помощи математических или эмпирических методов обработки данных и моделирования. Фактически, в индустрии обработки данных существуют некоторые формальные схемы обработки данных и анализа результатов. Так, общая схема обработки данных методами математической статистики приведена в [9]:
- Анализ исследуемой системы или объекта. В ходе анализа определяются: основные цели исследования на содержательном уровне; совокупность единиц (объектов, измерений,..), представляющих предмет исследования; перечень показателей (свойств), характеризующих состояние или поведение каждой из исследуемых единиц; степень формализации и детализации этих показателей при сборе данных; моменты, требующие дополнительной проверки перед составлением детального плана исследований; формализованная постановка задачи (например, на статистическом уровне, т.е. включающая вероятностную модель изучаемого явления и природу статистических выводов, к которым должен или может прийти исследователь в ходе обработки массива данных).
- Составление плана сбора исходной статистической информации: определение типа выборки случайная, пропорциональная и т.п.; определение требуемого объема выборки и продолжительности наблюдений; планирование активного эксперимента (если допускается задачей и исследуемым объектом).
- Сбор данных и их ввод в ЭВМ.
- Первичная статистическая обработка данных: статистическое описание совокупностей данных с определением пределов варьирования переменных; анализ резко выделяющихся наблюдений, принятие решения об исключении выделяющихся наблюдений или дальнейшем уменьшении учета их вклада с помощью некоторой весовой функции, убывающей по мере роста степени аномальности наблюдений; восстановление значений пропущенных наблюдений; проверка однородности нескольких порций исходных данных (требуется при разделении в пространстве и/или времени моментов получения этих порций данных); проверка статистической независимости последовательных наблюдений; унификация типов переменных; экспериментальный анализ закона распределения исследуемой генеральной совокупности и параметризация распределений.
- Составление плана вычислительного анализа статистического материала.
- Вычислительная реализация обработки данных.
- Осмысление, интерпретация и подведение итогов исследования.
Как при использовании традиционных статистических методов анализа данных, так и при использовании нейронных сетей приведенная схема действий остается без изменений. При этом пункты 5-7 детализируются в зависимости от целей и задач исследования и применяемых методов.
1.2.2.2. Таблица эмпирических данных
Строгие математические методы построения статистически достоверных решающих правил разработаны для случаев, когда о распределениях генеральных совокупностей образов известно абсолютно все: виды законов распределений и все их параметры, априорные вероятности появления образов, матрица потерь от ошибок и т.д.
К сожалению, при решении реальных задач такие условия не встречаются. Обучающая выборка каждого из k образов S1, S2,…,Sk представлена конечным числом mi реализаций, описанных n характеристиками x1,x2,…,xn. Сведений о законах и параметрах распределения генеральных совокупностей Gi образов нет. Неизвестна связь обучающей выборки с генеральными совокупностями (неизвестна степень "представительности" выборки). Владелец обучающей выборки имеет туманные представления об априорной вероятности появления различных образов Pi и о матрице стоимости ошибок распознавания Cij. Выборка может быть очень небольшой, в данных могут быть ошибки и пробелы, признаки могут быть измерены в разных шкалах [7], среди признаков могут быть неинформативные, "шумящие" признаки.
Для приведения ситуации к виду, при к?/p>