Технология извлечения знаний из нейронных сетей: апробация, проектирование ПО, использование в психо...

Дипломная работа - Математика и статистика

Другие дипломы по предмету Математика и статистика

? носителем знаний. Кроме трудности нахождения эксперта (его может и не быть), необходимо добавить еще и возможные трудности взаимодействия эксперта со специалистом-когнитологом (именно последний, путем диалога с экспертом, оформляет полученные от эксперта знания в выбранном формализме представления знаний).

  • Имеющаяся оболочка ЭС и/или используемая ей модель представления знаний могут плохо подходить для выбранной проблемной области, задачи. Это часто вынуждает разрабатывать программный инструментарий "с нуля".
  • Процесс извлечения знаний из эксперта, их формализация, проверка на непротиворечивость и устранение противоречий очень длителен, несмотря на наличие программных средств автоматизации. До получения первого прототипа системы проходит длительное время (месяцы), и до этих пор нельзя определить, возможно ли построение ЭС, решающей поставленную задачу с заданной степенью точности и увеличивающей точность решения при дальнейшем пополнении базы знаний, либо достижение заданных характеристик системы невозможно. Это может вести к большим материальным затратам в последнем случае. Другими словами, один из самых первых этапов при разработке любой информационной системы анализ реализуемости при разработке ЭС откладывается до момента построения исследовательского прототипа системы.
  • Перечисленные трудности препятствуют широкому применению теоретических методов и программных оболочек ЭС на практике.

     

    1.2.2. Методы извлечения знаний из таблиц данных

     

    1.2.2.1. Технология извлечения знаний из таблиц данных

     

    В настоящей работе исследуется извлечение знаний из таблиц данных при помощи математических или эмпирических методов обработки данных и моделирования. Фактически, в индустрии обработки данных существуют некоторые формальные схемы обработки данных и анализа результатов. Так, общая схема обработки данных методами математической статистики приведена в [9]:

    1. Анализ исследуемой системы или объекта. В ходе анализа определяются: основные цели исследования на содержательном уровне; совокупность единиц (объектов, измерений,..), представляющих предмет исследования; перечень показателей (свойств), характеризующих состояние или поведение каждой из исследуемых единиц; степень формализации и детализации этих показателей при сборе данных; моменты, требующие дополнительной проверки перед составлением детального плана исследований; формализованная постановка задачи (например, на статистическом уровне, т.е. включающая вероятностную модель изучаемого явления и природу статистических выводов, к которым должен или может прийти исследователь в ходе обработки массива данных).
    2. Составление плана сбора исходной статистической информации: определение типа выборки случайная, пропорциональная и т.п.; определение требуемого объема выборки и продолжительности наблюдений; планирование активного эксперимента (если допускается задачей и исследуемым объектом).
    3. Сбор данных и их ввод в ЭВМ.
    4. Первичная статистическая обработка данных: статистическое описание совокупностей данных с определением пределов варьирования переменных; анализ резко выделяющихся наблюдений, принятие решения об исключении выделяющихся наблюдений или дальнейшем уменьшении учета их вклада с помощью некоторой весовой функции, убывающей по мере роста степени аномальности наблюдений; восстановление значений пропущенных наблюдений; проверка однородности нескольких порций исходных данных (требуется при разделении в пространстве и/или времени моментов получения этих порций данных); проверка статистической независимости последовательных наблюдений; унификация типов переменных; экспериментальный анализ закона распределения исследуемой генеральной совокупности и параметризация распределений.
    5. Составление плана вычислительного анализа статистического материала.
    6. Вычислительная реализация обработки данных.
    7. Осмысление, интерпретация и подведение итогов исследования.

    Как при использовании традиционных статистических методов анализа данных, так и при использовании нейронных сетей приведенная схема действий остается без изменений. При этом пункты 5-7 детализируются в зависимости от целей и задач исследования и применяемых методов.

     

    1.2.2.2. Таблица эмпирических данных

     

    Строгие математические методы построения статистически достоверных решающих правил разработаны для случаев, когда о распределениях генеральных совокупностей образов известно абсолютно все: виды законов распределений и все их параметры, априорные вероятности появления образов, матрица потерь от ошибок и т.д.

    К сожалению, при решении реальных задач такие условия не встречаются. Обучающая выборка каждого из k образов S1, S2,…,Sk представлена конечным числом mi реализаций, описанных n характеристиками x1,x2,…,xn. Сведений о законах и параметрах распределения генеральных совокупностей Gi образов нет. Неизвестна связь обучающей выборки с генеральными совокупностями (неизвестна степень "представительности" выборки). Владелец обучающей выборки имеет туманные представления об априорной вероятности появления различных образов Pi и о матрице стоимости ошибок распознавания Cij. Выборка может быть очень небольшой, в данных могут быть ошибки и пробелы, признаки могут быть измерены в разных шкалах [7], среди признаков могут быть неинформативные, "шумящие" признаки.

    Для приведения ситуации к виду, при к?/p>