Аний, связанных с разрешением проблемы неполноты в базах знаний интегрированных экспертных систем, разрабатываемых на основе задачно-ориентированной методологии
Вид материала | Решение |
- Пользования в компьютерном обучении задачно-ориентированной методологии построения, 114.53kb.
- Построение адаптивных тренировочных методик для спортивных единоборств на основе технологии, 8.13kb.
- О. В. Нистратов национальный исследовательский ядерный университет «мифи» применение, 10.06kb.
- Ния инструментальной среды приобретения знаний для прикладных экспертных систем, сделаны, 112.06kb.
- 6. Лекция: Методология построения экспертных систем, 291.07kb.
- Представление знаний в экспертных системах, 84.89kb.
- Имитационного моделирования, 32.18kb.
- Б. А. Кобринский Рассматриваются различные решения в экспертных системах 10 20-летней, 258.49kb.
- Ульяновск, tv afanaseva@mail, 52.83kb.
- Экспертные системы и базы знаний, 42.45kb.
УДК 004.896(06) Интеллектуальные системы и технологии
Г.В. РЫБИНА, Д.Е. ЛЕВИН
Московский инженерно-физический институт (государственный университет)
ОСОБЕННОСТИ ПРИМЕНЕНИЯ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В РАМКАХ ЗАДАЧНО-ОРИЕНТИРОВАННОЙ МЕТОДОЛОГИИ ПОСТРОЕНИЯ ИНТЕГРИРОВАННЫХ ЭКСПЕРТНЫХ СИСТЕМ*
В данной работе приводятся результаты исследований, связанных с разрешением проблемы неполноты в базах знаний интегрированных экспертных систем, разрабатываемых на основе задачно-ориентированной методологии.
Практика создания интегрированных экспертных систем (ИЭС) на основе задачно-ориентированной методологии (ЗОМ) [1] и автоматизированной технологии, включающей инструментарий нового поколения АТ-ТЕХНОЛОГИЯ [2], показала, что информация, полученная на этапе структурирования, т.е. построения поля знаний, и этапе построения собственно базы знаний, как правило, является неполной по причине субъективности и ограниченности экспертных знаний. Используемый в рамках ЗОМ комбинированный метод приобретения знаний (КМПЗ) [3] позволяет решить проблему неполноты за счет использования трех различных источников знаний, т.е. извлечения знаний из экспертов, проблемно-ориентированных текстов и БД с последующей верификацией и объединением полученных фрагментов поля знаний, причем для извлечения знаний из БД применяется методология интеллектуального анализа данных (ИАД).
Опыт использования различных алгоритмов Data Mining как основной составляющей методологии ИАД показал эффективность применения алгоритмов классификации на основе деревьев решений, так как они обеспечивают необходимую гибкость, а также позволяют сразу же формировать готовые продукционные правила.
Среди большого многообразия существующих методов и программных средств построения деревьев решений, можно выделить две основных группы алгоритмов:
- основанные на бинарных деревьях (разработаны на основе CART);
- реализующие n-нарные деревья (разработаны на основе ID3).
Эксперименты по реализации и применению алгоритмов этих двух семейств для классификации диагностических данных об историях болезней пациентов (на примере МедЭС [2, 3] и др.) показали, что нельзя однозначно рекомендовать к использованию тот или иной алгоритм, т.к. эффективность работы алгоритмов в каждом случае существенно зависит от специфики данных, поэтому в состав программных средств инструментального комплекса АТ-ТЕХНОЛОГИЯ был включен модуль, в котором реализовано два алгоритма - один на основе C4.5, второй на основе CART. Поскольку особенности ЗОМ не позволяют использовать эти алгоритмы «как есть», то в их функции расщепления дерева были внесены значительные изменения, связанные с необходимостью обработки знаний, содержащих НЕ-факторы знаний.
Другой важной проблемой технологии ИАД, которая была решена в рамках ЗОМ, является подготовка исходной выборки для алгоритмов ID3, C4.5 и CART (устранение отклонений от ожидания [4]), поскольку, как показал опыт, от качества данных обучающего множества очень сильно зависит качество правил, а игнорирование данной проблемы часто приводит к получению противоречивых или некорректных правил. В соответствии с классификацией, введенной в [4], отклонения от ожидания в исходной выборке могут быть отнесены к двум категориям:
- ошибки (недопустимые значения атрибутов, незаполненные данные, без которых запись не имеет смысла);
- статические аномалии (противоречивые данные).
В настоящее время проводятся исследования, связанные с улучшением рабочих параметров алгоритмов Data Mining, а также по реализации программных средств объединения разнородных фрагментов поля знаний и базы знаний.
Список литературы
1. Рыбина Г.В. Задачно-ориентированная методология автоматизированного построения интегрированных экспертных систем для статических проблемных областей // Известия РАН. ТиСУ. 1997. №5. С. 129-137.
2. Рыбина Г.В. Автоматизированное рабочее место для построения интегрированных экспертных систем: комплекс АТ-ТЕХНОЛОГИЯ // Новости искусственного интеллекта. 2005. №3. С. 69-87.
3. Рыбина Г.В. Автоматизированное построение баз знаний для интегрированных экспертных систем // Известия РАН. ТиСУ. 1998. №5.
4. Рыбина Г.В., Смирнов В.С. Верификация баз знаний в интегрированных экспертных системах // Новости искусственного интеллекта. 2005. №3. С. 7-19.
* Работа выполнена при поддержке РФФИ (проект № 06-01-00242)
ISBN 5-7262-0710-6. НАУЧНАЯ СЕССИЯ МИФИ-2007. Том 3