Разработка интеллектуальной системы подбора товара
Курсовой проект - Компьютеры, программирование
Другие курсовые по предмету Компьютеры, программирование
ый анализ данных (ИАД) [6-9].
Визуальные инструменты Data Mining позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями.
Существуют разные способы получения информации о предметной области:
а)Привлечение экспертного знания. Оно может выражаться, например, в ограничениях, накладываемых на диапазоны изменений признаков объектов, или же в формулировании набора правил для разбиения базы прецедентов на классы (построение классификатора).
б)Получение необходимых знаний из набора имеющихся данных методами добычи данных (по-английски - Data Mining). Сюда относятся все методы выявления отношений в данных, в частности, кластеризация, регрессия, поиск ассоциаций. Использование методов добычи данных может выделить узкую группу показателей, от которых зависит интересующая исследователя характеристика, и представить обнаруженную закономерность в аналитической форме.
в)Формирование знаний на основе обучающей выборки, представленной экспертом (обучение с учителем). Этот способ включает в себя оба первых.
Изначально в системах вывода по прецедентам в качестве источников фонового знания выступали эксперты - высококвалифицированные специалисты предметных областей, а также текстовые материалы - от учебников до протоколов, и, разумеется, базы данных (имплицитные источники знаний). Роль эксперта (затратная по ресурсам и времени) заключалась в вербализации, то есть переводе таких источников в эксплицитную форму. Учитывая, что важнейшей задачей в процессе формализации извлечения знаний является минимизация роли эксперта, его роль должны взять на себя средства добычи данных [6-9].
Среди извлекаемых закономерностей на практике чаще всего встречаются отношения эквивалентности и порядка. Первые присущи, в частности, задачам классификации, диагностики и распознавания образов. С другой стороны, отношения порядка свойственны задачам шкалирования, прогнозирования и т.п.
В основе предлагаемого подхода лежат инструменты Data Mining, которые реализуют две технологии: машинное обучение и визуализацию (визуальное представление информации). Качество визуализации определяется возможностями графического отображения значений данных. Варьирование графического представления путем изменения цветов, форм и других элементов упрощает выявление скрытых зависимостей.
Эффективность методов машинного обучения в основном определяется их способностью исследовать большее количество взаимосвязей данных, чем может человек.
Обе технологии дополняют друг друга в процессе осуществления Data Mining-анализа. Визуализация используется для поиска исключений, общих тенденций и зависимостей и помогает в извлечении данных на начальном этапе проекта. Машинное обучение используется позднее для поиска зависимостей в уже отлаженном проекте.
Машинное обучение предполагает использование различных методов, например: деревьев решений; ассоциативных правил; генетических алгоритмов; нейронных сетей.
Деревья решений предназначены для классификации данных, они используют весовые коэффициенты для распределения элементов данных на всё более и более мелкие группы. Метод ассоциативных правил классифицирует данные на основе набора правил, подобных правилам в экспертных системах. Эти правила можно генерировать, используя процесс поиска и проверки комбинаций правил, или извлекать правила из деревьев решений. В нейронных сетях знания представлены в виде связей, соединяющих набор узлов. Сила связей определяет зависимости между факторами данных.
В табл. 2.1. приведено краткое описание основных алгоритмов Data Mining. Каждый из методов имеет свои преимущества и недостатки [8-9].
Преимущество деревьев решений и ассоциативных правил состоит в их читабельности - они похожи на предложения на естественном языке. Однако при большом количестве факторов данных бывает очень сложно понять смысл такого представления. Недостаток: они не предназначены для широких числовых интервалов. Это связано с тем, что каждое правило или узел в дереве решений представляет одну связь (зависимость, отношение). Чтобы представить зависимости для большого интервала значений потребуется слишком много правил или узлов.
Преимущество нейронных сетей в компактном представлении числовых отношений для широкого диапазона значений. А недостаток - в сложности интерпретации.
Таблица 2.1 - Основные алгоритмы Data Mining
АлгоритмОписаниеАссоциативные правилаВыявляют причинно следственные связи и определяют вероятности или коэффициенты достоверности, позволяя делать соответствующие выводы. Правила представлены в форме если . Их можно использовать для прогнозирования или оценки неизвестных параметров (значений).Деревья решений и алгоритмы классификацииОпределяют естественные разбивки в данных, основанные на целевых переменных. Сначала выполняется разбивка по наиболее важным переменным. Ветвь дерева можно представить как условную часть правила. Наиболее часто встречающимися примерами являются алгоритмы классификационных и регрессионных деревьев (Classification and regression trees, CART) либо хи-квадрат индукция (Chi-squared Automatic Induction, CHAID).Искусственные нейронные сетиЗдесь для предсказания значения целевого показателя используется наборы входных переменных, математических функций активации и весовых коэффициентов входных параметров. Выполняется итеративный обучающий цикл, ней?/p>