Оценивание кредитных рисков
Курсовой проект - Компьютеры, программирование
Другие курсовые по предмету Компьютеры, программирование
ия решений в различных сферах
Основной задачей кредитного аналитика является генерация гипотез, которую он проверяет, основываясь на своих знаниях и опыте.
Однако знания есть не только у человека, но и у накопленных данных, которые подвергаются анализу. Такие знания содержатся в огромном объеме информации, которую человек не в силах исследовать самостоятельно. В связи с этим существует вероятность пропустить гипотезы, которые могут принести значительную выгоду.
Для обнаружения скрытых знаний применяется специальные методы автоматического анализа Data Mining.
Методы Data Mining помогают решить многие задачи, с которыми сталкивается аналитик.
Для обнаружения скрытых знаний в данных недостаточно просто применить методы Data Mining, хотя, безусловно, этот этап является основным в процессе интеллектуального анализа. Весь процесс состоит из нескольких этапов:
понимание и формулировка задачи анализа; На этом этапе происходит осмысление поставленной задачи и уточнение целей, которые должны быть достигнуты методами Data Mining. Правильно сформулированные цели и адекватно выбранные для их достижения методы в значительной степени определяют эффективность всего процесса;
подготовка данных для автоматизированного анализа; то есть приведение данных к форме, пригодной для применения конкретных выбранных методов Data Mining, применение методов Data Mining и построение моделей;
сценарии применения могут быть самыми различными и включать сложную комбинацию разных методов, особенно если используемые методы позволяют проанализировать данные с разных точек зрения;
проверка построенных моделей; что дает судить об адекватности построенной модели;
интерпретация моделей человеком с целью их использования для принятия решений, добавления полученных правил и зависимостей в базы знаний.
Этим этапом и завершается цикл Data Mining в строгом смысле слова.
5Формирование базы и системы поддержки знаний
У нас в распоряжении имеется обширная база данных клиентов кредитной организации, о которых уже известно, хорошими заемщиками они себя зарекомендовали или нет.
Исходными данными для интеллектуального анализа является выборка из базы данных о клиентах. Подразделим выборку на две группы: хорошие кредиты и плохие. Это оправдано тем, что кредитный специалист при принятии решения о кредитовании на первом этапе выбирает из двух вариантов: давать кредит или нет.
Приведем фрагменты, выбранные из базы знаний, которые будут приняты за эталонные матрицы при выполнении процедуры обучения с экспертом:
Хорошие кредиты:
1 18 4 2 1049 1 2 4 2 1 4 2 21 3 1 1 3 1 1
1 9 4 0 2799 1 3 2 3 1 2 1 36 3 1 2 3 2 1
2 12 2 9 841 2 4 2 2 1 4 1 23 3 1 1 2 1 1
4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1
2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1
Плохие кредиты:
20 4 0 2235 1 3 4 4 3 2 2 33 1 1 2 3 1 1
1 12 4 0 2171 1 3 4 3 1 4 2 38 1 2 2 2 1 1
1 10 4 0 2241 1 2 1 3 1 3 1 48 3 1 2 2 2 1
1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1
1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1
Для выполнения процедуры самообучения взята следующая матрица, состоящая вперемешку из плохих и хороших кредитов:
1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1
1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1
4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1
2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1
1 11 4 0 3905 1 3 2 3 1 2 1 36 3 1 2 3 2 1
Для формирования индексов оценки кредитных рисков, были взяты следующие показатели кредитов из базы данных:
1 18 4 2 1049 1 2 4 2 1 4 2 21 3 1 1 3 1 1
1 9 4 0 2799 1 3 2 3 1 2 1 36 3 1 2 3 2 1
2 12 2 9 841 2 4 2 2 1 4 1 23 3 1 1 2 1 1
4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1
2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1
1 12 4 0 2122 1 3 3 3 1 2 1 39 3 1 2 2 2 1
1 12 4 0 2171 1 3 4 3 1 4 2 38 1 2 2 2 1 1
1 10 4 0 2241 1 2 1 3 1 3 1 48 3 1 2 2 2 1
1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1
1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1
На основе этой выбранной базы знаний будет реализована система распознавания кредитов с среде разработки Matlab.
6Математические модели и вычислительные алгоритмы решения задач классификации и кластеризации
В качестве средства разработки была выбрана система MATLAB R2008b компании MathWorks. Система MATLAB представляет собой уникальный сплав универсальных программных и алгоритмических средств с широким набором специализированных приложений. В пакете MATLAB тщательно отработаны средства визуализации результатов вычислений и отображения различных графических объектов. На базе ядра MATLAB созданы многочисленные расширения, обеспечивающие моделирование и анализ систем в разнообразных сферах человеческой деятельности.
Основные составные части системы MATLAB представлены на рисунке 1.
Рисунок 1. Функциональные модули система MATLAB
Язык MATLAB - это язык матриц и массивов высокого уровня с управлением потоками, функциями, структурами данных, вводом- выводом и особенностями объектно-ориентированного программирования.
Среда MATLAB представляет собой набор инструментов и приспособлений, с которыми работает пользователь или программист MATLAB. Она включает в себя средства для:
управления переменными в рабочем пространстве MATLAB;
ввода и вывода данных;
создания, контроля и отладки М-файлов и приложений MATLAB.
Выбор в качестве среды обработки данных системы MATLAB обусловлен тем, что это интерактивная программная среда разработки приложений, которая интегрирует в единое целое средства высокопроизводительных вычислений, генератор отчётов для представления данных в разных форматах, автоматической генерации кода на языках С и С++ для создания независимо исполняемого приложения. Матричный сопроцессор, являющийся неотъемлемой компонентой системы MATLAB, обеспечивает высокую точность и эффективность вычислений, поскольку реал