Оценивание кредитных рисков

Курсовой проект - Компьютеры, программирование

Другие курсовые по предмету Компьютеры, программирование

ия решений в различных сферах

Основной задачей кредитного аналитика является генерация гипотез, которую он проверяет, основываясь на своих знаниях и опыте.

Однако знания есть не только у человека, но и у накопленных данных, которые подвергаются анализу. Такие знания содержатся в огромном объеме информации, которую человек не в силах исследовать самостоятельно. В связи с этим существует вероятность пропустить гипотезы, которые могут принести значительную выгоду.

Для обнаружения скрытых знаний применяется специальные методы автоматического анализа Data Mining.

Методы Data Mining помогают решить многие задачи, с которыми сталкивается аналитик.

Для обнаружения скрытых знаний в данных недостаточно просто применить методы Data Mining, хотя, безусловно, этот этап является основным в процессе интеллектуального анализа. Весь процесс состоит из нескольких этапов:

понимание и формулировка задачи анализа; На этом этапе происходит осмысление поставленной задачи и уточнение целей, которые должны быть достигнуты методами Data Mining. Правильно сформулированные цели и адекватно выбранные для их достижения методы в значительной степени определяют эффективность всего процесса;

подготовка данных для автоматизированного анализа; то есть приведение данных к форме, пригодной для применения конкретных выбранных методов Data Mining, применение методов Data Mining и построение моделей;

сценарии применения могут быть самыми различными и включать сложную комбинацию разных методов, особенно если используемые методы позволяют проанализировать данные с разных точек зрения;

проверка построенных моделей; что дает судить об адекватности построенной модели;

интерпретация моделей человеком с целью их использования для принятия решений, добавления полученных правил и зависимостей в базы знаний.

Этим этапом и завершается цикл Data Mining в строгом смысле слова.

 

5Формирование базы и системы поддержки знаний

 

У нас в распоряжении имеется обширная база данных клиентов кредитной организации, о которых уже известно, хорошими заемщиками они себя зарекомендовали или нет.

Исходными данными для интеллектуального анализа является выборка из базы данных о клиентах. Подразделим выборку на две группы: хорошие кредиты и плохие. Это оправдано тем, что кредитный специалист при принятии решения о кредитовании на первом этапе выбирает из двух вариантов: давать кредит или нет.

Приведем фрагменты, выбранные из базы знаний, которые будут приняты за эталонные матрицы при выполнении процедуры обучения с экспертом:

Хорошие кредиты:

1 18 4 2 1049 1 2 4 2 1 4 2 21 3 1 1 3 1 1

1 9 4 0 2799 1 3 2 3 1 2 1 36 3 1 2 3 2 1

2 12 2 9 841 2 4 2 2 1 4 1 23 3 1 1 2 1 1

4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1

2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1

Плохие кредиты:

20 4 0 2235 1 3 4 4 3 2 2 33 1 1 2 3 1 1

1 12 4 0 2171 1 3 4 3 1 4 2 38 1 2 2 2 1 1

1 10 4 0 2241 1 2 1 3 1 3 1 48 3 1 2 2 2 1

1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1

1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1

Для выполнения процедуры самообучения взята следующая матрица, состоящая вперемешку из плохих и хороших кредитов:

1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1

1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1

4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1

2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1

1 11 4 0 3905 1 3 2 3 1 2 1 36 3 1 2 3 2 1

Для формирования индексов оценки кредитных рисков, были взяты следующие показатели кредитов из базы данных:

1 18 4 2 1049 1 2 4 2 1 4 2 21 3 1 1 3 1 1

1 9 4 0 2799 1 3 2 3 1 2 1 36 3 1 2 3 2 1

2 12 2 9 841 2 4 2 2 1 4 1 23 3 1 1 2 1 1

4 18 4 3 1098 1 1 4 2 1 4 3 65 3 2 2 1 1 1

2 24 2 3 3758 3 1 1 2 1 4 4 23 3 1 1 1 1 1

1 12 4 0 2122 1 3 3 3 1 2 1 39 3 1 2 2 2 1

1 12 4 0 2171 1 3 4 3 1 4 2 38 1 2 2 2 1 1

1 10 4 0 2241 1 2 1 3 1 3 1 48 3 1 2 2 2 1

1 8 4 0 3398 1 4 1 3 1 4 1 39 3 2 2 2 1 1

1 6 4 0 1361 1 2 2 3 1 4 1 40 3 2 1 2 2 1

На основе этой выбранной базы знаний будет реализована система распознавания кредитов с среде разработки Matlab.

6Математические модели и вычислительные алгоритмы решения задач классификации и кластеризации

 

В качестве средства разработки была выбрана система MATLAB R2008b компании MathWorks. Система MATLAB представляет собой уникальный сплав универсальных программных и алгоритмических средств с широким набором специализированных приложений. В пакете MATLAB тщательно отработаны средства визуализации результатов вычислений и отображения различных графических объектов. На базе ядра MATLAB созданы многочисленные расширения, обеспечивающие моделирование и анализ систем в разнообразных сферах человеческой деятельности.

Основные составные части системы MATLAB представлены на рисунке 1.

 

Рисунок 1. Функциональные модули система MATLAB

 

Язык MATLAB - это язык матриц и массивов высокого уровня с управлением потоками, функциями, структурами данных, вводом- выводом и особенностями объектно-ориентированного программирования.

Среда MATLAB представляет собой набор инструментов и приспособлений, с которыми работает пользователь или программист MATLAB. Она включает в себя средства для:

управления переменными в рабочем пространстве MATLAB;

ввода и вывода данных;

создания, контроля и отладки М-файлов и приложений MATLAB.

Выбор в качестве среды обработки данных системы MATLAB обусловлен тем, что это интерактивная программная среда разработки приложений, которая интегрирует в единое целое средства высокопроизводительных вычислений, генератор отчётов для представления данных в разных форматах, автоматической генерации кода на языках С и С++ для создания независимо исполняемого приложения. Матричный сопроцессор, являющийся неотъемлемой компонентой системы MATLAB, обеспечивает высокую точность и эффективность вычислений, поскольку реал