Разработка инструментов сопровождения банковских инфорационных систем тема диссертации по экономике, полный текст автореферата
Автореферат
Ученая степень | кандидат экономических наук |
Автор | Палькин, Егор Александрович |
Место защиты | Вогоград |
Год | 2011 |
Шифр ВАК РФ | 08.00.13 |
Автореферат диссертации по теме "Разработка инструментов сопровождения банковских инфорационных систем"
Палькин Егор Александрович
РАЗРАБОТКА ИНСТРУМЕНТОВ СОПРОВОЖДЕНИЯ БАНКОВСКИХ ИНФОРМАЦИОННЫХ СИСТЕМ
08.00.13 - Математические и инструментальные методы экономики
- 8 ЛЕК 2011
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук
Вогоград-2011
005005562
Работа выпонена в Саратовском государственном техническом университете
Научный руководитель доктор физико-математических наук, профессор
Гусятников Виктор Николаевич.
Официальные оппоненты: доктор экономических наук, доцент
Терелянский Павел Васильевич.
доктор технических наук, профессор Кушников Вадим Алексеевич.
Ведущая организация ФГБОУ ВПО Саратовский государственный
технический университет.
Защита диссертации состоится л22 декабря 2011 г. в 10 час. 00 мин. на заседании диссертационного совета ДМ 212.028.07 при Вогоградском государственном техническом университете по адресу: 400005, г. Вогоград, пр. Ленина, 28, ауд. В-1001.
С диссертацией можно ознакомиться в библиотеке Вогоградского государственного технического университета.
Автореферат разослан л22 ноября 2011 г.
Ученый секретарь
диссертационного совета
Морозова И. А.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы исследования. В настоящее время, по мере усложнения используемых программных систем и роста их стоимости, все более актуальной становится проблема их сопровождения. С одной стороны наблюдается ускоренное развитие информационных технологий, требующее постоянных изменений и обновлений в используемом программном обеспечении, с другой стороны жизненный цикл сложных программных систем дожен быть достаточно длительным, чтобы успеть окупить затраты на их создание. По некоторым оценкам стоимость сопровождения современной информационной системы (ИС) может достигать 80% всех затрат жизненного цикла ИС. В то же время задачи этапа сопровождения ИС до настоящего времени остаются мало исследованными по сравнению с задачами других этапов жизненного цикла ИС - анализа требований, планирования и оценки проекта, проектирования, реализации и тестирования.
Являясь неотъемлемой частью функционирования программных систем любого масштаба, особое значение процесс сопровождения приобретает в корпоративных системах. Яркий пример подобных программ - банковские ИС. Их разветвлённая модульная структура со сложными механизмами сопряжения и высокими требованиями к надёжности данных не может оставаться работоспособной без систематического сопровождения, как внутреннего, так и внешнего. Сегодня девять из десяти банков нуждаются в поноценном сопровождении приобретённых универсальных систем. Подтверждением этому служит то, что поставляемые готовые решения для малых и средних банков находятся в постоянной доработке, учитывающей особенности предоставляемых банком продуктов, структуры банковского управления и внутренних правил ведения бухгатерского учёта.
Следует отметить, что специфика задач сопровождения банковских ИС изучена слабо, отсутствует методика их классификации. Как правило, эти задачи рассматриваются с точки зрения разработчика, в то время как наибольший
интерес для коммерческой структуры представляет видение процесса глазами потребителя.
Среди множества задач сопровождения, с которыми стакивается банк в процессе использования ИС, часто встречаются однотипные. Отсутствие адекватной классификации затрудняет их идентификацию и заставляет каждый раз искать новые способы их решения. С другой стороны, определённые общие подходы к сопровождению ИС могут быть с успехом применены к разнородным задачам. Таким образом, классификация задач сопровождения ИС является актуальной. ,
Другой актуальной задачей сопровождения банковских ИС выступает задача поддержки целостности данных. Очевидна необходимость поддержания целостности данных не только на уровне корректности форматов, но также на уровне их поноты и семантики. Средствам СУБД и информационным шлюзам не под силу справиться с подобного рода задачей, поэтому возникает потребность в разработке механизма, реализующего поддержку целостности данных на уровне анализа их смыслового содержания.
Основной вид деятельности банков - кредитование, бесспорно, требует наибольшего внимание среди прочих составляющих банковской информационной инфраструктуры. Задача поддержки принятия решения при выдаче кредитов в условиях современной конкуренции требует новых технических решений, оставаясь постоянно актуальной. Хорошая скоринговая система позволяет банку не только увеличить скорость обслуживания клиентов, но также повысить прибыль за счёт выбора наиболее надёжных заёмщиков. Поэтому актуальными являются задачи внедрения и сопровождения современных скоринговых систем, основанных на перспективных информационных технологиях.
Степень изученности проблемы. Значительный вклад в развитие представлений о процессе сопровождения, как неотъемлемой части жизненного цикла программных средств и информационных систем в экономике, внесли известные зарубежные специалисты в области программной инженерии Э. Дж.
Браудэ, Б. Боэм, Ф. Брукс, Г. Буч, Дж. Бэйли, Э. Гамма, Дж. Рамбо, И. Соммер-вил, М. Фаулер и др.
В нашей стране процессы сопровождения ИС догое время рассматривалось в узком смысле, как совокупность действий, направленных на решение конкретных задач гарантийного и послегарантийного обслуживания ИС. Большее внимание этой проблеме стали уделять только в последние годы. Вопросы сопровождения данных рассматриваются в работах О.Б. Арушаняна, H.A. Богомолова, Н.И. Воченскова, В.П. Зимина, А.Д. Ковалева, Ф.В Комара, А.К. Погодаева, Г.О. Федорковой, Е.А. Хомякова. Обслуживание экономических ИС исследуется в работах Е.Ф. Жарко, В.Г. Промыслова, O.A. Промысловой, С.А. Смирнова. Проблемы формализации жизненного цикла (ЖЦ) информационных систем затрагиваются В.В. Бураковым, А.П. Гагариным, E.H. Десятириковой, В.Г. Зиновьевым, В.В. Мышко, М.М. Павловским, Е.Б. Самойловым. Общие вопросы функционирования и сопровождения ИС описываются в трудах В.А. Благодатских, A.M. Вендрова, В.В. Липаева, К.Ф.Поскакалова и др.
Следует отметить, что большинство известных источников содержат либо общие рекомендации относительно организации процесса обслуживания и сопровождения ИС, либо предлагают частные решения отдельных задач сопровождения. Для многих задач сопровождения, характерных для экономических информационных систем, отсутствует описание типовых эффективных способов решения. Практически нет работ, в которых отражена специфика сопровождения банковских ИС. В частности, нет описаний механизма сопровождения банковских ИС, не раскрыты вопросы поддержки целостности и актуальности банковских корпоративных хранилищ данных, до сих пор не предложен простой, быстрый и одновременно гибкий инструмент для поддержки на оперативном уровне управления основного направления деятельности банка - кредитования.
Цель и задачи исследования. Целью настоящей работы является разработка и исследование методов и инструментов сопровождения информацион-
ных систем в банковской сфере, позволяющих наращивать функциональные возможности действующих ИС и повысить надежность хранимых данных.
Для достижения поставленной цели, в работе решались следующие задачи, определившие логику диссертационного исследования и его структуру:
1) изучение специфики процесса сопровождения современных экономических ИС, разработка их классификации и выявление наиболее важных задач сопровождения банковских ИС;
2) разработка механизма сопровождения банковской ИС на основе централизованной системы заявок; ,
3) построение агоритма прохождения заявки, позволяющего в случае необходимости перемещать заявку на предыдущий уровень обработки;
4) разработка агоритма для оценки кредитного риска, на основе технологии искусственных нейронных сетей, и создание инструментального средства для сопровождения банковской ИС при обслуживании процесса кредитования;
5) создание инструментального средства для сопровождения данных о физических лицах в составе корпоративного хранилища данных, основанного на авторском агоритме сравнения персональных данных клиентов банка с использованием правил фонетики русского языка.
Объектом исследования являются экономические информационные системы, используемые в деятельности современных кредитных организаций.
Предметом исследования выступает процесс сопровождения банковских информационных систем, а также модели, агоритмы и программные средства, используемые для реализации данного процесса.
Теоретическую и методологическую базу исследования составляют материалы по разработке информационных систем, проектированию баз данных, обслуживанию программ, моделированию искусственных нейронных сетей. Также в диссертации используются государственные стандарты, нормативные документы ЦБР, методы анализа и моделирования экономических процессов.
Рабочая гипотеза исследования. Постоянное совершенствование процесса сопровождения необходимо для эффективного функционирования банковских информационных систем и их отдельных модулей. Решающее значение в процессе сопровождения банковских информационных систем дожно иметь качество производимых в системе изменений, выражающее в повышении эффективности банковских процессов, уменьшении времени расчётов, увеличении точности прогнозов.
Область исследования. Диссертационная работа выпонена в рамках специальности ВАК 08.00.13 Математические и инструментальные методы экономики, п. 2.6. Развитие теоретических основ методологии и инструментария проектирования, разработки и сопровождения информационных систем субъектов экономической деятельности: методы формализованного представления предметной области, программные средства, базы данных, корпоративные хранилища данных, базы знаний, коммуникационные технологии.
Основные положения диссертации, выносимые на защиту.
1. Для повышения эффективности решения задач сопровождения банковских ИС, необходимо в существующей системе их классификации допонительно выделить отдельную группу задач по сопровождению данных.
2. Для организации эффективного сопровождения экономических ИС, необходимо использовать единый централизованный механизм исправления ошибок на основе системы заявок.
3. Процесс функционирования системы сопровождения на основе заявок дожен быть реализован в виде разработанного агоритма прохождения заявки с возможностью возврата на предыдущие уровни обработки и централизованной базы данных.
4. Система сопровождения процесса кредитования на основе нейронной сети с возможностью оперативного дообучения по данным о клиентах регионального отделения банка позволяет заметно снизить риски неплатежей по ссудам, улучшает точность прогноза, упрощает и удешевляет оценку заемщика на этапе принятия решения по заявке.
5. Система сопровождения и поддержки целостности данных о физических лицах, использующая разработанный фонетический агоритм для поиска сходств персональных данных, позволяет на порядок снизить количество ошибок сравнения, относительно систем, использующих известные универсальные агоритмы сравнения текстовых данных.
Научная новизна диссертационной работы. Научная новизна диссертационного исследования заключается в развитии методологии и разработке инструментов сопровождения ИС. Научную новизну содержат следующие результаты: !
1) Предложена классификация задач сопровождения, отличающаяся выделением в отдельную группу задач, направленных на сопровождение данных, специфичных для корпоративных хранилищ данных, и показано, что выделенный класс задач играет важную роль при организации процесса сопровождения ИС в банковском секторе.
2) Разработан централизованный механизм сопровождения экономических информационных систем на основе заявок, встраиваемый в организационную структуру предприятия заказчика ИС, предоставляющий возможность обработки возникающих в ИС ошибок согласно предложенной классификации типичных для банковских ИС ошибок, позволяющий пользователям взаимодействовать напрямую с ответственными испонителями и отслеживать стадии выпонения заявок.
3) Построен агоритм обработки заявок на исправление ошибок для организации сопровождения банковских ИС, включающий формализованные пути прохождения заявки и нестандартные процедуры обработки, такие как возврат заявки на допонительный анализ и на повторный предварительный анализ, а также открытие закрытых заявок.
4) Создана программа Нейрокредит+ для автоматизации кредитования на уровне кредитного эксперта коммерческого банка, осуществляющая поддержку принятия решения при выдаче кредита на основе механизма ско-ринга, реализованного с использованием оперативно дообучаемой, в том числе
на основе выявленных скрытых факторов неплатежей, искусственной нейронной сети, благодаря которой в разы сокращаются сроки рассмотрения кредитной заявки и увеличивается точность прогнозирования возможности дефота по ссудам.
5) Разработан агоритм сравнения персональных данных, в основе которого лежит принцип создания ключа с помощью хэш-функции, использующей правила фонетики русского языка, позволяющий снизить количество ошибок сопоставления на порядок по сравнению с известными универсальными агоритмами выявления сходств, а также предоставляющий возможность повторного использования рассчитанных хэш-значений.
Теоретическая значимость исследования заключается в разработке классификации задач сопровождения и ошибок, характерных для банковских ИС, методических рекомендаций по организации процесса сопровождения ИС на основе механизма заявок, оценке эффективности использования различных агоритмов сопоставления персональных данных.
Практическая значимость исследования состоит в разработке механизмов и инструментов сопровождения ИС, которые могут быть применены при построении процесса сопровождения ИС современного банка. Агоритмы и программы, разработанные в ходе исследования, являются законченными и готовыми к использованию.
Апробация и внедрение результатов исследования. Основные результаты диссертационной работы докладывались и обсуждались на научно-практических конференциях и семинарах различного уровня, в том числе: X Международная конференция Информатика: проблемы, методологии, технологии (г. Воронеж, ВГУ, 2010), международная конференция Технологии Microsoft в теории и практике программирования (г. Нижний Новгород, НГУ, 2007), студенческие научных конференции в 2006, 2007 годах в Саратовском государственном социально-экономическом университете Проблемы социально-экономического развития России (г. Саратов, СГСЭУ, 2007).
Основные результаты диссертационного исследования используются в
деятельности коммерческого банка ООО БАНК ФИНИНВЕСТ в процессе принятия решения о выдаче кредита, при сборе сводных данных из разнородных ИС. Предложенный в работе агоритм прохождения заявки лежит в основе работы банковской системы отслеживания и обработки ошибок ИС действующего коммерческого банка. Агоритм сравнения персональных данных, встроенный в автоматизированную банковскую систему, позволяет операционистам и кассирам оперативно идентифицировать клиентов банка. Система оценки платёжеспособности поставщиков, основанная на представленном в работе механизме скоринга, реализованного с использованием искусственной нейронной сети, используется в деятельности факторинговой компании ООО Эконом-факторинг. Разработанные методы и инструментарий нашли применение в учебном процессе Саратовского государственного социально-экономического университета, специальность Прикладная информатика (в экономике) (дисциплина Имитационное моделирование экономических процессов).
Публикации. Основные результаты диссертационного исследования изложены в 11 научных работах, в том числе 3 - в научных изданиях, рекомендованных ВАК Министерства образования и науки РФ для публикации основных результатов диссертационных исследований, общим объёмом в 4,1 печатных листа.
Струюура и объем работы. Структура диссертации обусловлена целью, задачами и логикой исследования. Диссертационная работа состоит из введения, трех глав, заключения и библиографического списка из 111 источников. Работа изложена на 148 страницах машинописного текста, содержит 24 рисунка и 3 таблицы. Диссертация имеет следующую структуру:
Во введении обосновывается актуальность рассматриваемой проблемы, формулируются цель и задачи диссертационного исследования, определяются его объект и предмет, рассматриваются теоретические и методологические основы исследования, выделяются научная новизна и практическая значимость работы, приводится оценка внедрения и апробации исследования, описывается структура диссертационной работы.
В первой главе Проблема сопровождения информационных систем. Типичные задачи и методы их решения выпонен анализ проблемы сопровождения ИС в коммерческом банке. Рассмотрены существующие подходы к вопросу сопровождения ИС, проанализированы действующие стандарты и статьи, посвящённые жизненному циклу ИС в целом и сопровождению, в частности. В главе обоснована необходимость доработки существующей классификации задач сопровождения в ИС субъектов экономической деятельности, предложена новая классификация задач сопровождения, учитывающая специфику банковских ИС и разработанного агоритма обработки ошибок на основе заявок.
Во второй главе Процесс сопровождения кредитной работы в коммерческом банке рассматривается основное направление банковской деятельности - кредитование, предлагается модель скоринговой системы с использованием искусственной нейронной сети, которая была положена в основу разработанной системы поддержки принятия решения при выдаче. Система отличается от известных не только тем, что используется на оперативном уровне управления, но и возможностью гибкого реагирования на изменения рынка путём постоянного дообучения нейронной сети на основе новых данных.
В третьей главе Поддержка целостности данных в разнородных ИС исследуется актуальная для большинства банков проблема сопровождения данных о физических лицах. Для решения задачи сопоставления персональных данных из разнородных ИС было разработано программное средство, основанное на предложенном семантическом агоритме Фонетик. В главе представлены сравнительные результаты работы авторского агоритма и традиционных агоритмов анализа строк.
В заключении сформулированы выводы, основные положения и обобщения по результатам диссертационного исследования.
ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ
К первой группе вопросов отнесены проблемы сопровождения экономических ИС как в целом, так и применительно к коммерческим банкам. Проведенный анализ существующих подходов к вопросу сопровождения ИС, действующих стандартов и статей, посвященных жизненному циклу ИС, показал, что основным слабым местом существующих подходов является недостаток внимания к задачам сопровождения данных, а также отсутствие подходов, в которых учтена специфика сопровождения современных экономических информационных систем и корпоративных хранилищ данных.
В диссертации обоснована необходимость доработки существующей классификации задач сопровождения в ИС коммерческого банка и представлен собственный взгляд на эту проблему в виде авторской классификации задач сопровождения, в которой учтена специфика банковских ИС. Классификация показана на рис. 1. Все задачи сопровождения предлагается разбить на три класса: развитие ИС, корректирующее сопровождение и сопровождение данных.
Развитие ИС предполагает частичную или поную модернизацию. В связи с этим, развитие ИС можно разделить на доработку ИС, разработку допонительного ПО и замену ИС на более современную и функциональную. Адаптивное сопровождение это доработка программного продукта после поставки, позволяющее адаптировать его к новым условиям эксплуатации.
Корректирующее сопровождение направлено на выявление и устранение несоответствий и ошибок после поставки программного продукта.
Сопровождение данных. Важной спецификой корпоративных ИС является значительно превышение продожительности жизненного цикла (ЖЦ) данных над продожительностью ЖЦ программной среды, технологий обработки, бизнес логики и т.д. Именно поэтому целесообразно вынести поддержку данных в отдельный класс задач, состоящий из контроля целостности данных, поддержки актуальности данных и резервного копирования и восстановления, а также переноса данных из одной системы в другую.
. Развитие ИС -(модернизация)
Адаптивное ., сопровождение
Разработка допонительного ПО
Поная модернизация
Корректирующее сопровождение
Ошибки функциональности
Ошибки удобства использования
------Эффективность
Мобильность
Ошибки надёжности
Сопровождение данных
Контроль целостности данных
Поддержка актуальности данных
Резервное, копирование и восстановление
Перенос данных в другую систему
Рис. 1 Классификация задач сопровождения ИС
Приведенная классификация позволяет определить принадлежность задачи к определенной группе и принять соответствующие меры по ее сопровождению.
Дальнейшая логика рассмотрения работы соответствует трем представленным в классификации направлениям сопровождения ИС.
Вторая группа вопросов, рассмотренная в диссертации, касается детализации процесса корректирующего сопровождения и разработки механизма его реализации в коммерческом банке. В настоящее время банковские ИТ-структуры осознали преимущества централизованной системы отслеживания и решения проблем и ошибок.
Новая заявка
Рис. 2 Схема жизненного цикла заявки 14
Система отслеживания ошибок - это прикладная программа, помогающая разработчикам программного обеспечения учитывать и контролировать ошибки, найденные в программах, а также следить за процессом устранения возникших ошибок. Главный элемент такой системы - это заявка, содержащая основные параметры ошибки и этапы её устранения. База данных заявок является одновременно и классификатором найденных ошибок, и базой знаний по исправлениям и доработкам. Система позволяет организовать эффективный процесс сопровождения с сильной обратной связью.
На рис. 2 представлен разработанный агоритм обработки заявки в системе отслеживания ошибок. Агоритм намеренно изображён с нарушением общепринятых правил построения схем для того, чтобы более наглядно продемонстрировать нестандартную схему работы и его особенности. Пунктиром обозначены пути возможного возврата заявки на предыдущий этап выпонения - анализ или допонительный предварительный анализ, в случае необходимости получения допонительных данных от инициатора или аналитика, а также повторный ввод заявки, по которой уже был получен отказ, в обработку путём снятия отказа.
На основании данных о работе системы отслеживания ошибок в банке, была построена круговая диаграмма, отображающая структуру заявок и представленная на рис. 3. Очевидно, что в общем числе обработанных заявок преобладают доработки и ошибки. Консультации и изменение настроек составляют менее шестой части всех заявок.
Далеко не за всеми заявками, размещёнными в системе, кроются ошибки, не все ошибки можно устранить и не все ошибки целесообразно устранять. В этом случае заявка получает отказ в испонении с пояснением причины отказа. Такие заявки, по нашим данным, составляют примерно 15% от исходных заявок.
Ошибка 852
О Консультация 337 12%
В Изменение настроек 111 4%
0 Доработка 1512 54%
Рис. 3 Структура заявок по АБС за первое полугодие 2011 г.
Полученные результаты свидетельствуют о том, что даже во внедрённых и функционирующих АБС постоянно возникают ошибки, требующие классификации, исправления и сопровождения. С этой задачей эффективно справляется система отслеживания ошибок на основе представленного агоритма.
Третья группа вопросов рассматривает развитие ИС с точки зрения сопровождения. В работе подробно описывается один из возможных подходов к сопровождению банковских ИС путем разработки допонительного ПО, расширяющего функциональность существующей ИС. Для исследования выбрана одна из наиболее актуальных проблем современных банков - принятие решения о выдаче кредита.
Увеличение объемов кредитования физических лиц диктует необходимость внедрения систем автоматизированной оценки потенциальных заемщиков. Подобная система позволяет существенно ускорить процесс рассмотрения заявки и повысить эффективность работы кредитных инспекторов.
Заведение анкеты в Систему
Статус заявки: Готова к нет рассмотрению,
^Дтф&^Ш Ёшшнсикгмй"'!] Ы^^ЬТн.:
Кредитный консультант 1
ожительное заключение по кредиту
Заявитель
Рис. 4 Усовершенствованный агоритм кредитного процесса
В процессе проведения исследований установлено, что многим современным многофилиальным банкам, даже внедрившим интегрированные системы уровня макро- риск менеджмента, остро не хватает инструментальных средств для оперативного управления рисками уровня рабочего места. Основной задачей данного раздела явилось построение модели скоринговой оценки кредитоспособности заёмщика и программного средства, расширяющего функциональные возможности банковской ИС в задачах оперативного управления кредитными рисками.
В работе рассмотрен процесс управления кредитным риском, и построена модель кредитного процесса, в состав которой включена нейросетевая скорин-говая система количественной оценки кредитоспособности заемщика. Основой построенной модели явились агоритмы работы кредитного отдела и службы сопровождения. На рис. 4 приведен усовершенствованный агоритм работы кредитного отдела с использованием адаптивных нейросетей, цифрой 2 на нем обозначен сигнал обратной связи, поступающий из отдела анализа.
Наличие обратной связи в представленном агоритме позволяет организовать итерационный процесс дообучения нейронной сети, используемой в скоринговой системе. При этом на каждой итерации происходит уточнение прогноза даваемого нейронной сетью.
Построенная модель кредитного процесса стала основой при разработке инструментальных средств для управления кредитными рисками. Система отличается от известных не только тем, что используется на оперативном уровне управления, но и возможностью гибкого реагирования на изменения рынка путём постоянного дообучения нейронной сети на основе новых данных.
Для реализации предлагаемых скоринговых систем в работе разработано программное средство, позволяющее конструировать и обучать нейронную сеть на обучающем множестве, составленном на основе базы кредитных заявок. Программное средство позволяет также выпонять скоринг кредитных заявок на рабочем месте кредитного инспектора. Кроме того, среди его достоинств можно отметить простоту использования, хорошую совместимость с офисными
приложениями и возможность централизованного хранения большого количества обучающих массивов и обученных нейронных сетей.
В качестве критерия эффективности внедряемых скоринговых решений в работе используется величина средней доходности по кредитному портфелю, которая определяется как разность между процентными доходами и расходами по портфелю, отнесенная на количество выданных кредитов. Расчеты проведены в предположении, что банку предоставляется возможность анализа достаточно большого потока заявок. В этом случае сформированный массив клиентов обладает агрегированными характеристиками о средней сумме кредита, средней доходности, средней рискованности и т.д.
Доходность портфеля
вариант 1 вариант 2 вариант 3
Рис. 5 Изменение доходности кредитного портфеля при трех последовательных итерациях в обучении скоринговой системы
На рис. 5 показано соответствующее изменение количества одобренных заявок, дефотных ссуд и суммарной доходности кредитного портфеля на примере 500 заявок на автокредитование. Вариант 1 на рисунке соответствует первоначально сформированному кредитному портфелю. Результаты варианта 2 были получены после переобучения сети путём добавления новых правил, касающихся таких факторов как недостаточная значимость возраста для женщин
от 18 до 27 лет (им не надо служить в армии), веса семейного положения разведен (для женщин он более значим, чем для мужчин) и пр. Вариант 3 показывает результаты переобучения после внесения допонительно выявленных скрытых факторов, таких как географическое место проживания клиента, взаимосвязь возраста заемщика и занимаемой дожности, точка обращения клиента за кредитом (офис банка, конкретный магазин или конкретный автосалон).
На данный момент банки остро нуждаются в эффективной и гибкой ско-ринговой системе, которую они могли бы самостоятельно настраивать под региональные особенности кредитования. Разработанное программное средство, способное гибко настраиваться с учетом региональных особенностей и оперативно реагировать на изменение внешних условий работы банка, является мощным инструментом для кредитного инспектора.
Четвертая группа вопросов связана с актуальной для банков проблемой поддержки целостности и актуальности данных о физических лицах.
Методы и агоритмы анализа строк находят сегодня практическое применение во многих областях науки и информационных технологий: глобальные поисковые системы, сжатие данных, криптография, распознавание речи, компьютерное зрение, генетика и молекулярная биология. Одной из сфер применения таких агоритмов являются также задачи сопровождении баз данных, входящих в состав различных информационных систем. Типичными и часто обсуждаемыми на форумах программистов задачами такого типа являются задачи сопоставления и идентификации объектов, сведения о которых разнесены по разным базам данных. В частности, к подобным задачам относят поиск, сопоставление и слияние персональных данных о физических лицах.
Разнородность систем управления базами данных, используемых в ИС, и структур данных, содержащих информацию, подлежащую слиянию, влечёт за собой необходимость классификации данных при сопоставлении объектов. Подчас один и тот же объект, описанный в соответствие с требованиями одной
БД, не может быть однозначно идентифицирован в другой БД без специальных процедур сравнения.
В настоящее время известно значительное количество методов и агоритмов анализа текстовой информации, параметры которых, характеризующие их быстродействие и ресурсоемкость, хорошо исследованы. Вместе с тем при описании агоритмов анализа текстов редко указываются параметры, характеризующие их релевантность по отношению к конкретной задаче сопоставления записей.
Наиболее простым способом решения данной задачи, который часто применяется в качестве первого шага, является точное сравнение строк с предварительным удалением незначимых символов. Для последующих шагов существует ряд агоритмов, таких, например, как агоритм Вагнера-Фишер, или агоритм Смита-Ватермана, позволяющих количественно оценить близость строк между собой, используя в качестве меры близости дистанции редактирования. К таким мерам относится расстояние Левенштейна, то есть минимальное количество элементарных операций вставки, удаления и замены одного символа, необходимых для превращения одной строки в другую, или расстояние Хэм-минга, используемое для сравнения строк одинаковой размерности. Следует отметить, что ни один из вышеперечисленных агоритмов изначально не разрабатывася для сравнения данных о физических лицах.
Специфика обработки имен физических лиц более поно учтена в известных англоязычных агоритмах сравнения двух строк по их звучанию 8оипс1ех и МйаРЬопе. Эти агоритмы основаны на построении некоторой хэш-функции, которая преобразует исходные строки в хеш-код, одинаковый для схожих строк. Процесс сравнения двух строк сводится к вычислению хэш-кодов этих строк и их последующего строгого сравнения.
В работе предложена реализация инструментального средства, с высокой достоверностью решающего задачу сопоставления текстовых персональных данных (фамилии, имени и отчества) о физических лицах, информация о которых внесена в разнородные базы данных.
в основу агоритма Фонетик, реализованного в данной работе, лег вариант агоритма Ме1аРЬопе. Разработанный агоритм Фонетик получает на вход исходную строку и на основе правил, учитывающих произношения букв и слогов в русском языке, вырабатывает на выходе новую строку, называемую ключом для исходной строки. Ключ имеет переменную длину; из одной строки можно получить только один ключ. В таблице 1 приведён пример списка, подаваемого на вход агоритма, и соответствующих выходных значений.
Таблица 1
Пример списка входных значений и ключей на выходе агоритма Фонетик
Исходное слово Ключ
Годеева A.B. ГАД9АВ
Годиева И.А. ГАД9ИА
Иванюков П.В. ИВАНУК4ПВ
Иванников С.А. ИВАНИК4СА
Ковалёва С,А. КАВАЛИВА CA
Ковалева O.A. КАВАЛИВА ОА
Голушков О.В. ГАЛУШК40В
Колушков С.П. КАЛУШК4СП
Куликов A.A. КУЛИК4АА
Куликова О.И. КУЛИК90И
Белов A.A. БИЛ4АА
Соколова Т.В. САКАЛ9ТВ
Азовская A.C. A3SAC
Ильина И.П. ИЛ1ИП
Алиева А.Т. АЛ9АТ
Для проверки релевантности агоритма Фонетик из автоматизированной банковской системы было выгружено 25907 записей о физических лицах. Этот массив данных был получен слиянием нескольких баз данных и содержал некоторое количество дублирующих записей о физических лицах, которые не были обнаружены средствами СУБД во время слияния. Весь массив данных был обработан экспертами, которые выявили в нем 661 дублирующую запись.
Анализ сформированного массива данных о физических лицах проведен следующими агоритмами: агоритмом Фонетик, агоритмом прямого сравнения, агоритмом, рассчитывающим дистанцию Левенштейна и агоритмом Зоипёех. Агоритмы запускались на данной выборке по очереди по принципу сравнения каждой записи с каждой. В агоритме, вычисляющем дистанцию Ле-
венштейна, записи считались различными, если дистанция редактирования превышала единицу. Перед применением агоритма БоиЫех, разработанного для английского языка, записи подвергались процедуре транслитерации. По итогам работы всех агоритмов была запонена результирующая таблица 2.
Таблица 2
Результаты сравнения агоритмов
Агоритм Выявлено сходство Ошибка 1 рода Ошибка 2 рода Выявлено различие
Фонетик 92 6 1 25808
Дистанция Левенштейна 15 83 44 25765
8оигк1ех 13 85 3 25806
Прямое сравнение 13 85 0 25809
По общему количеству ошибок сравнения наихудшие результаты показал агоритм, вычисляющий дистанцию Левенштейна. Второе место по общему количеству ошибок после агоритма Фонетик занимает агоритм прямого сравнения. Однако в данном случае значимость ошибок первого и второго рода различна. Наиболее критичными являются ошибки первого рода, поскольку сходные объекты, классифицированные как различные, не попадут в итоговую выборку, то есть будут потеряны. Наличие ошибки второго рода не столь критично, поскольку на практике все объекты, классифицированные как сходные, будут представлены для последующей обработки в ручном режиме, а значит, будут проконтролированы.
По количеству ошибок первого рода агоритм Фонетик на порядок лучше агоритмов, вычисляющих дистанцию Левенштейна и агоритма Бои^ех. Агоритм прямого сравнения оказася наименее эффективным по количеству ошибок первого рода.
Агоритм Фонетик при сравнении персональных данных строк, показывает высокую стабильность и эффективность в работе, отличается хорошей приспособленностью к нормам и правилам русского языка, высокой релевант-
ностью, низкими показателями ошибок первого и второго рода. Использование технологии поиска сходных записей на основе данного агоритма позволяет снизить избыточность баз данных, сократить ручной труд операционистов и кассиров банка, в реальном времени отслеживать историю обращений клиента, а также проводить интелектуальную обработку, например, резервирование или репликацию, и прочие операции с данными, требующие больших затрат времени. Фонетик хорошо подходит в качестве инструмента сопровождения автоматизированных банковских систем, систем денежных переводов, иных программных средств, требующих непосредственного взаимодействия оператора системы с физическими лицами, информация о которых вносится в систему.
Разработка агоритма сопоставления персональных данных является примером эффективного решения задачи сопровождения ИС по вопросам поддержания целостности и актуальности данных банковских ИС.
ПО ТЕМЕ ДИССЕРТАЦИИ ОПУБЛИКОВАНЫ Статьи в изданиях, рекомендованных ВАК РФ
1. Палькин, Е. А. Эффективность агоритмов сопоставления персональных данных [Текст] / В.Н. Гусятников, Е.А. Палькин // Программные продукты и системы, 2011, №1. - 0,6 п.л.
2. Палькин, Е. А. Группы задач сопровождения в информационной системе коммерческого банке [Электронный ресурс] / Е.А. Палькин // Управление экономическими системами: электронный научный журнал, 2011, № 1 (25). - № гос. per. статьи 0421100034. - Режим доступа к журн.: Ссыка на домен более не работаетp>
3. Палькин, Е. А. Инструменты сопровождения информационных систем с поддержкой целостности данных о физических лицах [Текст] / В.Н. Гусятников, Е.А. Палькин II Вестник Саратовского государственного социально-экономического университета, 2010, №5(34). - 0,5 п.л.
Статьи в прочих изданиях
4. Палькин, Е.А. Банковский кредитный скоринг как практическая реализация нейросетевых технологий [Текст] / Е.А. Палькин // Проблемы социально-экономического развития России: Сборник научных трудов по итогам студенческих научных конференций в 2007 году. - Саратов: СГСЭУ, 2007. - 0,4 п.л.
5. Палькин, Е.А. Разработка агоритма сравнения данных о физических лицах при сопоставлении объектов разнородных баз данных [Текст] / В.Н. Гусятников, Е.А. Палькин // Труды X Международной конференции Информатика: проблемы, методологии, технологии. - Воронеж: Изд-во ВГУ, 2010. - 0,4 п.л.
6. Палькин, Е.А. Разработка модуля сравнения данных о физических лицах при сопоставлении объектов в автоматизированных банковских системах [Текст] / В.Н. Гусятников, Е.А. Палькин // Актуальные задачи управления социально-экономическими и техническими системами. - Саратов: Издательство Научная книга, 2010. - 0,4 п.л.
7. Палькин, Е.А. Разработка системы поддержки принятия решений при выдаче потребительских кредитов в коммерческом банке. ГОУ ВПО Саратовский государственный социально-экономический университет [Текст] / В.Н. Гусятников, Д.П. Ульянов, Е.А. Палькин // Инновации в науке и образовании (Телеграф отраслевого фонда агоритмов и программ), 2008, №3. - 0,1 п.л.
8. Палькин Е.А. Разработка системы поддержки принятия решений при выдаче потребительских кредитов в коммерческом банке [Текст] / В.Н. Гусятников, Д.П. Ульянов, Е.А. Палькин // Компьютерные учебные программы и инновации, 2008, №9. - 0,6 п.л.
9. Палькин Е.А. Использование нейросетевых технологий при построении автоматизированной системы банковского кредитного скоринга [Текст] / В.Н. Гусятников, Д.П. Ульянов, Е.А. Палькин. Под ред. проф. Р.Г. Стронгина // Технологии Microsoft в теории и практике программирования. Материалы конференции. - Нижний Новгород: Издательство Нижегородского университета, 2007. - 0,2 п.л.
Зарегистрированные программные средства
10. Палькин Е.А. Сравнение персональных данных на основе фонетической индексации / Е.А. Палькин // Свидетельство об официальной регистрации программы для ЭВМ. - №2010617042. - М.: РОСПАТЕНТ, 2010.
11. Палькин Е.А., Свидетельство об отраслевой регистрации разработки № 10224. Разработка системы поддержки принятия решений при выдаче потребительских кредитов в коммерческом банке / В.Н. Гусятников, Д.П. Ульянов, Е.А. Палькин // Отраслевой фонд агоритмов и программ; зарегистрировано 21.03.2008. Номер гос. регистрации 50200800634. - 0,3 п.л.
Подписано в печать 2 /. -2011 г. Заказ № Ж. Тираж 100 экз. Печ. л. 1,0 Формат 60 х 84 1/16. Бумага офсетная. Печать офсетная.
Типография ИУНЛ Вогоградского государственного технического университета. 400005, г. Вогоград, просп. им. В.И. Ленина, 28, корп. №7.
Похожие диссертации
- Развитие системы текущего планирования на мебельных предприятиях
- Разработка инструментов промышленного развития мезосистем
- Организационные механизмы кооперации промышленных предприятий
- Развитие конкурентоспособности управленческого персонала железных дорог
- Интегрированные информативные инструменты развития региональных экономических систем