Темы диссертаций по экономике » Бухгатерский учет, статистика

Применение методов многомерной классификации для подготовки решений по организации обслуживания юридических лиц в банке тема диссертации по экономике, полный текст автореферата

Ученая степень кандидат экономических наук
Автор Богданов, Алексей Владимирович
Место защиты Санкт-Петербург
Год 2002
Шифр ВАК РФ 08.00.12
Диссертация

Диссертация: содержание автор диссертационного исследования: кандидат экономических наук , Богданов, Алексей Владимирович

Введение

Глава 1. Классификация клиентской базы юридических лиц и отнесение предприятий к группам клиентов банка.

1.1. Состояние организации работы по обслуживанию юридических лиц и привлечению финансовых ресурсов на примере Санкт-Петербургского банка Сбербанка России.

1.2. Обоснование целесообразности применения методов многомерной классификации в банковском анализе для подготовки решений по организации обслуживания юридических лц.

1.3. Методика классификации клиентской базы юридических лиц и отнесения предприятий к группам клиентов банка.

Глава 2. Применение кластерного анализа для классификации клиентской базы юридических лиц на группы по финансово-экономическим показателям их деятельности.

2.1. Характеристика методов кластерного анализа.

2.2. Описание финансово-экономических показателей для классификации клиентской базы на группы и индивидуальных показателей по обслуживанию в банке и состоянию клиентских средств.

2.3. Процедура классификации клиентской базы юридических лиц.

2.4. Описание групп при классификации клиентской базы.

2.5. Классификация юридических лиц при помощи кластерного анализа методом k-средних.

2.6. Влияние выбросов в данных на процедуры классификации.

2.7. Решение проблемы классификация юридических лиц при помощи кластерного анализа методом k-средних на основе качественных переменных.

2.8. Применение методов, определяющих форму кластеров.

2.9. Определение оптимального количества кластеров при классификации юридических лиц - клиентов банка.

2.10. Определение оптимальной исходной конфигурации данных финансово-хозяйственной деятельности предприятий для применения процедуры классификации методом k-средних.

2.11. Применение методов построения деревьев классификации при анализе данных о юридических лицах Ч клиентах банка.

2.12.Допонительные вопросы, рассматриваемые при классификации.

2.13. Пример применения кластерного анализа для исследования финансово-хозяйственной деятельности группы предприятий региона - клиентов банка.

2.14. Допонительные вопросы к анализу полученных групп клиентов банка.

2.15. Получение допонительных данных и характеристика нормативно-справочной информации.

Глава 3. Применение методов дискриминантного анализа для отнесения потенциальных клиентов банка к существующим группам в клиентской базе.

3.1.Прикладная задача отнесения потенциальных клиентов к существующим группам в клиентской базе.

3.2. Классификация потенциального клиента, основанная на методе BIRCH.Ill

3.3. Отнесение потенциальных клиентов банка к существующим группам в клиентской базе при помощи линейного дискриминантного анализа Фишера.

3.4. Отнесение потенциальных клиентов банка к существующим группам в клиентской базе при помощи метода ближайшего соседа.

Глава 4. Анализ финансовых потоков клиентов банка и их контрагентов методами кластерного анализа.

4.1. Применение кластерного анализа для анализа взаимных платежей клиентов.

4.2. Исследования качества выявления групп при различных плотностях связей.

Диссертация: введение по экономике, на тему "Применение методов многомерной классификации для подготовки решений по организации обслуживания юридических лиц в банке"

Диссертация основана на научно-исследовательских работах, выпоненных в период 1998-2002гг., по применению методов многомерной классификации в экономическом анализе для подготовки решений по организации обслуживания юридических лиц в головной конторе банка.

Актуальность темы исследования. Привлечение финансовых ресурсов субъектов экономической системы представляет собой актуальную задачу для банков. Особенно, сегодня, когда государственная политика создает условия для развития конкуренции на рынке банковских услуг. За подразделением банка по организации обслуживания юридических лиц закрепляется значительное число функций, которые опираются на экономический анализ. Исходными данными служат огромные объемы информации статистического характера, которые образуются в результате ежедневных банковских операций в правлении банка и его территориальных отделениях. Экономические исследования призваны обеспечивать формирование оптимального портфеля привлечения, отвечающего определенным требованиям.

Подготовка решений по привлечению финансовых средств предприятий дожна уточнять принятую в банке стратегию обслуживания юридических лиц. Ее главной целевой функцией является получение максимальных доходов банка. Существующие методики анализа позволяют дать оценку экономической эффективности обслуживания отдельных клиентов -юридических лиц и их значимости для банка. В современных взглядах на ведение банковского бизнеса потребности в информационной поддержке организации обслуживания юридических лиц видятся в стремлении разработать характеристики и правила, действующие для групп клиентов банка. Создав описание групп клиентов банка, можно планировать привлечение юридических лиц путем отнесения потенциальных клиентов к предпочтительным группам. Поскольку изучаемые с этой целью явления и процессы относятся к стохастическим, то в качестве научного метода для этих исследований целесообразно использовать многомерный статистический анализ. Входящим в него методам многомерной классификации отводится существенная роль как инструмента для анализа информации о клиентах банка - юридических лицах. Это вызывает необходимость совершенствования их применения в банковской практике и, тем самым, определяет актуальность темы настоящей диссертационной работы.

Теория методов многомерной классификации изложена в работах Елисеевой И.И., Мхитаряна B.C., Миркина Б.Г., Дуброва A.M., Трошина Л.И., Андерберга М., Кауфмана Л., Маклахлана Г., Харта П. и других авторов. Применение этих методов в банковской деятельности пока что не получило распространения.

Целью диссертационного исследования является разработка направлений использования и адаптация методов многомерной классификации для решения проблемы формирования оптимального портфеля привлечения финансовых средств юридических лиц. Достижение данной цели потребовало решения следующих задач:

-обоснование целесообразности применения методов многомерной классификации для формирования оптимального портфеля привлечения;

-разработка методики классификации клиентской базы юридических лиц и отнесения предприятий к группам клиентов банка;

-разработка рекомендаций по применению методики классификации для формирования портфеля привлечения, отвечающего заданным критериям;

-разработка рекомендаций по анализу платежей клиентов банка и их контрагентов методами кластерного анализа;

-исследование особенностей применения агоритмов многомерной классификации при исследовании данных о юридических лицах в банке;

-выявление границ, условий и особенностей применения методов многомерной классификации для выработки стратегии работы с клиентами;

-выявление практической значимости исследований по обеспечению формирования оптимального портфеля привлечения финансовых средств юридических лиц на основе анализа состояния организации работы по обслуживанию юридических лиц на примере Санкт-Петербургского банка Сбербанка России.

Предметом исследования является существующая практика экономических исследований для подготовки решений по организации обслуживания юридических лиц и вопросы совершенствования применения методов многомерной классификации в банковском деле.

Теоретическую и методологическую основу исследования составляют труды российских и зарубежных ученых. При разработке и решении поставленных задач применялись методы наблюдения, группировки, анализа, моделирования данных и иные методы научного исследования, а также используемые на практике методики: методика определения общей доходности по операциям клиента Сбербанка России, методика комплексной ^ оценки экономической эффективности обслуживания клиентов банка юридических лиц и др.

Научная новизна диссертационного исследования заключается в постановке, теоретическом обосновании и решении задач, связанных с применением методов многомерной классификации для подготовки решений по организации обслуживания юридических лиц в банке. В процессе исследования получены следующие наиболее существенные научные результаты:

-обоснована целесообразность применения методов многомерной классификации для формирования оптимального портфеля привлечения финансовых средств предприятий;

-предложен подход к классификации клиентской базы юридических лиц и отнесения предприятий к группам клиентов банка;

-разработаны рекомендации по применению методики классификации для задачи формирования портфеля привлечения, отвечающего заданным критериям, а именно:

-в части оптимизации величины средневных остатков на счетах привлекаемых предприятии;

-в части стабильности остатков на счетах привлекаемых предприятий;

-в части минимизации затрат на расчетно-кассовое обслуживание;

-предложена комплексная оценка групп предприятий при классификации клиентской базы юридических лиц;

-даны предложения по анализу платежей клиентов банка и их контрагентов методами кластерного анализа;

-для характеристики интенсивности взаимных платежей между щ клиентами предложен показатель плотности связей d;

-исследовано применение агоритмов многомерной классификации при исследовании данных о юридических лицах в банке, а именно:

-выявлена возможность применения иерархического агломеративного агоритма кластерного анализа, проанализировано использование различных метрик;

-решена проблема получения гомогенных групп на основе количественных и качественных показателей;

-проанализировано влияние выбросов в данных на процедуры кластерного анализа в задачах классификации клиентов банка;

-исследована эффективность построения бинарных деревьев классификации с целью обнаружения структуры и закономерностей в данных о клиентах;

-исследовано применение методов дискриминантного анализа для отнесения потенциальных клиентов к существующим группам в клиентской базе юридических лиц, проанализирована возможность добавления нового клиента в модель без необходимости последующего повторения кластер-процедур с учетом нового предприятия;

-на основе анализа состояния организации работы по обслуживанию юридических лиц на примере Санкт-Петербургского банка Сбербанка России показана практическая значимость исследований по обеспечению формирования оптимального портфеля привлечения финансовых средств юридических лиц.

Практическая значимость результатов диссертационного исследования определяется его направленностью на эффективное применение методов многомерной классификации в банковской деятельности для подготовки решений по организации обслуживания клиентов - юридических лиц. В работе дается анализ конкурентной банковской среды, состояния организации работы по обслуживанию юридических лиц, динамики привлечения финансовых ресурсов, сложившейся клиентуры и эффективности обслуживания клиентов на примере Санкт-Петербургского банка Сбербанка России. Этот фактический материал показывает важную роль в банковской деятельности задачи привлечения юридических лиц и, таким образом, определяет практическую значимость диссертационной работы как исследований по статистическим способам ее решения.

Апробация результатов исследования. Результаты диссертационного исследования рассматривались и получили одобрение на научнопрактической конференции профессорско-преподавательского состава, научных сотрудников и аспирантов Санкт-Петербургского государственного университета экономики и финансов (2000 г.).

Положения диссертационной работы использованы в порядке апробации в Санкт-Петербургском учебном центре вычислительной техники Госкомстата России (УЦВТ) (1998-2001 гг.), в том числе в системах дистанционного образования экономистов (2000 г.). На основе результатов исследования разработаны учебные курсы для обучения экономистов применению методов многомерной классификации на практике (1999-2001 гг.). Описание применения методов многомерной классификации для подготовки решений по организации обслуживания юридических лиц в банке, разработанное в диссертационной работе, использовано при создании методического обеспечения и агоритмов обучающей системы в УЦВТ для Северо-западного банка Сберегательного банка России (2000-2001 гг.). Результаты исследования докладывались на четырех семинарах в УЦВТ (1998-2000 гг.). Результаты диссертационной работы составили методическую основу для обучающей системы по практическому применению методов статистики, разработанной в автономной некоммерческой образовательной организации "Учебный центр вычислительной техники" (2001 г).

Факты апробации результатов исследования подтверждаются соответствующими документами.

Публикации. Основные положения и результаты диссертационного исследования отражены в 17 публикациях.

Структура работы. Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы и приложений.

Диссертация: заключение по теме "Бухгатерский учет, статистика", Богданов, Алексей Владимирович

Заключение

Правительство Российской Федерации и Банк России исходят из того, что в интересах поступательного движения экономики уровень развития и функциональная роль банковского сектора дожны быть существенно повышены. Основными целями дальнейшего развития банковского сектора признаны укрепление его устойчивости, повышение качества осуществления функций по аккумулированию денежных средств и их трансформации в кредиты и инвестиции. Развитие банковского сектора в настоящее время происходит на фоне позитивных изменений макроэкономической ситуации в стране. Продожается процесс расширения ресурсной базы банков за счет средств предприятий и организаций. Создание условий для развития конкуренции на рынке финансовых услуг является одним из важных элементов государственной политики.

Привлечение финансовых ресурсов субъектов экономической системы является основной функцией банков. Стабильная ресурсная база обеспечивает банку необходимые преимущества и создает потенциал для его дальнейшего развития, делает его более устойчивым в условиях динамично развивающейся экономической среды. Формирование портфеля привлечения, отвечающего заданным критериям (стоимость, срочность, стабильность и ф др.), представляет собой актуальную задачу для банков.

Клиентская база юридических лиц банка разнообразна. Наличие инструмента для оценки клиентов позволит банку более обоснованно планировать свою работу по их привлечению, даст возможность определить, какие клиенты выгодны и привлекательны. Также основанием для принятия решений о формировании структуры портфеля привлечения служит анализ данных о платежах между предприятиями. В условиях повышающейся конкуренции это позволит банку более рационально и эффективно распределять свои усилия и средства на их привлечение.

В современных взглядах на ведение банковского бизнеса потребности в информационной поддержке организации обслуживания юридических лиц видятся в стремлении разработать характеристики и правила, действующие для групп клиентов банка. Создав описание групп клиентов банка, можно планировать привлечение юридических лиц путем отнесения потенциальных клиентов к предпочтительным группам. Поскольку изучаемые с этой целью явления и процессы относятся к стохастическим, то в качестве научного метода для этих исследований целесообразно использовать многомерный статистический анализ. Входящим в него методам многомерной классификации отводится существенная роль как инструмента для анализа информации о клиентах банка - юридических лицах. Это вызывает необходимость совершенствования их применения в банковской практике и, тем самым, определяет актуальность темы диссертационной работы.

Практическая ценность диссертационного исследования показана на большом фактическом материале. Логически обоснована целесообразность обращения к методам многомерной классификации для решения проблемы формирования оптимального портфеля привлечения финансовых средств юридических лиц. ф Центральное место в диссертационной работе занимает методика классификации клиентской базы юридических лиц и отнесения предприятий к группам клиентов банка. Практические рекомендации по применению методики классификации для задачи формирования портфеля привлечения, отвечающего заданным критериям, разработаны в части:

-оптимизации величины средневных остатков на счетах привлекаемых предприятий;

-обеспечения стабильности остатков на счетах привлекаемых предприятий;

-минимизации затрат на расчетно-кассовое обслуживание.

Предложена комплексная оценка групп предприятий при классификации клиентской базы юридических лиц. Даны предложения по анализу платежей клиентов банка и их контрагентов методами кластерного анализа.

Исследования применения агоритмов многомерной классификации для анализа данных о юридических лицах в банке позволили следующее:

-выявить возможность применения иерархического агломеративного агоритма кластерного анализа и использования различных метрик;

-решить проблему получения гомогенных групп на основе количественных и качественных показателей;

-выяснить влияние выбросов в данных на процедуры кластерного анализа в задачах классификации клиентов банка;

-определить эффективность построения деревьев классификации с целью обнаружения структуры и закономерностей в данных о клиентах;

-описать применение методов дискриминантного анализа для отнесения потенциальных клиентов к существующим группам в клиентской базе юридических лиц.

В целом приведенная работа определяет новое специальное направление, состоящее в применении методов многомерной классификации ф для подготовки решений по организации обслуживания юридических лиц в банке. Результаты диссертационного исследования позволяют утверждать об эффективности этих методов для решения задачи формирования оптимального портфеля привлечения финансовых средств юридических лиц.

Диссертация: библиография по экономике, кандидат экономических наук , Богданов, Алексей Владимирович, Санкт-Петербург

1. Елисеева И.И.,Юзбашев М.М. Общая теория статистики.- М.: Финансы и статистика, 1999.

2. Дубров A.M., Мхитарян B.C., Трошин Л.И. Многомерные статистические методы. М.:Финансы и статистика, 2000.

3. Елисеева И.И.,Рукавишников В.О. Логика прикладного статистического анализа. М.:Финансы и статистика, 1982.

4. Белоглазова Г.Н., Кроливецкая Л.П. Банковское дело. Ч СПб.: Питер, 2002.

5. Елисеева И.И. Моя профессия статистик. - М.:Финансы и статистика, 1992.

6. Елисеева И.И. Группировка, корреляция, распознавание образов: статистические методы измерения связей. Изд-во Ленинградского университета, 1982.

7. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика. 1988.

8. Положение о дистанционном обучении в сфере высшего профессионального образования Российской Федерации (Проект). М.:Дистанционное образование,2000, N 4.

9. Л. Закс. Статистическое оценивание. Серия "Зарубежные статистические исследования". М.: "Статистика", 1976.

10. Методология проведения комплексного анализа социально-экономического развития регионов. Учебное пособие.- М.: МИПК учета и статистики Госкомстата России, 1998.

11. Боровиков В.П.,Боровиков И.П., Statistica. Статистический анализ данных в среде Windows. -М.:ФИЛИНЪ, 1997.

12. Дистанционное обучение. Учебное пособие.Под ред.Е.С.Полат. -М.:Гуманит.изд.центр ВЛАДОС, 1998.

13. Е. Иванова, В. Забелин, В. Божко. Особенности построения статистических информационных систем в государствах с рыночной экономикой. Вопросы статистики, 1998, №8

14. В. Трейер. Задачи и основные направления исследований в области статистики. Вопросы статистики, 1998, №11

15. Порядок формирования организационной структуры аппарата территориального банка Сбербанка России от 24 ноября 2000 г. № 654-р.

16. Кузин С.С.,Новокрещенова JI.Д.,Соколова И.И.Применение стандартных средств Microsoft Office в статистике. Учебное пособие. М.:МИПК учета и статистики Госкомстата России, 2000.

17. В.Трейер.,С.Брыкин. О роли и месте общероссийского классификатора видов экономической деятельности, продукции и услуг в реформировании государственной статистической системы.- М.: Вопросы статистики, 1997, 9.

18. В.Л.Грейсух, М.Ш.Цаленко. Язык описательной статистики. М.,"Статистика", 1977.

19. Г.Секей. Парадоксы в теории вероятностей и математической статистике.М.,"Мир", 1990.

20. Положение о комитете по работе с юридическими лицами СевероЗападного банка Сбербанка России. Решение Правления Северо-Западного банка Сбербанка России. Протокол № 13 от 05 сентября 2001 г.

21. Методика расчета ставок догосрочного привлечения ресурсов в рублях от юридических лиц территориальными банками Сбербанка РФ. Решение Комитета СБ РФ по процентным ставкам и лимитам от л24 марта 1998 г. (Протокол № 68).

22. Положение об Управлении корпоративных клиентов и бюджетов СевероЗападного банка Сбербанка России, 2002.

23. Временная методика определения краткосрочной и догосрочной категорий кредитного риска контрагента корпоративного клиента и установления лимитов риска. Комитет Сбербанка России по предоставлению кредитов и инвестиций. Москва, 2001.

24. Инструкция № 1 от 01.10.1997 Банка России О порядке регулирования деятельности банков.

25. Инструкция № 62а от 30.06.1997 Банка России О порядке формирования и использования резерва на возможные потери по ссудам;

26. Положение № 137-П от 12.04.2001 О порядке формирования кредитными организациями резервов на возможные потери;

27. Приказ № 71 от 05.08.1996 Министерства финансов Российской Федерации, № 149 от 05.08.1996 Федеральной комиссии по рынку ценных бумаг;

28. Методические рекомендации по оценке эффективности инвестиционных проектов и их отбору для финансирования. Минэкономики РФ, Минфин РФ, Госкомитет РФ по строительной, архитектурной, жилищной политике 21.06.1999 №ВК 477.

29. Литвак Б.Г. Экспертная информация: Методы получения и анализа. М.: Радио и связь, 1982. 184 с.

30. Анализ нечисловой информации в социологических исследованиях. М.: Наука, 1985. -220 с.

31. Литвак Б.Г. Экспертные оценки и принятие решений. М.: Патент, 1996.

32. Тюрин Ю.Н., Литвак Б.Г., Орлов А.И., Сатаров Г.А., Шмерлинг Д.С. Анализ нечисловой информации. М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика", 1981. - 80 с.

33. Прикладная статистика. Методы обработки данных. Основные требования и характеристики. М.: ВНИИСтандартизации, 1987. - 64 с.

34. Вощинин А.П. Метод оптимизации объектов по интервальным моделям целевой функции. М.: МЭИ, 1987. 109 с.

35. Вощинин А.П., Сотиров Г.Р. Оптимизация в условиях неопределенности. М.: МЭИ - София: Техника, 1989. 224 с.

36. Вощинин А.П., Акматбеков Р.А. Оптимизация по регрессионным моделям и планирование эксперимента. Бишкек: Илим, 1991. 164 с.

37. Сборник трудов Международной конференции по интервальным и стохастическим методам в науке и технике. Тт. 1,2. М.: МЭИ, 1992.

38. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. М.: Финансы и статистика, 1988. 263 с.

39. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешакин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989. - 607 с.

40. Стратегия развития банковского сектора Российской Федерации .Приложение к заявлению Правительства Российской Федерации и Центрального банка Российской Федерации 30 декабря 2001 года.

41. Сводная статистическая информация по крупнейшим банкам по состоянию на 1 апреля 2002 г. Центральный банк Российской Федерации.

42. Отдельные показатели деятельности кредитных организаций, + сгруппированных по величине активов по состоянию на 1 февраля 2002 года.

43. Центральный банк Российской Федерации.

44. Группировка действующих кредитных организаций по величине зарегистрированного уставного капитала в 2002 году. Центральный банк Российской Федерации.

45. Концентрация активов действующих кредитных организаций по федеральным округам Центральный банк Российской Федерации на 01.01.02. Центральный банк Российской Федерации.

46. Социально-экономическая ситуация в I квартале 2002 года. Центральный банк Российской Федерации.

47. Средства предприятий, организаций, учреждений на счетах в иностранной валюте на 01.01.02. Центральный банк Российской Федерации.

48. Средства предприятий, организаций, учреждений на счетах в рублях на 01.01.02. Центральный банк Российской Федерации.

49. Пряхина Е.В.,Божко В.П., Перспективная технологическая схема электронной обработки статистических данных. М. .-Вопросы статистики.,2000, N 9.

50. Положение об Управлении расчетно-кассового обслуживания юридических лиц и бюджетов Санкт-Петербургского банка Сбербанка России, 1999 г,

51. Sneath Р.Н.А., Sokal, R.R. Numerical Taxonomy, San Francisco:Freeman, 1973

52. Murthy C. A., Chowdhury, N. In Search of Optimal Clusters Using Genetic Algorithms, Pattern Recognition Letters, 17, pp. 825-832, 1996.

53. Ralambondrainy H. A Conceptual Version of the k-Means Algorithm, Pattern Recognition Letters, 16, pp.1147-1157, 1995.

54. Rose K., Gurewitz E., Fox G. A Deterministic Annealing Approach to Clustering, Pattern Recognition Letters, 11, pp. 589-594, 1990.

55. Ruspini E. R. A New Approach to Clustering, Information Control, 19, pp. 2232,1969.

56. Ruspini E. R. New Experimental Results in Fuzzy Clustering, Information Sciences, 6, pp. 273-284, 1973.

57. Selim S. Z., Ismail M. A. K-Means-Type Algorithms: A Generalized Convergence Theorem and Characterization of Local Optimality, IEEE Transactions on Pattern Analysis and Machine Intelligence, 6(1), pp. 81-87, 1984

58. Shafer J., Agrawal R., Metha, M. SPRINT: A Scalable Parallel Classifier for Data Mining, In Proceedings of the 22nd VLDB Conference, Bombay, India, pp. 544-555, 1996

59. Kodratoff Y., Tecuci G. Learning Based on Conceptual Distance, IEEE Transactions on Pattern Analysis and Machine Intelligence, 10(6), pp. 897-909, 1998.

60. MacQueen J. B. Some Methods for Classification and Analysis of Multivariate Observations, In Proceedings of the 5th Berkeley Symposium on Mathematical

61. Statistics and Probability, pp. 281 -297, 1967

62. Michalski R. S., Stepp R. E. Automated Construction of Classifications: Conceptual Clustering Versus Numerical Taxonomy, IEEE Transactions on Pattern Analysis and Machine Intelligence, 5(4), pp. 396-410, 1983.

63. Duda R.O., Hart P.E. Pattern Classification and Scene Analysis. New York: John Wiley and Sons. 1973

64. Kaufman L., Rousseeuw P. Finding Groups in Data. New York: John Wiley and Sons. 1989

65. Meila M., Heckerman D. An experimental comparison of several clustering methods. Microsoft Research Technical Report MSR-TR-98-06.

66. Fukunaga K. Introduction to Statistical Pattern Recognition. 1990.

67. D. W. Scott Multivariate Density Estimation. New York: Wiley. 1992.

68. Bradley P.S., Fayyad U. Refining Initial Points for K-means clustering. In Proc. 15th International Conf on Machine Learning. 1998

69. Ng R.T., Han J. Efficient and effective clustering methods for spatial data mining. In Proc. VLDB, pp. 144-155, 1994.

70. Han J., Kamber M., editors. Data Mining: Concepts and Techniques. Morgan Kaufman, 2000.

71. Jambu, M. and Lebeaux M-O. Cluster Analysis and Data Analysis Amsterdam: North-Holland Publishing Company.

72. Ester M., Kriegel H., Sander J., Xu X. A density-based algorithm for discovering clusters in large spatial databases, 1996.

73. Ankerst M., Breunig M., Kriegel H., Sander J. Optics: Ordering points toidentify the clustering structure. In Proc. SIGMOD, 1999.

74. A. Hinneburg, D. Heim An efficient approach to clustering large multimedia databases with noise. In KDD, 1998.

75. W. Wang, J. Yang, R. Muntz. Sting: A statistical information grid approach to spatial data mining, 1997.

76. A. Hinneburg, D. Keim. Optimal grid-clustering: Towards breaking the curse of dimensionality in high-dimensional clustering. In Proc. VLDB, 1999.

77. R. Agrawal, J.E. Gehrke, D. Gunopulos, P. Raghavan. Automatic subspace clustering of high dimensional data for data mining applications. In Proc.1. SIGMOD, pp. 94-105, 1998.

78. G. Sheikholeslami, S. Chatterjee, A. Zhang. Wavecluster: A multi-resolution clustering approach for very large spatial databases. In Proc. VLDB, pp. 428-439, 1998.

79. T. Zhang, R. Ramakrishnan, M. Livny. BIRCH: an efficient data clustering method for very large databases. In Proc. SIGMOD, pp. 103-114, 1996.

80. Е. Fix, J. Hodges. Discriminatory analysyis, nonparametric discrimination: consistency properties. Technical report, Randolph Field, Texas: USAF School of Aviation Medicine, 1951.

81. B. Thiesson, C. Meek, D. Chickering, D. Heckerman. Computationally efficient methods for selecting among mixtures of graphical models. In Proc of the Sixth Valencia International Meeting on Bayesian Statistics, pp. 223-240. Alcossebre, Spain, 1998.

82. S.J. Lee, K. Siau. A review of data mining techniques. Industrial Management

83. Data Systems 101/1 2001. 41-46.

84. G.J. MacLachlan. Discriminant analysis and statistical pattern recognition. Wiley, New York, 1992.

85. K.V. Mardia, J.T. Kent, J.M. Bibby. Multivariate analysis. Academic Press, San Diego, 1979.

86. S. Dudoit, J. Fridlyand, T.P. Speed. Comparison of Discrimination Methods for the Classification of Tumors Using Gene Expression Data, Mathematical Sciences Research Institute, Berkeley, Technical Report #576, 2000.

87. R.M. Cormack. A review of classification (with discussion). J.Roy.Stat.Soc. A134,321-367, 1971.

88. V. Hosel, S. Watcher. Clustering Techniques: A Brief Survey, Institut fur Biomathematik und Biometrie, Neuherberg, Germany, 2000.

89. H. Ralambondrainy. A conceptual version of the k-Means algorithm, Pattern Recognition Letters, 16, pp. 1147-1157, 1995.

90. M.R. Anderberg. Cluster Analysis for Applications, Academic Press, 1973.

91. Z. Huang. A fast clustering algorithm to cluster very large categorical data sets in data mining, 1997.

92. W. Siedlecki, J. Sklansky. On automatic feature selection. International Journal of Pattern Recognition and Artificial Intelligence, 2, ppl97-220, 1988.

93. G. V. Trunk. A problem of dimensionality: A simple example. IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-1, pp 306-307, 1979.

94. S. Berchtold, D. Keim, B. Ertl, H.-P. Kriegel. Fast nearest neighbor search in high-dimensional space. In Proceedings 14th Int. Conf. on Data Engineering, Orlando, Fl, 1998.

95. S. Berchtold, C. Bohm, D. Keim, H.-P. Kriegel. A cost model for nearestneighbor search in high-dimensional data space. In ACM PODS, Tucson, AZ, 1997.

96. S. Berchtold, C. Bohm, H.-P. Kriegel. The pyramid-technique: Towards breaking the curse of dimensionality. In Proceedings of ACM SIGMOD, Seattle, WA, pp 142-153, 1998.

97. S. Berchtold, A. Keim. High-dimensional index structures: Database support for next decade's applications. Tutorial Notes: ACM SIGMOD-98 Conference on Management of Data, Seattle, 1998.

98. S. Berchtold, D. Keim, H-P. Kriegel. The X-tree: Ал index structure for high-dimensional data. In Proceedings of the 22nd Conference on Very Large

99. Databases, Bombay, India, pp 28-39, 1996.

100. K. Beyer, J. Goldstein, R. Ramakrishnan, U. Shaft. When is nearest neighbor meaningful? In Proceedings of the 7th International Conference on Database Theory (ICDT), Jerusalem, Israel, 1999,

101. С. M. Bishop. Neural Networks for Pattern Recognition. Oxford University Press, New York, 1995.

102. P. Bradley, U. Fayyad. Refining initial points for k-means clustering. In Proc. 15th International Conf on Machine Learning. Morgan Kaufmann, 1998.

103. P. Bradley, U. Fayyad, C. Reina. Scaling clustering algorithms to large databases. In Proceedings of Fourth International Conference on Knowledge Discovery and Data Mining, pp 9-15, 1998.

104. P. Bradley, U. Fayyad, C. Reina. Scaling EM (expectation maximization) clustering to large databases. Technical Report MSR-TR-98-35, Microsoft Research, Redmond, WA, USA, 1998.

105. B.V. Dasarathy. Nearest Neighbor (NN) Norms: NN Pattern Classifcation Techniques. IEEE Computer Society Press, Los Alamitos, С A, 1991.

106. A. P. Dempster, N. M. Laird, D. B. Rubin. Maximum likelihood fromtincomplete data via the EM algorithm. Journal of the Royal Statistical Society B, 39:1-38, 1977.

107. C. Faloutsos, K.-I Lin. Fastmap: a fast algorithm for indexing, data-mining and visualization of traditional and multimedia datasets. In Proceeding of ACM SIGMOD International Conference on Management of Data, San Jose, pp 231-262, 1995.

108. R. Farebrother. The distribution of a positive linear combination of chi-square random variables. Applied Statistics, 32, pp 332-337, 1983.

109. U. Fayyad, P. Bradley, C. Reina. Scaling clustering algorithms to large databases. In Proceedings of Fourth International Conference on Knowledge Discovery and Data Mining, pp 194-198, 1998.

110. E.Forgy. Cluster analysis of multivariate data: Efficiency vs. interpretability of classifications. Biometrics, 21, 1965.

111. A. Gionis, P. Indyk, R. Motwani. Similarity search in high dimensions. 1998.

112. A. Gutman. R-trees: A dynamic index structure for spatial searching. In Proceedings of ACM SIGMOD International Conference on Management of Data, Atlantic City, New Jersey, pp 322-331, 1997.

113. P.Indyk, R.Motwani. Approximate nearest neighbors: towards removing the curse of dimensionality. In STOC'98. Proceedings of the Thirteenth annual ACM symposium on Theory of computing, 1998.

114. N.Katayama, S.Satoh. The SR-tree: An index structure for high-dimensional nearest neighbor queries. In Proceedings of ACM SIGMOD International Conference on Management of Data, Tucson, Arizona, 1997.

115. A.Mathai, S.Provost. Quadratic Forms in Random Variables. Marcel Dekker, Inc, New York, 1992.

116. J.T. Robinson. The K-D-B tree: A search structure for large multidimensional indexes. In Proceedings of ACM SIGMOD International Conference on Management of Data, Ann Arbor, MI, pp 10-18, 1981.

117. D.W. Scott. Density Estimation. Wiley, New York, 1992.

118. T.Seidl, H.-P. Kriegel. Optimal multi-step k-nearest neighbor search. In Proc, of ACM SIGMOD, Seattle, WA, pp 154-165, 1998.

119. K.Shim, R.Srikant, R.Agrawal. High-dimensional similarity joins. In 13th Int'l Conf. on Data Engineering, 1997.

120. B.W. Silverman. Density Estimation for Statistics and Data Analysis. Chapman & Hall, London, 1986.

121. T. Zhang, R. Ramakrishnan, M. Livny. Birch: A new data clustering algorithm and its applications. Data Mining and Knowledge Discovery, 1, 1997.

122. Fayyad U. M., Piatetsky-Shapiro G. and P. Smyth. From Data Mining to Knowledge Discovery: An Overview, in Advances in Knowledge Discovery and

123. Data Mining, AAAI Press, 1996.

124. Keane J. A. High Performance Banking, Proceedings of RIDE '97, IEEE Press, 1997.

125. Cleary J., Holmes G., Cunningham S. J., Witten, I. H. Metadata for Database Mining. Proceedings IEEE Metadata Conference, Silver Spring, MD, April 16-18, 1996.

126. Agrawal R., Imielinski Т., Swami A. Mining Association Rules between Sets of Items in Large Databases, Paper presented at the ACM SIGMOD, 1993.

127. Baker S., Baker K. Mine over matter, Journal of Business Strategy, Vol. 19 No. 4, pp. 22-7, 1998.

128. Chen M.S., Han J., Yu P.Data mining: an overview from a database perspective, IEEE Transactions on Knowledge and Data Engineering, Vol. 8 No. 6, pp. 866-83,1996.

129. Etzioni, O., The World-Wide Web: quagmire or gold mine?, Communication of the ACM, Vol. 39 No. 11, pp. 65-8, 1996

130. Fayyad U., Djorgovski S.G., Weir N. Automating the analysis and cataloging of sky surveys, 1996.

131. Fayyad U., Piatetsky-Shapiro G., Smyth P. From data mining to knowledge discovery: an overview,in Fayyad, MIT Press, Cambridge, MA, 1996.

132. Han J., Fu Y. Discovery of Multiple-Level Association Rules form Large Databases, Paper presented at the 21st Int'l Conf. Very Large Data Bases, 1995.

133. Kettenring J., Pregibon D. Committee on Applied and Theoretical Statistics: Workshop on Massive Data Sets, Paper presented at the National Research Council, Washington, D.C., 1996.

134. Lu H., Setiono R., Liu H. Effective Data Mining Using Neural Networks, IEEE Transactions on Knowledge and Data Engineering, Vol. 8, No. 6, pp. 957-61, 1996.

135. Mannila H., Toivonen H.,Verkamo A.I. Effective Algorithms for Discovering Association Rules, paper presented at the AAAI Workshop, Knowledge

136. Discovering in Databases, 1996.

137. Piatetsky-Shapiro G., Frawley W.J. Knowledge Discovery in Database, AAAI/MIT Press, 1991.

138. Savasere A., Omiecinski E., Navathe S. An Effective Algorithm for Mining Association Rules in Large Databases, paper presented at the 21st International Conference, Very Large Data Bases, 1995.

139. Srikant R.,Agrawal R. Mining Generalized Association Rules. Paper presented at the 21st International Conference, Very Large Data Bases, 1995.

140. Tufte E.R. The Visual Display of Quantitative Information, Graphics Press, Cheshire, CN, 1983.

141. Tufte E.R. Envisioning Information, Graphics Press, Cheshire, CN, 1990.

142. Weiss S.H., IndurkhyaN. Predictive Data Mining: A Practical Guide, Morgan Kaufmann Publishers, San Francisco, CA, 1998.

143. S. Singh, J.F. Haddon, M. Markou. Nearest Neighbour Strategies for Image Understanding, Proc. Workshop on Advanced Concepts for Intelligent Vision Systems (ACIVS'99), Baden-Baden, (2-7 August, 1999).

144. S. Singh. A Single Nearest Neighbour Fuzzy Approach for Pattern Recognition, International Journal of Pattern Recognition and Artificial Intelligence, vol. 13, no. l,pp. 49-54, 1999.

145. M. Stone. Cross-Validatory Choice and Assessment of Statistical Predictions. Journal of the Royal Statistical Society. 36 (1), 111-147, 1974.

146. S. Theodoridis, K. Koutroumbas. Pattern Recognition, Academic Press, 1999.

147. S. M. Weiss, C. A. Kulikowski, Computer Systems that Learn, Kauffman, CA, 1991.

148. J.F. Haddon, J.F. Boyce. Image segmentation by unifying region and boundary information, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 12, No 10, pp 929-948, 1990.

149. R.M. Haralick, K. Shanmugan, I. Dinstein. Texture features for image classification, IEEE SMC-3, pp. 610-621, 1973.ф 144. R.M. Haralick. Image texture survey, in Handbook of Statistics, vol. 2, P R

150. Krishnaiah, L N Kanal, Eds., pp. 399-415, 1982.

151. J.F. Haddon, J.F. Boyce. Co-occurrence matrices for image analysis, IEE Electronics and Communications Engineering Journal, vol. 5, No 2, pp.71-83, 1993.

152. J.F. Haddon, J.F. Boyce. Spatio-temporal relaxation labelling applied to segmented infrared image sequence, Proceedings of 13th International Conference on Pattern Recognition, IEEE Press, Austria.

153. D.C. Becalick, Natural Scene Classification using a Weightless Neural Network, PhD Thesis, Imperial College, Department о Electrical and Electronic Engineering, 1996.

154. O. Firschein, Defence applications of image understanding, IEEE Expert, vol. 10, issue 5, pp. 11-17, 1995.

155. J.F. Haddon, J.F. Boyce, Integrating spatio-temporal information in image sequence analysis for the enforcement of consistency of interpretation, Special Issue of Digital Signal Processing, 1998.

156. F. Murtagh. Multidimensional Clustering Algorithms, Physica-Verlag, 1985.

157. G. N. Lance, W. T. Williams, A General Theory of Classificatory Sorting Strategies. HierarchicaSystems, Computer Journal 9, pp. 373-380, 1967.

158. C. F. Olson. Parallel Algorithms for Hierarchical Clustering, Technical Report UCB//CSD-93-786, University of California at Berkeley, 1993.

159. F. J. Rohlf. Hierarchical Clustering using the Minimum Spanning Tree, Computer Journal 16, pp. 93-95, 1973.

160. W. H. E. Day, H. Edelsbrunner. Efficient Algorithms for Agglomerative Hierarchical Clustering Methods, Journal of Classification, vol.1, no. 1, pp. 7-24, 1984.

161. F. Murtagh. A Survey of Recent Advances in Hierarchical Clustering Ф Algorithms, The Computer Journal, vol. 26, no. 4, pp. 354-359, 1983.

162. J. Daugman. Uncertainty relation for resolution in space, spatial frequency, and orientation optimized by two-dimensional visual cortical filters. Journal of the Optical Society Am. A, vol. 2, no. 7, pp. 1160-1169, 1985.

163. B. Julesz. Visual pattern discrimination. IRE Transactions on Information Theory, pp. 84-92, 1961.

164. Т. Hofmann, J. M. Buhmann. Infering hierarchical clustering structures by deterministic annealing. In Proceedings of the Knowledge Discovery and Data Mining Conference 1996, Portland.

165. G. Parisi. Statistical Field Theory. Redwood City, CA: Addison Wesley, 1988.

166. T. Hofmann, J. Puzicha, J. M. Buhmann. Unsupervised segmentation of textured images by pairwise data clustering, Tech. Rep. IAI-TR-96-2, Rheinische Friedrich-Wilhelms-Universit.at Bonn, Institut f.ur Informatik III, 1996.

167. K. Rose, E. Gurewitz, G. Fox. Statistical mechanics and phase transitions inIclustering, Physical Review Letters, vol. 65, no. 8, pp. 945-948, 1990.

168. K. Rose, E. Gurewitz, G. Fox. A deterministic annealing approach to clustering, Pattern Recognition Letters, vol. 11, no. 11, pp. 589-594, 1990.

169. K. Rose, E. Gurewitz, G. Fox. Vector quantization by deterministic annealing, IEEE Transactions on Information Theory, vol. 38, no. 4, pp. 1249-1257, 1992.

170. K. Rose, E. Gurewitz, G. Fox. Constrained clustering as an optimization method, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 15, no. 8, pp. 785-794, 1993.

171. A. K. Jain, R. C. Dubes. Algorithms for Clustering Data. Englewood Cliffs, NJ 07632: Prentice Hall, 1988.

172. Buhmann J., Hofmann T. Central and Pairwise Data Clustering by Competitive Neural Networks, pp 104-111, Advances in Neural Information Processing Systems, Morgan Kaufmann Publishers, 1994

173. Buhmann J., Hofmann T. A Maximum Entropy Approach to Pairwise Data Clustering, Proceedings of the International Conference on Pattern Recognition, pp207.212, Hebrew University, Jerusalem, vol. II. IEEE Computer Society Press, 1994

174. Gower J. C. Some distance properties of latent root and vector methods used in multivariate analysis. Biometrika, 53, 325-328, 1966.

175. Hertz J., Krogh A., Palmer R. G. Introduction to the Theory of Neural Computation.New York: Addison Wesley, 1991.

176. С. M. Bishop. Neural Networks for Pattern Recognition. Clarendon Press, Oxford, 1995.

177. C.M. Bishop, M.E. Tipping. A hierarchical latent variable model for data visualization. IEEE Trans. PAMI, 20:281-293, 1998.

178. J.H. Friedman, J. W. Tukey. A projection pursuit algorithm for exploratory data analysis. IEEE Trans. Сотр., C-23:881-889, 1974.

179. J.A. Hartigan. Statistical theory in clustering. Journal of Classification, 2:6376, 1985.

180. T.S. Jaakkola, D. Haussler. Exploiting generative models in discriminative classifiers. In Advances in Neural Information Processing Systems 11, 1999. MIT Press.

181. К. V. Mardia, J. T. Kent, J. M. Bibby. Multivariate Analysis. Academic Press, London, 1979.

182. P. Smyth and D. Wolpert. Stacked density estimation. In Advances in Neural Information Processing Systems 10, pp 668-674, 1998, MIT Press.

183. Wayne W. Daniel, James C. Terrell. Business statistics. Basic concepts and methodology. Georgia State University,Boston, USA, 1986.

184. Milligan G. W., Soon S. C., Sokol L. M. The effect of cluster size, dimensionality, and the number of clusters on recovery of true cluster structure. IEEE Transactions on pattern Analysis and Machine Intelligence, 5, 40-47, 1983.

185. Jain A. K. and Moreau J. V. Bootstrap technique in cluster analysis. Pattern Recognition, 20, 547-568, 1987.

186. Milligan G. W., Cooper M. C. A study of the comparability of external criteria for hierarchical cluster analysis. Multivariate Behavioral Research, 21, 441Ч458, 1986.

187. Yeung K.Y., Haynor D.R., Ruzzo W.L. Validating clustering for gene expression data. Tech. Rep. UW-CSE-00-01-01, Dept. of Computer Science and Engineering, University of Washington, 2000.

188. Т. M. Cover, J. M. Van Campenhout. On the possible orderings in the measurement selection problem. IEEE Transactions on Systems, Man, and Cybernetics, SMC-7(9), pp 657-661, 1977.

189. F. Ferri, P. Pudil, M. Hatef, J. Kittler. Comparative study of techniques for largescale feature selection. In E. Gelsema and L. Kanal, editors, Pattern Recognition in Practice IV, pp 403-413, Elsevier Science B.V., 1994.

190. Y. Hamamoto, S. Uchimura, Y. Matsuura, T. Kanaoka, S. Tomita. Evaluation of the branch and bound algorithm for feature selection. Pattern Recognition Letters, 11, pp 453-456, 1990.

191. A. K. Jain, B. Chandrasekaran. Dimensionality and sample size considerations. In P. R. Krishnaiah and L. N. Kanal, editors, Pattern Recognition Practice, volume 2, chapter 39, pp 835-855. North-Holland, 1982.

192. W. F. Punch, E. D. Goodman, M. Pei, L. Chia-Shun, P. Hovland, R. Enbody. Further research on feature selection and classication using genetic algorithms. In Proc. 5th International Conference on Genetic Algorithms, pp 557-564, 1993.

193. S.J. Raudys, A.K. Jain. Small sample size effects in statistical pattern recognition: Recommendations for practitioners. IEEE Transactions on Pattern Analysis and Machine Intelligence, 13, pp 252-264, 1991.

Похожие диссертации