Курс Vсеместры 9 (осенний) лекции 17 часов Экзамен 9 семестр (осенний)

Вид материала

Содержание

семестры 9 (осенний)
лабораторные занятия 17 часов
Программу составили: профессор, д.ф-м.н. Бернштейн А.В. ассистент Бурнаев Е.В.
Заведующий кафедрой
Список литературы

Подобный материал:

министерство образования и науки российской федерации

Федеральное агентство по образованию

Государственное образовательное учреждение

высшего профессионального образования

Московский физико-технический институт

(государственный университет)

УТВЕРЖДАЮ

проректор по учебной работе

д.т.н. Е.В. Глухова

«___» _____________ 200__ г.

П Р О Г Р А М М А

курса АНАЛИЗ ДАННЫХ. ЧАСТЬ II. КЛАССИФИКАЦИЯ И СНИЖЕНИЕ

РАЗМЕРНОСТИ.

по направлению 010600 «Прикладные математика и физика»

по магистерской программе 010656

факультет РТК

кафедра проблем передачи и обработки информации

курс V

семестры 9 (осенний)

лекции 17 часов Экзамен 9 семестр (осенний)

семинары нет Зачёт нет

лабораторные занятия 17 часов

самостоятельная работа 2 часа в неделю

ВСЕГО ЧАСОВ 34

Программу составили: профессор, д.ф-м.н. Бернштейн А.В.

ассистент Бурнаев Е.В.

Программа обсуждена на заседании кафедры

проблем передачи и обработки информации

02 июня 2008 года

Заведующий кафедрой

чл.-корр. РАН А.П. Кулешов

1. Введение.

Классификация и снижение размерности. Сущность и типологизация задач, области применения.

2. Классификация в случае, когда распределения классов определены полностью.

Два класса, заданных функциями распределения. Характеристика качества классификации. Два класса, заданных генеральными совокупностями. Отбор информативных переменных. Три и более полностью определенных класса.

3. Теоретические результаты классификации при наличии обучающих выборок (дискриминантный анализ).

Базовые понятия дискриминантного анализа (ДА). Методы изучения алгоритмов ДА. Подстановочные алгоритмы в асимптотике растущей размерности. Статистическая регуляризация оценки обратной ковариационной матрицы в линейной дискриминантной функции для модели Фишера. Отбор переменных. Метод структурной минимизации риска.

4. Практические рекомендации классификации при наличии обучающих выборок.

Предварительный анализ данных. Оценивание отношения правдоподобия. Сводка рекомендаций по линейному дискриминантному анализу. Оценка качества дискриминации. Рекомендации для случая, когда количество классов больше двух.

5. Применения дискриминантного анализа.

Группы риска и сравнительные испытания. Методы описания риска развития событий. Другие применения дискриминантного анализа.

6. Основные понятия и определения, используемые в методах классификации без обучения.

Общая (нестрогая) постановка задачи классификации объектов или признаков в условиях отсутствия обучающих выборок. Расстояния между отдельными объектами и меры близости объектов друг к другу. Расстояние между классами и мера близости классов. Функционалы качества разбиения на классы и экстремальная постановка задачи кластер-анализа. Связь с теорией статистического оценивания параметров.

7. Классификация без обучения (параметрический случай): расщепление смесей вероятностных распределений.

Понятие смеси вероятностных распределений. Общая схема решения задачи автоматической классификации в рамках модели смеси распределений (сведение к схеме дискриминантного анализа). Идентифицируемость (различимость) смесей распределений. Процедуры оценивания параметров модели смеси распределений. Рекомендации по определению начальных значений параметров алгоритмов расщепления смесей распределений.

8. Автоматическая классификация, основанная на описании классов «ядрами».

Эвристические алгоритмы. Алгоритмы, использующие понятие центра тяжести. Алгоритмы с управляющими параметрами, настраиваемыми в ходе классификаций. Алгоритмы метода динамических сгущений. Алгоритмы метода размытых множеств. Алгоритмы, основанные на методе просеивания (решета).

9. Иерархическая классификация.

Основные определения. Методы и алгоритмы иерархической классификации. Графические представления результатов иерархической классификации. Приложения общей рекуррентной формулы для мер близости между классами. Быстрый алгоритм иерархической классификации.

10. Процедуры кластер-анализа и разделения смесей при наличии априорных ограничений.

Разделение смесей при наличии неполных обучающих выборок. Классификация при ограничениях на связи между объектами. Классификация на графах.

11. Теория автоматической классификации.

Математическая модель алгоритма автоматической классификации (ААК). Базисная модель ААК, основанного на описании классов ядрами. Иерархическая структура многообразия ААК. Исследование сходимости ААК.

12. Выбор метрики и сокращение размерностей в задачах кластер-анализа.

Целенаправленное проектирование данных в пространство небольшой размерности с сохранением кластерной структуры. Метрики для задач кластер-анализа с неколичественными переменными. Алгоритмы классификации с адаптивной метриков. Оценка метрики с помощью частично-обучающих выборок.

13. Средства представления и интерпретации результатов автоматической классификации.

Некоторые средства оценки результатов кластер-анализа. Связь между показателями качества прогноза переменных, метрикой и некоторыми критериями качества классификации в кластер-анализе. Некоторые методические рекомендации. Средства, помогающие интерпретации результатов.

14. Метод главных компонент.

Сущность проблемы снижения размерности и различные методы ее решения. Определение, вычисление и основные числовые характеристики главных компонент. Экстремальные свойства главных компонент, их интерпретация. Статистические свойства выборочных главных компонент, статистическая проверка некоторых гипотез. Главные компоненты в задачах классификации. Нелинейное отображение многомерных данных в пространство низкой размерности.

15. Модели и методы факторного анализа.

Сущность модели факторного анализа, его основные задачи. Каноническая модель факторного анализа. Некоторые эвристические методы снижения размерности.

16. Экспертно-статистический метод построения единого сводного показателя эффективности функционирования (качества) объекта (скалярная редукция многокритериальной схемы).

Латентный единый (сводный) показатель «качества». Понятия «выходного качества» целевой функции и «входных переменных» (частных критериев). Исходные данные. Алгоритмические и вычислительные вопросы построения неизвестной целевой функции. Применение экспертно-статистического метода построения латентного интегрального показателя к решению практических задач.

17. Многомерное шкалирование.

Метрическое многомерное шкалирование. Неметрическое многомерное шкалирование. Шкалирование индивидуальных различий.

18. Средства анализа и визуализации неколичественных данных.

Анализ соответствий для двухвходовых таблиц сопряженности. Множественный анализ соответствий. Алгоритмы оцифровки неколичественных переменных.

19. Разведочный анализ. Цели, модели структур данных, методы и приемы анализа.

Цели разведочного анализа и модели описания структуры многомерных данных. Визуализация данных. Преобразования данных в разведочном анализе данных. Использование дополнительных (иллюстративных) переменных и объектов. Основные типы данных и методы, используемые в разведочном анализе данных.

20. Целенаправленное проектирование многомерных данных.

Цель и основные понятия целенаправленного проектирования. Проекционные индексы, подходящие для выделения кластеров. Выявление эллипсоидальной кластерной структуры (восстановление дискриминантного подпространства). Проекционные индексы для дискриминантного анализа. Выделение аномальных наблюдений. Регрессия на основе целенаправленного проектирования. Восстановление плотности и связь с томографией. Некоторые вопросы вычислительной реализации и практические приемы целенаправленного проектирования.

21. Теоретические основы целенаправленного проектирования и томографических методов анализа данных.

Проекции многомерных распределений и их свойства. Радиальные распределения. Теория процедур оптимизации проекционных индексов.

СПИСОК ЛИТЕРАТУРЫ

1. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data mining, Inference, and Prediction. Springer, 2001.

2. Bishop C.M. Pattern Recognition and Machine Learning. Springer, 2006.

3. MacKay D.J.C. Information Theory, Inference, and Learning Algorithms. Cambridge, 2003.

4. Wasserman L. All of Statistics. A Concise Course in Statistical Inference. Springer, 2004.

5. Wasserman L. All of Nonparametric Statistics. Springer, 2006.

6. Хайкин С. Нейронные сети: полный курс. М.: ООО “И.Д. Вильямс”, 2006.

7. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983.

8. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. М.: Финансы и статистика, 1985.

9. Айвазян С.А., Бухштабер В.М„ Енюков С.А., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989.

10. Кендалл М., Стьюарт А. Теория распределений. М.: Наука, 1966.

11. Кендалл М., Стьюарт А. (1973), Статистические выводы и связи. М.: Наука.

12. Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. М.: Наука, 1976.

13. Андерсон Т. Введение в многомерный статистический анализ. М.: Физматгиз, 1963.

Blog