Математическая статистика и её частные методы

Курсовой проект - Математика и статистика

Другие курсовые по предмету Математика и статистика

?унена и др.

Позднее были разработаны факторный анализ и многочисленные нелинейные обобщения.

Метод главных компонент и будет рассмотрен поподробнее.

 

.2 Метод главных компонент

 

Метод главных компонент (PCA - Principal component analysis) - один из основных способов уменьшить размерность данных при наименьшей потере сведений. Изобретенный в 1901 г. Карлом Пирсоном он широко применяется во многих областях. Например, для сжатия данных, компьютерного зрения, распознавания видимых образов и т.д. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных. Метод главных компонент часто называют преобразованием Кархунена-Лёве (Karhunen-Loeve transform) или преобразованием Хотеллинга (Hotelling transform). Также над этим вопросом работали математики Косамби (1943 г.), Пугачёв (1953 г.) и Обухова (1954 г.).

Задача анализа главных компонент имеет своей целью аппроксимировать (приблизить) данные линейными многообразиями меньшей размерности; найти подпространства меньшей размерности, в ортогональной проекции на которые разброс данных (то есть среднеквадратичное отклонение от среднего значения) максимален; найти подпространства меньшей размерности, в ортогональной проекции на которые среднеквадратичное расстояние между точками максимально. В этом случае оперируют конечными множествами данных. Они эквивалентны и не используют никакой гипотезы о статистическом порождении данных.

Кроме того задачей анализа главных компонент может быть цель построить для данной многомерной случайной величины такое ортогональное преобразование координат, что в результате корреляции между отдельными координатами обратятся в ноль. Эта версия оперирует случайными величинами.

 

">

Рис.3 Метод главных компонент К. Пирсона (1901 г.).

 

На приведённом выше рисунке даны точки Pi на плоскости, pi - расстояние от Pi до прямой AB. Ищется прямая AB, минимизирующая сумму

Метод главных компонент начинался с задачи наилучшей аппроксимации (приближения) конечного множества точек прямыми и плоскостями. Например, дано конечное множество векторов . Для каждого k = 0,1,...,n ? 1 среди всех k-мерных линейных многообразий в найти такое , что сумма квадратов уклонений xi от Lk минимальна:

 

,

 

где ? евклидово расстояние от точки до линейного многообразия.

Всякое k-мерное линейное многообразие в может быть задано как множество линейных комбинаций , где параметры ?i пробегают вещественную прямую , а ? ортонормированный набор векторов

 

,

 

где евклидова норма, ? евклидово скалярное произведение, или в координатной форме:

 

.

 

Решение задачи аппроксимации для k = 0,1,...,n ? 1 даётся набором вложенных линейных многообразий

 

,

.

 

Эти линейные многообразия определяются ортонормированным набором векторов (векторами главных компонент) и вектором a0. Вектор a0 ищется, как решение задачи минимизации для L0:

 

 

то есть

 

.

 

В итоге получается выборочное среднее:

 

 

Французский математик Морис Фреше в 1948 году обратил внимание, что вариационное определение среднего, как точки, минимизирующей сумму квадратов расстояний до точек данных, очень удобно для построения статистики в произвольном метрическом пространстве, и построил обобщение классической статистики для общих пространств, получившее название обобщённого метода наименьших квадратов.

Векторы главных компонент могут быть найдены как решения однотипных задач оптимизации:

1)централизуем данные (вычитаем среднее):

 

Теперь ;

 

) находим первую главную компоненту как решение задачи;

 

.

 

Если решение не единственно, то выбираем одно из них.

) Вычитаем из данных проекцию на первую главную компоненту:

 

;

 

) находим вторую главную компоненту как решение задачи

 

.

 

Если решение не единственно, то выбираем одно из них.

k-1) Вычитаем проекцию на (k ? 1)-ю главную компоненту (напомним, что проекции на предшествующие (k ? 2) главные компоненты уже вычтены):

 

;

 

k) находим k-ю главную компоненту как решение задачи:

 

.

 

Если решение не единственно, то выбираем одно из них.

 

">

Рис. 4 Первая главная компонента и максимальная выборочная дисперсия

 

Первая главная компонента максимизирует выборочную дисперсию проекции данных.

Например, пусть нам дан центрированный набор векторов данных , где среднее арифметическое значение xi равно нулю. Задача ? найти такое отртогональное преобразование в новую систему координат, для которого были бы верны следующие условия:

.();"> Выборочная дисперсия данных вдоль первой координаты (главной компоненты) максимальна;

.Выборочная дисперсия данных вдоль второй координаты (вторая главная компоненты) максимальна при условии ортогональности первой координате;

.Выборочная дис