Математическая статистика и её частные методы
Курсовой проект - Математика и статистика
Другие курсовые по предмету Математика и статистика
?унена и др.
Позднее были разработаны факторный анализ и многочисленные нелинейные обобщения.
Метод главных компонент и будет рассмотрен поподробнее.
.2 Метод главных компонент
Метод главных компонент (PCA - Principal component analysis) - один из основных способов уменьшить размерность данных при наименьшей потере сведений. Изобретенный в 1901 г. Карлом Пирсоном он широко применяется во многих областях. Например, для сжатия данных, компьютерного зрения, распознавания видимых образов и т.д. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных. Метод главных компонент часто называют преобразованием Кархунена-Лёве (Karhunen-Loeve transform) или преобразованием Хотеллинга (Hotelling transform). Также над этим вопросом работали математики Косамби (1943 г.), Пугачёв (1953 г.) и Обухова (1954 г.).
Задача анализа главных компонент имеет своей целью аппроксимировать (приблизить) данные линейными многообразиями меньшей размерности; найти подпространства меньшей размерности, в ортогональной проекции на которые разброс данных (то есть среднеквадратичное отклонение от среднего значения) максимален; найти подпространства меньшей размерности, в ортогональной проекции на которые среднеквадратичное расстояние между точками максимально. В этом случае оперируют конечными множествами данных. Они эквивалентны и не используют никакой гипотезы о статистическом порождении данных.
Кроме того задачей анализа главных компонент может быть цель построить для данной многомерной случайной величины такое ортогональное преобразование координат, что в результате корреляции между отдельными координатами обратятся в ноль. Эта версия оперирует случайными величинами.
">
Рис.3 Метод главных компонент К. Пирсона (1901 г.).
На приведённом выше рисунке даны точки Pi на плоскости, pi - расстояние от Pi до прямой AB. Ищется прямая AB, минимизирующая сумму
Метод главных компонент начинался с задачи наилучшей аппроксимации (приближения) конечного множества точек прямыми и плоскостями. Например, дано конечное множество векторов . Для каждого k = 0,1,...,n ? 1 среди всех k-мерных линейных многообразий в найти такое , что сумма квадратов уклонений xi от Lk минимальна:
,
где ? евклидово расстояние от точки до линейного многообразия.
Всякое k-мерное линейное многообразие в может быть задано как множество линейных комбинаций , где параметры ?i пробегают вещественную прямую , а ? ортонормированный набор векторов
,
где евклидова норма, ? евклидово скалярное произведение, или в координатной форме:
.
Решение задачи аппроксимации для k = 0,1,...,n ? 1 даётся набором вложенных линейных многообразий
,
.
Эти линейные многообразия определяются ортонормированным набором векторов (векторами главных компонент) и вектором a0. Вектор a0 ищется, как решение задачи минимизации для L0:
то есть
.
В итоге получается выборочное среднее:
Французский математик Морис Фреше в 1948 году обратил внимание, что вариационное определение среднего, как точки, минимизирующей сумму квадратов расстояний до точек данных, очень удобно для построения статистики в произвольном метрическом пространстве, и построил обобщение классической статистики для общих пространств, получившее название обобщённого метода наименьших квадратов.
Векторы главных компонент могут быть найдены как решения однотипных задач оптимизации:
1)централизуем данные (вычитаем среднее):
Теперь ;
) находим первую главную компоненту как решение задачи;
.
Если решение не единственно, то выбираем одно из них.
) Вычитаем из данных проекцию на первую главную компоненту:
;
) находим вторую главную компоненту как решение задачи
.
Если решение не единственно, то выбираем одно из них.
k-1) Вычитаем проекцию на (k ? 1)-ю главную компоненту (напомним, что проекции на предшествующие (k ? 2) главные компоненты уже вычтены):
;
k) находим k-ю главную компоненту как решение задачи:
.
Если решение не единственно, то выбираем одно из них.
">
Рис. 4 Первая главная компонента и максимальная выборочная дисперсия
Первая главная компонента максимизирует выборочную дисперсию проекции данных.
Например, пусть нам дан центрированный набор векторов данных , где среднее арифметическое значение xi равно нулю. Задача ? найти такое отртогональное преобразование в новую систему координат, для которого были бы верны следующие условия:
.();"> Выборочная дисперсия данных вдоль первой координаты (главной компоненты) максимальна;
.Выборочная дисперсия данных вдоль второй координаты (вторая главная компоненты) максимальна при условии ортогональности первой координате;
.Выборочная дис