Математическая статистика и её частные методы
Курсовой проект - Математика и статистика
Другие курсовые по предмету Математика и статистика
персия данных вдоль значений k-ой координаты максимальна при условии ортогональности первым k ? 1 координатам;
Выборочная дисперсия данных вдоль направления, заданного нормированным вектором ak, это
(поскольку данные центрированы, выборочная дисперсия здесь совпадает со средним квадратом уклонения от нуля).
Решение задачи о наилучшей аппроксимации даёт то же множество главных компонент , что и поиск ортогональных проекций с наибольшим рассеянием, по очень простой причине:
и первое слагаемое не зависит от ak.
Матрица преобразования данных к главным компонентам строится из векторов A главных компонент:
Здесь ai - ортонормированные векторы-столбцы главных компонент, расположенные в порядке убывания собственных значений, верхний индекс T означает транспонирование. Матрица A является ортогональной: AAT = 1.
После преобразования большая часть вариации данных будет сосредоточена в первых координатах, что даёт возможность отбросить оставшиеся и рассмотреть пространство уменьшенной размерности.
Самым старым методом отбора главных компонент является правило Кайзера, по которому значимы те главные компоненты, для которых
то есть ?i превосходит среднее значение ? (среднюю выборочную дисперсию координат вектора данных). Правило Кайзера хорошо работает в простых случаях, когда есть несколько главных компонент с ?i, намного превосходящими среднее значение, а остальные собственные числа меньше него. В более сложных случаях оно может давать слишком много значимых главных компонент. Если данные нормированы на единичную выборочную дисперсию по осям, то правило Кайзера приобретает особо простой вид: значимы только те главные компоненты, для которых ?i > 1.
Одним из наиболее популярных эвристических подходов к оценке числа необходимых главных компонент является правило сломанной трости, когда набор нормированных на единичную сумму собственных чисел (, i = 1,...n) сравнивается с распределением длин обломков трости единичной длины, сломанной в n ? 1-й случайно выбранной точке (точки разлома выбираются независимо и равнораспределены по длине трости). Если Li (i = 1,...n) - длины полученных кусков трости, занумерованные в порядке убывания длины: , тогда математическое ожидание Li:
Разберём пример, заключающийся в оценке числа главных компонент по правилу сломанной трости в размерности 5.
">
Рис. 5. Правило сломанной трости в размерности 5
По правилу сломанной трости k-й собственный вектор (в порядке убывания собственных чисел ?i) сохраняется в списке главных компонент, если
На рисунке выше приведён пример для 5-мерного случая:
1=(1+1/2+1/3+1/4+1/5)/5; l2=(1/2+1/3+1/4+1/5)/5; l3=(1/3+1/4+1/5)/5; 4=(1/4+1/5)/5; l5=(1/5)/5.
Для примера выбрано
=0.5; =0.3; =0.1; =0.06; =0.04.
По правилу сломанной трости в этом примере следует оставлять 2 главных компоненты:
Следует только иметь в ввиду, что правило сломанной трости имеет тенденцию занижать количество значимых главных компонент.
После проецирования на первые k главных компонент с удобно произвести нормировку на единичную (выборочную) дисперсию по осям. Дисперсия вдоль iй главной компоненты равна ), поэтому для нормировки надо разделить соответствующую координату на . Это преобразование не является ортогональным и не сохраняет скалярного произведения. Ковариационная матрица проекции данных после нормировки становится единичной, проекции на любые два ортогональных направления становятся независимыми величинами, а любой ортонормированный базис становится базисом главных компонент (напомним, что нормировка меняет отношение ортогональности векторов). Отображение из пространства исходных данных на первые k главных компонент вместе с нормировкой задается матрицей
.
Именно это преобразование чаще всего называется преобразованием Кархунена-Лоэва, то есть собственно методом главных компонент. Здесь ai - векторы-столбцы, а верхний индекс T означает транспонирование.
В статистике при использовании метода главных компонент используют несколько специальных терминов.
Матрица данных , где каждая строка - вектор предобработанных данных (центрированных и правильно нормированных), число строк - m (количество векторов данных), число столбцов - n (размерность пространства данных);
Матрица нагрузок (Loadings) , где каждый столбец - вектор главных компонент, число строк - n (размерность пространства данных), число столбцов - k (количество векторов главных компонент, выбранных для проецирования);
Матрица счетов (Scores)
,
где каждая строка - проекция вектора данных на k главных компонент; число строк - m (количество векторов данных), число столбцов - k (количество векторов главных компонент, выбранных для проецирования);
Матрица Z-счетов (Z-scores)
,
где каждая строка- проекция вектора данных на k главных компонент, нормированная на единичную выборочную дисперсию; число строк - m (количество векторов данных), число столбцов - k (количество векторов главных компонент, выбранных для проецирования);
Матрица ошибок (остатков) (Errors or residuals)
.
Основная формула:
Таким образом, Метод главных компонент, один из основных методов математической статистики. Ос?/p>