Математическая статистика и её частные методы

Курсовой проект - Математика и статистика

Другие курсовые по предмету Математика и статистика

?овным предназначением его является разграничение между необходимостью исследования массивов данных при минимуме их использования.

 

2.3 Применение Метода главных компонент

 

Метод главных компонент применим всегда. Утверждение о том, что он применим только к нормально распределённым данным (или для распределений, близких к нормальным) многими математиками считается неверным, так как в исходной формулировке К. Пирсона ставится задача об аппроксимации конечного множества данных и отсутствует даже гипотеза об их статистическом порождении, не говоря уж о распределении.

 

">

Рис. 6. Аппроксимирующий дендрит - древо приближения

 

Построение ветвящихся главных компонент методом топологических грамматик, где крестики это точки данных, а красное дерево с желтыми узлами - аппроксимирующий дендрит, то есть древо приближения.

Однако метод не всегда эффективно снижает размерность при заданных ограничениях на точность ?k. Прямые и плоскости не всегда обеспечивают хорошую аппроксимацию. Например, данные могут с хорошей точностью следовать какой-нибудь кривой, а эта кривая может быть сложно расположена в пространстве данных. В этом случае метод главных компонент для приемлемой точности потребует нескольких компонент (вместо одной), или вообще не даст снижения размерности при приемлемой точности. Для работы с такими кривыми главными компонентами изобретен метод главных многообразий и различные версии нелинейного метода главных компонент. Данные сложной топологии апроксимируются при помощи саморегулирующихся карт Кархунена или топологических грамматик Зиновьева, Горбаня и Саммера"> . Если данные статистически порождены с распределением, сильно отличающимся от нормального, то для аппроксимации распределения полезно перейти от главных компонент к независимым компонентам Гидринена, Кахранена и Ойя, которые уже не ортогональны в исходном скалярном произведении. Наконец, для изотропного распределения (даже нормального) вместо эллипсоида рассеяния получаем шар, и уменьшить размерность методами аппроксимации невозможно.

Примеры использования Метода главных компонент представлены визуализацией данных, то есть представлением в наглядной форме данных эксперимента или результатов теоретического исследования. Визуализация данных является одним из наиболее широко используемых приложений метода главных компонент и его нелинейных обобщений.

Компрессия изображений и видео применяется для уменьшения пространственной избыточности пикселей при кодировании изображений и видео, когда используется линейные преобразования блоков пикселей. Последующие квантования полученных коэффициентов и кодирование без потерь позволяют получить значительные коэффициенты сжатия. Использование преобразования PCA в качестве линейного преобразования является для некоторых типов данных оптимальным с точки зрения размера полученных данных при одинаковом искажении. Также сжатия данных можно достичь отбрасывая последние коэффициенты преобразования.

Подавление шума на изображениях заключается в том, что при удалении шума из блока пикселей необходимо представить окрестность этого блока в виде набора точек в многомерном пространстве, применить к нему PCA и оставить только первые компоненты преобразования. При этом предполагается, что в первых компонентах содержится основная полезная информация, оставшиеся же компоненты содержат ненужный шум. Применив обратное преобразование получают изображение без шума.

Индексация видео заключается в том, что при помощи PCA каждый кадр видео несколькими значениями, которые в дальнейшем будут использоваться при построении базы данных и запросам к ней. Такая существенная редукция данных позволяет значительно увеличить скорость работы и устойчивость к ряду искажений в видео.

Метод главных компонент интенсивно используется в биологии для сокращения размерности описания, выделения значимой информации, визуализации данных и др. Также он используется в хемометрике - химической дисциплине, применяющей математические и статистические методы, основанные на формальной логике, для построения или отбора оптимальных методов измерения и планов эксперимента, а также для извлечения наиболее важной информации при анализе экспериментальных данных. Этот метод позволяет разделить матрицу исходных данных X на две части: содержательную и шум.

Самым важным для нас является применимость Метода главных компонент в эконометрике, где он применяется для наглядного представления данных; обеспечения лаконизма моделей, упрощения счета и интерпретации; а также сжатия объемов хранимой информации. Этот метод обеспечивает максимальную информативность и минимальное искажение геометрической структуры исходных данных.

В социологии метод необходим для анализа данных с описанием результатов опросов или других исследований, представленных в виде массивов числовых данных, а также для описания социальных явлений с построением моделей явлений, в том числе и математических моделей.

В политологии метод главных компонент - основной инструмент для линейного и нелинейного анализа рейтингов 192 стран мира по пяти специально разработанным интегральным индексам (уровня жизни, междунар?/p>