Книги по разным темам Pages:     | 1 |   ...   | 6 | 7 | 8 | 9 | 10 |   ...   | 20 |

Таким образом, функция плотности указываетна более вероятные именее вероятные интервалызначений случайной величины. Если случайная величина имеет равномерное распределение на отрезке,то для нее все интервалызначений, имеющие одинаковую длину и расположенные целиком в пределах отрезка, имеютодинаковые вероятности (т.е. вероятности попадания значений случайной величины на эти интервалыодинаковы). Если же случайная величинаимеет треугольное распределение на отрезке,то для нее интервалы значений, имеющие одинаковую длину и расположенныецеликом в пределах отрезка, имеют, вообще говоря, различные вероятности: вероятность того, что случайная величина приметзначение в интервале, расположенном ближе к центральному значению,больше вероятности того,что случайная величина примет значение в интервале, расположенном ближе кодному из концов отрезка.

Обсудим несколько более точно вопрос о том,что мы понимаем под независимостью нескольких случайных величин. Пусть мы имеем случайных величин, имеющиходинаковую функцию распределения. Мы говорим, что эти случайные величины независимы в совокупности,если для любого наборапар,,...,, гдеи могут быть равны также и,

При таком предположении условная вероятность того, что, например,, приусловии, что,,, равна безусловной вероятности того, что, т. е. вероятности, вычисляемой без задания указанногоусловия:

(Вертикальнаячерта в этой формуле указывает на то, что перваявероятность —условная; справа отвертикальной черты записано условие, при котором вычисляется эта вероятность.) Иначе говоря, нараспределение вероятности случайной величиныне влияет информация означениях случайных величин. И вообще, на распределение вероятностей случайнойвеличины не влияетинформация о значениях случайных величин с.

Если случайные величины имеютодинаковое распределение (заданное или функцией распределения или функцией плотности)и независимы в совокупности, то часто это обозначают в записи следующим образом:

~.

Возвращаясь к модели наблюдений

и предполагая, что —независимые случайные величины, имеющие одинаковоераспределение (i. i.d), мы должны теперь сделатьеще и предположение о том, каким именно является это одинаковое для всехраспределение.

2.2. ГАУССОВСКОЕ (НОРМАЛЬНОЕ)РАСПРЕДЕЛЕНИЕ ОШИБОК В ЛИНЕЙНОЙ МОДЕЛИ НАБЛЮДЕНИЙ

Итак, предположив, что в моделинаблюдений

ошибки — независимые случайные величины, имеющие одинаковое распределение(i. i. d), мы должны сделать и предположение отом, каким именно являетсяэто распределение.

Классические методы статистического анализалинейных моделей наблюдений предполагают, что таковым является распределение Гаусса (Gaussian distribution), функция плотности которого имеет вид

График указанной функции плотности имеетколоколообразную форму

Параметр характеризует степеньрассредоточения распределения вдоль оси абсцисс. На диаграмме представленыграфики функций плотности гауссовского распределения при трех различныхзначениях параметра. Из трех представленных функций наибольшее значение в нулеимеет функция плотности с, наименьшее — функция плотности с, апромежуточное между ними — функция плотности с. Эти значения равны,соответственно,

Гауссовское распределение симметрично относительно нуля, и этопредполагает, что положительные ошибки столь жевероятны, как и отрицательные; при этом, малые ошибки встречаются чаще, чем большие. Если случайная ошибка имеет гауссовское распределение спараметром, то с вероятностью ее значение будет заключено в пределахот до. Соответственно, для трех рассмотренныхслучаев получаем: с вероятностью значение случайной ошибки заключено винтервале

— при, -при, - при.

Хотя гауссовское распределение довольночасто вполне приемлемо для описания случайных ошибок в моделях наблюдений, онововсе не является универсальным. Такое распределение характерно для ситуаций,когда результирующая ошибка является следствием сложения большого количестванезависимых случайных ошибок, каждая из которых достаточно мала.

Мы будем далее в этом параграфепредполагать, что процесс порождения данных(ППД, или DGP- data generatingprocess) устроен следующимобразом. Значения известны точно и рассматриваются как заданные, а значения получаютсяналожением назначения случайных ошибок.

В этом контексте, рассматриваются какнекоторые постоянные (хотяи не известныенаблюдателю). Напротив, значения носят случайный характер, определяемыйслучайным характером значений. Собственно, отличается от случайнойвеличины лишь сдвигом на постоянную, и потому также является случайнойвеличиной. Мы будем обозначать ее в этом качестве какслучайную величину. Функция распределения этой случайной величины имеетвид

где — функция распределения случайнойвеличины (одинаковая длявсех ). Соответственно, функция плотности распределения случайнойвеличины имеет вид

где — функция плотности распределенияслучайной величины.

Таким образом, случайные величины хотяи являются взаимно независимыми (в силу предполагаемой взаимной независимостислучайных величин), но имеют разныераспределения, отличающиесясдвигом. На следующем рисунке представлены графикифункции плотности распределения (гауссовское распределение с параметром )и функции плотности распределения случайной величины при значении.

Заметим, что если случайная ошибкаимеет гауссовское распределение с плотностью

то отличающаяся от нее сдвигом случайнаявеличина имеет функцию плотности

Эта функция плотности принадлежитдвухпараметрическому семейству функций плотности вида

Функции плотности такого вида называютсянормальными плотностями, аопределяемые ими распределения вероятностей называются нормальными распределениями вероятностей. Если некоторая случайная величина имеет плотностьраспределения, заданную последним соотношением, то говорят, что случайная величина Y имеет нормальное распределение с параметрамиμ и σ2.Распределение такой случайной величины симметрично относительно своегосреднего значенияμ. Максимальное значениефункции плотности этой случайной величины достигается при.

Таким образом, строго говоря, гауссовское распределение — это нормальное распределение снулевым средним значением. Однако, в современнойнаучной литературе термины нормальное распределениеи гауссовское распределениеиспользуются как синонимы:нормальное распределение с параметрами μ и σ2аназывают также гауссовскимраспределением с параметрами μ и σ2.

Важнейшая роль предположения о нормальном(гауссовском) распределении ошибок в линейной модели наблюдений

определяется тем обстоятельством, что придобавлении такого предположения к стандартномупредположению о том, что ошибки — независимые случайные величины, имеющие одинаковоераспределение, можно легко найти точный видраспределения оценок наименьших квадратов для неизвестных значений параметровмодели.

Вспомним, в этой связи, полученное ранеевыражение

Обозначая

мы можем записать выражение для ввиде

где

Таким образом,

где — фиксированные величины, а— наблюдаемые значения случайных величин.Поэтому вычисленное попоследней формуле значение является наблюдаемым значением случайной величины

которая является линейной комбинацией случайных величин и имеет некоторое распределение вероятностей, зависящее отраспределения последних.

В общем случае, аналитическое описаниераспределения как случайной величины довольно затруднительно. Болеепросто эта задача решается в ситуации, когда имеет гауссовское распределение. Если ошибки -независимые случайные величины, имеющие одинаковоенормальное распределение с нулевым средним, то тогдаоценка наименьших квадратов параметра также имеет нормальное распределение.Чтобы указать параметры этого нормального распределения и иметь возможностьпроводить статистический анализ подобранной модели линейной связи междупеременными факторами, нам придется уделить внимание некоторым важным числовымхарактеристикам случайных величин и их свойствам.

2.3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ
ВЕЛИЧИН И ИХСВОЙСТВА

Случайные величины, с которыми мы имеем делов данном курсе, полностью определяются заданием их функцииплотности, указывающей на зоны более вероятных и менеевероятных значений случайной величины. Часто, однако, интересуются болеесжатыми характеристиками распределений случайных величин, выраженнымиотдельными числами. К такимхарактеристикам, в первую очередь, относятся математическое ожидание и дисперсия случайнойвеличины.

Пусть случайная величина имеет функциюплотности. График функции ограничивает вместе с осью абсциссполосу переменной ширины.Если рассматривать эту полосу как материальный объект определенной (постоянной)толщины, изготовленный из однородного материала и имеющий массу, равнуюединице, то абсцисса центра тяжести этого материального объекта называетсяматематическим ожиданием (expectation)случайной величины X,обозначается E (X)и вычисляется по формуле

Если график функции плотности симметричен относительно оси ординат(так что —четная функция), то

Довольно часто о говорят как осреднем значении случайной величины X.аЭто связанос тем, что если — независимые копии случайной величины (т. е. случайные величинынезависимы в совокупности и имеют то же распределение, что и ), то тогдапри больших длянаблюдаемых значенийслучайных величин имеет место приближенноеравенство

тем более точное, чем большезначение. Иными словами, с увеличениемзначение сколь угодно точно приближается значением среднеарифметическогонаблюдаемых величин.

Обратимся опять к упомянутому ранеегауссовскому (нормальному)распределению с функцией плотности

и пусть случайная величина имеет такоераспределение с, а случайная величина имеет такое распределение с.Сравним графики соответствующих функций плотности (сплошной линией представленграфик функции плотности случайной величины ):

Поскольку в обоих случаях графикисимметричны относительно нуля, то

т. е. математические ожидания случайныхвеличин и совпадают.Однако, распределение случайной величины болеерассредоточено, и это означает, что для любого

При этом говорят, что распределениеслучайной величиныимеет более тяжелые (heavy), илиболее длинные (long) хвосты(tails). Соответственно,

В рассмотренном случае в качестве числовойхарактеристики степени рассредоточенности распределения можно было бы принятьпараметр: чем больше значение этого параметра, тем более рассредоточенораспределение. В общем случае, сравнивать степени рассредоточенностираспределений случайных величин можно, привлекая для этой цели понятиедисперсии.

Дисперсией (variance)случайной величины X называют число

равное математическому ожиданию квадратаотклонения случайной величиныот ее математического ожидания. 1 Зная функциюплотности случайной величины, дисперсию этой случайной величины можновычислить по формуле

Таким образом, математическое ожидание можноинтерпретировать как взвешенное среднее возможныхзначений случайнойвеличины, с весами, пропорциональными, адисперсию— каквзвешенное среднее (с теми же весами) квадратовотклонений возможных значений случайной величины от ее математического ожидания.

Если случайная величина имеетнормальное распределение сфункцией плотности

то для нее

Таким образом, случайная величина, имеющаянормальное распределение,полностью определяется (вотношении ее распределения) заданием значений ее математического ожидания идисперсии.

В связи с частым использованием нормальнораспределенных случайных величин в дальнейшем изложении, мы будем обозначатьнормальное распределение, имеющее математическое ожидание и дисперсию,символом. В случае, когда,, говорят о стандартномнормальном распределении. Имеются весьма подробныетаблицы значений функции распределения и функции плотности стандартногонормального распределения.

Для дальнейшего нам, в первую очередь,понадобятся следующие простые свойстваматематического ожидания и дисперсии.

Если - некоторая постоянная, отличная от нуля, а-некоторая случайная величина, то тогда сумма и произведение также являютсяслучайными величинами; при этом,

Два свойства, касающиеся математическогоожидания, непосредственно следуют из определения математического ожидания. Привыводе первого из них учитываем, что по самому определению функции плотностираспределения,

Из этих двух свойств математическогоожидания легко получаем указанные два свойства дисперсии.Действительно,

Таким образом, изменение случайной величинына некоторую постоянную вызывает такое же изменение математического ожидания,но не отражается на дисперсии. Изменение случайной величины в разприводит к такому же изменению математического ожидания и изменяет значениедисперсии в раз.

В применении к линейной моделинаблюдений

с фиксированными и взаимнонезависимыми гауссовскими ошибками, мы имеем:

~ ~

Соответственно,

Заметим, наконец, что если— случайные величиныи, то

и если случайные величины попарно некоррелированы, т.е.

то тогда

В применении к последней линейной моделинаблюдений это означает, что рассматриваемая как случайная величина оценканаименьших квадратов, которую мы представили ранее в виде

где

так что — фиксированные величины, имеет нормальноераспределение с математическим ожиданием

и дисперсией

2.4. НОРМАЛЬНЫЕ ЛИНЕЙНЫЕ МОДЕЛИ С
НЕСКОЛЬКИМИ ОБЪЯСНЯЮЩИМИПЕРЕМЕННЫМИ

Начиная с этого момента, мы будемпредполагать, что

(1) Модельнаблюдений имеет вид

где - значениеобъясняемой переменной в -м наблюдении;

- известноезначение-ой объясняющей переменной в -м наблюдении;

- неизвестный коэффициент при-ой объясняющей переменной;

- случайная составляющая (УошибкаУ) в -м наблюдении.

(2) - случайные величины, независимые в совокупности, имеющиеодинаковое нормальное распределениеN (0,σ2) с нулевымматематическим ожиданием и дисперсией

(3) Если не оговорено противное, то в число объясняющих переменныхвключается переменная, тождественно равнаяединице, которая объявляется первой объясняющей переменной, так что

При сделанных предположенияхявляются наблюдаемыми значениями нормально распределенныхслучайных величин,которые независимы всовокупности и для которых

так что

~

В отличие от, случайные величины имеютраспределения, отличающиеся сдвигами.

Pages:     | 1 |   ...   | 6 | 7 | 8 | 9 | 10 |   ...   | 20 |    Книги по разным темам