Нормальное распределение — это статистика, которая широко применяется для всех математических понятий среди большого числа статистиков. Абрахам де Муавр, математик 18-го века, активно занимавшийся возможностью предсказания исходов игр, заметил, что по мере увеличения числа событий (N) распределение приближалось к одному и тому же типу, образуя очень плавную кривую, о чем он сообщил в своем труде «Доктрина случайностей»[1]. Он настаивал на том, что новое открытие математического выражения для этой кривой может привести к более легкому способу найти решения для вероятностей исходов многих игр, в которые игроки того времени играли на деньги, привлекая для увеличения вероятности своего выигрыша математиков. Сейчас, впрочем, такое тоже практикуется. Наряду с этой идеей Абрахам де Муавр вычислил форму кривой нормального распределения, фиксируя исходы выпадения определенной стороны монеты при многократном их подбрасывании – эта кривая была проведена через середины верхней части каждого столбца в гистограмме нормально распределенных данных, которая называется благодаря более поздним и более полным исследованиям математика Гаусса стала носить его имя. Иногда кривую Гаусса называют «Нормальная кривая».
Одно из первых применений нормального распределения было использовано в астрономических наблюдениях, где было обнаружены ошибки измерения. Еще до исследования нормального распределения де Муавром в семнадцатом веке Галилей, рассматривая результаты, связанные с измерением расстояний до звезд, предположил, что небольшие ошибки возникают чаще, чем большие ошибки, ошибки симметричны конечным, а множество наблюдений обычно лежит около вокруг истинных значений[2]. В дальнейшем было обнаружено, что теория ошибок Галилея является случаем нормального распределения, а формула для нормального распределения, найденная Гауссом и Лапласом, хорошо применяется с ошибками. В 1778 году Лаплас, математик и астроном, обнаружил такое же распределение. Его «Центральная предельная теорема» доказала, что даже если распределение «грубо распределено», средства повторных выборок из распределения почти нормальны, и чем больше размер выборки, тем ближе распределение случайных величин будет к нормальному распределению. Ламбер Кетле, статистик (а также астроном, математик и социолог) раньше всех применил нормальное распределение к характеристикам человека, таким как вес, рост и сила[3].
Нормальное распределение, также известное как распределение Гаусса, представляет собой функцию, которая представляет распределение набора данных в виде симметричного колоколообразного графика[4].
График нормального распределения также известен как «кривая Гаусса». Нормальная кривая показывает форму абсолютно симметричного и гладкого распределения частот. График нормального распределения зависит от двух факторов: µ — математического ожидания (среднего значения случайной величины), и ꭤ — стандартное отклонение (среднеквадратичное отклонение). Параметр µ определяет положение центра плотности вероятности нормального распределения, а ꭤ — разброс относительно центра (среднего)[5].
Стандартное отклонение контролирует распространение вероятностей. Меньшее стандартное отклонение указывает на то, что данные плотно сгруппированы вокруг среднего; Плотность распределения вероятностей случайной величины будет выше. Более высокое стандартное отклонение указывает на то, что данные имеют более высокий разброс; нормальное распределение будет более плоским и более широким.
Свойства нормального распределения:
- Среднее арифметическое, мода и медиана равны.
- Кривая симметрична в центре (т. е. вокруг среднего, μ).
- Точно половина значений находится слева от центра и ровно половина значений находится справа.
- Общая площадь под кривой равна 1.
Стандартное (нормированное) нормальное распределение используется для оценки любых данных, независимо от их размерности. От обычного стандартное нормальное распределение отличается тем, что его математическое ожидание всегда равно 0, а дисперсия – 1,
В стандартной нормальной модели около 5 процентов ваших данных попадут в «хвосты» (цветной темный оранжевый на изображении ниже), и 90 процентов будут находиться между ними. Например, для тестовых оценок студентов нормальное распределение показало бы, что 2,5 процента студентов получают очень низкие баллы и 2,5 процента получают очень высокие баллы. Остальное будет посередине; не слишком высоко или слишком низко.
Стандартное нормальное распределение может помочь исследователю проверить гипотезу исследования. Исследователь, выдвинув гипотезу, задается вопросом: может ли при имеющихся данных иметь место событие. Для этого исследуется подчинение распределения генеральной совокупности нормальному закону. Нулевая гипотеза говорит только об отсутствии взаимосвязей или различий. Нулевую гипотезу можно только опровергнуть, но не доказать наличие взаимосвязей.
Допустим, студентом проведено исследование, за какой предмет он получаете хорошие оценки, и он старается выяснить: каким предметы ему нужно приложить больше усилий из-за низкого количества баллов. После того, как он получите оценку по одному предмету, которая выше оценки в другом предмете, он может подумать, что ему сосредоточиться на теме, где он получил более высокий балл. Это не всегда верно.
Он может только сказать, что он лучше разобрался в конкретном предмете в конкретном случае. Для того, чтобы получить более точный ответ, нужно сделать выборку более широкой, но этот анализ не может гарантировать, что сделанный на его основе выбор понравится человеку в будущем.
Нормальное распределение — это просто идеализированная модель — и очень успешно применяемая для сравнения эмпирических данных, но никакая случайная величина в «реальной жизни» абсолютно точно нормальному распределению не соответствует. Тем не менее изучение соответствия распределения случайных величин на соответствие нормальному распределению имеет важнейшее значение.
В знаменитом исследовании, проведенном в 1927-1932 годах на заводе по производству электрооборудования, экспериментаторы измерили влияние ряда переменных (яркость света, температуры, рабочего времени и управленческого лидерства) на производительность сотрудников. Основной вывод исследования заключался в том, что независимо от того, какая переменная изучалась, производительность рабочих улучшалась. Оказалось, что просто знание того, что деятельность работников изучается, оказало сильное положительное влияние на производственный процесс[6].
Можно привести и примеры распределения, отличающегося от нормального. Примером может быть заработная плата. Если сделать гистограмму доходов населения, то, скорее всего, распределение будет сильно смещено вправо, то есть более высокие доходы получает меньшая часть населения.
Другим примером является рост. Если сделать гистограмму роста населения, то получится один пик для мужчин и другой пик для женщин. Распределение роста для мужчин и женщин может быть нормальным, если рассмотреть эти категории индивидуально, но оно не нормально, когда объединить в выборке все население.
В целом, нормальное распределение играет огромное прикладное значение в научной и практической деятельности.
Список литературы
- Балдин, К.В. Теория вероятностей и математическая статистика: Учебник / К.В. Балдин, В.Н. Башлыков. — М.: Дашков и К, 2016.
- Битнер, Г.Г. Теория вероятностей: Учебное пособие / Г.Г. Битнер.. — Рн/Д: Феникс, 2012.
- История теории ошибок
- Социальная статистика и роль А. Кетле в ее становлении
- The doctrine of chances; or, a method of calculating the probability of events in play
[1] The doctrine of chances; or, a method of calculating the probability of events in play
[2] История теории ошибок
[3] Социальная статистика и роль А. Кетле в ее становлении
[4] Балдин, К.В. Теория вероятностей и математическая статистика: Учебник / К.В. Балдин, В.Н. Башлыков. — М.: Дашков и К, 2016. С. 154.
[5] Битнер, Г.Г. Теория вероятностей: Учебное пособие / Г.Г. Битнер.. — Рн/Д: Феникс, 2012. С.136.
[6] Хоторнский эксперимент