А. М. Мубараков доктор пед наук, профессор. Н. Э. Пфейфер доктор пед наук, профессор пгу им. С. Торайгырова. Н. Е. Тарасовская доктор биологических наук, профессор. Химич Г. З., Хлущевская О. А. Введение в биометрию. Учебное пособие

Вид материалаУчебное пособие
Показатели разнообразия признаков
Среднее квадратическое отклонение
Коэффициент вариации.
Ошибка среднего арифметического
Упрощенное вычисление ошибки среднего арифметического
Определение достоверности различий между средними
Учение о корреляциях
Второй пример.
Вычисление коэффициента корреляции
Корреляция качественных признаков
Корреляционное отношение
Дисперсионный анализ
F больше табличного, то различия между вариантами опыта реальны. Мы видим, что по сортам F
Подобный материал:
1   2   3   4

ПОКАЗАТЕЛИ РАЗНООБРАЗИЯ ПРИЗНАКОВ



В каждой частной совокупности, взятой для исследова­ния, отдельные экземпляры в различной степени откло­няются от средней величины, поэтому для характеристики изучаемой выборки одного среднего недостаточно; необхо­димо привести показатели, характеризующие степень этого разнообразия (в ряде учебников вместо выражения «разно­образие признаков» используются термины «разброс», «ва­рьирование»).

Показателями разнообразия признаков служат лимиты, амплитуды изменчивости, среднее квадратическое отклоне­ние σ (сигма), варианса σ2 и коэффициент вариации Сv. Общим свойством показателей разнообразия является их способность отмечать различные степень и особенности раз­нообразия.

Американский генетик Дж. Л. Брюйбекер в книге «Сель­скохозяйственная генетика» приводит в качестве примера рост игроков двух баскетбольных команд в футах и дюймах (фут =0,3 м, дюйм =2,54 см).

Команда А. Рост игроков: 6 ф. 1 д.; 6 ф. 2 д; 6 ф. 3 д; 6 ф. 4 д; 6 ф. 5 д. Средняя арифметическая 6 ф. 3 д.

Команда Б. Рост игроков: 5 ф. 5д.; 5 ф. 6 д.; 6 ф. 3 д; 7 ф. О д.; 7 ф. 1 д. Средняя арифметическая 6 ф. 3 д.

Средний рост игроков в обеих командах одинаков, но болельщики баскетбола, несомненно, видят, что шансов на победу у команды Б с ее высокими семифутовыми игроками больше, чем у команды А.

Характеристика команд будет полнее, если мы приведем лимиты, т. е. показатели разнообразия, указывающие макси­мальное и минимальное значения изучаемого признака. Лимиты команды А — lim1 6 ф. 1 д.— 6 ф. 5 д. (4 д.).

Лимиты команды Б — lim2 5 ф. 5 д.— 7 ф. 1 д. (1 ф. 6 д.);

(в скобках указана амплитуда изменчивости).

Н. А. Плохинский приводит следующий пример. При изучении массы быков в двух совхозах получены следующие данные (табл. 12).

Средняя живая масса быков в обоих совхозах одинако­ва — 650 кг, но разнообразие быков по массе во втором сов­хозе в пять раз больше, чем в первом. Наиболее просто это можно показать при помощи лимитов и амплитуды измен­чивости :




Таблица 12 Таблица 13




оплаты продукта. Например, если средняя масса тушек бе­кона в одной партии М1=90 кг,lim1 88—92 (4 кг), а в дру­гой М2=90 кг и

lim2 80—100 (20 кг), то ясно, что первая партия как стандартная получает более высокую оценку по сравнению со второй.

В некоторых случаях лимиты могут служить единствен­ной характеристикой признака. Например, при описании простейших приводятся только лимиты их размеров:



Эти данные вполне достаточны для первого ознакомле­ния с указанными объектами. Поэтому лимиты представ­ляют большой интерес даже при наличии более точных пока­зателей разнообразия.

Но тем не менее надо отметить, что лимиты не отражают очень важных особенностей. Предположим, что сравни­ваются две группы особей по длине тела (табл. 13).



Средние и лимиты в обеих группах одинаковы, в то же время степень разнообразия этих групп явно различна. В первой группе все особи имеют разную длину тела, во второй группе семь особей из девяти одного и того же раз­мера. Изменчивость первой группы явно больше, чем второй, но отметить это при помощи лимитов в данном случае невоз­можно. Наиболее точно охарактеризовать степень разнооб­разия можно при помощи особого показателя — среднего квадратического отклонения (Плохинский, 1961, с. 36—37).


СРЕДНЕЕ КВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ а (СИГМА)

Известный математик Гаусс в качестве показателя сте­пени разнообразия предложил использовать основное откло­нение, т. е. корень квадратный из суммы произведений квад­ратов отклонений от среднего на частоты, деленные на число наблюдений:



Известно, что сумма отрицательных и положительных отклонений от среднего равна нулю. При возведении откло­нений в квадрат все знаки становятся положительными. Чтобы устранить влияние величины отдельных выборок, сумму произведений квадратов отклонений на частоты делят на число наблюдений.

Позднее формула Гаусса была немного изменена: за знаменатель в приведенной выше формуле стали принимать не число наблюдений (га), а га—1, т. е. число степеней сво­боды, равное числу независимых величин. Если сумма двух чисел равна 10, а одно из них равно 3, то второе число мо­жет быть только 7. При трех числах два являются незави­симыми, а третье определяется суммой двух первых. Поэто­му число степеней свободы равно п—1. Формула Гаусса принимает значение:




Число степеней свободы обозначается греческой буквой v или двумя буквами латинского алфавита — df (degree of fredom — степень свободы). Для вычисления квадратического или основного отклонения {σ) строят вариационный ряд. Расположенную в средине вариационного ряда вари­анту принимают за условное среднее, находят отклонения от условного среднего, умножают отклонения на частоты. За­тем находят алгебраическую сумму произведений отклоне­ний на частоты, делят полученную сумму на число наблю­дений (т. е. поступают так же, как при вычислении ариф­метического среднего). Потом находят произведение квад­рата отклонений на частоты, суммируют их и вычисляют корень квадратный из суммы произведений квадратов откло­нений на частоты, деленной на число степеней свободы, минус квадрат поправки (табл. 14).

Рассмотрим эти действия на другом примере: после раз­носки вариант мы получили вариационный ряд с амплиту­дой изменчивости, равной 6 (лимиты 5—11), число наблю­дений —45. Принимаем варианту 8 за условно взятое сред­нее, записываем отклонение от среднего (х—), умножаем отклонения на частоты (х—),• f. Находим алгебраическую сумму этих произведений, делим ее на число наблюдений и таким образом получаем поправку b. Находим среднее, т. е. проделываем все расчеты, указанные в предыдущей главе. Для определения квадратичеокого отклонения возводим все отклонения в квадрат, умножаем квадраты отклонений на соответствующие частоты, находим сумму этих произведе­ний (табл.15).

Таблица 14





Таблица 15




При вычислении среднего квадратического отклонения по вариантам, разбитым на классы, число, полученное после извлечения корня, умножается на размер класса (l) (табл.16)

Таблица 16






Вычислим среднее квадратическое отклонение для дан­ных, приведенных в таблице 10, характеризующих длину тела животных двух групп, (средние и ли­миты у обеих группклонение позволило выявить различие в изменчивости ука­занных групп животных. одинаковы). По пер­вой группе

отклонения от средней приве­дены

в таблице 17. Таблица 17.


клонение позволило выявить различие в изменчивости указанных групп животныx.

Основное или квадратическое отклонение а выражается в тех же единицах, что и среднее. Следовательно, оно всегда является числом именованным. Чем меньше амплитуда из­менчивости, тем меньше сигма. При отсутствии изменчи­вости (гипотетический случай) сигма равна 0. Изменчивость живых организмов по росту, весу и другим показателям очень значительна, и абсолютное значение сигмы может варьировать в широких пределах.

Представим себе гипотетический случай, когда 100 семян одного сорта, абсолютно одинаковых по весу, химическому составу и другим показателям, высеваются в идеально вы­ровненных условиях и подвергаются совершенно одинако­вым воздействиям внешней среды. В таком случае мы впра­ве ожидать, что вырастут 100 растений совершенно одина­ковых. Графически ряд будет представлен одной вертикаль­ной линией. Однако абсолютно одинаковых семян не бывает. Изменчивость только одного показателя (качества семян) даст уже варьирующий сжатый ряд. Не существует в при­воде и совершенно одинаковых условий почвенного плолородия, освещения и пр. Изменчивость возрастает, ряд стано­вится более широким.

Однако математиками установлено, что при нормальном распределении, свойственном большинству биологических объектов, изменчивость 95% вариант укладывается в преде­лах минус 2σ—плюс 2σ, 98% —в пределах минус Зσ, — плюс Зσ, 99 % — в пределах минус 3,5σ — плюс 3,5σ.

Коэффициент вариации. Для сравнения степени измен­чивости по различным признакам, а также степени измен­чивости отдельных объектов используется коэффициент ва­риации, который представляет собой квадратическое отклонение, выраженное в процентах, от средней величины. Обозна­чается коэффициент вариации С или су .



С его помощью мы можем сравнивать изменчивость раз­личных объектов по самым различным показателям. Уста­новление коэффициента изменчивости имеет большое значе­ние при многих биологических исследованиях. Например, селекционер, работающий над созданием новых сортов, изу­чает коэффициент изменчивости различных признаков у исходного материала. Ясно, что отбор даст лучшие резуль­таты, если будет проводиться по признакам, имеющим боль­шую изменчивость. У готового сорта, наоборот, большой коэффициент (изменчивости по основным признакам недо­пустим — сорт должен иметь устойчивые показатели. Боль­шое значение изучению коэффициента вариации придают исследователи, работающие по акклиматизации животных и растений, морфологии, систематике и т. д.

ОШИБКА СРЕДНЕГО АРИФМЕТИЧЕСКОГО

Квадратическое (основное) отклонение (сигма) исполь­зуется для вычисления очень важного статистического пока­зателя — ошибки среднего арифметического. Точное сред­нее арифметическое может быть определено, если мы иссле­дуем всю генеральную совокупность. Практически же мы имеем дело с более или менее большими по объему выборка­ми. В таких случаях среднее всегда бывает не вполне точ­ным.

Возьмем 100 растений, измерим их высоту, вычислим среднюю арифметическую. Допустим, что средний рост рас­тений данной выборки 50,5 см. Разобьем эти растения на группы по 20 экз. в каждой. Вновь проведем измерения и вычислим средние. Эти новые средние точно не совпадут с уже установленным средним 50,5, а будут в каждом отдель­ном случае отклоняться от него в ту или другую сторону: 49,8; 50,9; 50,1; 51,3; 50,4 в зависимости от того, попадут ли во взятую для измерения группу более высокие или более низкие растения. Поэтому, называя среднее арифметичес­кое, необходимо указать и возможные колебания этой сред­ней величины. Это достигается путем вычисления ошибки среднего арифметического, которая обозначается т или и определяется по формуле



Приводя среднее арифметическое, указывают и его ошибку:



Это показывает, что среднее в исследованной выборке колеблется от 140 до 150.

Ошибка средней арифметической зависит от двух вели­чин: от степени разнообразия признака в генеральной сово­купности и от размера выборки: чем больше выборка, тем меньше ошибка. Поэтому при вычислении ошибки квадратическое отклонение делится на корень квадратный из числа наблюдений.

Часть никогда не может полностью характеризовать це­лое, поэтому характеристика генеральной совокупности на основе выборочных данных всегда будет иметь некоторую большую или меньшую ошибку. Такие ошибки являются ошибками обобщения, связанными с перенесением результа­тов, полученных при изучении выборки, на всю генераль­ную совокупность, и называются ошибками репрезентатив­ности. (Репрезентативность происходит от французского сло­ва representatiue — представительный).

Помимо ошибок репрезентативности при исследовании могут встретиться ошибки самого разнообразного характера. К ним относятся:

1. Методические ошибки (нарушение правильной мето­дики проведения фиксации материала для цитологических и биохимических исследований, невыравненность условий в опытных вариантах и контроле).

2. Ошибки точности (использование непроверенных изме­рительных приборов, расчеты с недостаточной точностью и т. д.).

3. Случайные ошибки (ошибки, просчеты, путаница в материале и т. д.).

4. Ошибки, связанные с неправильным отбором проб для изучения.

Все эти причины повлекут за собой очень сильное увели­чение ошибки среднего. (Иногда у начинающих работников ошибка бывает почти равна среднему. Ясно, что такие дан­ные должны выбраковываться).


УПРОЩЕННОЕ ВЫЧИСЛЕНИЕ ОШИБКИ СРЕДНЕГО АРИФМЕТИЧЕСКОГО

При обработке данных по многочисленным вариантам опыта и небольшом количестве повторностей можно приме­нить упрощенный способ вычисления ошибки среднего ариф­метического по Петерсу с использованием фактора Молденгауэра (константы К) по формуле



где [ [а] ]— сумма отклонений независимо от знака, а К —

— константа, изменяющаяся в зависимости от количества повторностей, вычисленная по формуле:



В книге П. Н. Константинова «Методика полевых опытов (с элементами теории ошибок)», 1939, дана таблица констант К для ошибок среднего. Приводим выписку из нее (табл. 18).

Таблица 18



(При большем количестве повторностей использование упрощенного способа вычисления ошибки экономит немного времени). Допустим, мы изучали действие различных микро­элементов в разных дозах на урожайность пшеницы. У нас было 40 вариантов опытов. Каждый вариант испытывался в четырех повторностях.

В первом варианте (контроль) был получен следующий урожай (табл. 19).

Для проверки правильности вычисления среднего в отклонений мы сначала суммируем положительные и отрицательные отклонения:

—0,6+(—0,8) = —1,4;

+0,8+0,6 = +1,4.

Эти вычисления нужны только для проверки и в даль­нейших расчетах не участвуют.

Суммы положительных и отрицательных отклонений равны, значит, вычисления сделаны правильно. (В случае. когда среднее и отклонение вычисляются с округлением, между суммой положительных и отрицательных отклоне­ний может быть небольшая разница, выражающаяся в десятых долях. Этой разниией можно пренебречь).

Находим сумму отклонений независимо от знака (в нашем примере она равна 3,0) и умножаем ее на константу К для четырех повторностей, равную 0,1809.

3,0 ∙ 0,1809 = 0,5427


Таблица 19 Таблица 20




Среднее равно 26 ± 0,54 ц. Рассмотрим еще один пример (табл. 20).

24 • 0,0934 = 2,24 =15 ± 2,24

Вычислим ошибку обычным способом (табл. 21):



Разница в определении ошибки среднего составляет 0,03, что не имеет существенного значения.

Точность опыта имеет большое значение, так как она определяет степень надежности полученных данных.

Точность опыта обозначается Р или m% и вычисляется по формуле

P = m• 100 /

т. е. путем вычисления про­центного отношения ошиб­ки к средней величине.

В только что разобран­ном примере =15; т=2,2, Р или

m% = 2,2 • 100 / 15 = 14,6% - опыт недостоверен.

Опыт считают достаточно точным, если Р меньше 3 %, и удовлетворительным при Р, равной 5%. При Р, равной б—7% и более, к полученным выводам следует отнестись очень осторожно. Опыт следует повторить с соблюдением всех требований методики.


Таблица 21




ОПРЕДЕЛЕНИЕ ДОСТОВЕРНОСТИ РАЗЛИЧИЙ МЕЖДУ СРЕДНИМИ

Конечной целью каждого опыта является установление достоверности различий между изучаемыми вариантами опыта (различие в урожайности сортов, возделывавшихся в производстве, и новыми, выведенными селекционерами;

различие в урожайности культур под влиянием внесения удобрений; различие по количественным показателям меж­ду разными видами животных и растений и т. д.).

Мы уже говорили, что средние арифметические для вы­борок всегда несколько колеблются и при указании среднего следует приводить ошибку среднего, показывающую возможные колебания: '.



Видно, что среднее колеблется от 22,8 до 27,2. Но по­скольку ошибка {т) вычисляется на основе квадратического отклонения (σ), то все возможные значения средней вели­чины лежат в пределах

± 3 т или, точнее, ± 3,5 т, так же как все варианты ряда, лежат в пределах - 3σ или х +З,5 σ. Отсюда значение 3 т или 3,5 т называется предельной ошиб­кой среднего арифметического.

Достоверность разности между двумя средними величи­нами определяют по отношению этой разности к ее ошибке. Ошибка разности равна корню квадратному из суммы квад­ратов ошибок:



Например, в опыте по изучению влияния фосфорного удоб­рения на урожай яровой пшеницы в условиях недостатка влаги получены следующие данные (опыт проведен в четы­рехкратной повторности):



Достоверно ли полученное превышение? Определяем раз-гость между средними:



Вычисляем ошибку разности:



Находим отношение разности к ее ошибке:



В старых руководствах по биометрии указано, что раз­ность достоверна в тех случаях, когда это отношение равно или более трех. Точнее, достоверность разности определяется по критерию Стьюдента t. (Значение критерия Стьюдента приведено в таблице 45, с. 62). t равно отношению разности к ее ошибке.

Рассматриваемый опыт приведен в четырех повторностях. Следовательно, число степеней свободы равно 4+4— —2 = 6. При 6 степенях свободы разность при вероятности 0,95 (на уровне 5%) достоверна при t, равном 2,45, при вероятности 0,99 (на уровне 1%) при t равном 3,71. Следова­тельно, разность между урожаем контрольного и опытного вариантов достоверна при уровне вероятности, несколько превышающем 0,99.


УЧЕНИЕ О КОРРЕЛЯЦИЯХ


Слово корреляция происходит от латинского correlation, что означает связь, соотношение, сопряженность. В практи­ке биологических исследований часто возникает необходи­мость изучить связь между признаками одного организма или зависимость между признаками организма и условиями внешней среды.

В курсе высшей математики излагаются основные поло­жения функциональной зависимости между двумя перемен­ными, при которой каждому значению одной переменной — аргументу — соответствует тоже одно вполне определенное значение другой переменной — функции.

В качестве примера функциональной зависимости можно привести площадь треугольника, которая всегда определяет­ся его высотой и основанием, площадь круга, определяю­щуюся его радиусом, и т. д.

При изучении живых объектов — растений, животных, микроорганизмов — связь между признаками проявляется в виде так называемой корреляционной связи, или корреля­ции, при которой каждому значению одного признака соот­ветствует не одно, а несколько значений другого признака, т. е. его распределение.

Например, хорошо известна связь между ростом челове­ка и его весом, но при одинаковом росте (например, в 160 см) вес тела может колебаться в известных пределах и состав­лять, допустим, 55, 60, 65 кг. Задача исследования корреля­ционной связи заключается в том, чтобы определить харак­тер и измерить тесноту связи между отдельными призна­ками или развитием признаков и условиями среды.

При изучении корреляции решающее значение имеет всесторонний качественный анализ материала. Например, изучая зависимость между содержанием белка в зерне и условиями возделывания культуры, необходимо сопоставить эти показатели в образцах одного сорта, выращенного при различных, но вполне определенных в каждом отдельном случае условиях. Так, если мы хотим установить зависи­мость содержания белка в зерне озимой пшеницы Безостая 1 от применения азотных удобрений, необходимо, чтобы остальные условия (тип почвы, предшественники, приемы обработки почвы, сроки посева и т. д.) были одинаковыми, а изменялась только доза внесения азотных удобрений.

Прежде чем приступить к вычислению корреляционной зависимости, необходимо проанализировать возможность связи между изучаемыми явлениями, иначе можно полу­чить совершенно ложные результаты. Так, в работе Устино­ва была установлена корреляция между урожайностью и числом пожаров.

Известно, что засуха всегда снижает урожай, что опас­ность пожаров увеличивается в сухие годы. Таким образом, два совершенно независимых явления (пожары и урожай) определяются третьей величиной — количеством осадков, но сопоставлять эти два явления нет никаких оснований.

Зависимость урожая от количества осадков может быть различной в разных географических пунктах. В районах недостаточного увлажнения, при отсутствии орошения, уменьшение количества осадков всегда снижает урожай, хотя степень этого снижения может быть различной в зави­симости от уровня агротехники; в районах избыточного увлажнения, наоборот, увеличение количества атмосферных осадков может быть неблагоприятным для урожая, особенно при недостатке тепла. Следовательно, установление корре­ляции между этими величинами представляет интерес в определенных географических условиях.

Для разработки рациональной системы орошения боль­шое значение имеет установление связи между обеспечен­ностью растений влагой в определенные периоды развития и урожайностью и т. д.

Корреляция может быть прямой или положительной, если с возрастанием одного показателя увеличивается вто­рой или, наоборот, с уменьшением одного показателя умень­шается второй.

Такая корреляция выражается словами «чем больше, тем больше» или «чем меньше, тем меньше». Например, чем больше вес клубней картофеля в одном гнезде, тем выше урожай; чем меньше длина туловища животного опреде­ленного вида, тем меньше его вес.

Корреляция является обратной или отрицательной, если с увеличением одного показателя уменьшается второй или с уменьшением первого показателя увеличивается второй. Такая зависимость выражается словами: «чем меньше, тем больше» или «чем больше, тем меньше». Например, чем больше растений кукурузы в гнезде, тем меньше початков на растении.

Как прямая, так и обратная корреляция может быть линейной, если с увеличением одного показателя планомер­но увеличивается или уменьшается второй показатель, или криволинейной, если с увеличением одного показателя до известных пределов второй показатель также повышается, а затем начинает снижаться. Например, при увеличении нор­мы высева до определенного для конкретных условий уров­ня урожай повышается, но дальнейшее увеличение нормы высева вызывает излишнее загущение посева, и урожай сни­жается. Степень сопряженности выражается в виде отвле­ченного числа, которое при корреляции называется коэффи­циентом корреляции, при криволинейной зависимости — корреляционным отношением.

Корреляция может быть выражена графически. Рассмот­рим примеры вычисления коэффициента корреляции и гра­фического ее выражения на гипотетическом примере, при­веденном в книге П. Н. Константинова «Методика полевых опытов (с элементами теории ошибок)».

Взято два показателя: вес многолетних растений и их кустистость (число стеблей на одно растение). Обозначим эти показатели как х и у.

Первый пример.

Кустистость растений (х): 4; 6; 10; 12, в среднем 8.

Вес растений в г (у): 30; 34; 42; 46, в среднем 38.


Таблица 22



Мы видим, что с увеличением кустистости планомерно увеличивается и вес, т. е. существует прямая зависимость. Изобразим ее графически (табл. 22): расположим по гори­зонтали показатели кустистости (х), по вертикали — вес растений (у).

Поместим растения в клетки, соответствующие обоим показателям. Первое растение имело кустистость 4, вес 30 г помещаем его в первую клетку и т. д.

Такое сопряженное изображение обоих вариационных рядов называется корреляционной решеткой. Мы видим что при полной прямой положительной корреляции варианты располагаются по диагонали, идущей из верхнего левогo угла решетки в правый нижний угол.

Второй пример.

Кустистость растений (х): 4; 6; 10; 12, в среднем 8. Вес растений в г (у): 46; 42; 34; 30, в среднем 38. В этом случае наблюдалась бы совершенно невероятная обратная зависимость между кустистостью и весом растений. Построим корреляционную решетку (табл. 23).


Таблица 23



При обратной (отрицательной) корреляции варианты рас­полагаются в корреляционной решетке по диагонали, иду­щей из верхнего правого угла в левый нижний угол.

Третий пример.

Кустистость растений (х): 4; 6; 10; 12, в среднем 8. Вес растений в г (у): 42; 30; 46; 34, в среднем 38. Нетрудно заметить, что в этом случае отсутствует опре­деленная связь между кустистостью и весом растений: минимальной кустистости соответствует максимальный вес, затем кустистость возрастает, а вес резко падает, далее кус­тистость продолжает увеличиваться, возрастает и вес. При дальнейшем увеличении 'кустистости вес снова уменьшается.


Таблица 24­




Графическое изображение представлено в таблице 24.

При отсутствии корреляции варианты располагаются бес­порядочно по всей решетке.

Полная прямая или обратная корреляция встречается редко. Рассмотрим пример неполной прямой корреляции. Кустистость растений (х): 4; 6; 10; 12. Вес растений в г (у}: 30; 42; 34; 46.

За исключением одного случая, вес растений увеличивается по


Таблица 25­



мере повышения кустистости. Графическое изо­бражение дает такие результаты (табл. 25).

При неполной прямой корреляции варианты группи­руются вокруг диагонали, идущей из левого верхнего угла в правый нижний. При неполной отрицательной корреляции варианты



Рис. 6. Графическое изображение расположения вариант в корреляционной решетке.

располагаются вокруг диагонали, идущей из правого верхнего угла корреляционной решетки в левый нижний.

Иногда в печатных работах, не приводя коэффициента корреляции, ограничиваются графическим изображением расположения вариант (рис. 6).

Однако такой способ слишком громоздок и неприменим в случаях, когда надо показать корреляцию по ряду при­знаков. Кроме того, он дает лишь ориентировочное представ­ление о тесноте связи между изучаемыми признаками, поэ­тому прибегают к вычислению коэффициента корреляции.

Коэффициент корреляции обозначается r. Он является отвлеченным числом и имеет значение от 1 (полная положи­тельная корреляция) до —1 (полная отрицательная корре­ляция) с переходом через 0 (отсутствие корреляции). Так же, как и для других биометрических показателей, вычисля­ется ошибка коэффициента корреляции — тr. или Sr .

ВЫЧИСЛЕНИЕ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

Рассмотрим приведенные выше упрощенные примеры зависимости между кустистостью и весом растений. Вычис­лим по обоим рядам отклонение от среднего. Отклонение обозначается как ax и ay или (х—)а и (х—)y

Первый пример.

Кустистость растений (х): 4; 6; 10; 12, в среднем 8. Вес растений в г (у): 30; 34; 42; 46, в среднем 38. Отклонение от среднего: по ряду х: аx 4; —2; +2; +4;

по ряду у: aу—8; —4; +4; +8.

Произведение отклонений 32; 8; 8; 32. Сумма произведений

равна 80.

Второй пример.

Кустистость растений (х): 4; 6; 10; 12, в среднем 8. Вес растений в г (у): 46; 42; 34, в среднем 38. Отклонение от среднего: по ряду х: аx 4; —2; +2; +4; по ряду у: aу +8; +4; —4; —8. Произведение отклонений —32; —8; —8; —32. Сумма произведений равна —80.

Третий пример.

Кустистость растений (х): 4; 6; 10; 12, в среднем 8. Вес растений в г (у): 42; 30; 46; 34, в среднем 38. Отклонение от среднего: по ряду х: а.х4; —2; +2; +4;

по ряду у: а.у +4; —8; +8; —4.

Произведение отклонений —16; +16; +16; —16. Сумма

произведений равна 0.

Четвертый пример.

Кустистость растений (х): 4; 6; 10; 12, в среднем 8. Вес растений в г (у): 30; 42; 34; 46, в среднем 38. Отклонение от среднего: по ряду х: а4; —2; +2; +4;

по ряду у: а,у —8; +4; —4; +8.

Произведение отклонений 32; —8; —8; + 32. Сумма про­изведений равна 48.

Мы видим, что сумма попарных произведений отклоне­ний характеризует степень связи в изменчивости двух рядов:

при полной положительной корреляции Σ ax ay = 80,

при полной отрицательной корреляции Σ ax ay = - 80,

при частичной положительной корреляции Σ ax ay = 48,

при отсутствии корреляции Σ ax ay = О.

При сравнении различных рядов числовое выражение суммы попарных произведений отклонений от среднего будет меняться. Необходимо выразить эту зависимость в относи­тельных числах, для этого надо разделить полученные сум­мы на постоянное и наибольшее число. Таким числом явля­ется среднее геометрическое (G), т. е. корень n-ой степени из произведения n-то количества дат:



В нашем случае среднее геометрическое равно корню квадратному из произведения сумм квадратов отклонений от среднего по обоим рядам.

Вернемся к нашим примерам.

Первый пример. Возведем в квадрат отклонения от сред­них по обоим рядам и суммируем их,



Для небольших рядов вычисление коэффициента корреляции производится по этой формуле. Для вычисления в больших рядах эта формула преобразуется.

Мы знаем, что квадратическое отклонение σ равно корню квадратному из суммы квадратов отклонений, деленной на число наблюдений:






При наличии большого числа наблюдений непосредствен­ное вычисление коэффициента корреляции по данной форму­ле слишком громоздко. Обычно прибегают к составлению

Таблица 26



корреляционной решетки. Делается это следующим образом. При сборе данных изучаемые показатели записываются по каждому объекту. Например, изучая связь между высотой растения и числом листьев, записываем (табл. 26).

Мы получили данные по двум показателям: х высота растений и y — число листьев. Построим вариационные ря­ды и расположим их: один — в горизонтальном и второй — в вертикальном направлении. Наименьший показатель высо­ты растений (ряд х) 9, наибольший — 18. Наименьший пока­затель числа листьев (ряд у) 3, наибольший — 12. В обоих случаях амплитуда изменчивости равна 9.

Разбивать варианты на классы нет необходимости. По­строим корреляционную решетку (табл. 27).


Таблица 27



Сделаем разноску. Для этого, пользуясь принятым в ста­тистике приемом, обозначим частоты точками. Первое расте­ние имело высоту 15 см и число листьев 9. Ставим точку на пересечении графы 15 и строчки 9. У второго растения высо­та 10 см и число листьев 6. Ставим точку на пересечении графы 10 и строчки 6 и т. д. После разноски заменяем услов­ные знаки цифрами.

Подсчитываем сумму дат по вертикали и горизонтали. Находим общую сумму (она должна быть одинаковой при подсчете по вертикали и горизонтали и равна числу наблюде­ний). У нас эта сумма равна 30, что соответствует числу взя­тых для опыта растений. Следовательно, разноска произве­дена правильно.

В качестве условных средних возьмем 14 по ряду x и 17 по ряду y. (Можно взять и другие даты). Отграничим услов­ные средние волнистыми чертами или красным карандашом. Вычислим отклонения от условного среднего и запишем их в рубрики аx и аy Корреляционная решетка подготовлена для дальнейших вычислений. Даже не производя вычислений, по расположению вариант мы видим, что между двумя изучав­шимися величинами существует хорошо выраженная поло­жительная корреляция (даты расположены вокруг диагона­ли, идущей из левого верхнего угла в правый нижний).

Линиями, отграничивающими средние, решетка разбита на четыре квадрата. Обозначим их I, II, III, IV.

Для вычисления коэффициента корреляции нам необхо­димо найти сумму произведений отклонений на частоты (Σахан). Удобнее находить эту сумму по квадратам.




Нам надо найти bx, by,, σx , σy. Вычислим эти показатели для рядов x и у. (Табл. 28 и 29). Таблица 28






Таблица 29



Определим ошибку коэффициента корреляции по формуле:



В нашем примере



Следовательно, мы записываем результаты наших расчетов в виде



Мы убедились, что между высотой растений и числом листьев существует ясно выраженная положительная корре­ляция.

Разберем другой пример. Определим коэффициент корре­ляции между количеством колосков и количеством зерен в колосе пшеницы (табл. 30).

Таблица 30



Число колосков в колосе колеблется от 14 до 22, амплиту­да изменчивости равна 8. Разбивать варианты на классы не надо.

Количество зерен в колосе колеблется от 30 до 50, ампли­туда изменчивости составляет 20. Этот ряд необходимо раз­бить на классы таким образом, чтобы число классов было близко к числу вариант первого ряда. Примем размер класса равным 3. Построим корреляционную решетку (табл. 31). Число колосков — х, число зерен в колосе у.

Таблица 31






Сумма произведений частот на отклонения Σ ax ay f = 108. Находим b и σ по рядам х и у (табл. 32, 33).

Таблица 32



Таблица 33



Примечание. При вычислении коэффициента корреляции r умножение на размер класса не производится.



Таким образом,



Между числом колосков и числом зерен в колосе имеется хорошо выраженная положительная корреляция.

КОРРЕЛЯЦИЯ КАЧЕСТВЕННЫХ ПРИЗНАКОВ

Между качественными признаками часто наблюдается корреляция. Из повседневных наблюдений мы знаем, что большинство людей, у которых темные волосы, имеют и тем­ные глаза и, наоборот, у большинства блондинов светлые глаза. Исключения встречаются, но сравнительно редко.

Часто установление корреляции между качественными признаками представляет интерес для исследователя. Назо­вем в качестве примера корреляцию между формой куста злаков и характером расположения корневой системы, окрас­кой и качеством шерсти у пушных животных, типом телосло­жения и молочностью у коров и т. д.

Математик Юл разработал способ определения корреля­ции между качественными показателями.

При сборе данных показатели, степень взаимосвязи меж­ду которыми мы хотим определить, записываются парал­лельно по каждому объекту (табл. 34).

Составляют корреляционную решетку, имеющую 4 поля. Затем делают разноску, пользуясь обычными, принятыми в статистике знаками  После окончания разноски знаки за­меняют цифрами. Допустим, мы получили следующие дан­ные (табл. 35):

Таблица 34 Таблица 35



Формулу Юла можно применять и для упрощенного вы­числения корреляции между количественными признаками после того, как составлены обычные корреляционные решетки. Возьмем в качестве примера вычисление коэффициента корреляции между весом семян и общим весом растений житняка, приведенное в книге П. Н. Константинова. Вес се­мян —у, общий вес —х (табл. 36. 37, 38).

Таблица 36



Таблица 37





Находим b и σ по ряду у.

Таблица 38



Применим к вычислению коэффициента корреляции фор­мулу Юла. Для этого разобьем корреляционную решетку на 4 поля, приняв за границы полей линии, отграничивающие условные средние.

В первом квадрате нашей корреляционной решетки (табл. 39) 34 варианты. Записываем их в левую верхнюю клетку. Во втором квадрате 1 варианта, записываем ее в пра­вую верхнюю клетку (ниже среднего по ряду х и выше сред­него по ряду у). В третьем квадрате 3, в четвертом — 24 ва­рианты. Записываем их в соответствующие клетки. Находим суммы по вертикали и горизонтали. Заносим все эти данные в решетку. Число наблюдений уменьшилось потому, что мы отбросили варианты, расположенные на средних линиях. Находим коэффициент корреляции по формуле Юла:



Таблица 39



Результат указывает на наличие очень высокой степени корреляции и близок к определенному нами при детальных расчетах. Такой способ вычисления применяют в тех слу­чаях, когда требуется дать приблизительную характеристику взаимной связи большого количества пар признаков.

КОРРЕЛЯЦИОННОЕ ОТНОШЕНИЕ

Поставленный опыт по изучению влияния нормы высева семян на урожай ярового ячменя дал такие результаты (табл. 40)

. Таблица 40



Попробуем изобразить (табл. 41) намечающиеся законо­мерности на корреляционной решетке (х — урожай, у — нор­ма высева).

Таблица 41



Корреляция отсутствует. Между тем, анализируя данные таблицы, видим, что между нормой высева и урожайностью имеется вполне определенная связь: с увеличением нормы высева от 100 до 150 кг]га урожайность растет. Дальнейшее увеличение нормы высева влечет за собой ее снижение.

Связь между изменением двух признаков, при которой равномерному изменению признака соответствуют неравно­мерные изменения второго признака, причем эта неравномер­ность имеет определенный и закономерный характер, назы­вается криволинейной. Степень взаимной зависимости двух переменных величин при криволинейной связи показывает корреляционное отношение.

На существование прямолинейной (корреляционной) или криволинейной связи между двумя переменными указывает расположение вариант в корреляционной решетке: при нали­чии прямолинейной корреляции варианты группируются во­круг той или иной диагонали, образуя в общем очертании эллипс, размеры меньшего диаметра которого зависят от тес­ноты связи между признаками. При криволинейной связи общее очертание расположения вариант в корреляционной решетке имеет вид неправильно изогнутой фигуры.

Корреляционное отношение обозначается греческой бук­вой η (эта). Оно имеет значение от 0 до 1.

Рассмотрим определение корреляционного отношения сначала на упрощенном примере, взятом из книги «Биомет­рия» Н. А. Плохинского.

Имеется группа из 6 особей, у каждой особи измерено два признака — V1 и V2. В результате получены следующие данные:



Особи по первому признаку могут быть разбиты на груп­пы с одинаковым значением этого признака (4, 6, 8). К каж­дой такой группе по второму признаку относится по 2 особи. Найдем среднее значение второго признака для каждой груп­пы. Теперь к имеющимся двум рядам мы можем приписать третий, состоящий из частных средних по второму признаку.



Сопоставляя частные средние по второму признаку с ря­дом значений первого признака, видим, что при увеличении первого признака на одну и ту же величину (2) второй при­знак сначала резко увеличивается (с 6 до 16), а затем так же резко уменьшается (с 16 до 8).

Степень разнообразия частных средних можно выразить суммой квадратов отклонений частных средних от общей средней по второму признаку.

Определим это общее среднее:



Отклонения частных средних от общего среднего равно —4, —4, +6, +6, —2, —2. Возведя эти данные в квадрат, полу­чаем 16, +16, +36, +36, +4, +4. Сумма квадратов отклоне­ний равна 112.

Найдем отклонения от общей средней по каждой дате второго признака:

—2, —6, +4, +8. Возведем эти данные в квадрат:

+4, +36, +16, +64== 160. Запишем все ати показатели в общую таблицу (табл. 42).

Таблица 42



Общее среднее равно 10.

Сумма квадратов отклонений частных средних от общего среднего по второму признаку (V2) равна 16+16+36+36+ +4+4 ==112 (частное разнообразие). Сумма квадратов отклонений каждого признака второго ряда от общего сред­него равна 4+36+16+64+36+4 ===160 (общее разнообра­зие).

Отношение частного разнообразия к общему равно квад­рату корреляционного отношения второго признака по первому:



отсюда корреляционное отношение второго признака по пер­вому в рассматриваемом примере равно



что указывает на сильную связь второго призняка с первым. Рассмотрим теперь приведенный в таблице 40 пример влияния норм высева на урожайность ячменя. Для сокраще­ния расчетов возьмем пять вариантов опыта. Нормы высева: 100, 125, 150, 175 и 200 кг/га. —V1 нормы высева, V2 уро­жайность. Нормы высева предусмотрены схемой опыта и безусловно одинаковы для всех трех повторностей. Урожаи по повторностям варьируют. Каждому значению V1 соответ­ствуют три значения V2. Составим таблицу 43.




Поскольку частное среднее первого признака (урожай­ности) для всех трех повторностей одинаково при одном и ром же значении второго признака (нормы высева), то и от­клонение от среднего для каждой группы общее. При вычи­щении суммы квадратов отклонений мы производим умножение полученных по группам квадратов отклонений на частоты (в данном случае на три, так как опыт проведен в трехкратной повторности).

Отношение V2/V1 указывает на зависимость изменения дорого признака (урожайности) от первого (нормы высева). 3 данном случае возможна только зависимость V2/V1 , пото­пу что норма высева не может изменяться в зависимости от урожайности, но в ряде случаев вычисляют как V2/V1 так и V1/V2. Тогда вычисление проводят так же, как и в разобранных примерах, но группировку данных проводят по V2.

В результате вычисления (табл. 43) получено корреляционное отношение V2/V1 равное 0,96. Это показывает, что норма высева оказывает большое влияние на урожай. Ошибка корреляционного отношения вычисляется по формуле:





Корреляционное отношение считается существенным в тех случаях, если оно превосходит свою ошибку в три раза и более.



ДИСПЕРСИОННЫЙ АНАЛИЗ


При постановке полевых, вегетационных и лаборатор­ных опытов, так же как и при изучении живых объектов в естественной обстановке, мы всегда наблюдаем некоторое разнообразие изучаемых показателей. Как уже было отмече­но, показателем степени разнообразия служит основное отклонение — σ (сигма). Еще более чувствительным показа­телем степени разнообразия (варьирования, дисперсии, раз­броса данных) служит σ2 (варианса, девиата, дисперсия) — сумма квадратов отклонений, деленная на число степеней свободы:



Использование этого показателя для обработки экспери­ментальных данных, получившее название «дисперсионный анализ», было впервые разработано и применено английским ученым Р. А. Фишером. В настоящее время дисперсионный анализ широко применяется для обработки данных в биоло­гии, промышленности и сельском хозяйстве.

Рассмотрим суть дисперсионного анализа. При постанов­ке опытов мы всегда преследуем цель выявить действие опре­деленного фактора (или факторов) на результативный при­знак — влияние различных форм и доз удобрений на уро­жайность, химический состав и другие хозяйственно-ценные свойства культур; сравниваем урожайность и качество раз­личных сортов, изучаем влияние факторов внешней среды на физиологические свойства организмов и т. д. Планируя опыт, мы предусматриваем проведение его в определенном количестве повторностей.

На результативный признак оказывают влияние:

1. Факторы, взятые для изучения.

2. Выровненность условий в отдельных повторностях опыта.

3. Случайные, не предусмотренные в процессе проведения опыта явления.

Основная задача дисперсионного анализа — выявить сте­пень влияния перечисленных факторов на результаты опыта.

Рассмотрим применение дисперсионного анализа на мо­дельном примере: мы берем модельные данные для того, чтобы не отвлекать внимания на сложные расчеты, неминуе­мо возникающие при обработке фактически полученных дан­ных, где всегда встречаются дробные и смешанные числа.

Допустим, мы хотим сравнить в полевых условиях уро­жайность пяти сортов: А, Б, В, Г, Д. Д — стандарт, лучший районированный в данной области сорт. Остальные сорта выведены селекционером. Нам необходимо установить, какие из новых сортов достоверно превышают по урожайности стандарт. Обычно такой опыт проводят в шести повторнос­тях, мы сокращаем число повторностей до трех, чтобы упро­стить расчеты (табл. 44).


Таблица 44



При подсчете суммы урожая по сортам и повторностям итог должен быть одинаковым. В нашем примере он равен 60. У нас было 15 вариантов (5 сортовЗ повторности). Сле­довательно, средний урожай равен 4. Вычисляем отклонения от среднего по каждой делянке, записываем их в трех столб­цах, идущих за суммой урожая по сортам. Возводим эти отклонения в квадрат и суммируем их по столбцам и стро­кам. Итог должен сойтись. Мы получили 44 — это сумма квадратов отклонений по опыту в целом.


При наличии счетной техники это же вычисление можно

сделать по формуле




т. е. сумма квадратов от­клонений в целом по опыту равна сумме квадратов всех дан­ных опыта минус квадрат суммы данных, деленное на число вариантов (сорта  повторности). Нетрудно убедиться, что мы получим такие же данные:



Вычислим сумму квадратов отклонений (табл. 45) по сор­там (по вариантам опыта).


Таблица 45



Умножаем полученную сумму на количество повторностей


103=30.


Сумма квадратов отклонений по вариантам опыта (сор­там) равна 30. При использовании счетных машин этот пока­затель вычисляется по формуле:



На нашем примере:




(пb — число повторностей, n — число вариантов опыта).

Сумма квадратов отклонений по сортам равна 30.

Вычислим сумму квадратов отклонений по повторностям

(табл.46).


Таблица 46



Полученную сумму квадратов отклонений умножаем на количество сортов:

0,96 5 = 4,8.

Сумма квадратов отклонений по повторностям равна 4,8. При использовании счетных машин этот показатель вычис­ляется по формуле:



В нашем примере

(nv — число сортов).

Сумма квадратов отклонений, обусловленных случайны­ми причинами, вычисляется по разности; общая сумма квадратов отклонений по опыту минус сумма квадратов отклонений по сортам (вариантам), минус сумма квадратов отклонений по повторностям.

44—30—4,8 = 9,2.

Составим таблицу дисперсионного анализа (табл. 47). Число степеней свободы для случайного варьирования равно произведению чисел степеней свободы по сортам и повтор­ностям :

4 Х 2 = 8.

F равно частному от деления вариансы по вариантам опыта на вариансу случайную:

7,5 : 1,15 = 6,52.

Табличное F при двух уровнях вероятности находят по таб­лице, имеющейся во всех руководствах по биометрии.

Таблица 47



Если фактическое F больше табличного, то различия между вариантами опыта реальны. Мы видим, что по сортам F больше табличного при вероятности 0,95, по повторностям F меньше табличного. Следовательно, между урожайностью сортов есть различия, повторности же выровнены, разница между ними лежит в пределах ошибки опыта.

Для сравнения урожайности сортов необходимо вычис­лить наименьшую существенную разность — НСР. Для этого определяем σ (основное отклонение), равное корню квадрат­ному из вариансы случайной:



Ошибка среднего вычисляется по формуле



При дисперсионном анализе она равна σ, деленной на ко­рень квадратный из числа повторностей.

Определим обобщенную ошибку среднего. Для этого раз­делим σ на корень квадратный из числа повторностей:



Поскольку ошибка для всех сравниваемых вариантов одна, формула ошибки разности



превращается в формулу



В нашем примере



Достоверность разности определяется с помощью крите­рия t Стьюдента, который представляет собой отношение раз­ности к ее ошибке при различном числе степеней свободы и различном уровне вероятности. Приводим таблицу 48.


Таблица 48




Наименьшая существенная разница (НСР) между изучае­мыми вариантами опыта определяется путем умножения ошибки разности на t при принятой вероятности и числе сво­боды по случайной вариансе. В нашем опыте при вероятно­сти Р = 0,95






Вернемся к результатам опыта (табл. 49).

Сорта А и Г дали достоверное Таблица 49




превышение над стандартом



А — при вероятности 0,95, Г — при вероятности 0,99. Уро­жайность сортов В и Б достовер­но не отличается от стандарта (разница меньше НСР).

Возьмем другой пример. Ис­пытывалось три сорта в пяти­кратной повторности. Получены следующие данные (табл. 50). Средний урожай по опыту



Возводим отклонения в квадрат и суммируем. Сумма квад­ратов отклонений — 44. Сумма квадратов отклонений по сортам — 4,8, по повторвостям — 30.

Составим таблицу дисперсионного анализа (табл. 51).

Таблица 50



F по сортам значительно меньше табличного. Следова­тельно, опыт не позволил выявить особенности сортов. По повторностям F больше табличного: в пределах одного сорта

Таблица 51



получены достоверные различия по повторностям. Отсюда вывод: опыт не удался потому, что условия по повторностям были не идентичны. При повторении опыта следует выбрать более выровненный участок.

Таким образом, дисперсионный анализ позволяет не толь­ко убедиться в существовании достоверных различий по изучаемым вариантам, но и понять причину неудачи (если F по повторностям было бы меньше табличного, то отсутствие разницы между сортами по урожайности можно было объяс­нить фактическим отсутствием такой разницы. Это говорило бы о том, что включенные в опыт сорта не отличались по урожайности).


Таблица 52



Рассмотрим применение дисперсионного анализа на фак­тическом материале (табл. 52). В таблице 52 показаны уро­жайность сортов яровой пшеницы, испытывавшихся в кон­курсном сортоиспытании, и расчеты, позволившие опреде­лить сумму квадратов отклонений по опыту в целом.

Определим сумму квадратов отклонений по сортам (табл. 53).

Определим сумму квадратов по повторностям (табл. 54). Составим таблицу дисперсионного анализа (табл. 55).

Наличие сортовых различий доказано (F больше F табличного).


Таблица 53




Таблица 54



Таблица 55




Различия по повторностям незначительны (F мень­ше F табличного):



Сопоставим урожайность испытывавшихся сортов с уро­жайностью стандарта (табл.56).

Таблица 56




Задачи



1. В опытах по изучению влияния облучения привоев яб­лони гамма лучами подсчитано число листьев на 1 м одно­летнего прироста. Получены следующие данные.

Число листьев на 1 м однолетнего побега:



Проведите необходимые вычисления, чтобы доказать:

а) Повлияло ли облучение на облиственность побегов?

б) Усилило ли облучение степень изменчивости по этому признаку?


2. Поражение пыльной головней исходного сорта яровой пшеницы и заложенных из него линий характеризовалось следующими показателями (табл. 57).

Таблица 57



Примечание. Данные взяты из работы О. С. Хохрикова (1971.).