Все научные статьи

Хазов А.Р. Исследование влияния размеров выборок численностей организмов в пробах на их вероятностно-статистические свойства методом имитационного моделирования гидробиологической съемки

Научная статья

 

Электронный журнал ИССЛЕДОВАНО В РОССИИ 946а организмов в пробах на их вероятностно-статистические

свойства методом имитационного моделирования

гидробиологической съемки

Хазов А.Р. (khazov@onego.ru) Институт водных проблем Севера, КарН - РАН

Введение.

В процессе планирования полевых гидробиологических исследований важное значение имеет определение необходимого количества проб, требуемых для надежных количественных оценок показателей степени развития популяций, образующих изучаемое сообщество. Основным параметром, служащим для этой цели, является их плотность (численность особей на единицу площади или объема), для вычисления которой используются выборочные статистики - среднее выборки и ее дисперсия. Кроме этого, от статистической репрезентативности данных зависит корректность применения математических методов их анализа. Вместе с тем, эта проблема имеет еще один немаловажный аспект. Большинство параметрических методов обработки данных основано на предположении об их нормальности, или, по крайней мере, на нормальном распределении выборочных статистик (средних). Так как проверку на нормальность по данным реальной гидробиологической съемки можно провести только для исходных рядов численностей организмов в пробах, которые, как было показано ранее (Хазов, 2000, 2004), соответствуют иным математическим моделям, то под сомнением оказывается корректность применения многих статистических методов, используемых для обработки гидробиологической информации. Однако, их использование допустимо, если для рядов наблюдений размером N справедлива центральная предельная теорема - распределение выборочных средних подчиняется нормальному распределению независимо от типа распределения исследуемых переменных (Айвазян и др., 1983). Таким образом, для гидроэкологических исследований актуально определение минимального количества проб в выборке (/V/v), для которых данное условие безусловно выполняется.

Следует отметить, что значение Nnзависит от характера размещения особей в пространстве, от размеров и способа отбора проб, так как перечисленные факторы оказывают влияние на вероятностно-статические свойства исходных эмпирических распределений численностей организмов в пробах.

Единственным эффективным методом исследования статистических свойств гидробиологических выборок в зависимости от их размера следует признать имитационную модель гидробиологической съемки (Хазов, 2004), так как на базе реальных полевых съемок невозможно получить требуемого количества данных. В то время, как применение модели в этих целях предоставляет исключительную возможность изучения абсолютных погрешностей между генеральными параметрами и выборочными статистиками, не доступную иным методам.

В предлагаемой работе представлены результаты статистического анализа модельных выборок различного размера, полученных из имитаций случайных размещений невзаимодействующих организмов на однородном биотопе.

Экспериментальные модельные комплексы.

С целью анализа влияния размеров выборок на их статистические свойства использовались две модификации модели с равными ожидаемыми средними в выборках. Одна - абсолютно рандомизированная со случайным начальным размещением объектов, другая - с произвольными центрами инициации. (Полное описание модели представлено в предыдущей работе (Хазов, 2004): "Исследование влияния размеров проб на вероятностно-статистические свойства выборок численностей организмов методом имитационного моделирования гидробиологической съемки").


Электронный журнал ИССЛЕДОВАНО В РОССИИ 947а ХSколичество точек инициации - 10000 (рандомизированное), 1000 (псевдоагрегированное), ХSтип их размещения - случайный, ХSраспределение объектов в центрах - Пуассоновское, ХSнаправление движения - 360,

ХSскорость перемещения - 0.01 единицы от стороны игрового поля, ХSпродолжительность перемещений - 100, ХSожидаемое среднее количество объектов в выборке - 5, ХSколичество проб - 100, ХSспособ отбора проб - случайный.

В каждом варианте модельных экспериментов генерировалось по 100 выборок объемом 5, 10, 25, 50 и 100 проб.

Наа рис.аа 1аа представленыаа финальныеаа размещенияаа объектоваа послеаа полногоаа цикл их перемещений по модельному полю.

о Яэ 0

о

'аа '

о

о о

о

Х

о о

о

эаа о

о аа о

о

о

%

Rа А

Рис. 1. Финальные расположения объектов в рандомизированных (R) и псевдоагрегированных (А) вариантах случайных размещений особей в пространстве.

Проверка на нормальность распределений выборочных статистик проводилась по критерию Колмогорова-Смирнова (Большее, Смирнов, 1965) с поправкой Лиллефорса (Lilliefors, 1967).

Результаты анализа.

Анализ соответствия исходных рядов наблюдений вероятностным распределениям показал, что выборки объемом 25-100 проб из рандомизированных размещений (см. рис. 1, R) во всех случаях, кроме одного, хорошо аппроксимировались распределением Пуассона. В одном из размещений, в серии экспериментов со 100 пробами, было отмечено спонтанное образование случайных скоплений объектов, выборка из которого достоверно отличалась от него, но соответствовала второй функции семейства сопряженных распределений Пуассона (СРП) (Хазов, 2000, 2004).

Выборки из псевдоагрегированных (дисперсных) (см. рис. 1, А) размещений объектов, содержащие 25 - 100 проб, хорошо описывались вероятностными функциями этого же семейства. Следует отметить, что определение соответствия эмпирических распределений математическим моделям в области малых выборок (я<25 проб) оказалось невозможным, так как количество дат в классах, необходимых для вычисления значений хи-квадрат, было не достаточным.

Рассмотрим особенности распределения выборочных средних в зависимости от типа финального размещения объектов.

Основные статистические характеристики этого параметра в выборках из рандомизированных размещений объектов показывают, что его распределение не отличается от нормального для рядов наблюдений, содержащих свыше 5 проб (табл. 1, рис. 2).

Распределение средних численностей в организмов в совокупностях проб, полученных из дисперсных размещений особей, становится нормальным для выборок, содержащих 25 и более проб (табл. 1, рис. 2).


Электронный журнал ИССЛЕДОВАНО В РОССИИ 948а Таблица 1. Основные статистические характеристики средних значений численностей рандомизированных (R) и дисперсных (А) выборок.

Выб.

М

niin

max

Dev.

-1.96Dev

+196Dev

As

Ex

Pl%

100R

5.02

4.57

5.59

0.23

4.56

5.47

0.43

-0.23

>20

100А

5.04

3.00

6.60

0.59

3.88

6.19

-0.03

0.14

>20

50R

4.95

4.06

5.60

0.28

4.39

5.50

-0.21

0.21

>20

50А

4.96

2.42

7.52

0.95

3.09

6.83

0.16

-0.09

>20

25R

4.95

3.92

6.08

0.43

4.10

5.79

-0.04

0.24

>20

25А

4.87

1.56

9.72

1.31

2.30

7.44

0.21

0.26

>20

10R

5.02

3.80

6.80

0.61

3.83

6.21

0.26

-0.02

>20

10А

4.63

0.30

11.20

1.78

1.14

8.12

0.47

0.56

<1

5R

4.77

2.80

7.80

0.96

2.88

6.66

0.68

0.79

<5

4.48

0.00

15.80

2.61

-0.65

9.60

0.61

0.63

<5

Примечание: M - среднее, min, max - минимальное и максимальное значение, Dev - стандартное отклонение, As - асимметрия, Ex - эксцесс, PL% - .вероятность соответствия нормальной функции.


K-S d-09760, о= .20, Lilliefors р<.05


<-Sd= 05651, рь 20; Lilliefors р< 05



ж' -'/гУ' жж

2а 3

K-S

4а 5

M10R d=06682. р> 2Q;Lilhef

6

rsp

7а 0 0

гп

.. \

ж,,!:ж

ЙГ7

[ж7.';"/Ы=Я

Ш

жж:жж:жж:*:ж ж жжжжжж%


Ч

Iаа гя=э

-20аа 24аа 6а 8 10 1;

М10А

K-S d=.urо53, рл.1 0 , Lilliefors p<.01

........ ж/жжж

m

\..

\

ж!ж:ж::ж

\

'жжжжжжжжж

-.-.^д

.: ж: ж: S;

- - -\



4 46аа 5 55аа Gаа Ь6аа 7

M23F.

I--5 d=.07241. p- 20, Lilliefois |u= 20

...... /

/

'жж жж

m

.. i

жжжжж жж%ж.................................


K-5 d= 0

3386.

? 20, Lilliefo

IV

:o

I

....... f

Ж1..........

.. 4^


3.5 4аа 4.5 5 5.5 Sаа 6.5а 0а 1а 2а 3а 4а 5а Sа 7

Рис. 2. Аппроксимация нормальной функцией эмпирических распределений средних численностей рандомизированных (слева) и дисперсных (справа) размещений объектов в пространстве.

В виду экологической важности оценки средних значений численностей организмов был проведен анализ отклонений выборочных средних от ожидаемого генерального параметра, который по условиям эксперимента известен и равен 5 объектам (ДМ=М-5).

Проверка на нормальность эмпирических распределений AMпоказала, что их достоверная аппроксимация этой функцией отмечается для рандомизированных выборок объема свыше 5 проб и дисперсных - свыше 10, что согласуется с результатами тестов на нормальность средних значений численностей (табл. 2, рис. 3). Однако анализ отклонений выборочных средних от генеральногоа параметраа установил,аа чтоа иха значенияа ваа областиа малочисленныха выборок


Электронный журнал ИССЛЕДОВАНО В РОССИИ 949а Таблица 2. Основные статистические характеристики отклонения средних значений численностей от генерального параметра рандомизированных (R) и дисперсных (А) выборок.

Выб.

AM

niin

max

Dev.

-1.96Dev

+1.96Dev

As

Ex

Pl%

100R

0.02

-0.43

0.59

0.23

-0.44

0.47

0.43

-0.23

>20

100А

0.04

-2.00

1.60

0.59

-1.12

1.19

-0.03

0.14

>20

50R

-0.05

-0.94

0.60

0.28

-0.61

0.50

-0.21

0.21

>20

50А

-0.04

-2.58

2.52

0.95

-1.91

1.83

0.16

-0.09

>20

25R

-0.05

-1.08

1.08

0.43

-0.90

0.79

-0.04

0.24

>20

25А

-0.13

-3.44

4.72

1.31

-2.70

2.44

0.21

0.26

>20

10R

0.02

-1.20

1.80

0.61

-1.17

1.21

0.26

-0.02

>20

10А

-0.32

-4.70

5.10

1.41

-3.08

2.45

0.48

1.49

<1

5R

-0.23

-2.20

2.80

0.96

-2.12

1.66

0.68

0.79

<5

-0.52

-5.00

10.80

2.61

-5.65

4.60

0.61

0.63

<5

Примечание: AM - среднее отклонение, min, max - минимальное и максимальное значение, Dev - стандартное отклонение, As -асимметрия, Ex - эксцесс, PL% - .вероятность соответствия нормальной функции.


 


DM5E

K-S d- 09760, р> 20; Lilhefors р-= 05

_k=s_

<-S d=.06682, р> .20, Lilliefors р> 20

 

-2 -1.5

-1а -0.5а 0аа 0.5аа 1 K-S d-07241, в= .20, Lilliefors p= .20

1.5аа 2

f

*..

ж,

m

У

.:ж:жж/жжжж;

ж:ж:ж;*:


K-Sd- 05551,

р= .20, Lilliefors р=.05

У

i

?:'5:'

ш

\.................

\


Рис. 3. Аппроксимация нормальной функцией эмпирических распределений ДМ рандомизированных (слева) и дисперсных (справа) размещений объектов в пространстве.

В отличие от выборочных средних, для которых генеральный параметр задавался в явном виде, независимо от конечного размещения организмов, величина их дисперсий априорно не известна, так как она зависит от многих параметров модели - количества точек инициации, скорости перемещения объектов, направления и времени его движения, а так же от размеров пробоотборника. Однако для изначально рандомизированных выборок (см. рис. 1, R) значение ожидаемой дисперсии известно - оно равно генеральной средней, так как ранее было показано, что в этом случае численности особей в пробах, как правило, распределены согласно Пуассоновчкой функции, так как спонтанное образование ложно агрегированных размещений особей событие довольно редкое. Действительно, усредненное среднее количество объектов в выборках для рандомизированных размещений приблизительно равно средней их дисперсий, однако диапазон варьирования дисперсий существенно выше, чем средних. Эта закономерность


Электронный журнал ИССЛЕДОВАНО В РОССИИ 950а Таблица 3. Показатели вариабельности средних значений численностей и их дисперсий рандомизированных (R) и дисперсных (А) выборок.

Выб.

М

D

Mdev.

Ddev.

Mcv%

Dcv%

100R

5.02

4.97

0.23

0.81

4.63

16.36

100А

5.04

37.31

0.59

7.69

11.74

20.61

50R

4.95

4.94

0.28

0.94

5.69

18.93

50А

4.96

37.57

0.95

13.29

19.23

35.37

25R

4.95

4.97

0.43

1.86

8.72

37.39

25А

4.87

37.52

1.31

17.39

26.90

46.35

10R

5.02

5.29

0.61

2.37

12.14

44.78

10А

4.63

35.22

1.78

24.89

38.45

70.66

5R

4.77

4.65

0.96

3.37

20.23

72.41

4.48

35.69

2.61

39.38

58.39

110.36

Примечание: M - среднее, D - средняя дисперсия, Mdev, Ddev - стандартные отклонения средних и дисперсий, Mcv, Dcv -коэффициенты вариаций средних и дисперсий.

Проверка на нормальность распределения дисперсий дала отрицательный результат во всех вариантах экспериментов. Тем не менее, оказалось, что оно с высокой степенью точности аппроксимируются логнормальной функцией, за исключением выборок, состоящих из 5 проб, отобранных из дисперсных размещений объектов (рис. 4).


2.132 1.066

Variable D5Rа ; diftributitti.: Log^imil Kolinocjomv-Srnirnovd = 0734713, p=аа n.s Chi-Square: 13 39338, df=аа 7, p = 0631224

4.264 6.396а 8.528 10.66 12.792 14.924аа 17.Of 533аа 7.462а Э.5Э4 11.726аа 13 Variable DIOR , iHstriburioii: Logtiatmal Kolmogorov-Smirnovd = .0500271, p =аа n.s. Chi-Square: 2.305780, df=аа 4, p - .67971 90


Variable D5Aа ; distribution' Lognotmal

Kolrnogorov-Srnirnovd = .1097337, p * .01 Chi-Square: 23.70391, df=аа 6, p= .0000694

Variable D10Aаа ; distribution: LogjMimal

KQlmogorov-Smirnovd= .0779821, p -= .1 0

Chi-Square: 1 8.42069, df=аа 8, p = .01 83077


Variable D25A , distribuiiMi: Lo^cimel Kolmogorov-Smirnov d = .0635313, p < .20 Chi-Square: 6.036111, df=а 5, p= .3027486

Variable I'25Rа ж distribution: Loginiuul

-аа 0а 11

Kolmogorov-Sinirrov d = .0523856, p =аа n.s. Chi-Square: 1.726153, df=аа 3, p = 6311395

t

tl

/

/

A

/

1

I

M\

\ш

т^.____ ,

Рис. 4. Аппроксимация логнормальной функцией эмпирических распределений выборочных дисперсий рандомизированных (слева) и дисперсных (справа) размещений объектов в пространстве.

Рассмотрим распределение выборочных отношений дисперсий к среднему (K=D/M), которое часто используется в гидробиологических исследованиях в качестве простейшего


Электронный журнал ИССЛЕДОВАНО В РОССИИ 951аа

Variable К5Еаа ж distribution: Logumnal Kolrnogomv-Srnirnov d= .0933755, p =аа ns Chi-Square: 9.783734, df=аа 2, p = .00751 30


Variable EJAа , distribution: Logftomal

Kolmogorov-Smirnovd = .0730203, p < .10

Chi-Square: 25.75579, df= 1 4, p = .0278439



 


Variable K10E: . distribution: Logtunmil

Koliriogorov-Smirnov d= .0351327, p =аа n.s. Chi-Square: 5.465209, df=аа 4, p= .2428308

жж 'ж& t'

i.i.i

Щ

lii:..................


Variable E10A ж distributim1 Logparmal

Kolinogorov-Smirriovd = .0394393, p=аа n.s. Chi-Square. 2.109064, df=аа 5, p= .3330532



Variable K25R ; ilistrilraticiv Logwmial Kolrnogomv-Srnirnovd = 0586942, p=аа n.s. Chi-Square: 4.690194, df=аа 3, p= .1959624


Variola КЭ5а Х diaributiЩ Logicimal

Kolmogomv-Smirnovd = 031 42D3, p =аа n.s. Chi-Square. 7.176939, df=аа 8, p= .5176824


Рис. 5. Аппроксимация логнормальной функцией эмпирических распределений выборочных коэффициента К рандомизированных (слева) и дисперсных (справа) размещений объектов в пространстве.

Данный результат представляется весьма важным, так как в этом случае логарифмы исходных значений эмпирических распределений хорошо аппроксимируются нормальной функцией, как показано для отношения дисперсии к среднему на рис. 6 для выборок объемом 10 проб из ложно контагиозных размещений объектов.

Variable LN10AK ; distribution: Hormal

K-Sd = .0394391, р =аа n.s. Lillieforsp =аа n.s. Chi-Square: 9.272843, df=аа 8, p=.3198429

Щ


Й

f^lra-

жtaflMiS

0 0.20.40.60.8а 1аа 1.21.41.61.6а 2а 2.2 2.4 2.6 2.Sа 3 3.2 3.4 3.6 3.S


Рис. 6. Аппроксимация нормальной функцией эмпирических распределений выборочных логарифмов коэффициента К дисперсных размещений объектов в пространстве.

Данное преобразование позволяет с большей точностью определять значение К. Действительно, после преобразования 6;=1п(йГ;) имеем среднее B=Lbilnи его стандартное отклонение *в=(Е(6;-6) /(й-1)) ' , где п - объем выборки, тогда В находится в доверительном интервале BmiД=B-l .96sB, Bmax=B+l .96sB, проведя обратное преобразование получим


Электронный журнал ИССЛЕДОВАНО В РОССИИ 952а Таблица 4. Средние коэффициента К, их доверительные интервалы, вычисленные обычным способом и с использованием логнормального распределения.


Выб.

К

j^exp

-1.96St

+1.96St

-1.96Stexp

+1.96Stexp

100R

0.99

0.98

0.69

1.29

0.95

1.01

100А

7.39

7.31

5.17

9.61

7.18

7.43

50R

1.00

0.98

0.64

1.35

0.94

1.02

50А

7.48

7.30

4.09

10.88

7.11

7.49

25R

1.00

0.95

0.28

1.72

0.88

1.01

25А

7.58

7.16

2.32

12.83

6.89

7.44

10R

1.06

0.97

0.16

1.95

0.89

1.05

10А

7.23

6.54

0.57

13.89

6.21

6.88

5R

0.98

0.73

-0.35

2.31

0.62

0.87

6.87

5.60

-1.73

15.46

5.16

6.07

Примечание: К, St- среднее коэффициента К и его стандартное отклонение, Кехр, Stexp - расчетное среднее К и его стандартное отклонение.

Следует отметить, что оценка средних отношений дисперсии к среднему с использованием логнормального распределения дает более низкие величины, чем полученные обычным способом (см. табл. 4).

В заключение данного раздела рассмотрим еще один эффект влияния размеров выборки на ее вероятностно-статистические свойства, обнаружить который можно только на базе модельных экспериментов.

Р{ХХ Р{Х2

P(x1) = p(xhAsl) --Р(х2) = Ъ1=оР{Х1=х1)Р{Х2

Кака ужеа упоминалосьа вышеа эмпирическиеа распределенияа численностейа из псевдоагрегированных размещений объектов наилучшим образом описывались функциями семейства сопряженных распределений Пуассона: Xi,Xi=0,1...}

1ъл\

од...}

хх)

Х2'Х2

х21Хх


P{Xi= х,,х, = 0,1..} = Р(хЛ = XI, =0P{Xj-i= Xf.JPiX, = х, IX, j


V-i


}


P{Xj=Xj/Xj_l=Xj_l} = p(x;cXj_l) = exp(-cXj_l)cX:J_1/Xj\, где с - относительный размер

пробоотборника, q = D(Xj)IM(Xj) = ^jJ.аа с1~1 и_/'=ггас(</)+1.

Для всех выборок, состоящих из 100 проб наилучшей аппроксимирующей были функции семейства СРП. Однако в серии экспериментов с 50 наблюдениями отмечено появление рядов с достоверным уровнем согласия с распределением Пуассона. Эта тенденция проявилась еще сильнее в сериях экспериментов с 25 пробами. Тем не менее, не смотря на высокую степень согласия с распределением Пуассона по критерию хи-квадрат (Qx>\0%), вид эмпирических распределений не соответствует этой функции, в отличие от модели СРП (рис. 7).


частота


----- а----- Пуассонаа - - - 'Выборка

Рис. 7. Графики эмпирического распределения (25 проб), СРП и Пуассона.


Электронный журнал ИССЛЕДОВАНО В РОССИИ 953а Представленные результаты позволяют однозначно утверждать, что для широкого класса случайных размещений объектов в пространстве центральная предельная теорема для гидробиологических исследований справедлива для выборок, содержащих не менее 10-25 проб, в зависимости от степени дисперности пространственной структуры популяции. Однако в условиях реальной гидробиологической съемки необходимо ориентироваться на сильно дисперсные пространственные размещения особей. В обоснование этого утверждения приведем следующие аргументы.

Во первых, большинство организмов в природе демонстрируют сильно неоднородные размещения в пространстве (Downing, 1986).

Во-вторых, на основе рядов наблюдений небольшого объема невозможно провести анализ соответствия эмпирических распределений математической модели случайных размещений (СРП), что может привести к ошибкам интерпретации результатов, так как кроме них в природе существуют распределения организмов, детерминируемые внутрипопуляционными взаимодействиями между особями и/или действием факторов окружающей среды.

В третьих, разброс параметров в малочисленных выборках, даже из абсолютно рандомизированных размещений, слишком велик, что не позволяет провести однозначную идентификацию принадлежности каждой выборочной реализации к тому или иному расположению особей в пространстве.

Таким образом, если принять во внимание тот факт, что оценка средней численности по небольшим совокупностям проб обладает систематической погрешностью, то объем проб для корректного определения средней плотности популяции должен быть не менее 25 проб. Это то минимальное количество, которое необходимо отобрать на одном биотопе.

Выводы.

"р- объем выборки для полноценной статистической обработки, в том числе и для индикации типа размещений организмов в пространстве, должен быть не менее 25 проб;

^ распределение средних значений рядов наблюдений и их отклонений от генерального параметра соответствует функции нормального распределения;

> распределение дисперсий и их отношений к среднему распределено в соответствии с логнормальным законом;

^ оценка средней численности организмов на основе малочисленных выборок приводит к заниженным значениям этой характеристики.

Литература:

    • Айвазян С.А, Енюков И.С., Мешалкин Л.Д. Прикладная статистика. - М.: Финансы и статистика, 1983. - 471с
    • Большее Л.Н., Смирнов Н.В. Таблицы математической статистики. - М: Наука, 1965. -464 с.
    • Хазов А.Р Анализ гидробиологических данных и его программная реализация. -Петрозаводск: КарН - РАН. - 2000. - 155 с.
    • Хазов А.Р. "Исследование влияния размеров проб на вероятностно-статистические свойства выборок численностей организмов методом имитационного моделирования гидробиологической съемки" // Электронный журнал "Исследовано в России", 224, 2381-2390, 2004 г.
    • Downing JA. Spatial heterogeneity: evolved behavior or mathematical artefact. // Nature. -1986. vol. - 323. - № 6085. -P. 255-257
    • Lilliefors H. W. On the Kolmogorov-Smirnov test for normality with mean and variance unknown // Journal of the American Statistical Association. - 1967. vol.64. - P. 399-402.
         Все научные статьи