люди или население, промышленные предприятия. Выделяются эти совокупности с целью изучения, соответственно, человеческого сообщества, промышленности и т.д.
Массив информации по совокупности часто называют матрицей наблюдений. Ее строкам соответствуют объекты и/или время, т.е. наблюдения, столбцам Ч величины-признаки или переменные. Обозначают эту матрицу через X, ее элементы Ч через xij, гд е i Ч индекс наблюдения, j Ч индекс переменнойпризнака.
В конкретном исследовании все множество признаков делится на 2 части: факторные признаки, илинезависимые факторы, Ч экзогенные величины и результирующие (результативные) признаки, илиизучаемые переменные,Чэндогенные величины. Целью исследования обычно является определение зависимости результирующих признаков от факторных. При использовании развитых методов анализа предполагается, что одни результирующие признаки могут зависеть не только от факторных, но и от других результирующих признаков.
В случае, если факторных признаков несколько, используют методы регрессионного анализа, если наблюдениями являются моменты времени, то применяются методы анализа временных рядов, если наблюдения даны и по временным моментам, и по территориально распределенным объектам, то целесообразно применить методы анализа панельных данных.
Если наблюдений слишком много и/или совокупность недостаточно однородна, а также для изучения внутренней структуры совокупности или при применении 38 Глава 1. Основные понятия особых методов анализа связи, предварительно проводится группировка совокупности. Группировка Ч деление совокупности на группы по некоторым признакам.
Наиболее естественно проводится группировка по качественным признакам.
Такие признаки измеряются обычно в шкале наименований или в порядковой шкале. Например, признак пол: 1 Чмужской, 2 Ч женский (или -1 и 1, 0 и 1, 1 и 0 и т.д.); лакадемическая группа: 1 Ч студент 1-й группы, 2 Чстуд ент 2-й группы и т.д. (это Ч примеры использования шкалы наименований); лобразование: 1 Ч отсутствует, 2 Ч начальное, 3 Ч среднее, 4 Ч высшее (номинальная шкала с элементами порядковой); оценка, полученная на экзамене: 1 Ч неудовлетворительно, 2 Ч удовлетворительно, 3 Ч хорошо, 4 Ч отлично (порядковая шкала с элементами интервальной).
Качественный признак принимает определенное количество уровней (например: пол Ч 2 уровня, лобразование Ч 4 уровня), каждому из которых присваивается некоторое целое число. Перестановка строк матрицы наблюдений по возрастанию или убыванию (если шкала данного признака порядковая, то обычно Ч по возрастанию) чисел, стоящих в столбце данного фактора, приводит к группировке совокупности по этому фактору. В результате строки матрицы, соответствующие наблюдениям-объектам с одинаковым уровнем данного качественного фактора, оказываются рядом и образуют группу.
Группировка по количественному (непрерывному или дискретному) признаку производится аналогичным образом, но после переизмерения этого признака в порядковой (или интервальной) шкале. Для этого проводятся следующие операции.
Пусть xij, i =1,..., N Ч значения j-го количественного признака в матрице N наблюдений, по которому проводится группировка Ч деление совокупности на kj групп. Весь интервал значений этого признака [z0j, zkjj], гд е z0j min xij, i а zkjj max xij, делится на kj полуинтервалов [z0j, z1j], (zij-1, j, zijj], i ij =1,..., kj. Первый из них закрыт с обеих сторон, остальные закрыты справа и открыты слева. Количество и размеры полуинтервалов определяются целями исследования. Но существуют некоторые рекомендации. Количество полуинтервалов не должно быть слишком малым, иначе группировка окажется малоинформативной. Их не должно быть и слишком много, так, чтобы большинство из них были не пустыми, т.е. чтобы в них попадали хотя бы некоторые значения количественного признака. Часто размеры полуинтервалов принимаются одинаковыми, но это не обязательно.
Теперь j-й столбец матрицы наблюдений замещается столбцом рангов наблюдений по j-му признаку (рангов j-го признака), которые находятся по следующему правилу: i-му наблюдению присваивается ранг ij, если xij принадлежит ij-му полуинтервалу, т.е. если zij-1, j Сама группировка осуществляется также перестановкой строк матрицы наблюдений по возрастанию ранга данного признака. В результате ij -ю группу образуют наблюдения-объекты, имеющие ij-й ранг, а группы в матрице наблюдений располагаются по возрастанию ранга от 1 до kj. Группы, полученные в результате группировки по одному признаку, могут быть разбиты на подгруппы по какому-нибудь другому признаку. Процесс деления совокупности на все более дробные подгруппы по 3-му, 4-му и т.д. признаку может быть продолжен нужное количество раз Ч в соответствии с целями конкретного исследования. Перестановка строк матрицы наблюдений при группировке по каждому последующему признаку осуществляется в пределах ранее выделенных групп. Некоторые пакеты прикладных программ (электронные таблицы, базы данных) имеют специальную операцию, называемую сортировкой. Эта операция переставляет строки матрицы наблюдений по возрастанию (или убыванию) значений ранга (уровня) сначала 1-го, потом 2-го, 3-го и т.д. указанного для этой операции признака. В этом смысле термины группировка и сортировка эквивалентны. Признаки, по которым группируются объекты совокупности, называются группирующими. Если таких признаков больше одного, группировка называется множественной, в противном случае Ч простой. Пусть группирующими являются первые n признаков j =1,..., n, и j-й признак может принимать kj уровней (может иметь ранги от 1 до kj ). По этим приn знакам совокупность в конечном итоге будет разбита на K групп, где K = kj. j=Это Ч так называемые конечные или заключающие группы. Последовательность группирующих признаков определяется целями проводимого исследования, важностью признаков. Чем ближе признак к концу общего списка группирующих признаков, тем более младшим он считается. Однако с формальной точки зрения последовательность этих признаков не важна, от нее не зависит характер группировки, с ее изменением меняется лишь последовательность конечных групп в матрице наблюдений. Общее число полученных групп существенно больше количества конечных групп. Каждый j-й признак по отдельности разбивает совокупность на kj групп, вместе с признаком j Чна kjkj групп, вместе с признаком j Чна kjkj kj 40 Глава 1. Основные понятия групп и т.д. Поэтому, не сложно сообразить, общее число групп, включая саму совокупность, равно (1 + kj). j Действительно: (1 + kj) =1 +k1 + k2 + + k1k2 + k1k3 + + k1k2k3 + + k1k2... kn, j Ч слагаемые правой части показывают количества групп, выделяемых всеми возможными сочетаниями группирующих признаков. Конечные группы можно назвать также группами высшего, в данном случае n-го порядка, имея в виду, что они получены группировкой по всем n признакам. юбое подмножество группирующих признаков, включающее n элементов, где 0 j Дальнейшее изложение материала о группировках будет иллюстрироваться примером, в котором при n = 2 первым группирующим признаком является студенческая группа с k1 = 4 (т.е. имеется 4 студенческие группы), вторым группирующим признаком Ч пол с k2 = 2, а при n = 3 добавляется третий группирующий признак Ч лоценка, полученная на экзамене, с k3 = 4. В этом примере (при n =3 ) имеется 32 конечные группы (третьего порядка), образующие класс с именем (все элементы которого имеют имя) студенты. Существуют 3 класса групп 2-го порядка (C3 =3 ). Класс А1, образуемый подмножеством группирующих признаков (12), включает 8 групп с именем люноши или девушки такой-то студенческой группы, А2 Ч образуемый подмножеством (13), включает 16 групп с именем студенты такой-то группы, получившие такую-то оценку, и А3 Ч образуемый подмножеством (23), включает 8 групп с именем люноши или девушки, получившие такую-то оценку на экзамене. Классов групп первого порядка имеется также 3 (C3 =3 ). Класс Б1, образуемый подмножеством (1), включающий 4 группы с именем такая-то студенческая группа, Б2 Ч подмножеством (2), включающий 2 группы с именем люноши или девушки, и Б3 Ч подмножеством (3), включающий 4 группы с именем студенты, получившие такую-то оценку на экзамене. 1.9. Статистические совокупности и группировки Каждой конечной группе соответствует конкретное значение так называемого мультииндекса I порядка n (состоящего из n элементов), который имеет следующую структуру: i1i2... in (I = i1i2... in ). Для всех наблюдений конечной группы, имеющей такое значение мультииндекса, первый группирующий признак находится на уровне (имеет ранг) i1, второй группирующий признак Ч на уровне i2 и т.д., последний, n-й Ч на уровне in. Линейная последовательность (последовательность в списке) значений мультииндекса совпадает с последовательностью конечных групп в матрице наблюдений. На первом месте стоит значение I1, все элементы которого равны единице (конечная группа, для всех наблюдений которой все группирующие признаки находятся на первом уровне). Далее работает правило: быстрее меняются элементы мультииндекса, соответствующие более младшим группирующим признакам. Так, в иллюстрационном примере при n =2 последовательность значений мультииндекса такова: 11, 12, 21, 22, 31, 32, 41, 42. Последним значением мультииндекса является IK = k1k2... kn. Поскольку поI следовательность значений мультииндекса однозначно определена, означает I =Iсуммирование по всем значениям мультииндекса от I1 до I. В некоторых случаях мультииндексы групп называют кодами групп. После завершения группировки столбцы группирующих признаков часто исключаются из матрицы наблюдений, т.к. содержащаяся в них информация сохраняется в мультииндексах-кодах. Если из полного мультииндекса порядка n вычеркнуть некоторые элементыпризнаки, то получается мультииндекс более низкого порядка n, который именует определенную группу порядка n. Операция вычеркивания проводится заменой в исходном мультииндексе вычеркиваемых элементов символом л (иногда используется символ точки или какой-нибудь другой). Это необходимо для того, чтобы сохранить информацию о том, какие именно признаки вычеркнуты из мультииндекса. В иллюстративном примере группы класса А1 имеют мультииндекс со звездочкой на третьем месте, а класса Б2 Ч на первом и третьем местах. Для того чтобы подчеркнуть принадлежность мультииндекса I к конечным группам, мультииндексы групп более низкого порядка можно обозначать I(). Теперь вводится еще один специальный мультииндекс J, который в полном формате (при порядке n ) представляет собой последовательность целых чисел от 1 до n и обозначается G. В этом мультииндексе J все элементы, которые заменены звездочкой в мультииндексе I(), также заменены на звездочку. Пусть J Ч последовательность из n звездочек (все элементы заменены на л ). Для индексации групп можно использовать пару индексов I, J (в этом случае к I излишне приписывать () ). В этом случае из этих мультииндексов можно в действительности вычеркнуть все звездочки, т.к. информация о вычеркнутых признаках сохраняется в J. Так, например, группа студенты второй группы, получившие лотлично 42 Глава 1. Основные понятия на экзамене именуется мультииндексом I(), равным 24, или парой мультииндексов I, J Ч 24, 13. Второй способ удобен, когда речь идет о группах низких порядков. В данном изложении будет использоваться первый способ индексации. Группа I() (с мультииндексом I() ) является объединением конечных групп с такими значениями мультииндекса I, что: а) все те их элементы, которые соответствуют элементам, не вычеркнутыми из I(), совпадают с ними; б) все элементы, соответствующие вычеркнутым из I() элементам, пробегают все свои зна чения. Такую операцию объединения естественно обозначить. Так, например, I() группа 14 является объединением групп 114 и 124, а группа 42 Ч объединением групп 421, 422, 423 и 424. Если I() =J, объединяются все конечные группы и образуется исходная совокупность, а сам I(), равный J, формально выступает мультииндексом всей совокупности. Через J обозначается класс групп, образованных подмножеством признаков, не замененных в J звездочками. Так, продолжая пример, А2 является классом 13, а Б2 Ч классом 2. Количество групп в J-классе KJ является произведением kj c такими j, которые не заменены звездочками в J ; такую операцию произведения естественно обозначить. При J = G оно равно количеству коJ нечных групп K, апри J = J принимается равным 1 (исходная совокупность Ч одна). Пусть NI Ч число наблюдений-объектов в конечной группе I. Тогда число наблюдений в группе более низкого порядка I(), которое можно обозначить NI(), равно NI, где операция выполняется аналогично операции. Эти числа I() I() I() называются групповыми численностями, все они больше либо равны нулю, в случае равенства нулю соответствующая группа пуста. Если I() =K,то NI() = N.