Книги по разным темам Pages:     | 1 |   ...   | 5 | 6 | 7 | 8 | 9 |   ...   | 82 |

Каждому наблюдению-объекту можно также поставить в соответствие мультииндекс порядка n +1, имеющий структуру IiI, гд е I мультииндекс конечной группы, к которой принадлежит данное наблюдение, а iI Ч номер данного наблюдения в этой группе. Так, в иллюстрационном примере 3125 Ч мультииндекс пятой девушки в списке девушек третьей группы, получивших на экзамене лудовлетворительно. Исходный линейный индекс i наблюдения с мультииндексом IiI I равен NI + iI, гд е I- Ч значение мультииндекса конечной группы, предшеI =Iствующее I в последовательности всех значений мультииндекса. Так, в примере значение мультииндекса 423 предшествует значению 424, а значение 314 Ч значению 321.

Мультииндекс, в котором (n +1)-й элемент замещен звездочкой, обозначает все множество наблюдений группы. Так, 13 мультииндекс списка всех студентов первой группы, получивших на экзамене хорошо.

1.9. Статистические совокупности и группировки Результаты группировки применяются для решения задач 3-х типов.

1) Используя информацию о групповых численностях, анализируют распределение частот или эмпирических вероятностей признаков, теоретическим обобщением которых являются функции распределения вероятностей и плотности вероятностей случайных величин. Потому такие распределения частот иногда называют эмпирическими функциями распределения вероятностей и плотностей вероятностей признаков. Если группировка является множественной, то говорят о совместном распределении признаков (группирующих), которое может использоваться в анализе зависимостей между этими признаками. В таком случае группирующие признаки делятся на факторные и результирующие. Так, в иллюстрационном примере можно изучать зависимость оценки, полученной на экзамене, от факторов студенческая группа и пол. Приемы построения эмпирических распределений вероятностей и простейшие методы анализа связей с помощью совместных распределений изучаются в этой части книги.

При решении задач этого типа группирующие признаки являются, как правило, количественными.

2) Все группирующие признаки выступают факторными, и исследуется их влияние на некоторые другие Ч результирующие признаки xj, j > n. В этом случае группирующие (факторные) признаки являются обычно качественными, и используются методы дисперсионного анализа, элементарные сведения о котором даются в главе 4 этой части (более основательно эти методы рассматриваются в III-й части книги). В иллюстрационном примере при n =2 признак лоценка не входит в число группирующих, и если взять его в качестве результирующего, то можно также исследовать влияние факторов студенческая группа и пол на оценку.

В пункте 1) говорилось о других методах изучения этого влияния.

3) Анализируются зависимости между признаками внутри выделенных групп и/или между группами, т.е. внутригрупповые и/или межгрупповые связи. Во втором случае в анализе используются средние значения признаков в группах. В обоих случаях факторные и результирующие признаки не входят во множество группирующих признаков. Методы регрессионного анализа, используемые для анализа связей, и методы проверки гипотез о существенности различий параметров связей между различными группами изучаются во II-й и III-й частях книги. В главе настоящей части даются общие сведения о некоторых из этих методов.

Особенность рассмотренных методов группировки заключается в том, что деление на группы всякий раз проводится по значениям строго одного признака. В одну группу попадают наблюдения-объекты с близкими (или Ч для качественных признаков Ч совпадающими) значениями признака. Каждый последующий признак лишь дробит ранее выделенные группы. Между тем, существуют методы выделения групп сразу по нескольким признакам. При таких группировках используются 44 Глава 1. Основные понятия различные меры близости векторов. Наблюдения i и i попадают в одну группу, если по выбранной мере близки вектора xij и xi j, j =1,..., n. Методы таких группировок используются в кластерном анализе (кластер Ч класс). Существуют и обратные задачи, когда новое наблюдение-объект надо отнести к какому-то известному классу. Такие задачи решаются методами распознавания образов, они возникают, например, при машинном сканировании текстов или машинном восприятии человеческой речи.

Признаки также образуют совокупности разной степени однородности, понимаемой в этом случае только в качественном смысле. Как и в анализе совокупности объектов можно обозначить через Ij множество объектов, обладающих j-м признаком. Степень однородности совокупностей признаков тем выше, чем больше общее пресечение этих множеств для признаков, входящих в совокупность. Однородные совокупности признаков часто называют системами, акцентируя внимание на наличии связей между признаками совокупности.

Совокупности признаков обычно также группируются. Особенностью их группировок является то, что они имеют строго иерархический характер, т.е. последовательность групп признаков разного порядка строго определена. Когда же речь идет о группировках наблюдений-объектов, то их иерархия (последовательность групп от низших порядков к высшим) условна, она всегда может измениться при изменении порядка группирующих признаков. Группы признаков обычно называют классами и подклассами или классами разного уровня (иерархии).

На нулевом уровне иерархии признаков размещается имя всей совокупности признаков, например, показатели развития промышленных предприятий. Далее следуют классы первого уровня с их именами, например, материальные ресурсы, затраты, результаты, финансовые пассивы, финансовые активы и т.д. Эти классы детализируются на втором уровне: например, материальные ресурсы делятся на лосновной капитал, запасы готовой продукции, производственные запасы, незавершенное производство. На третьем уровне иерархии запасы готовой продукции, например, делятся по видам продукции. И так далее. Разные направления иерархии могут иметь разное количество уровней детализации (иерархии). Например, материальные ресурсы могут иметь 4 уровня, а финансовые активы Ч 3. В исходной матрице наблюдений только признаки низшего уровня иерархии (классов высшего порядка) имеют числовые значения (после группировки признаков и обработки матрицы наблюдений могут быть введены столбцы со значениями итоговых показателей по некоторым или всем классам и подклассам признаков).

Сама группировка формально может быть проведена так же, как и группировка объектов (но с некоторыми отличиями). Разным классам одного уровня, образующим один класс предыдущего уровня, присваиваются различные целые числаранги, т.е. классы лизмеряются в номинальной шкале. Как видно, лизмерение 1.10. Задачи классов одного уровня зависит от результатов лизмерения классов предыдущего уровня, чего не было при группировке совокупностей объектов. Далее, в матрицу наблюдений вводятся строки классы первого уровня, классы второго уровня и т.д. с рангами, присвоенными соответствующим классам, в столбцах признаков.

И, наконец, осуществляется перестановка столбцов матрицы наблюдений по возрастанию рангов сначала классов первого уровня, потом второго уровня и т.д.

Ранги классов образуют мультииндексы или коды признаков. После завершения группировки введенные строки классов можно убрать.

Обычно эти операции не проводятся, т.к. признаки группируются уже при составлении матрицы наблюдений.

Как исходные массивы и матрицы наблюдений, так и результаты их группировок или других обработок могут изображаться в виде таблиц и графиков. Таблица Ч это визуализированный двухмерный массив с общим названием-титулом, названиями строк и названиями столбцов. Первый столбец (столбцы), в котором размещены названия строк, называется подлежащим таблицы, первая строка (строки) с названиями столбцов Ч сказуемым таблицы. Подлежащее и сказуемое часто включают мультииндексы-коды соответствующих объектов или признаков. В титул обычно выносится общее имя совокупности элементов (объектов или признаков) сказуемого и/или подлежащего.

Существует несколько вариантов таблиц для массивов типа {xtij}, имеющих 3 размерности: время t, объекты i и признаки j. Если в подлежащем Ч время, а в сказуемом Ч объекты, то в титул должно быть вынесено имя признака; если в подлежащем Ч объекты, в сказуемом Ч признаки, то в титуле должно быть указано время и т.д. Всего таких вариантов Ч 6.

Если в табулируемой матрице не произведено группировок, то таблица является простой с простыми именами строк и столбцов. Если строки и/или столбцы сгруппированы, то их имена в таблице являются составными: кроме индивидуальных имен строк и столбцов они включают и имена их групп и классов.

В случае, когда столбцов таблицы не слишком много, информация может быть представлена (визуализирована) графиком. Ось абсцисс соответствует обычно подлежащему таблицы, а ось ординат Ч сказуемому. Сами значения показателейпризнаков изображаются в виде различных графических образов, например, в виде столбиков. Если в подлежащем размещены моменты времени, график выражает траектории изменения показателей.

1.10. Задачи 1. Определить пункты, которые являются выпадающими из общего ряда.

1.1 а) отношений, б) порядковая, в) количественная, г) классификаций;

1.2 а) Пуассон, б) Рамсей, в) Бернулли, г) Байес;

46 Глава 1. Основные понятия 1.3 а) темпы роста, б) относительные, в) производные, г) первичные;

1.4 а) Кейнс, б) Байес, в) Синклер, г) Бернулли;

1.5 а) фондоемкость, б) материалоемкость, в) трудоемкость, г) срок окупаемости инвестиций;

1.6 а) Стивенс, б) Кэмпбел, в) реляционная структура, г) Тарский;

1.7 а) капитал, б) население, в) инвестиции, г) внешний долг;

1.8 а) Пуассон, б) Рамсей, в) Бернулли, г) Байес;

1.9 а) Суппес, б) Стивенс, в) Пуассон, г) Пфанцагль;

1.10 а) величина-признак, б) величина-показатель, в) показатель-определение, г) показатель-наблюдение;

1.11 а) Герман, б) Кетле, в) Моргенштерн, г) Синклер;

1.12 а) Тарский, б) операциональная, в) репрезентативная, г) Кэмпбел;

1.13 а) Зинес, б) Суппес, в) Моргенштерн, г) Петти;

1.14 а) статистика, б) statistics, в) информация, г) statistic;

1.15 а) наименований, б) интервальная, в) ординальная, г) шкалирование;

1.16 а) Суппес, б) интервальная, в) Стивенс, г) порядковая;

1.17 а) Бернулли, б) субъективная, в) Байес, г) объективная;

1.18 а) Пфанцагль, б) Зинес, в) Нейман, г) Кэмпбел;

1.19 а) управляемый эксперимент, б) пассивное наблюдение, в) статистика, г) операциональное определение;

1.20 а) Кетле, б) Кейнс, в) Петти, г) Герман;

1.21 а) производственные мощности, б) выпуск продукции, в) затраты, г) амортизационные отчисления;

1.22 а) Пуассон, б) Рамсей, в) Бернулли, г) Байес;

1.23 а) кластер, б) класс, в) группа, г) совокупность;

1.24 а) абсолютная, б) относительная, в) экстенсивная, г) интенсивная;

1.25 а) дискретный, б) непрерывный, в) моментный, г) интервальный;

1.26 а) подлежащее, б) предлог, в) сказуемое, г) таблица.

2. Какой тип Ч запаса или потока Ч имеют следующие величины: а) инвестиции; б) население; в) основные фонды; г) активы 3. К какому классу относятся и какую размерность имеют следующие интенсивные величины: а) фондоемкость; б) материалоемкость; в) трудоемкость;

г) фондоотдача 1.10. Задачи Таблица 1.Абсолютное Объем Абсолютный Темп Темп роста значение Год производства, прирост, прироста (годовой) 1% прироста, млрд. руб. млрд. (годовой), % млрд.

1 2 3 4 5 1992 1993 1.1994 7.1995 164.1997 9.9 1.4. Пусть yt Ч значение величины в момент времени t. Запишите формулу моментного темпа прироста и непрерывного темпа роста.

5. Имеются данные об объеме производства в отрасли (табл. 1.2).

Вычислить и вставить в таблицу недостающие показатели.

6. Была проведена группировка студентов НГУ по трем признакам:

1-й признак: место постоянного жительства (город; село);

2-й признак: средний балл в аттестате (выше 4.5; от 3.5 до 4.5; ниже 3.5);

3-й признак: средний балл за вступительные экзамены (выше 4.5; от 3.до 4.5; ниже 3.5).

Определите:

а) общее число групп и число групп высшего порядка;

б) количество классов групп 1-го, 2-го и 3-го порядка;

в) количество групп в классах 2, 13, 23;

г) число конечных групп в каждой группе класса 2, 13, 23.

д) Число элементов конечной группы 221 равно 5, в остальных конечных группах по 2 элемента. Каково значение линейного индекса второго элемента конечной группы 232 е) Сколько всего элементов в совокупности Глава Описательная статистика Исходный массив наблюдений может достигать значительных размеров, и непосредственно по его информации трудно делать какие-либо содержательные заключения о свойствах изучаемых совокупностей. Задача описательной статистики Ч сжать исходный массив, представить его небольшим набором числовых характеристик, которые концентрированно выражают свойства изучаемых совокупностей.

Граница между описательной статистикой, с одной стороны, и математической статистикой, эконометрией, анализом данных, с другой стороны, достаточно расплывчата. Обычно в описательной статистике даются элементарные сведения, достаточные для проведения начальных этапов экономико-статистического исследования, которые более углубленно и более строго рассматриваются в других научных дисциплинах статистического ряда (в последующих разделах книги).

2.1. Распределение частот количественного признака Пусть имеются наблюдения xi, i =1,..., N за некоторой непрерывной количественной величиной-признаком, т.е. матрица наблюдений имеет размерность N 1. Такую матрицу наблюдений обычно называют рядом наблюдений. В статистике совокупность этих значений иногда называется также вариационным рядом. Пусть проведена группировка совокупности по этому признаку с выделением k групп. В соответствии с обозначениями предыдущей главы мультииндексом группы является I, равный i1, гд е i1 Ч индекс группы. В этом и ряде последующих 2.1. Распределение частот количественного признака пунктов (при n =1) в качестве индекса группы будет использоваться не i1, чтобы не путать его с линейным индексом i наблюдения, а l. Соответственно, zl, l =0, 1,..., k Ч границы полуинтервалов, Nl Ч групповые численности, которые в этом случае называют частотами признака. Следует иметь в виду, что x Ч случайная величина, но все z Ч детерминированы.

Размеры полуинтервалов, l = zl - zl-1, обычно берут одинаковыми. При выборе размера полуинтервалов можно использовать одно из следующих правил:

=3.5sN-1/3 (правило Скотта) или =2 IQR N-1/3 (правило ФридменаЧДиакониса), где s Ч среднеквадратическое отклонение, IQR = x0.75 -x0.25 Ч межквартильное расстояние (определение величин s, x0.25 и x0.75 дается ниже). В литературе также часто встречается правило Стёрджесса для количества групп:

Pages:     | 1 |   ...   | 5 | 6 | 7 | 8 | 9 |   ...   | 82 |    Книги по разным темам