Источниковедение в век компьютера (вместо предисловия)

Вид материалаДокументы

Содержание


От просопографии к статистике:Методика анализа баз данных по источникам,содержащим динамическую информацию
А.И. Тихонов (Москва)
Подобный материал:
1   2   3   4   5   6   7   8   9   10   11

От просопографии к статистике:
Методика анализа баз данных по источникам,
содержащим динамическую информацию



В данной статье предлагается подход к анализу информации баз данных, которые содержат динамические сведения. Такие базы данных обычно создаются при работе с источниками, отражающими "жизненные пути" или "коллективные биографии" различных социальных, профессиональных или иных групп людей и носят название просопографических баз данных. Типичным методическим подходом в этом случае является создание многофайловой базы данных, один из файлов которой содержит основные статические сведения и связывается с одним или многими файлами, содержащими динамическую информацию и связанными с основным файлом ключевым полем-идентификатором [1].

Вопрос конструирования базы данных является основным для подхода, который носит название "от статистики к просопографии" [2] и уделяет основное внимание проблемам формирования "метаисточников", стандартизации имен и связыванию записей (record- linkage) о различных персоналиях, извлекаемых из целого ряда исходных, традиционных источников [3]. Для предлагаемого здесь подхода, который можно назвать "от просопографии к статистике", центр тяжести лежит в другом: данные представляют наибольший аналитический интерес именно в агрегированном виде, как основа определенных динамических группировок, тогда как прослеживание "жизненных путей" отдельных персоналийне является первоочередной задачей. Не случайно в последнее десятилетие просопографические исследования получили мощный стимул развития именно со стороны социальной истории [4]. Следует, на наш взгляд, различать изучение просопографических сведений о выдающихся персоналиях и "массовых" просопографических источников, которые вообще ориентированы на разные исследовательские проблемы. В первом варианте первоочередное значение действительно могут иметь чисто просопрографические проблемы, тогда как во втором наиболее интересны именно статистические результаты, обобщенные на уровне определенных групп персоналий в изучаемой совокупности, их структуры и динамики [5]. Разумеется, эти подходы нельзя абсолютно противопоставлять, но тем не менее четко сформулированная исследовательская задача может помочь в определении приоритетов при работе с просопографическими данными. Более того, подход "от просопографии к статистике" может трактоваться как второй этап работы с уже созданным "метаисточником", когда встает задача группировки и обобщения данных, накопленных на уровне индивидуумов.

Типичным примером просопографической базы данных может служить база по личным делам рабочих нефтепромышленной фирмы "Товарищество бр. Нобель", созданная П. Аханчи (Институт истории АН Азербайджана) и И.М. Гарсковой (исторический факультет МГУ) для задачи изучения рынка рабочей силы в нефтяной промышленности Баку и миграции рабочих в этот регион в конце XIX - начале XX вв. [6].

Наша база данных основана на сведениях 2000 личных дел, содержащих как статичную (или уникальную) информацию, так и динамические сведения о каждом рабочем по всему периоду его занятости в фирме. Статичная информация включает данные об имени, национальности, грамотности, возрасте, месте рождения и других показателях, которые фиксировались однократно, при первом поступлении на работу в "Товарищество", включая дату этого поступления. Динамическая же информация включает данные, которые фиксировались многократно, при каждом их изменении и вносились в личное дело по мере необходимости: это изменения уровня квалификации или семейного положения, перемещения с одного места работы на другое, изменения зарплаты (и других видов довольствия) и их причины, штрафы и поощрения, несчастные случаи и т. д. Тщательно разработанный формуляр личного дела, отдельные части которого предназначались для информации того или иного типа, позволяет исследователю проследить, как менялся социальный или профессиональный статус конкретного человека в течение всего времени его работы в "Товариществе".

Наиболее явной особенностью данного источника является его динамический, "трехмерный" характер, поскольку он содержит данные о каждом человеке в различные моменты времени, позволяя изучать изменения, касающиеся не только отдельных персоналий, но и основных социально-профессиональных, возрастных и иных групп в структуре контингента рабочих фирмы в различные периоды времени. Другой особенностью нашего источника является его "дискретный" характер: большинство рабочих не были заняты в фирме весь период от первого поступления на работу до окончательного увольнения - напротив, они многократно увольнялись на более или менее продолжительное время и вновь возвращались на работу. Причины этого могли быть разными: уход на сезонные сельскохозяйственные работы, призыв в армию, увольнение в связи с участием в забастовке и др. Тем не менее, личное дело на каждого рабочего в фирме заводилось только один раз и при каждом новом поступлении на работу просто продолжалось. В этой связи созданная в нашем случае база данных может рассматриваться как определенная модель "метаисточника", поскольку она могла быть построена именно путем связывания записей отдельных источников в том случае, если бы при каждом новом поступлении рабочего в фирму на него заводилось бы новое личное дело, а на этапе просопрографического анализа пришлось бы реконструировать биографии отдельных персоналий из различных дел.

При решении задачи изучения структуры всей совокупности рабочих в ее динамике исследователю приходится учитывать обе особенности источника: каждый конкретный человек мог входить в ту или иную социальную, профессиональную, возрастную, национальную группу в контингенте рабочих "Товарищества" в зависимости не только от его меняющихся во времени характеристик, но и от того, присутствовал или отсутствовал он в каждый конкретный момент времени в "своей" группе.

Приведем простой пример. Изучая динамику зарплат рабочих, мы находим сведения о заработках отдельных персоналий, "разбросанные" случайным образом по изучаемому периоду и не закрывающие его целиком. Таким образом, данные о зарплате любого рабочего можно представить в виде нескольких точек (по крайней мере, одной) на интересующем исследователя временном интервале в зависимости от того, принадлежит ли этот рабочий изучаемой группе. Накапливаясь в результате агрегирования сведений о достаточно большой совокупности рабочих, эти точки все более плотно "закрывают" временной интервал, практически не оставляя в нем пробелов, и позволяют строить достаточно надежные временные ряды зарплат для этой совокупности.

Следовательно, изучая динамику состава рабочих "Товарищества бр. Нобель" мы в первую очередь сталкиваемся с проблемой построения динамических рядов по всем основным показателям для изучаемого периода (1878-1921 гг). Построение таких динамических рядов опирается на возможность извлекать из базы данных списки рабочих, занятых в "Товариществе" в каждый момент времени, и подсчитывать на основе этих списков числовые значения количественных показателей и доли встречаемости отдельных категорий качественных показателей (например, средний возраст рабочих или долю грамотных рабочих).

Для решения этой задачи автором был создан меню- управляемый пакет программ ATiSeP (Aggregated Time Series on Prosopography - Агрегированные Динамические Ряды Просопографических данных) на языке dBASE IV, предназначенный для извлечения информации из многофайловой базы данных и построения динамических рядов полей этой базы для каждого указанного пользователем периода времени. Система работает с несколькими файлами базы данных: основным файлом, содержащим статические сведения о персоналиях (число записей в этом файле равно числу персоналий в базе данных), справочным файлом, содержащим по крайней мере одну запись для каждого рабочего о датах каждого его поступления на работу и каждого увольнения, и несколькими дополнительными файлами, содержащими сведения об изменениях различных динамических показателей и их датах по всем персоналиям, о которых такие сведения имеются [7].

Пакет состоит из трех модулей: 1) модуля, формирующего структуры указанных файлов; 2) модуля, формирующего динамические ряды погодовых или помесячных данных; 3) модуля, формирующего вспомогательные (выборочные) базы данных, содержащие сведения о тех персоналиях, которые присутствуют в данном периоде; 4) модуля, экспортирующего эти выборочные базы данных в графический или статистический пакет для дальнейшего анализа.

На рис. 1-2 можно видеть структуру меню, соответствующего модулям 2 и 3 с выпадающими окнами, содержащими пункты подменю, и диалоговые окна. Пользуясь этим меню, можно выбрать помесячный или погодовой принцип отбора данных, указать временные границы изучаемого периода и те показатели, по которым требуется построить динамические ряды или выборочные базы данных. На этих же рисунках видна еще одна важная особенность нашего подхода: можно строить динамические ряды как для всего контингента рабочих (т. е., тех, кто или только что поступил на работу, или продолжает работать в "Товариществе"), так и для впервые нанятых на работу (тех, для кого дата их первого поступления на работу принадлежит данному периоду).

Далее рассматриваются некоторые результаты обработки динамических рядов, извлеченных из базы данных по личным делам рабочих "Товарищества бр. Нобель". К сожалению, анализ динамических рядов на основе довольно сложных статистических моделей пока довольно редко встречается в работах отечественных историков (исключением в практике применения динамических моделей, пожалуй, является область экономической истории). Обычно рассмотрение динамических рядов ограничивается их графическим представлением и словесным описанием положительных и отрицательных пиков, которые легко заметить "невооруженным" глазом [8]. В данной работе рассмотрены особенности динамических рядов двух типов: соответствующих изучению более долговременных тенденций в структуре совокупности (ряды для всего контингента рабочих) и более кратковременных изменений (ряды для тех рабочих, которые впервые были наняты фирмой в рамках заданного периода, что соответствует изучению динамики в практике найма рабочих в "Товарищество"). Теоретически следует ожидать наличия во втором случае выраженных сезонных и более длинных циклических колебаний уровней динамического ряда, а также более резких случайных колебаний, чем в первом случае. На рис. 3 показан динамический ряд числа вновь нанятых рабочих (помесячные данные), явно требующий сглаживания. Это сглаживание можно осуществить различными способами, результаты которых показаны на рис. 4а, б, в. На этих рисунках представлены результаты сглаживания с помощью простой замены помесячных данных погодовыми, скользящей средней или аддитивной модели, учитывающей наличие тренда, сезонных, циклических и случайных колебаний. В любом случае результаты довольно близки и позволяют выявить основные закономерности в практике найма рабочих в "Товарищество". На этих графиках можно видеть влияние экономической конъюнктуры (например, экономического подъема 1910-1914 гг.) или "внешних" факторов (влияние Первой мировой войны).

На рис. 5а, б приведены кривые динамики числа всех рабочих, занятых в фирме, для того же самого периода 1900-1920 гг. (помесячные и погодовые данные). На первый взгляд может показаться, что на рис. 5а (очень похожем на рис. 5б) изображен результат сглаживания, как это было для случая с вновь нанятыми рабочими, но это не так - перед нами исходные данные. Подобная "гладкость" графика довольно понятна, принимая во внимание кумулятивный характер рядов этого рода, обладающих заметной автокорреляцией, что несомненно усиливает проявление долговременных тенденций. На графике, однако, хорошо заметна одна явно выпадающая точка. На первый взгляд может показаться, что она отражает эффект начала Первой мировой войны, но это неверно, так как она относится к маю 1914 г. Обратившись в исходным данным, можно видеть, что именно в этом месяце происходила крупная забастовка, в результате чего были уволены около 400 рабочих. Разумеется, в течение указанного периода происходило множество забастовок (например, в 1913 г. после забастовки были уволены 360 рабочих), однако на графике такая точка всего одна. По-видимому, этот эффект можно объяснить следующим образом: после каждой забастовки практически все рабочие вновь нанимались на работу, причем буквально через несколько дней, и поэтому система не улавливает столь кратковременных (хотя и значительных по размаху) уменьшений и компенсирующих их увеличений числа рабочих в течение минимального интервала времени (1 месяц). И только в мае 1914 г. реальный разрыв между увольнением и повторным приемом на работу составил около двух месяцев (май- июнь), что и отразилось на нашем графике.

Весьма важно подчеркнуть, что "гладкий" временной ряд кумулятивого типа наряду с выявлением довольно общих тенденций показывает и важные локальные особенности динамического ряда, т. е. на одном и том же графике можно видеть как долговременные, так и кратковременные эффекты, даже без использования сложных статистических моделей выявления и разделения отдельных компонент ряда.

Аналогичные эффекты можно видеть на рис. 6 и 7, представляющих динамические ряды исходных (несглаженных) данных о численности групп рабочих по национальности и месту рождения. На этих графиках видна динамика миграционных потоков рабочих, занятых в фирме на протяжении периода 1900-1920 гг., и национальная структура контингента этих рабочих. Например, самой значительной по численности национальной группой рабочих были русские, до

Рис. 1-2


Число вновь нанятых рабочих, 1900-1920 гг.
(помесячные данные)



Рис.3

Число вновь нанятых рабочих, 1900-1920 гг.
(погодовые данные)



Рис.4а

Число вновь нанятых рабочих, 1900-1920 гг.
(скользящая средняя)



Рис. 4б

Число вновь нанятых рабочих, 1900-1920 гг.
(тренд)



Рис.4в

Общее число рабочих, 1900-1920 гг.
(помесячные данные)



Рис 5а

Общее число рабочих, 1900-1920 гг.
(погодовые данные)



Рис 5б.

Группы рабочих по национальности, 1900-1920 гг.
(помесячные данные)

Рис 6.

Группы рабочих по месту рождения
(помесячные данные)



Рис. 7.

Доля неквалифицированных рабочих



Доля неграмотных рабочих



Рис. 8

ля которых в фирме была выше, чем в Бакинской губернии или в целом в данном регионе. Второй по численности группой были рабочие из южного Азербайджана (Ирана). Рассматривая изменения в структуре на уровне национальности, легко заметить явную стабильность первой группы вместе с заметными изменениями долей других групп. Например, к концу рассматриваемого периода заметно резкое увеличение доли рабочих-персов и сопутствующее ему уменьшение доли казанских татар и лезгин.

Относительно регионов, из которых происходили рабочие, можно заметить, что основной поток русских рабочих шел из Центрального промышленного района, сохраняя такую же высокую стабильность во времени. Динамика миграции казанских татар из Поволжья и лезгин из Дагестана вновь показывает характер, противоположный характеру динамики для рабочих из Ирана (т. е. можно заметить, что после 1914 г. рабочие из соседнего Ирана замещают в "Товариществе" рабочих из Поволжья и Кавказа).

Наконец, приведем некоторые результаты анализа взаимосвязей (т. е. коэффициентов сопряженности между показателями базы данных). Заметим, что построение таблиц сопряженности требует агрегированных данных, относящихся к определенному периоду (модуль 3 нашей системы формирует такие данные), что, в свою очередь, требует довольно осторожного выбора оптимальной длины ряда. Слишком короткие ряды дают хаотическую картину, а слишком длинные - лишь тривиальные результаты. Выбор ряда длиной 4-5 лет, по-видимому, достаточно хорошо соответствует характеру динамики изучаемых данных и выявлению ее специфики для разных периодов. Например, периоды 1911-1914 и 1915-1918 гг. показывают различия в характере взаимосвязей между национальностью или местом рождения, с одной стороны, и уровнем образования или квалификации - с другой (см. рис. 8). На рисунке видно, что от первого периода ко второму доля неграмотных неквалифицированных рабочих, нанятых на работу в "Товарищество", увеличилась среди выходцев из Ирана и Азербайджана и уменьшилась среди других национальных и региональных групп. Таким образом, со временем в фирме закреплялась практика приема на работу наиболее квалифицированных и грамотных рабочих (в основном в мастерские и на заводы фирмы) из традиционных индустриальных районов (например, центральной России).

В заключение хотелось бы подчеркнуть, что приведенные примеры, связанные с конкретным источником и конкретной исследовательской задачей, никоим образом не ограничивают область применения описанного подхода. Многие просопографические базы данных, содержащие динамические сведения, которые планируется использовать не только для поиска и извлечения информации об отдельных персоналиях, но и для изучения массовых агрегированных данных, изменяющихся во времени, можно анализировать с помощью описанной методики, извлекая из них динамические ряды. В качестве источников могут быть использованы биографические сведения о политических деятелях (например, членах парламента), извлеченные из специальных справочных изданий, энциклопедий и т. п., особенно если эти персоналии многократно входили, в том числе и с перерывами, в изучаемую совокупность, и с течением времени их профессиональный, социальный или иной статус менялся. Сходные характеристики имеют источники, хранящиеся в архивах многих старых университетов, и содержащие данные о студентах, аспирантах и преподавателях, т. е. их биографии, документы, личные дела и пр. Таким образом, предлагаемый подход "от просопографии к статистике" может быть адаптирован для анализа самых разных источников, содержащих в дискретной динамической форме сведения об определенной совокупности объектов изучения.

Примечания



1. Аханчи П. Источниковедческие проблемы создания баз данных по личным делам нефтепромысловых рабочих г. Баку (на примере фирмы "Товарищество бр. Нобель") // Информационный Бюллетень Комиссии по применению математических методов и ЭВМ в исторических исследованиях при отделении истории РАН. © 7. 1992; Бородкин Л.И., Григорьева Ю.Г., Селунская Н.Б. Коллективная биография представителей законодательной власти России начала XX в. (о методике создания базы данных "Дума") // Тезисы докладов VI Всесоюзного совещания по проблеме "Комплексные методы в исторических исследованиях". М., 1991; Гарскова И.М. Базы и банки данных в исторических исследованиях. Геттинген, 1994; Гутнов Д.А., Перевертень В.А. Российские историки XVIII - нач. XX вв.: проект и информационная система // Круг идей: новое в исторической информатике. М., 1994; Мюллер А. Миграция и мобильность в средние века: база данных в изучении посетителей Венского университета // История и компьютер: новые информационные технологии в исторических исследованиях и образовании. St. Katharinen, 1993; Селунская Н., Бородкин Л. Базы данных "Дума": проблемы комплексирования источников // Информационный Бюллетень... © 7. 1992; Юмашева Ю.Ю. Опыт создания и анализа базы данных по высшему командному составу советских вооруженных сил в период Великой отечественной войны 1941-1945 гг. // Метод в историческом исследовании. Тезисы докладов и сообщений Всесоюзной школы-семинара. Минск, 1991; Юмашева Ю.Ю. Человек и машина. Просопографические базы данных // Информационный Бюллетень... © 4. 1991; Bulst N. Prosopography and the Computer: Problems and Possibilities // History and Computing III. Manchester University Press, 1990; Kropac I.H. Who's Who in the Medieval Siutheast of Germany: the Design of the Prosopographical Data Bank at Graz University // History and Computing II. Manchester / New York, 1989; Informatique et Prosopographie. Paris, 1985.

2. Название "от статистики к просопографии" было дано Ж. Верже такому методу изучения просопографических сведений, который основан на поиске и сведении воедино данных из разных, в т.ч. массовых, источников. В этом названии подчеркивается информационно-поисковый аспект исследования в отличие от простой статистической обработки массовых сведений. См.: Мюллер А. Миграция и мобильность в средние века... С. 177.

3. Bouchard G., Pouyez Ch. Name Variations and Computerized Record Linkage // Historical Methods. Vol. 13. 1980. © 2; Nygaard L. Name Standardization in Record Linking: An Improved Algorithmic Strategy // History and Computing. Vol. 4. 1992. © 2; Schofield R. Automatic Family Recostruction // Historical Methods, Vol. 25. 1992. © 2.

4. Гарскова И.М. Указ. соч. С. 97.

5. Там же. С. 98-99. См. также: Аханчи П.А. Принципы статистической обработки системы баз данных по "личным делам" рабочих нефтепромышленной фирмы "Товарищества нефтяного производства братья Нобель" // Компьютер и историческое знание. Барнаул, 1994; Соколов А.К. О современном состоянии и перспективах работы с архивом машиночитаемых документов // Круг идей: новое в исторической информатике; Nicolet C. Prosopographie et histoire sociale: Rome et l'Italie a l'epoque republicaine // Annales E.S.C. 25. 1970.

6. База данных по "личным делам" бакинских нефтепромысловых рабочих "Товарищества нефтяного производства "Братья Нобель" (нач. XX в.) - "Рабочие" // Информационный Бюллетень... . © 5. 1992; Гарскова И.М., Аханчи П.А. Методические принципы создания реляционной базы данных по "личным делам" нефтепромышленных рабочих фирмы "Товарищество нефтяного производства бр. Нобель" // Региональный банк данных: Урал в XX в. Екатеринбург, 1993; Garskova I.M., Akhanchi P. Discrimination in the Labour Market in the Baku Oil Industry (Late Nineteenth to Early Twentieth Century) // Economics in the Changing World. N.Y., 1994. Vol. 1.

7. Garskova I.M. A Set of dBASE Language Programs for Studying Social Dynamics // Structures and Contingencies in Computerized Historical Research. Nijmegen, Netherlands, 1994.

8. Мюллер А. Миграция и мобильность в средние века... С. 175.


А.И. Тихонов
(Москва)