Р. С. Гиляревский основы информатики курс лекций

Вид материалаКурс лекций

Содержание


Цитирование, библиографическое сочетание, социтирование
Библиографическое сочетание
Подобный материал:
1   ...   24   25   26   27   28   29   30   31   ...   55

Цитирование, библиографическое сочетание, социтирование


Принцип цитирования1 был использован Институтом научной инфор­мации США, основанным в 1958 г. Ю. Гар­филдом, для создания прин­ципиально нового вида информационного обслуживания. При поиске информации он взял в качестве индексов библиографические ссылки в документах. В выпускаемых им указателях цитированной литерату­ры, называемых также "индексами цитирования", эти ссылки распо­лагаются по алфавиту фамилий авторов цитированных работ с указанием сведений о документах, в которых они упоминаются. Произве­дения, использованные при написании статьи, составляют как бы координатную сетку для ее поиска. Если статья написана по совсем новой проблеме, не нашедшей рубрики в классификации наук, с еще не устоявшейся и малоизвестной терминологией, найти ее в потоке мировой литературы другими методами очень трудно. Указатель цитированной литературы можно представить себе как многоуровневую систему библиографических описаний документов, находящихся в обратной связи друг с другом.

Указатели цитированной литературы позволяют искать информацию по совершенно новым межотраслевым или комплексным проблемам под фамилиями пионеров и наиболее известных специалистов каждой из таких проблем. Например, для поиска литературы по цитированию достаточно знать фамилию Ю. Гарфилда, так как почти в каждой ра­боте по этой проблеме есть упоминание о нем и его статьях. Фами­лии авторов найденных работ могут в свою очередь служить входами в указатель, и за 1–5 таких итераций (последовательных поисков) все сведения об отраженной в указателе литературе по проблеме оказываются найденными.

Индексы цитирования предоставляют уникальную возможность проследить за всеми случаями применения какой-либо идеи или метода, за их критикой и обсуждением, оценить информационный вклад того или иного ученого или научной школы, степень и динамику популярности их работ. Известны случаи, когда по этим указателям предсказывали нобелевских лауреатов. Институт научной информации США выпускает указатели цитированной литературы по точным, естественным и прикладным наукам (с 1964 г.), по общественным наукам (с 1969 г.), по искусству и гуманитарным наукам (с 1976 г.), для чего просматривается около 6 тыс. научных журналов и ежегодно до 1,5 тыс. названий книг. Большинство указателей распространяется не только в обычном (бумажном), но и в машиночитаемом виде (на магнитной ленте, дискетах, оптических дисках). Нужно ли говорить о том, что осуществление принципа, положенного в основу этих из­даний, стало возможным лишь благодаря компьютерам. Ведь речь идет о ежегодном библиографировании почти 10 млн ссылок.

В двух статьях E и F, например, (см. рис. 10) имеются библиографические ссылки, которые устанавливают прямую библиографическую связь между ними (цити­рующими документами) и статьями A, B, C и D, которые в них упоминаются (цитируемыми документами). В указателе цитированной литературы эти ссылки, по алфавиту которых упорядочивается его массив ("цитации" по терминологии Г. Я. Узи­левского, которому принадлежит дан­ный пример), обозначают цитируемые документы, а под ними распо­лагаются "библиограммы", т. е. описания цитирующих документов.

A C
E E

B F

E D

F F


Цитирующие документы








E

F

Библиографическое

сочетание



Цитирование





A

B

C

D



Социтирование


Цитируемые документы




Рис. 10. Схема цитирования, социтирования
и библиографического сочетания документов

Понимание потенциальных возможностей комплексирования докуме­нтов по признаку общих ссылок и стремление максимально использо­вать накопленный массив в машиночитаемой форме повели к поискам новых путей применения метода цитирования. Еще в 1963 г. М. Кесслер в Массачусетском технологическом институте предложил считать связанными по смыслу документы, авторы которых ссылаются на одни и те же работы, а числом совпадающих ссылок измерять сте­пень такой связанности. Этот метод, который он назвал библиогра­фическим сочетанием документов, долгое время не имел широкого практического применения, но в 1968 г. Ю. Гарфилд испо­льзовал его для создания ретроспективной поисковой системы на компакт дисках.

По-другому подошли к этой проблеме сотрудник Института науч­ной информации США Г. Смолл и тогдашняя аспирантка ВИНИТИ И. В. Маршакова. Они одновременно и независимо друг от друга в 1972 г. предложили считать связанными по смыслу и тематике работы, на которые совместно ссылаются авторы нескольких документов. Этот метод, чаще всего называемый социтированием, имеет другую коммуникационную основу. В каждой исследовательской обла­сти имеется некоторый набор важных работ, отражающих познавате­льную основу этой области. Данные работы цитируются многими ис­следователями и поэтому принадлежат к числу высоко цитируемых. Больше того, они часто цитируются вместе, образуя таким образом социтирование. Другими словами, социтированием принято называть одновременное упоминание любых двух или большего числа публика­ций в какой-либо последующей.

Для лучшего представления разницы в этих методах выше приведена схема, на которой E и F являются цитирующими документами текущего года, а A, B, C и D – цитируемыми докумен­тами более ранних годов. Сплошными стрелками показаны связи по цитированию, т. е. E цитирует A, B и C, а F цитирует B, C и D . Тогда между цитирующими работами E и F образуется библиографиче­ское сочетание, а между цитируе­мыми работами B и C – социтирование (обозначено пунктиром). Для простоты и наглядности степень связанности на схеме минимальная, хотя на практике она значительно больше (т. е. для признания библиографического сочетания между двумя работами или кластера социтирования в каждом отдельном случае устанавливается определенный минимальный порог, который тем выше, чем интенсивнее цити­рование).

Между характером этих методов установления связи и областью их применения имеется существенная разница. Библиографическое сочетание – это однократно произошедший факт, поскольку E и F были однажды опубликованы со своими ссылками, и с ними в дальнейшем ничего уже произойти не может. Именно поэтому данный метод при­меняется для ретроспективного поиска документов, связанных между собой единством тематики, исследовавшейся их авторами.

Совсем по-другому обстоит дело с социтированием, так как связь между цити­руемыми B и C может сохраняться (увеличиваться или уменьшаться) в последующие годы в зависимости от того, насколько часто они будут попарно цитироваться в новых работах. Частое социтирование указывает на их концептуальную близость, поскольку они испо­льзуются как единый комплекс. Между этими работами как бы возникают невидимые связи, которые после наглядного их выражения об­разуют смысловые сгустки (кластеры). Совокупность таких класте­ров ключевых работ, отражающих исследовательские области, представляют собой как бы карту определенной научной области, а совокупность карт – атлас науки на данный момент.

При регулярном выпуске подобных атласов (выходили атласы по биологии, биохимии, геологии, математике, вычислительной техни­ке) появляется возможность регулярно следить за динамикой разви­тия научных дисциплин, школ, направлений, коллективов, а, следо­вательно, и целенаправленно воздействовать на это развитие, т. е. управлять им. Методы библиографического сочетания и кластериза­ции социтирования моделируют содержательные отношения между до­кументами, используя практику цитирования, сложившуюся при публикации научных работ. Но это не единственный возможный подход к установлению таких связей между документами, заложенных в их би­блиографических элементах и фрагментах текстов. В следующей лекции об информационных системах вы познакомитесь с методом логи­ко-смыслового моделирования, а теперь мы перейдем к более тради­ционным видам информационно-поисковых языков.