Р. С. Гиляревский основы информатики курс лекций



СодержаниеРубрикаторы информационных изданий
Разные типы информационно-поисковых языков
Подобный материал:

1   ...   26   27   28   29   30   31   32   33   ...   55

Рубрикаторы информационных изданий


На большинстве европейских языков рубрикатором называли пере­писчика рукописей, который в скрипториях средневековья и Возрож­дения размечал красной краской первые буквы смысловых фрагментов текста, получивших название рубрик. Это название сохранилось и до наших дней, хотя в нынешних произведениях печати рубрики отмечаются абзацными отступами или отделяются друг от друга пробелами. В журналистике ру­бриками принято также называть постоянные разделы в журналах и газетах, а в библиотековедении – структурные подразделения сис­тематического и предметного каталогов.

В 50-е годы в информатике рубрикаторами стали называть переч­ни рубрик реферативных журналов и других информационных изданий. В данном случае рубрика выступает как содержательный фрагмент такого издания и состоит из индекса и заголовка раздела, а также библиографических записей (с аннотациями или рефератами) произ­ведений печати, которые по своему содержанию относятся к данной рубрике. По мере роста числа и увеличения объемов реферативных журналов их рубрикация стала усложняться. Появилась необходи­мость в создании такого перечня рубрик, который отвечал бы опре­деленным требованиям и мог бы служить средством систематизации библиографических записей вместе с рефератами. Поскольку библио­течно-библиографи­ческие классификации оказались непригодными для этого, реферативные службы стали создавать собственные рубрикаторы.

Рубрикатор – это особым образом организованный перечень руб­рик иерархической классификации, предназначенный для отражения сведений о текущих публикациях в информационных изданиях или си­стемах информационного обслуживания. К его характерным особенно­стям относятся сравнительно небольшая глубина индексации, ориен­тированность на межотраслевые, междисциплинарные, комплексные проблемы, простота и линейность структуры, достаточная гибкость, частая и безболезненная изменяемость формулировки рубрик. Любой рубрикатор создается под влиянием двух противоречивых факторов, отражает два взаимосвязанных, но разных информационных потока: документального и запросов потребителей. Первый оказывает преи­мущественное влияние на структуру рубрикатора, второй – на фор­мулировку заголовков рубрик, причем изменение структуры документального потока несколько отстает от быстро меняющегося характе­ра информационных запросов.

Возникает вопрос, почему же все-таки для создания рубрикаторов не использовались существующие классификации? Можно указать на несколько обстоя­тельств, которые ведут к серьезным различиям в схемах иерархи­ческих классификаций, используемых для библиотечных каталогов и для построения рубрикаторов. Первые, рассчитанные, в первую оче­редь, на систематические каталоги и картотеки библиотек, отражают структуру универсального потока документов: книг, брошюр, пе­риодических и продолжающихся изданий. Рубрикаторы реферативных журналов ориентированы преимущественно на журнальные статьи и другие публикации из научной периодики, которые имеют другую со­держательную структуру, более дробную и гибкую. В реферативных журналах подчас приходится открывать рубрики для таких вопросов, которые в библиотечном каталоге могут стать не­обходимыми лишь через десять лет .

Систематические каталоги библиотек ориентированы на дисциплинарную структуру, т. е. на выделение основных классов в соответствии с научной классификацией. В рубрикаторе наряду с дисциплинарными характеристиками необходимо учитывать комплекс­ные междисциплинарные проблемы и отрасли народного хозяйства. Это нарушает строгую логику иерархической классификации, но при­дает рубрикатору особую гибкость. Библиотечная классификация предназначена для ретро­спективного поиска, для накопления записей за много лет, это требует сложной структуры, ее стабильности, устойчивости, медли­тельности в изменениях. Для рубрикатора частые изменения являют­ся правилом, формулировка заголовков рубрик, публикуемых в каждом номере издания, играет сравнительно большую роль, а форма индексов, выполняющих служебную роль, менее значима. Рубрикатор легко обозрим, имеет неболь­шую глубину и простой служебный аппарат (систему ссылок и вспо­могательных делений, способы сочетания рубрик).

По рубрикаторам классифицируются самые мощные потоки научных публикаций – во всем мире ежегодно не менее 5 млн несовпадающих документов (из них только в ВИНИТИ около 1 млн). Если ориенти­ровочное число публикуемых ежегодно научных документов принять близким к 10 млн, то половина из них систематизируется по раз­личным рубрикаторам. Это на порядок больше, чем приходится на долю классификаций, применяемых ежегодно для описания входных потоков всеми библио­теками мира. Поэтому рубрикаторы приобрели большое значение в на­учно-информационной деятельности. Во многих информационных цент­рах избирательное распространение информации, сигнальная инфор­мация и даже справочно-библиографическое обслуживание осуществ­ляются при помощи рубрикаторов. Чтобы они могли справиться с та­кими несвойственными им функциями, приходится оснащать их различными вспомогательными средствами, которые приближают их к библиотечным классификациям, но затрудняют их использование по прямому назначению. Как и во всех подобных случаях, здесь приходится прибегать к разного рода компромиссам, но это неизбежно там, где мы не пользуемся новой информационной технологией.

Разные типы информационно-поисковых языков


Информатика, заявившая о себе в середине нашего века, принесла с собой не только новую и получившую распространение терминологию ("дескрипторы", "тезаурусы", "индексирование") и не только удовлетворила нашу обычную потребность в противопоставлении нового традиционному. Новым, действительно новым, оказался более широкий подход к явлениям и принципам. Понятие, например, информационно-поискового языка (ИПЯ) позволило рассматривать предметизацию, систематизацию, книгоописание, координатное индексирование как процессы, использующие искусственные языки, семантическую силу которых можно измерять по сравнению с возможностями естественного языка. Понятие информационно-поисковой системы (ИПС), как уже говорилось, объединило многие предметы, которые прежде рассматривались изолированно, например, библио­течные фонды и каталоги, различного вида самостоятельные и вспо­могательные указатели, справочники, энциклопедии, автоматизиро­ванные поисковые системы. Это дало возможность выявить общие принципы их построения, найти общие критерии их эффективности и другие общие параметры.

Мы установили, что дескрипторные информационно-поисковые системы открыли принципиально новую возможность поиска необходимых документов и содержащейся в них информации по любому сочетанию заранее не предвиденных признаков. Однако за реализацию этой возможности приходится платить не только интеллектуальными потерями, но и материальными ресурсами. Эти системы приходится ориентировать на дорогостоящие компьютеры и программы, что предполагает более трудоемкий ввод информации и более строгие ограничения на число одновременных пользователей. Вполне естественно в такой ситуации попытаться сочетать уже имеющиеся поисковые средства со вновь создаваемыми. Отсюда вытекает и желание найти общие черты в этих разных системах и лежащих в их основе ИПЯ: языке предметных рубрик и дескрипторном языке, что обычно сочетается с поисками путей их совместимости.

Всегда можно найти такую удаленную позицию, такое основание деления, при которых эти языки попадут в один общий класс. В ряду искусственных языков они принадлежат к классу информационных, в ряду информационных – к подклассу информационно-поиско­вых. В них используются в качестве индексов слова естественного языка. При построениии этих языков применяются внешне схожие приемы: перечень предметных заголовков и словарная часть тезауруса упорядочиваются в алфавите слов. Тем не менее, учитывая эти общие и сходные черты, нельзя забывать и о принципиальных различиях данных языков. Основной словарный состав языка предметных рубрик это имена сложных классов, построенных до индексирования документов, поскольку этот язык принадлежит к типу предкоординируемых. Дескрипторный же язык является посткоординируемым, т. е. строится из имен простых классов, которые образуют необходимые понятия при их пересечении (логическом умножении) в момент индексирования и/или поиска документов.

Для того, например, чтобы индексировать статью о производстве и экспорте вычислительных и пишущих машин в США, Японии и Великобритании достаточно дескрипторов производство, экспорт, компьютер, пишущая машина и названий трех этих стран. Тогда при любой комбинации признаков при запросе (а таких комбинаций может быть 1х2хЗх4х5х6х7=5040, т. е. число перестановок из семи призна­ков) этот документ будет найден. Если же пользоваться языком предметных заголовков, то в зависимости от их заранее составленного перечня потребуется значительное число готовых рубрик. Оно, конечно, меньше указанного выше, но ровно настолько будет больше потерь при поиске.

Координатное индексирование в том и состоит, что для характеристики содержания документа или запроса перечисляются такие ключевые слова или дескрипторы, пересечение (логическое умножение) которых выражает основное смысловое содержание (главную тему, предмет) этого документа или запроса, тогда как в предметизации для данной цели используются заранее сформулированные заголовки и подзаголовки.

При индексировании, т. е. выражении основного смыслового содержания документа в терминах ИПЯ, процессы информационного анализа и синтеза совершаются в два этапа. Первый этап является общим для всех языков. Содержание документа анализируется как с позиций того, какие идеи и факты заложены в него автором, так и с позиций научных и практических интересов большинства его потенциальных читателей. (Если не иметь в виду узкоспециальных интересов, то обе точки зрения чаще всего совпадают). Результаты этого анализа синтезируются в виде субъективного представления индексатора об основном содержании документа.

Второй этап зависит от языка индексирования. Если это предкоординированный алфавитно-предмет­ный язык, то свое представление о содержании документа индексатор сверяет с потенциальными запросами читателей, отраженными в пе­речне предметных заголовков. Для посткоординируемого дескрип­торного языка аналогичному анализу подвергается тезаурус (не связанный непосредственно с потенциальными запросами потребителей) и сам текст индексируемого документа. Синтез в данном случае выражается в выборе соответствующих предметных заголовков или дескрипторов (ключевых слов).

Другими словами, при всей внешней схожести процедур индексирования посредством этих разных типов ИПЯ, характер их использования различен. В одном случае мы пользуемся готовыми продуктами в виде заголовков и подзаголовков, обозначающих класс документов определенного содержания. В другом случае это лишь исходный материал, дескрипторы и ключевые слова, при перемножении которых образуется класс, соответствующий данному содержанию. Вот почему перечень предметных заголовков и словарная часть тезауруса, при всей их внешней схожести, при том, что определенная часть слов в них может совпадать, на самом деле являются совершенно отличными друг от друга списками, слова для которых отбираются на основе разных критериев и играют различную роль.

Разные типы ИПЯ имеют свои достоинства и ограничения, которые делают их особо пригодными для решения разных поисковых задач. Возможности дескрипторного языка эффективно реализуются при узко тематическом поиске по произвольной комбинации признаков. Широкий тематический поиск по традиционным отраслям знаний и поиск по конкретным предметам, дисциплинам и их разделам в фондах документов за многие годы и в условиях одновременного обращения к ним большого числа читателей по-прежнему хорошо обеспечиваются библиотечными каталогами, основанными на иерархических и алфавитно-предметных классификациях. Выпуск информационных изданий требует разработки специальных рубрикаторов с небольшим числом уровней иерархии и подвижной, быстро меняющейся рубрикацией.

n