Зиновьева Н. Б. Документоведение. Учебно- методическое пособие

Вид материалаМетодическое пособие

Содержание


5.6. Обработка документов
Библиографическое описание —
133 Таким образом, подпроцессом обработки документа выс­тупает предметизация
134 аннотации, реферат
Подобный материал:
1   ...   16   17   18   19   20   21   22   23   ...   32

5.6. Обработка документов


Распространяясь по каналам коммуникаций, документы оседают в массивах — неких собраниях документов, вливаясь в уже сформированную ранее их совокупность. Оптимальная работа с документами в массивах возможна лишь после пред­варительной их обработки. Аналитико-синтетическая обработ­ка документов производится с целью свертывания информа­ции о форме и содержании документа до уровня буквенно-цифрового шифра, библиографического описания, аннотации, реферата, научного перевода, обзора, а также включает из­влечение из документов фактов, сведений, данных и фикса­ции их в специальных формах.

Обработка способствует упорядочению, систематизации, контролю за поступающими документами, свертыванию ин­формации, в силу чего содержание документа может быть

130

представлено в более компактной форме, созданию поиско­вого образа документа, в соответствии с которым возможно его разыскание в массиве, подготовке документа к хранению и последующему использованию.

Некоторые процессы аналитико-синтетической обработки носят характер предмашинной обработки, т.е. представляют собой совокупность действий, необходимых для подготовки документов и информации к вводу в память компьютера.

Обработка документа включает следующие подпроцессы:

• описание;

• классифицирование и индексирование, пред метизация;

• аннотирование и реферирование;

• микрофильмирование.

Библиографическое описание — это совокупность библиогра­фических сведений о документе, приведенных по установлен­ным правилам и предназначенных для его идентификации и общей характеристики.

Систематизация преследует цель распределить поступающий материал по определенным, заранее заданным признакам, со­ответствующим той или иной классификации. Каждая из совре­менных наук имеет или развивает свою частную дисциплину, изучающую специально вопросы систематизации соответству­ющих объектов познания. Такие дисциплины носят самые раз­личные названия: типология, систематика, таксономия, тео­рия классификации и др. Но суть их одна — систематизировать определенные объекты в целях более рационального познания.

Классификация фиксирует закономерные связи между клас­сами объектов с целью определения места объекта в системе, которое указывает на его свойства. Строго и четко проведен­ная классификация одновременно подытоживает результаты предшествующего развития данной отрасли и вместе с тем отмечает начало нового этапа в ее развитии.

Классификация - система соподчинённых понятий (клас­сов, объектов) какой-либо области знания или деятельности человека, часто представляемая в виде различных по форме схем, (таблиц) и используемая как средство для установления связей .между этими понятиями или классами объектов, а также для ориентировки в многообразии понятий или соответствующих Объектов.

131

Классифицирование (распределение документов по клас­сам) сопровождается индексированием — проставлением ус­ловных обозначений, соответствующих подразделениям при­нятой классификации. Идентичные шифры присваиваются ог­раниченному количеству документов, обладающих идентич­ными сторонами: принадлежащих к одной отрасли знания, предметной области, имеющих единую типовую форму, фун­кциональное предназначение и т.д. Таким образом, достига­ется обособление небольшого количества документов, зашиф­рованных одним обозначением, логическая последователь­ность обозначений способствует структурированию массива. Индексирование должно проводиться на основе непосред­ственного анализа документа с учетом характера информа­ционно-поискового массива, элементом которого становит­ся поисковый образ документа (ПОД), характера информа­ционных потребностей пользователей данной информацион­но-поисковой системы (ИПС) в соответствии с общими принципами индексирования и особенностями их примене­ния в конкретной организации.

В зависимости от задач поиска применяются различные принципы классифицирования документов, которые можно объединить в две большие группы: формальные и содержа­тельные. К формальным классификациям относятся класси­фикации документов по их собственным признакам, таким, например, как функции документа, размеры, степень маши-ночитаемости, материал, на котором документ изготовлен и т.д. Содержательные классификаторы используются для систе­матизации и поиска содержащейся в документах информации. Содержательные классификационные системы, используе­мые для систематизации и поиска документов и содержащей­ся в них информации, условно делят на несколько групп в зависимости от степени иерархичности. Основные понятия классификаций иерархического типа — это вид и род, служа­щие для выражения отношений между классами. Из двух клас­сов тот, что содержит в себе другой, — называется родом, а тот, что содержится — видом. В свою очередь вид может рас­сматриваться в качестве рода для входящих в него подвидов. В подобных системах классификаций может содержаться несколь­ко уровней иерархии. Их преимущество состоит в простоте

132

индексирования и поиска. Такая классификация наиболее эф­фективна в том случае, когда классы в иерархической системе располагаются в естественном порядке и набор классов в тече­ние времени не изменяется (т.е. предметы естественно нахо­дятся в жесткой иерархической соподчиненности).

Разновидностью иерархических являются десятичные клас­сификации, используемые для систематизации содержания документов. Десятичными они называются потому, что облас­ти знания разбиты на десять классов, каждая из которых полу­чает свой порядковый номер. Каждый выделенный класс слу­жит родом для входящих в него видов, количество которых также равно десяти. Шифр заклассифицированного документа состоит из такого количества цифр, сколько в классификации уровней иерархии. Порядок следования цифр - от высших уров­ней иерархии к низшим. Иерархические классификации часто сочетаются с фасетными. Через двоеточие к основному шифру документа добавляются индексы фасет, уточняющие его фор­му, предназначение, особенности вида и т.д. Примерами та­ких классификаций служат Универсальная десятичная класси­фикация (УДК), Библиотечно-библиографическая классифи­кация (ББК), Международная классификация изобретений (МКИ) и др.

Алфавитно-предметная классификация — система классов предметных рубрик, каждая из которых соответствует опреде­ленной теме или одному виду предметов, причем предметные рубрики расположены в алфавитном порядке имен этих пред­метов. Например, предметы, процессы, объекты, без следова­ния естественной их зависимости. Естественным языкам при­суща синонимия, в силу чего близкие по смыслу, но разные По написанию понятия могут оказаться в разных местах такой классификационной схемы. Поэтбму основная проблема ал-фавитно-предметных классификаций в ее устранении и в обо­значении парадигматических связей между названиями пред­метов и тем, что преодолевается с помощью ссылок и отсы­лок. Таким образом, в едином алфавитном ряду перечисляются предметы, не связанные ни общностью содержания, ни процессами деятельности. На первый план выходит формальный -признак — алфавит предметных рубрик, что значительно облегчает поиск нужного документа.

133

Таким образом, подпроцессом обработки документа выс­тупает предметизация определение предметных рубрик для документа в соответствии с его содержанием. Подобные клас­сификации используются в предметных каталогах, а также как вспомогательное поисковое средство в традиционных и элект­ронных информационно-поисковых системах.

В результате обработки документов создается их поисковый образ — выделение ряда признаков, по которым документ можно однозначно идентифицировать, установить его форму и содержание, местонахождение в документном массиве. Это — обязательная процедура, предшествующая использованию, ибо в противном случае документ невозможно будет отыскать. Создаваемый ПОД представляет собой извлеченную и сверну­тую до различной степени информацию о документе, кото­рый получает после этой процедуры название первичной ин­формации (первичного документа), а ПОД — вторичной. Та­ким образом, вторичная информация — это результат анали-тико-синтетической переработки первичной. Вторичная инфор­мация более компактна, более формализована, в силу этого более мобильна и более экономна в движении по системам коммуникаций. Из нее легко формируется информационно-поисковый массив, служащий базой для поиска информации о документах.

Обработка различается в зависимости от ее направленнос­ти на весь документ, в единстве формы и содержания, и на его структурную часть — текст. В силу этого выделяется доку­ментная обработка, в результате которой документ получает идентификационные признаки (библиографическое описание, классификационный шифр, инвентарный номер и т.д.), и информационная обработка, предполагающая манипуляции с текстом документа. В процессе такой информационной обра­ботки текст может быть сокращен, переведен на другой язык, сделана аннотация, реферат, обзор, тезисы, резюме. В резуль­тате получается еще один текст, связанный с оригиналом иден­тификационными признаками. Он более компактен, отражает его содержание и может быть использован вместо оригинала. Аннотация — краткая характеристика документа, его час­ти или совокупности документов с точки зрения назначе­ния, содержания, формы, других особенностей. В отличие от

134

аннотации, реферат — сокращенное изложение содержания документа (или его части) с основными фактическими све­дениями и выводами. Он акцентирует внимание на новых сведениях и определяет целесообразность обращения к до­кументу.

Все подпроцессы аналитико-синтетической обработки тре­буют творческого участия специалиста. Только человек может глубоко вникнуть в текст, выявить его глубинные взаимосвя­зи, оценить значимость. Но современные компьютерные сред­ства позволяют эти операции частично формализовать, что дает возможность освободить специалиста от трудоемких рутинных операций, более эффективно организовать поиск документов в большом массиве, увеличить скорость обработки и степень релевантности.