Рождественский Юрий Владимирович лекции по общему языкознанию: Учеб пособие для филол спец ун-тов. М.: Высш шк., 1990. 381 с. Isbn 5-06-000442-2 Часть 4 прикладное языкознание лекция

Вид материалаЛекция
Подобный материал:
1   2   3   4   5

Статистическое изучение текстов свидетельствует, что на область предметного содержания текста указыва­ют наиболее частотные существительные или другие лексические единицы с предметным значением. Уста­новлено, что сравнением данных анализа разных тек­стов можно определить не только тип предметного со­держания, но и характер аргументации, время составле­ния текста и даже авторство. Это значит, что предмет­ное содержание весьма тесно слито с адресом текста, и наоборот, адресное содержание текста разъясняется его предметным содержанием.

Этим свойством текста пользуется лингвистическая информатика. Современные библиографические и архив­ные классификации содержат набор адресных призна­ков, по которым устанавливается некоторая часть пред­метного содержания текста. Однако это содержание рас­крывается слишком обобщенно для читателя. При оби­лии текстов на одну и ту же тему читатель может вы­брать необходимый ему оригинальный источник, толь­ко если просмотрит достаточно большой массив тек­стов. Поиск нужной публикации или документа начина­ет занимать больше времени, чем само чтение. Поэто­му, детализируя адресное содержание, информацион­ный работник конкретизирует и предметное содер­жание.

Таким образом, адресное содержание текста попол­няется с помощью предметного. Никакого сокращения текста не происходит. Наоборот, создавая развернутые адресные описания оригинальных текстов, информаци-

359

онный работник добавляет к общему объему текстов новые.

Заголовки и рефераты

Для создания новых информационных описаний требуется применить риторические принципы полно­ты ~ краткости представления адресного содержания ори­гинальных текстов, разработать особые стилистические модели описания, в основе которых лежит жанровый

принцип.

Информационные описания делят на связные тексты и словарные тексты. Первые являются описанием оригинальных текстов, выполняемым как отдельные связные тексты рефератов или как реплики диалогов и заголовки, а вторые служат для системати­зации информационных и оригинальных текстов. Ин­формационные описания, выполняемые как связные тексты, бывают двух родов: заголовки и рефераты. Они различаются пространностью или детализированностью

описания.

Самый краткий связный текст -заголовок. Для создания текста-заголовка обычно используется ориги­нальный заголовок источника. Однако такой заголовок не всегда отвечает требованию создания заголовка как информационного жанра. Например, заголовок Высшие классификационные группировки общесоюзного класси­фикатора промышленной и сельскохозяйственной про­дукции в информационном тексте может остаться без изменения. Однако заголовок Правильно ли мы говорим по-русски? для того, чтобы стать информационным жанром, должен быть изменен. Автор оригинального текста предложил этот заголовок с целью адресовать свою книгу как можно большему числу читателей и сам же дал книге подзаголовок Справочное пособие по произношению, ударению и словоупотреблению. Необхо­димо указать, что это словарь. Поэтому информацион­ный заголовок должен выглядеть примерно так: Куль­тура речи, словарь - пособие для исправления наиболее частых ошибок в орфоэпии, акцентуации и употребле­нии слов.

В практике, однако, уточнение заголовков книг, ста­тей или названий документов не бывает столь значи-360

тельным, так как заголовки в специальной литературе и документах обычно состоят из терминов и слов, до­статочно хорошо представляющих адресное содержание текстов. Общий принцип редактирования оригинально­го заголовка состоит в том, чтобы в информационном заголовке были слова из информационных словарей, по которым абонент ведет поиск материалов. Поэтому лишние слова, появившиеся в авторском заголовке вследствие стилистической неточности, отбрасываются и вводятся необходимые слова для поиска адреса по сло­варю.

Другим жанром лингвистической информатики яв­ляется реферат. Рефераты могут быть более или ме­нее пространными. Это зависит от разработанного орга­ном информационной службы стандарта реферата. Ин­формационные рефераты существенно отличаются от рефератов (или близких к ним жанров) научно-техни­ческой литературы и деловой письменности. Реферат как информационный жанр привлекает предметное со­держание источников только с целью пояснения и рас­крытия адресного содержания. Вот почему реферат в информатике строится по принципу «о том-то смотри там-то», тогда как в неинформационных рефератах вы­ражен принцип «о том-то полагаю следующее...».

Эти смысловые особенности определяют модаль­ность и композицию информационного реферата. Мо­дальность реферата должна быть объективной (т.е. ав­тор реферата не может выражать свое мнение об ис­точнике), а композиция реферата должна отражать предмет, который описан в источнике.

В информатике приняты две схемы составления ре­фератов: краткая и пространная. Краткий реферат отражает содержание источника вне его композиционно­го членения и логической схемы. Пространный реферат, напротив, отражает основную композиционно-логическую схему источника. Так, формуляр рефератов ИНИОН строится по пространной схеме, а формуляр рефератов ВИНИТИ-по краткой схеме. В обоих случа­ях, как и при создании или редактировании заголовка, реферат должен быть терминологичным, т.е. отражать предметно-смысловое содержание источника в терми­нах, включенных в информационные словари.

361

Информационные словари

Терминология является инструментом поиска тек­стов. Поэтому центром работы информационной служ­бы являются особые словари, которые составляет служ­ба информатики. Благодаря этим словарям предметно-логическое содержание .источника определяет адрес тек­ста. Словари составляются и используются постоянно. Это объясняется динамикой терминологии в оригиналь­ных текстах.

В отличие от энциклопедий, толковых или отрасле­вых словарей служба информатики ведет учет всех встретившихся употреблений терминов (каждый текст расписывается с точки зрения содержащихся в нем терминов). Основная трудность здесь сводится к следу­ющему: необходимо установить границы терминов и отличить термины в данном тексте от нетерминов. Во всяком или почти во всяком научном тексте есть но­вые термины, нередко создаются термины-синонимы, а сложные термины подвергаются метонимическим со­кращениям. Сокращенные варианты терминов могут отличаться от общенаучной лексики только характером значения, иногда трудно уловимым. В техническом тек­сте всегда присутствует много дублетных терминов, что затрудняет их разграничение.

Словник словаря, составленного по текстам, редакти­руется с точки зрения различения терминов-омонимов и метонимических сокращений и дублетов терминов и пополнения новыми терминами. Каждому термину приписывается индекс, обозначающий текст, где этот термин употреблен. Такой словник является уже инст­рументом поиска оригинальных текстов. Если термин отражает определенную предметную область знания или деятельности и известен абоненту, то по термино­логическому словарю можно найти тексты, в которых употреблен данный термин, включая оригинальные тексты, их рефераты или заголовки. В результате тако­го поиска будет получен перечень текстов, включающих в себя термин, а значит, описана область знаний, свя­занная с этим термином.

Если необходимый термин неизвестен абоненту, то вести поиск по словарю, построенному по алфавитному

362

принципу, невозможно. В этом случае необходим сло­варь, построенный по семантическому принципу. Та­ким словарем является информационно-поисковый те­заурус, который предназначен для отыскания нужного раздела знания через смысловые характеристики терми­нов. Термины выстраиваются в тезаурусе по принципу родо-видовой подчиненности и~или ассоциативных смысловых связей.

Например, в «Тезаурусе по теоретической и при­кладной лингвистике» (сост. С.Е. Никитина. М., 1978) верхней иерархией являются такие разделы граммати­ки, как морфология и синтаксис. Далее в каждом раз­деле термины следуют по алфавиту. Статья может со­держать следующие части: 1) заглавное слово-термин, которое далее комментируется; 2) синонимический тер­мин; 3) коррелят (обычно термин-антоним); 4) родовое понятие; 5) видовое понятие; 6) целое, частью которого выступает явление, называемое термином; 7) компо­ненты, т.е. части, из которых состоят явления, называе­мые термином...1 11) уровень языка, к которому отно­сится явление, тип единицы, к которой относится явле­ние... 28) ассоциативная связь с другими терминами. Малый объем данного тезауруса дает и малую иерар­хичность слов и понятий.

Как правило, тезаурусы обладают довольно большим числом родо-видовых иерархий. Например, в «Класси­фикаторе промышленной, сельскохозяйственной продук­ции» (М., 1972) дано пять иерархий: 1) продукция энер­гетической и нефтяной промышленности; 2) электро­энергия или продукция нефтяной промышленности; 3) электроэнергия, произведенная электростанциями общего пользования и блокстанциями (или то же ло­кального пользования); 4) электроэнергия, произведен­ная электростанциями общего пользования или блок-станциями общего пользования; 5) электроэнергия, произведенная КЭС, или ТЭЦ, или ГТЭС, или ДЭС, или АЭС, или ГЭС, или нетиповыми электростанциями об­щего пользования. В каждой иерархии своя рубрикация.

Как видим, та или иная область науки или техники благодаря своей терминологии охватывается тезаурусом,

Перечисляем наиболее важные признаки.

363

имеющим свои особенности. Например, информацион­но-поисковый тезаурус по языкознанию имеет следую­щий тематический охват: «Персоналки языковедов. Об­щее языкознание. Методы лингвистических исследова­ний. Структурные и математические методы. Класси­фикация языков. Образование и развитие языков. Со­циолингвистика, психолингвистика. Письменность, фо­нология, грамматика, лексикология, семантика, стили­стика. Прикладное языкознание. Теория сообщений и кодирования в применении к языку. Лингвистические вопросы преподавания языка. Семиотика»1.

Различие тезаурусов по их построению достаточно велико. Это связано как с составом терминологии от­расли, так и с подходом к составлению словаря. В лю­бом случае для построения тезауруса необходимо выде­лить минимум слов, с помощью которых описывается значение терминов и устанавливаются иерархия и ассо­циативные отношения. Такие слова называют де­скрипторами. Установление дескрипторов зависит от особенностей терминологии и характера тезауруса. Дескрипторы являются основой тезауруса: из них выво­дится значение основных терминов, они же позволяют определить ассоциативные отношения. Во многих слу­чаях дескрипторы принадлежат к общенаучной лексике.

Построение информационных словарей предполага­ет достаточно полный учет терминов в их реальном функционировании. Термины в информационно-поиско­вых словарях отличаются от терминов в отраслевых словарях тем, что лишь отражают текущее состояние терминологии, но не распространяют знания по терми­нологии. От терминологических стандартов информаци­онно-поисковые словари отличаются тем, что не нор­мируют терминологию.

Информационный поиск

Информационное обслуживание распределяется по трем направлениям: реферативные издания, информа­ционный поиск и автоматизированное управление. На-

1

Аннотированная библиография информационно-поисковых тезау-

русов. ГАСНТИ. М, 1980. С 12. 364

правление определяется в зависимости от того, кто яв­ляется инициатором создания и передачи текста. В ре­феративных изданиях орган информатики по своей инициативе и в установленные сроки снабжает читате­ля рефератами, освещая тем самым текущие поступле­ния. В информационном поиске инициатива исходит от читателя, который дает запрос органам информати­ки на поиск литературы. В автоматизированном управ­лении инициатива исходит от обеих сторон одновре­менно.

Деятельность информационной службы начинается с реферативного обслуживания. Реферат - как бы первая реплика диалога с абонентом. Цель такого диалога, с одной стороны, проинформировать, а с дру­гой - собрать сведения и решить задачу, принять или отдать команду, обучиться чему-либо, вести рассужде­ние о чем-либо. Все это происходит в регламенте, уста­новленном органом информационной службы, которая стремится автоматизировать процесс диалога.

Примером реферативных изданий могут быть сбор­ники рефератов, выпускаемые ВИНИТИ и ИНИОН. Рефераты не обязательно печатаются и рассылаются по почте. В ведомствах рефераты могут выходить в не­большом числе экземпляров. Главное, чтобы рефераты отражали текущие поступления в фонды, выходили в определенные сроки и распространялись среди заинте­ресованных в них читателей.

Для реферативного обслуживания, казалось бы, до­статочно организовать реферирование пополнения фон­дов. Но написание рефератов зависит от того, как орган информатики суммирует и классифицирует терминоло­гию в текстах, а это значит, что грамотные рефераты могут быть составлены только на основе информацион­ных словарей.

Информационный поиск ведется как поиск литературы и~или рефератов. Запрос на поиск состав­ляет читатель (иногда с помощью работника информа­ционной службы), пользуясь словарями, в основном те­заурусами. Читатель отыскивает по словарю (сам, с по­мощью сотрудника информационной службы или авто­мата) интересующие его разделы знания, представлен­ные соответствующими терминами, и формулирует за-

365

прос на нужную ему литературу. Поскольку термин имеет индекс, обозначающий тексты, в которых он употреблен, есть возможность представить читателю эти тексты. Запрос может быть конкретизирован и круг ли­тературы сужен, например, по признаку авторства, вре­мени создания источника и т.п. Но главным средством сужения круга литературы является сочетание терми­нов. Например, читателя интересует литература о свар­ке. Публикаций о сварке очень много. Читатель кон­кретизирует свой запрос: сварка с помощью лазера. Так, круг литературы сужается. Но читателя интересует ме­дицинское применение сварки, тогда формулируется за­прос: сварка живых тканей с помощью лазера... Круг литературы еще сужается, можно сформулировать но­вый запрос: сварка с помощью лазера живых тканей глаза... Затем уточняется время публикации, автор и т.д., пока не выявится интересующий читателя круг литературы, которую он оценит сначала по заголовкам, затем отберет рефераты и, ознакомившись с реферата­ми, выберет нужные оригинальные тексты.

Если читатель не вполне уверен в том, какая имен­но литература ему нужна, он повторяет свои запросы в близких, а иногда и отдаленных областях знания, быст­ро знакомится и отбирает необходимый материал. Та­кой поиск, приближая читателя к интересующим его источникам, одновременно хорошо информирует его в смежных областях знания.

Поскольку запросов может быть много и выбор и обнаружение необходимой литературы требуют времени, поиск может быть автоматизирован. Тезаурус и индексы материалов вводятся в память ЭВМ. Запрос делается ЭВМ по определенному несложному коду, и на экране дисплея появляется ответ. Запросы и ответы могут повторяться по изложенной выше схеме до тех пор, пока читатель не получит удовлетворяющего его ответа.

Для того, чтобы реализовать автоматический поиск информации, необходимо предложить читателю прави­ла формулирования запросов, а в программу ЭВМ вве­сти соответствующие команды на поиск необходимых ответов и демонстрацию их на экране дисплея. Это элементарная диалоговая система.

366

По этой же схеме ведется поиск не только литера­туры. В память ЭВМ могут быть введены различные сведения, например о числе сотрудников на станциях Октябрьской железной дороги или о числе вагонов, об­работанных этой дорогой за сутки. В этом случае ин­формационный работник должен обрабатывать докумен­ты и извлекать из них соответствующие сведения. Для этого необходимо прежде всего преобразовать докумен­ты, особенно учетного характера, приведя их к форме, удобной для обозрения человеком, с одной стороны, и для ввода в память машины-с другой, т.е. усовершен­ствовать формуляр документов. Если документ испол­нен не по формуляру, что бывает нередко, информаци­онный работник сам придает документу соответствую­щую форму. Затем подготовленные на соответствующих бланках данные вводятся в машинную память.

Для заполнения бланков и введения данных в па­мять машины необходимы особые словари-классифика­торы, также организованные по тезаурусному принципу. Классификаторы создаются для учета изобретений, кад­рового состава, финансовых средств и т.д. Они содержат слова, с помощью которых передаются разного рода сведения: кадровые, финансовые, производственные, транспортные, плановые и т.п. Это значит, что содер­жание родовых терминов должно быть поделено между содержанием видовых терминов, что родо-видовые от­ношения между терминами организуются строго иерар­хически. Все это требует тщательного анализа содержа­ния терминов, «отбрасывания» терминов, не укладыва­ющихся в иерархическую классификацию, и создания терминологии, полностью отражающей содержание, для которого создается классификатор.

Таким образом, информационные системы бывают двух родов: библиографические и фактографические. Они различаются источниками информации, характе­ром ее содержания (информация о текстах или об объ­ектах) и основным требованием к содержанию инфор­мации. В библиографической системе поиск литературы производится приближенно, не вся литература, по со­держанию связанная с данным термином, может быть учтена. В фактографической системе, где учитывается число и положение объектов, должен быть полный

367

учет всех данных; данные приводятся обычно в виде числительно-предметных сочетаний, где число отражает количество объектов, мощность машин и установок, ко­личество энергии, эффективность процессов и т.п., а также управление производственными процессами, иду­щими в автоматическом режиме.

Автоматизированные системы управления

Автоматизированные системы управления - самый сложный вид информационного обслуживания. Сочета­ние повременного и позапросного предоставления ин­формации помогает принятию разного рода управляю­щих решений в области проблем планирования, энер­гетики, транспорта, финансов, кадров, конструкторско-проектных работ.

Основу автоматизированных систем управления (АСУ) составляют информационные системы. В автома­тизированных системах управления информация (сово­купность сведений) делится «по периодичности обнов­ления, содержанию обработки и решаемому на ее осно­ве классу задач на три рода: а) учетно-отчетная инфор­мация (сведения) о функционировании объектов; б) ин­формация об изменении в функционировании объектов под влиянием внутренних и внешних для объектов причин, которые влияют на состояние системы управ­ления; в) нормативная информация, используемая для решения задач на управление: правила планирования, правила и порядок принятия разного рода решений» [J, 14].

Такое деление информации отвечает делению на виды документов. Например, сводки содержат информа­цию о функционировании объектов; справки, докладные записки и т.п. - об изменении объектов; уставы, положе­ния, инструкции - нормативную информацию для при­нятия решений. Само же решение, данные для которо­го готовит АСУ, или решение, которое принимает либо прямо АСУ, либо человек, использующий АСУ как по­мощника, - отвечает содержанию приказа, решения, по­становления и других чисто распорядительных доку­ментов. Это значит, что АСУ с помощью техники авто­матизирует содержательное и формальное движение дел. 368

Поэтому существующие документы необходимо при­способить так, чтобы в ЭВМ они соединялись между собой по содержанию, обеспечивая управляющую дея­тельность. Сама ЭВМ не является юридической катего­рией, играя роль счетного аппарата. Только документ как словесный текст имеет юридическую силу, закреп­ляя и оформляя отношения между людьми.

Таким образом, АСУ включается в документооборот. Для филолога это означает разработку форм докумен­тов и словарей, удовлетворяющих требованиям одно­значного представления разного рода данных в АСУ, с одной стороны, и в исходных документах - с другой.

При работе с документами нужно документ, пред­ставляющий собой сообщение, прочитать и составить материал для ввода в ЭВМ, или формализованный до­кумент. Такой «документ» имеет адресную часть, или «шапку»-таблицу. «Таблицы строятся из отдельных гра­фических элементов (линии вертикальной и горизон­тальной разграфки и другие знаки), которые разделяют части документа и элементы информации в столбцах и строках». Оригинальный цельнооформленный текст служит основанием для составления таких таблиц, со­держащих фактическую информацию. Поэтому в «доку­ментах» АСУ есть только назывные предложения или числительно-предметные сочетания. «Основными еди­ницами естественного языка выступают отдельные сло­ва и словосочетания разной сложности, обозначающие наименования понятий». В связи с этим в «докумен­тах» АСУ «преимущественно используются словосочета­ния именного типа, реже - конструкции других типов. Словарный состав ограничивается лексическими едини­цами, используемыми в словосочетаниях и самостоя­тельно... Семантика ограничивается полем значений наименований понятий» [1, 46-47].

Большая длина словосочетаний, выражающих такие понятия и называющих предметы по классификаторам, заставляет прибегать к сокращениям. Используются так­же условные обозначения каких-либо параметров, при­нятые в науке и технике.

Так как назначение формализованных документов АСУ - суммировать информацию и представлять ее в систематизированном виде, возникает необходимость в

369

строгой стандартизации наименований. Выделяют сле­дующие основные классы наименований, различаемые по смыслу: наименования объектов управления - пред­приятий, объединений, организаций, учреждений и ве­домств; наименования видов изделий промышленной и сельскохозяйственной продукции; наименования видов сырья и материалов; наименования должностей рабо­чих и служащих; наименования разного рода укрупнен­ных показателей (характеристик), используемых в про­цессах управления производством, снабжением и рас­пределением ресурсов; наименования профессий и спе­циальностей; наименования природных ресурсов; на­именования видов работ и услуг; наименования единиц измерения. Может быть выделен и ряд других, менее значимых классов. «В пределах каждого класса понятий проводится классификация, учитывающая интересы управления и машинной обработки информации... Обычно используются системы классификации с жест­кой иерархией» [1, 57 - 58].