Рождественский Юрий Владимирович лекции по общему языкознанию: Учеб пособие для филол спец ун-тов. М.: Высш шк., 1990. 381 с. Isbn 5-06-000442-2 Часть 4 прикладное языкознание лекция
Вид материала | Лекция |
- И. Т. Курцин Физиология пищеварения Физиология пищеварения: Учеб пособие для студ ун-тов, 3344.11kb.
- Мечковская Н. Б, 158.78kb.
- Носкова О. Г. Н84 Психология труда: Учеб пособие для студ высш учеб, заведений / Под, 7944.12kb.
- Девиантология: (Психология отклоняющегося поведения): Учеб пособие для студ высш учеб, 3221.14kb.
- К практикуму по введению в языкознание, 543.26kb.
- А) тест по курсу «Введение в языкознание» (30 вопросов); б) развернутый ответ на вопрос, 77.34kb.
- Бюллетень новых поступлений за ноябрь 2003 года, 2058.88kb.
- Библиотека Ивана Шизофреника | per as et nefas | :: :: :: :: Рождественский Юрий Владимирович, 848.79kb.
- Крысько В. Г. К 85 Этническая психология: Учеб пособие для студ высш учеб заведений, 1385.98kb.
- Марцинковская Т. Д. М 29 История психологии: Учеб пособие для студ высш учеб, заведений, 8781.24kb.
Статистическое изучение текстов свидетельствует, что на область предметного содержания текста указывают наиболее частотные существительные или другие лексические единицы с предметным значением. Установлено, что сравнением данных анализа разных текстов можно определить не только тип предметного содержания, но и характер аргументации, время составления текста и даже авторство. Это значит, что предметное содержание весьма тесно слито с адресом текста, и наоборот, адресное содержание текста разъясняется его предметным содержанием.
Этим свойством текста пользуется лингвистическая информатика. Современные библиографические и архивные классификации содержат набор адресных признаков, по которым устанавливается некоторая часть предметного содержания текста. Однако это содержание раскрывается слишком обобщенно для читателя. При обилии текстов на одну и ту же тему читатель может выбрать необходимый ему оригинальный источник, только если просмотрит достаточно большой массив текстов. Поиск нужной публикации или документа начинает занимать больше времени, чем само чтение. Поэтому, детализируя адресное содержание, информационный работник конкретизирует и предметное содержание.
Таким образом, адресное содержание текста пополняется с помощью предметного. Никакого сокращения текста не происходит. Наоборот, создавая развернутые адресные описания оригинальных текстов, информаци-
359
онный работник добавляет к общему объему текстов новые.
Заголовки и рефераты
Для создания новых информационных описаний требуется применить риторические принципы полноты ~ краткости представления адресного содержания оригинальных текстов, разработать особые стилистические модели описания, в основе которых лежит жанровый
принцип.
Информационные описания делят на связные тексты и словарные тексты. Первые являются описанием оригинальных текстов, выполняемым как отдельные связные тексты рефератов или как реплики диалогов и заголовки, а вторые служат для систематизации информационных и оригинальных текстов. Информационные описания, выполняемые как связные тексты, бывают двух родов: заголовки и рефераты. Они различаются пространностью или детализированностью
описания.
Самый краткий связный текст -заголовок. Для создания текста-заголовка обычно используется оригинальный заголовок источника. Однако такой заголовок не всегда отвечает требованию создания заголовка как информационного жанра. Например, заголовок Высшие классификационные группировки общесоюзного классификатора промышленной и сельскохозяйственной продукции в информационном тексте может остаться без изменения. Однако заголовок Правильно ли мы говорим по-русски? для того, чтобы стать информационным жанром, должен быть изменен. Автор оригинального текста предложил этот заголовок с целью адресовать свою книгу как можно большему числу читателей и сам же дал книге подзаголовок Справочное пособие по произношению, ударению и словоупотреблению. Необходимо указать, что это словарь. Поэтому информационный заголовок должен выглядеть примерно так: Культура речи, словарь - пособие для исправления наиболее частых ошибок в орфоэпии, акцентуации и употреблении слов.
В практике, однако, уточнение заголовков книг, статей или названий документов не бывает столь значи-360
тельным, так как заголовки в специальной литературе и документах обычно состоят из терминов и слов, достаточно хорошо представляющих адресное содержание текстов. Общий принцип редактирования оригинального заголовка состоит в том, чтобы в информационном заголовке были слова из информационных словарей, по которым абонент ведет поиск материалов. Поэтому лишние слова, появившиеся в авторском заголовке вследствие стилистической неточности, отбрасываются и вводятся необходимые слова для поиска адреса по словарю.
Другим жанром лингвистической информатики является реферат. Рефераты могут быть более или менее пространными. Это зависит от разработанного органом информационной службы стандарта реферата. Информационные рефераты существенно отличаются от рефератов (или близких к ним жанров) научно-технической литературы и деловой письменности. Реферат как информационный жанр привлекает предметное содержание источников только с целью пояснения и раскрытия адресного содержания. Вот почему реферат в информатике строится по принципу «о том-то смотри там-то», тогда как в неинформационных рефератах выражен принцип «о том-то полагаю следующее...».
Эти смысловые особенности определяют модальность и композицию информационного реферата. Модальность реферата должна быть объективной (т.е. автор реферата не может выражать свое мнение об источнике), а композиция реферата должна отражать предмет, который описан в источнике.
В информатике приняты две схемы составления рефератов: краткая и пространная. Краткий реферат отражает содержание источника вне его композиционного членения и логической схемы. Пространный реферат, напротив, отражает основную композиционно-логическую схему источника. Так, формуляр рефератов ИНИОН строится по пространной схеме, а формуляр рефератов ВИНИТИ-по краткой схеме. В обоих случаях, как и при создании или редактировании заголовка, реферат должен быть терминологичным, т.е. отражать предметно-смысловое содержание источника в терминах, включенных в информационные словари.
361
Информационные словари
Терминология является инструментом поиска текстов. Поэтому центром работы информационной службы являются особые словари, которые составляет служба информатики. Благодаря этим словарям предметно-логическое содержание .источника определяет адрес текста. Словари составляются и используются постоянно. Это объясняется динамикой терминологии в оригинальных текстах.
В отличие от энциклопедий, толковых или отраслевых словарей служба информатики ведет учет всех встретившихся употреблений терминов (каждый текст расписывается с точки зрения содержащихся в нем терминов). Основная трудность здесь сводится к следующему: необходимо установить границы терминов и отличить термины в данном тексте от нетерминов. Во всяком или почти во всяком научном тексте есть новые термины, нередко создаются термины-синонимы, а сложные термины подвергаются метонимическим сокращениям. Сокращенные варианты терминов могут отличаться от общенаучной лексики только характером значения, иногда трудно уловимым. В техническом тексте всегда присутствует много дублетных терминов, что затрудняет их разграничение.
Словник словаря, составленного по текстам, редактируется с точки зрения различения терминов-омонимов и метонимических сокращений и дублетов терминов и пополнения новыми терминами. Каждому термину приписывается индекс, обозначающий текст, где этот термин употреблен. Такой словник является уже инструментом поиска оригинальных текстов. Если термин отражает определенную предметную область знания или деятельности и известен абоненту, то по терминологическому словарю можно найти тексты, в которых употреблен данный термин, включая оригинальные тексты, их рефераты или заголовки. В результате такого поиска будет получен перечень текстов, включающих в себя термин, а значит, описана область знаний, связанная с этим термином.
Если необходимый термин неизвестен абоненту, то вести поиск по словарю, построенному по алфавитному
362
принципу, невозможно. В этом случае необходим словарь, построенный по семантическому принципу. Таким словарем является информационно-поисковый тезаурус, который предназначен для отыскания нужного раздела знания через смысловые характеристики терминов. Термины выстраиваются в тезаурусе по принципу родо-видовой подчиненности и~или ассоциативных смысловых связей.
Например, в «Тезаурусе по теоретической и прикладной лингвистике» (сост. С.Е. Никитина. М., 1978) верхней иерархией являются такие разделы грамматики, как морфология и синтаксис. Далее в каждом разделе термины следуют по алфавиту. Статья может содержать следующие части: 1) заглавное слово-термин, которое далее комментируется; 2) синонимический термин; 3) коррелят (обычно термин-антоним); 4) родовое понятие; 5) видовое понятие; 6) целое, частью которого выступает явление, называемое термином; 7) компоненты, т.е. части, из которых состоят явления, называемые термином...1 11) уровень языка, к которому относится явление, тип единицы, к которой относится явление... 28) ассоциативная связь с другими терминами. Малый объем данного тезауруса дает и малую иерархичность слов и понятий.
Как правило, тезаурусы обладают довольно большим числом родо-видовых иерархий. Например, в «Классификаторе промышленной, сельскохозяйственной продукции» (М., 1972) дано пять иерархий: 1) продукция энергетической и нефтяной промышленности; 2) электроэнергия или продукция нефтяной промышленности; 3) электроэнергия, произведенная электростанциями общего пользования и блокстанциями (или то же локального пользования); 4) электроэнергия, произведенная электростанциями общего пользования или блок-станциями общего пользования; 5) электроэнергия, произведенная КЭС, или ТЭЦ, или ГТЭС, или ДЭС, или АЭС, или ГЭС, или нетиповыми электростанциями общего пользования. В каждой иерархии своя рубрикация.
Как видим, та или иная область науки или техники благодаря своей терминологии охватывается тезаурусом,
Перечисляем наиболее важные признаки.
363
имеющим свои особенности. Например, информационно-поисковый тезаурус по языкознанию имеет следующий тематический охват: «Персоналки языковедов. Общее языкознание. Методы лингвистических исследований. Структурные и математические методы. Классификация языков. Образование и развитие языков. Социолингвистика, психолингвистика. Письменность, фонология, грамматика, лексикология, семантика, стилистика. Прикладное языкознание. Теория сообщений и кодирования в применении к языку. Лингвистические вопросы преподавания языка. Семиотика»1.
Различие тезаурусов по их построению достаточно велико. Это связано как с составом терминологии отрасли, так и с подходом к составлению словаря. В любом случае для построения тезауруса необходимо выделить минимум слов, с помощью которых описывается значение терминов и устанавливаются иерархия и ассоциативные отношения. Такие слова называют дескрипторами. Установление дескрипторов зависит от особенностей терминологии и характера тезауруса. Дескрипторы являются основой тезауруса: из них выводится значение основных терминов, они же позволяют определить ассоциативные отношения. Во многих случаях дескрипторы принадлежат к общенаучной лексике.
Построение информационных словарей предполагает достаточно полный учет терминов в их реальном функционировании. Термины в информационно-поисковых словарях отличаются от терминов в отраслевых словарях тем, что лишь отражают текущее состояние терминологии, но не распространяют знания по терминологии. От терминологических стандартов информационно-поисковые словари отличаются тем, что не нормируют терминологию.
Информационный поиск
Информационное обслуживание распределяется по трем направлениям: реферативные издания, информационный поиск и автоматизированное управление. На-
1
Аннотированная библиография информационно-поисковых тезау-
русов. ГАСНТИ. М, 1980. С 12. 364
правление определяется в зависимости от того, кто является инициатором создания и передачи текста. В реферативных изданиях орган информатики по своей инициативе и в установленные сроки снабжает читателя рефератами, освещая тем самым текущие поступления. В информационном поиске инициатива исходит от читателя, который дает запрос органам информатики на поиск литературы. В автоматизированном управлении инициатива исходит от обеих сторон одновременно.
Деятельность информационной службы начинается с реферативного обслуживания. Реферат - как бы первая реплика диалога с абонентом. Цель такого диалога, с одной стороны, проинформировать, а с другой - собрать сведения и решить задачу, принять или отдать команду, обучиться чему-либо, вести рассуждение о чем-либо. Все это происходит в регламенте, установленном органом информационной службы, которая стремится автоматизировать процесс диалога.
Примером реферативных изданий могут быть сборники рефератов, выпускаемые ВИНИТИ и ИНИОН. Рефераты не обязательно печатаются и рассылаются по почте. В ведомствах рефераты могут выходить в небольшом числе экземпляров. Главное, чтобы рефераты отражали текущие поступления в фонды, выходили в определенные сроки и распространялись среди заинтересованных в них читателей.
Для реферативного обслуживания, казалось бы, достаточно организовать реферирование пополнения фондов. Но написание рефератов зависит от того, как орган информатики суммирует и классифицирует терминологию в текстах, а это значит, что грамотные рефераты могут быть составлены только на основе информационных словарей.
Информационный поиск ведется как поиск литературы и~или рефератов. Запрос на поиск составляет читатель (иногда с помощью работника информационной службы), пользуясь словарями, в основном тезаурусами. Читатель отыскивает по словарю (сам, с помощью сотрудника информационной службы или автомата) интересующие его разделы знания, представленные соответствующими терминами, и формулирует за-
365
прос на нужную ему литературу. Поскольку термин имеет индекс, обозначающий тексты, в которых он употреблен, есть возможность представить читателю эти тексты. Запрос может быть конкретизирован и круг литературы сужен, например, по признаку авторства, времени создания источника и т.п. Но главным средством сужения круга литературы является сочетание терминов. Например, читателя интересует литература о сварке. Публикаций о сварке очень много. Читатель конкретизирует свой запрос: сварка с помощью лазера. Так, круг литературы сужается. Но читателя интересует медицинское применение сварки, тогда формулируется запрос: сварка живых тканей с помощью лазера... Круг литературы еще сужается, можно сформулировать новый запрос: сварка с помощью лазера живых тканей глаза... Затем уточняется время публикации, автор и т.д., пока не выявится интересующий читателя круг литературы, которую он оценит сначала по заголовкам, затем отберет рефераты и, ознакомившись с рефератами, выберет нужные оригинальные тексты.
Если читатель не вполне уверен в том, какая именно литература ему нужна, он повторяет свои запросы в близких, а иногда и отдаленных областях знания, быстро знакомится и отбирает необходимый материал. Такой поиск, приближая читателя к интересующим его источникам, одновременно хорошо информирует его в смежных областях знания.
Поскольку запросов может быть много и выбор и обнаружение необходимой литературы требуют времени, поиск может быть автоматизирован. Тезаурус и индексы материалов вводятся в память ЭВМ. Запрос делается ЭВМ по определенному несложному коду, и на экране дисплея появляется ответ. Запросы и ответы могут повторяться по изложенной выше схеме до тех пор, пока читатель не получит удовлетворяющего его ответа.
Для того, чтобы реализовать автоматический поиск информации, необходимо предложить читателю правила формулирования запросов, а в программу ЭВМ ввести соответствующие команды на поиск необходимых ответов и демонстрацию их на экране дисплея. Это элементарная диалоговая система.
366
По этой же схеме ведется поиск не только литературы. В память ЭВМ могут быть введены различные сведения, например о числе сотрудников на станциях Октябрьской железной дороги или о числе вагонов, обработанных этой дорогой за сутки. В этом случае информационный работник должен обрабатывать документы и извлекать из них соответствующие сведения. Для этого необходимо прежде всего преобразовать документы, особенно учетного характера, приведя их к форме, удобной для обозрения человеком, с одной стороны, и для ввода в память машины-с другой, т.е. усовершенствовать формуляр документов. Если документ исполнен не по формуляру, что бывает нередко, информационный работник сам придает документу соответствующую форму. Затем подготовленные на соответствующих бланках данные вводятся в машинную память.
Для заполнения бланков и введения данных в память машины необходимы особые словари-классификаторы, также организованные по тезаурусному принципу. Классификаторы создаются для учета изобретений, кадрового состава, финансовых средств и т.д. Они содержат слова, с помощью которых передаются разного рода сведения: кадровые, финансовые, производственные, транспортные, плановые и т.п. Это значит, что содержание родовых терминов должно быть поделено между содержанием видовых терминов, что родо-видовые отношения между терминами организуются строго иерархически. Все это требует тщательного анализа содержания терминов, «отбрасывания» терминов, не укладывающихся в иерархическую классификацию, и создания терминологии, полностью отражающей содержание, для которого создается классификатор.
Таким образом, информационные системы бывают двух родов: библиографические и фактографические. Они различаются источниками информации, характером ее содержания (информация о текстах или об объектах) и основным требованием к содержанию информации. В библиографической системе поиск литературы производится приближенно, не вся литература, по содержанию связанная с данным термином, может быть учтена. В фактографической системе, где учитывается число и положение объектов, должен быть полный
367
учет всех данных; данные приводятся обычно в виде числительно-предметных сочетаний, где число отражает количество объектов, мощность машин и установок, количество энергии, эффективность процессов и т.п., а также управление производственными процессами, идущими в автоматическом режиме.
Автоматизированные системы управления
Автоматизированные системы управления - самый сложный вид информационного обслуживания. Сочетание повременного и позапросного предоставления информации помогает принятию разного рода управляющих решений в области проблем планирования, энергетики, транспорта, финансов, кадров, конструкторско-проектных работ.
Основу автоматизированных систем управления (АСУ) составляют информационные системы. В автоматизированных системах управления информация (совокупность сведений) делится «по периодичности обновления, содержанию обработки и решаемому на ее основе классу задач на три рода: а) учетно-отчетная информация (сведения) о функционировании объектов; б) информация об изменении в функционировании объектов под влиянием внутренних и внешних для объектов причин, которые влияют на состояние системы управления; в) нормативная информация, используемая для решения задач на управление: правила планирования, правила и порядок принятия разного рода решений» [J, 14].
Такое деление информации отвечает делению на виды документов. Например, сводки содержат информацию о функционировании объектов; справки, докладные записки и т.п. - об изменении объектов; уставы, положения, инструкции - нормативную информацию для принятия решений. Само же решение, данные для которого готовит АСУ, или решение, которое принимает либо прямо АСУ, либо человек, использующий АСУ как помощника, - отвечает содержанию приказа, решения, постановления и других чисто распорядительных документов. Это значит, что АСУ с помощью техники автоматизирует содержательное и формальное движение дел. 368
Поэтому существующие документы необходимо приспособить так, чтобы в ЭВМ они соединялись между собой по содержанию, обеспечивая управляющую деятельность. Сама ЭВМ не является юридической категорией, играя роль счетного аппарата. Только документ как словесный текст имеет юридическую силу, закрепляя и оформляя отношения между людьми.
Таким образом, АСУ включается в документооборот. Для филолога это означает разработку форм документов и словарей, удовлетворяющих требованиям однозначного представления разного рода данных в АСУ, с одной стороны, и в исходных документах - с другой.
При работе с документами нужно документ, представляющий собой сообщение, прочитать и составить материал для ввода в ЭВМ, или формализованный документ. Такой «документ» имеет адресную часть, или «шапку»-таблицу. «Таблицы строятся из отдельных графических элементов (линии вертикальной и горизонтальной разграфки и другие знаки), которые разделяют части документа и элементы информации в столбцах и строках». Оригинальный цельнооформленный текст служит основанием для составления таких таблиц, содержащих фактическую информацию. Поэтому в «документах» АСУ есть только назывные предложения или числительно-предметные сочетания. «Основными единицами естественного языка выступают отдельные слова и словосочетания разной сложности, обозначающие наименования понятий». В связи с этим в «документах» АСУ «преимущественно используются словосочетания именного типа, реже - конструкции других типов. Словарный состав ограничивается лексическими единицами, используемыми в словосочетаниях и самостоятельно... Семантика ограничивается полем значений наименований понятий» [1, 46-47].
Большая длина словосочетаний, выражающих такие понятия и называющих предметы по классификаторам, заставляет прибегать к сокращениям. Используются также условные обозначения каких-либо параметров, принятые в науке и технике.
Так как назначение формализованных документов АСУ - суммировать информацию и представлять ее в систематизированном виде, возникает необходимость в
369
строгой стандартизации наименований. Выделяют следующие основные классы наименований, различаемые по смыслу: наименования объектов управления - предприятий, объединений, организаций, учреждений и ведомств; наименования видов изделий промышленной и сельскохозяйственной продукции; наименования видов сырья и материалов; наименования должностей рабочих и служащих; наименования разного рода укрупненных показателей (характеристик), используемых в процессах управления производством, снабжением и распределением ресурсов; наименования профессий и специальностей; наименования природных ресурсов; наименования видов работ и услуг; наименования единиц измерения. Может быть выделен и ряд других, менее значимых классов. «В пределах каждого класса понятий проводится классификация, учитывающая интересы управления и машинной обработки информации... Обычно используются системы классификации с жесткой иерархией» [1, 57 - 58].