Маркарова Т. С., канд филол

Вид материалаДокументы
Подобный материал:
Маркарова Т.С. , канд.филол.наук,

зам. директора ГНУ «Государственная научная педагогическая библиотека им. К.Д. Ушинского Российской академии образования»

Традиционная лингвистика как основа лингвистического обеспечения информационных систем.

В настоящее время актуальным становится создание и развитие информационно-лингвистических ресурсов и систем, обеспечивающих исследования в области информационного поиска по распределенным интегрированным полнотекстовым базам данных, контентным содержанием которых является научная информация. Любая интеграция информационных систем, электронных ресурсов (каталогов, баз данных и т.д.) предполагает обеспечение доступа к этому массиву и в связи с этим ставит перед создателями большой круг задач:
  • анализ методологий, стандартов и приемов построения распределенных информационных систем;
  • формирование адекватного лингвистического обеспечения и форматов представления метаданных;
  • построение функциональной модели и модели баз данных;
  • разработку оптимальной топологии системы;
  • разработку протоколов взаимодействия с другими информационными системами;
  • проектирование пользовательских интерфейсов;
  • разработку технологических инструкций пользователям;
  • разработку технологических инструкций администраторам системы;
  • разработку прототипа программных средств для решения задач в рамках интегрированных информационных систем.



Нас в данной статье интересует аспект проблемы адекватного лингвистического обеспечения научно-информационных баз данных.

Несмотря на то, что уже давно разработан и постоянно совершенствуется лингвистический аппарат автоматической обработки текстов, пока отсутствует координация деятельности исследователей в области лингвистического обеспечения информационных систем и не решены многие теоретические проблемы, необходимые для успешного решения такого рода задач. В результате, российское научное сообщество практически не имеет единого корпоративного профессионально организованного источника электронных лингвистических ресурсов всех возможных типов, обеспечивающих поисковую систему научно-информационных ресурсов. Совершенно очевидно, что назрела необходимость как в координации ученых-лингвистов, так и в интеграционном обновлении информационно-поисковых лингвистических ресурсов. Традиционно в основе информационно-поисковых лингвистических систем лежат классификационные параметры. В этой ситуации языковые категории должны представлять некоторую систему взаимосвязанных и согласованных друг с другом компонентов, следовательно, изменение определения одной языковой категории непременно приводит к изменениям в каком-либо другом месте трактовки. Системный характер – желательное и, порой, обязательное свойство любой классификации, но на практике нередко одновременно сосуществуют принципы, ведущие к разрушению строгости классификации. Любая классификация является в той или иной мере условной. Она – часть той коммуникации, которая ведется между исследователями и читателями (потребителями) их трудов. Наиболее убедительная классификация служит одним из приемов, с помощью которых первый пытается описывать реальность (с точки зрения языка, по принципу «от значения к форме») в доступном второму виде, т.е., научную информацию (научный текст) следует рассматривать как часть информационно-коммуникативного поля для корпоративных сообществ (часть коммуникации между исследователями и читателями, которые часто меняются местами).

Однако, на наш взгляд, корпоративные информационные блоки, подлежащие лингвистическому анализу, не имеют прямой связи с классификационными системами. Нет исходного положения о том, что каждый информационный объект должен попасть в определенный класс, который окажется семантически релевантным. Поэтому стоит задача объединения, а не разбиения (деления, классификации) как информационных объектов, так и семантически релевантных им лингвистических ресурсов. Под интеграцией лингвистических ресурсов понимается их объединение с целью использования с помощью удобного и унифицированного пользовательского интерфейса различной информации с сохранением ее свойств, особенностей представления и пользовательских возможностей манипулирования с ней. При этом объединение ресурсов не обязательно должно осуществляться физически - оно может быть виртуальным. Главное - оно должно обеспечивать пользователю доступ к базе метаданных как к единому информационно-лингвистическому пространству. Все информационно-лингвистическое пространство, доступное пользователю, должно быть представлено в виде совокупности самостоятельных объектов.

Системы информационного поиска полнотекстовых баз данных сочетают в себе помимо стандартных поисковых механизмов (по ключевым словам и интегральным параметрам текстовых фрагментов) сетевые гетерогенные базы метаданных: лингвистический инструментарий поисковых механизмов по текстовым массивам, а также алгоритмы и методики автоматического создания и визуализации специфических форм анализа текстовых данных. Такие системы являются системами вполне гибкими и динамичными, т.е., открытыми для пополнения или удаления информационных объектов, реорганизации структуры информационного пространства, изменения системы внутренних связей.

Основой лингвистического анализа текста и лингвистического обеспечения научно-информационных систем является морфологическая и семантико-синтаксическая структура вербального языка.

Любой информационно-смысловой фрагмент каким-то образом соотносится с онтологическим характером языка, сознанием индивидуума и отражаемой языком действительностью (экстралингвистической ситуацией).



Отношение семантического уровня к действительности и языковому уровню







Действительность

Ситуация





Экстралингвистическая ситуация





Семантический

уровень

Коммуникативный

уровень


(положение дел+функции)






Языковой уровень

(поверхностные

структуры

конкретного

языка)





Семантическая структура


(глубинные структуры, языковые ограничения)




Приведенная схема показывает связь семантического уровня с действительностью, с одной стороны, и с языковым уровнем – с другой, с информационным текстом – с третьей. Семантическая структура вбирает в себя целесообразное с точки зрения коммуникативной задачи языковые выражения, учитывая обстоятельства, обусловленные возможностями конкретного языка и информационно-контекстным, функциональным полем. Под ситуацией в данной схеме понимается конкретный отрезок действительности, под положением дел – конкретный отрезок действительности + коммуникативные задачи информационного массива, наделенные определенным функциональным значением (целью, жанром, адресностью и т.д.). Итак, ситуация и положение дел, являясь экстралингвистической ситуацией, по сути дела, составляют стержень смысловой структуры информации и входят в структуру семантических категорий. При определении семантических категорий в прикладных исследованиях обычно прибегают к косвенным методам: появляется возможность комбинированного использования категорий (реалий) действительности и категорий вербального языка.

С давних пор философы обсуждают вопрос о том, в какой степени действительность является реальной, а в какой - порождением человеческого сознания. В любом случае нельзя не согласиться с тем, что ту или иную роль язык играет уже тогда, когда еще только формируется сообщение, информация. В компетенцию лингвистики постепенно входит третья вершина треугольника Фреге – денотат (референт), значение выступает не только как смысл по отношению к форме языкового выражения (поверхностным структурам языка), но и как концепт по отношению к внеязыковому объекту (экстралингвистической ситуации), т.е., происходит некоторая концептуализация конкретного объекта экстралингвистической ситуации.

В традиционном языкознании положение о том, что языковые единицы определенным образом соотносятся с экстралингвистической действительностью, стало признаваться основными методологическими лингвистическими школами сравнительно недавно. Это направление языкознания получило название теории референции и референциальной семантики. (Референция от англ. Refer – « относить(ся) к объекту») – отнесение языкового выражения к внеязыковому объекту. В философской логике термин «референция» иногда понимается шире – как соотнесение мыслей и реальности посредством языка). В основу этого подхода положено следующее представление о сущности референции: каждый из участников коммуникации – и говорящий, и адресат речи – имеет свое собственное представление о мире («картину мира»). При этом в картину мира говорящего (пишущего) входит представление о том, какова картина мира адресата (потребителя, пользователя) речи (информации), а в картину мира адресата речи – представление о том, какова картина мира говорящего. В процессе коммуникации говорящий осуществляет референцию к объектам, входящим в его картину мира, выбирая то или иное языковое средство в зависимости от того, какое место (по его представлению) занимают соответствующие объекты в картине мира адресата речи. Воспринимая полученную информацию, адресат речи тем или иным образом модифицирует свою картину мира (возможно лишь тот ее фрагмент, который относится к его представлениям о картине мира говорящего). Таким образом, все правила, регулирующие осуществление референции средствами языка, содержат явную или неявную отсылку к участникам коммуникации и картине мира каждого из них. Не случайно З. Вендлер назвал теорию референции piece de resistance (самой главной частью) прагматики. Разумеется, все формулировки референциальных правил имеют в виду не представления о мире реальных участников коммуникации, в процессе которой было употреблено то или иное языковое выражение, а ту картину мира, которую должны отобразить и воспринять участники коммуникации, чтобы употребление языковых выражений (с референциальной точки зрения) считалось корректным. Иными словами, референция наряду с предикацией составляет основу языковой коммуникации. Используя языковые единицы, мы, во-первых, осуществляем референцию к внеязыковым объектам, а во-вторых, приписываем (предицируем) им какие-то свойства. При таком подходе можно говорить о референции любых языковых единиц, тем или иным образом соотносящихся с картиной мира участников коммуникации, независимо от того, какому уровню языковой системы они принадлежат.

Смысл, содержащийся в информации, может быть выражен исключительно с помощью языка. Смысловой компонент информации является частью семантической структуры информационного объекта. В семантическую структуру информационного массива могут входить смысловые компоненты, диагностические сразу для нескольких понятийно-тематических информационных объектов (языковая единица в одном и том же значении, лексема, может принадлежать одновременно двум и более различным информационным объектам) и строевые (синтаксические) компоненты, которые имеют максимально широкую сочетаемость, но не являются темообразующими: они не определяют специфическую лексико-синтаксическую семантику слова, они только меняют лексическое значение, сохраняя тему. Один из основоположников русского научного синтаксиса А.М. Пешковский, игнорируя преобладающие в теоретическом языкознании семантический (смысловой) и формальный (синтаксический) радикализм, положил начало такому лингвистическому анализу, основным принципом которого стало лингвистически значимое, релевантное соотношение семантических и синтаксических различий и тождеств. Свой синтаксис А.М. Пешковский задумал как синтез учения А.А. Потебни, с его вниманием к семантической стороне языковых явлений и учения Ф.Ф.Фортунатова, с его вниманием к формальным языковым средствам. В итоге получилась органическая и продуманная концепция синтаксиса, положившая начало семантическому синтаксису. На теоретических постулатах семантического синтаксиса зиждется теория машинной обработки текста и, позже, теория лингвистического обеспечения автоматизированных интегрированных информационных систем.

Прикладные информационно-лингвистические системы, использующие для решения своих задач фундаментальные лингвистические теории (помимо перечисленных к числу как раз таких теорий относится модель И.А. Мельчука СМЫСЛ ТЕКСТ) создают для лингвистических систем новую уникальную среду – полигон для проверки истинности лингвистических средств обработки информационных массивов.

Встраивание стандартной лингвистической теории в лингво-компьютерную среду, в среду лингвистического процессора, приводит к:

  • построению специальных блоков правил интерпретации поверхностно-синтаксических структур в терминах лексико-семантических функций;



  • разработке единых правил разбиения и объединения информационных массивов;



  • выявлению ядерных и периферийных семем (грамматико-смысловые единицы) внутри информационных массивов;



  • построению единого блока правил, проводящих семантическую и синтаксическую перестройку информации одновременно;



  • созданию поисковой интегрированной информационно-лингвистической базы данных для корпоративных научно-информационных систем.


До последнего времени в российских информационно-библиотечных системах, проблема коммуникабельности информационных массивов решалась путём формирования двух групп национальных и международных стандартов – стандартов библиографического описания источников информации и стандартов информационно-поисковых языков (ИПЯ): иерархического (рубрикаторы) и дескрипторного (тезаурусы) типа, идентифицирующих контентное наполнение источников. Однако, на наш взгляд, этот набор лингвистических средств не вполне удовлетворяет запросам научных сообществ. А опора на традиционные лингвистические теории не только открывает широкий спектр возможностей для обработки/переработки текстовых массивов, но и обеспечивает качественный и корректный полнотекстовый поиск в научно-информационных массивах, предназначенных для корпоративных научных сообществ. По нашему мнению, информационно-лингвистические системы должны носить интегральный характер, который состоит в том, что различные компоненты лингвистического инструментария (параметры информационно-поисковых лингвистических схем и единицы и уровни традиционного языкознания) должны быть согласованы между собой и в совокупности давать полное представление об описываемой экстралингвистической ситуации и об информационном объекте. Требование согласованности различных частей, выход за рамки какого-либо одного уровня идентификации составляет существенную методологическую предпосылку целого ряда современных лингвистических исследований и теорий.


Литература:


  1. Мельчук И.А. Русский язык в модели «СМЫСЛ- ТЕКСТ» .- М., 2004.


  1. Пешковский А.М. Русский синтаксис в научном освещении – 8-е изд., доп.- М., 2001.- 510 С.


  1. Потебня А.А. Мысль и язык.- М., 1999.- 268 С.


  1. Фортунатов Ф.Ф. Избранные труды.- М., 1956


  1. Фреге Г. Логика и логическая семантика.- М., 2000.- 512 С.


  1. Vendler Z. Linguistics in Philosophy. Ithaca, N.Y.: Cornell University Press, 1967.