САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
На правах рукописи
Пименов Евгений Николаевич
Разработка семантико-синтаксических схем индексирования
информации в документальных системах
(прагматический аспект разработок)
Специальность 10.02.21
УПрикладная и математическая лингвистикаФ
Автореферат
диссертации на соискание ученой степени
доктора филологических наук
Санкт-Петербург
2007 г.
Диссертация выполнена в Научно-исследовательском отделе информатики и автоматизации Библиотеки Российской академии наук
Официальные оппоненты:
доктор филологических наук, профессор Мартыненко Григорий Яковлевич
доктор филологических наук, профессор Шайкевич Анатолий Янович доктор педагогических наук, профессор Соколов Аркадий Васильевич
Ведущая организация: Российский государственный педагогический университет им. А.И. Герцена.
Защита состоится 8 ноября 2007 г. 16 часов на заседании диссертационного совета Д 212.232.18 по защите диссертаций на соискание ученой степени доктора филологических наук при Санкт-Петербургском государственном университете по адресу: 199034, г. Санкт-Петербург, Университетская набережная, 11, филологический факультет СПбГУ.
С диссертацией можно ознакомиться в Научной библиотеке им. А.М.аГорького Санкт-Петербургского государственного университета
Автореферат разослан: У Ф____________2007 г.
Ученый секретарь
диссертационного совета
д.ф.н., проф. П.А. Скрелин
1. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Объектом исследования в диссертации являются вербальные языки индексирования. Предмет составляет прагматика разработки и применения данных ИПЯ. Непосредственной целью исследования ставилось:
- исследование семантических схем информации и наиболее известной из них - предметно-аспектной модели S-Attr-P-Instr-Loc при разработке дескрипторных языков индексирования. Это - задача исследования в узком значении слова;
- исследование прагматической стороны разработки вербальных ИПЯ. Это - задача исследования в широком ее понимании диссертантом.
Актуальность и практическая значимость диссертации заключается в том, что в связи с бурным развитием сети Интернет и также активной на переломе веков разработкой в России автоматизированных библиотечно-информационных систем (АБИС, электронные каталоги) объемы индексационных, а также словарных (тезаурусы, авторитетные файлы) работ постоянно растут. Вместе наблюдавшееся в 90-е годы прошлого века сокращение исследований и числа публикаций по этой тематике имели следствием уменьшение качества индексирования во многих отечественных ИПС (Ф.С. Воройский).
Научная новизна диссертации заключается в том, что впервые с позиций лингвистической прагматики описаны все основные виды работ по созданию лингвистических средств ИПС. Это - фасетный анализ и классификация документов, их индексирование, разработка тезаурусов и других словарей, типизация и обработка информационных запросов. Все вышеназванные элементы ЛО в двух разработанных диссертантом системах (по огнеупорам и по сохранности документов) построены на одном лингвистическом основании - схеме анализа информации S-Attr-P-Instr-Loc, что обеспечивает их хорошую согласованность и сбалансированность. Новым является также описание внелингвистических факторов, влияющих на разработку дескрипторных и предметизационных систем.
Основные решения и выводы диссертации апробировались на лингвистическом материале двух сравнительно небольших по объемам документального ввода систем. Это система по огнеупорам, работавшая в 1976-94 гг. во Всесоюзном институте огнеупоров и БД по сохранности документов, в настоящее время растиражированная на CD-ROM. Результаты исследований регулярно докладывались на конференциях по лингвистическому обеспечению ИПС.
Методологической основой исследования являются общесистемное положение, согласно которому в языке все взаимосвязано, и некоторые общелингвистические, в основном - синтаксические установки таких крупных лингвистов, как Ф. де Соссюр, Ю.Д. Апресян, И.А. Мельчук. Вторым столь же общим методологическим принципом являлась известная по исследованиям представителей Пражского лингвистического кружка (Ф. Данеш и др.) и другим теориям грамматики (А.В. Бондарко, В.Г. Гак) идея разграничения центра и периферии языковых единиц, где хорошо структурированным (и структурируемым) является их центральная часть. Периферийную часть лингвистических категорий, единиц и структур отличает аморфность, размытость. Этот принцип, который мы формулируем также, как Уу каждого правила есть исключенияФ, ставит известный предел излишне прямолинейному структурированию информации при разработках ИПЯ. Другие методологические установки связаны с семиотической теорией языкового знака, в содержании которого различаются денотат, синтаксис и прагматика,
и знаки могут быть нулевыми, словесно не выраженными.
Более частный, используемой в диссертации метод, можно определить как фасетный, или категориальный анализ (Ш. Ранганатан, А.В. Соколов, А.И. Черный и мн. др.) с использованием семантической схемы S-Attr-P-Instr-Loc. При обосновании данной модели потребовался выход в теорию предложения (рассмотрение поверхностных и глубинных структур предложения, актуальный синтаксис) и синтаксис связного текста, включая теорию дискурса Т.А. ван Дейка.
На защиту выносятся следующие положения:
1. Изоморфная предложению семантико-синтаксическая модель S-Attr-P-Instr-Loc является универсальной, и универсальность ее проявляется в двух отношениях. Во-первых, эта модель применима для обработки лексического материала систем самого разного профиля и назначения, во-вторых, ее можно использовать не только для индексирования (для структурирования синтагматического плана ИПЯ), но и при создании тезаурусов (для структурирования парадигматических отношений).
2. Семантически позитивную характеристику в этой модели имеет аспектная часть информации, то есть позиция Р, соответствующая операциям, и обстоятельственные характеристики Loc и Instr. Понятие Спредмет информацииТ (S) как абстрактная категория семантически позитивного содержания не имеет. В конкретных информационных системах ключевые слова, выступающие в функции предметов, не сводимы к какой-то одной лексико-семантической категории, как, например, категории СдокументыТ, СвеществоТ, СоборудованиеТ, СперсонаТ, СперсоналииТ в БД по сохранности документов.
3. Семантически негативный характер позиции S объясняется тем, что, являясь одной из исходных и системообразующих для индексирования категорий, это понятие относится к классу таких же нечетких понятий тех дисциплин, объекты (предметы) которых определяют как Учерный ящикФ. Это - такие понятия, как УэлектричествоФ в физике, УязыкФ, УфонемаФ в лингвистике и мн. др., окончательные дефиниции которых едва ли когда-нибудь получены. Отсутствие семантически позитивной характеристики S объясняется также тем, что его содержание лежит в основном в области синтагматики (определяется связью S-P) и лингвистической прагматики. Синтагматика и прагматика номинаций УпредметФ и Упредмет индексированияФ накладывают, каждый со своей стороны, ограничения на их содержание, и вследствие этого чрезвычайно широкое и в указанном отношении УпустоеФ содержание понятия СпредметТ получает свою семантическую определенность.
4. Применительно к ИПЯ за понятием СнормативностьТ стоят две взаимосвязанных, но не всегда совпадающих вида оценок. Имеется нормативность общеязыковая, определяемая правилами образования единиц естественного, например, русского литературного языка, и есть нормативность внутрисистемная, это - правила построения того или иного тезауруса и других словарей. Из-за того, что имеется два разных уровня структурирования языковых единиц (в ЕЯ и ИПЯ), такие оценки в ряде случаев могут не совпадать, а иногда даже противоречить друг другу.
2. ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Диссертация состоит из введения, четырех глав, заключения и списка использованной литературы.
Во Введении обосновывается актуальность работы, и описываются три вида прагматики, наиболее значимой при разработке ИПЯ.
Главное содержание понятия СпрагматикаТ применительно к ИПЯ составляют условия разработки или эксплуатации систем разного типа и назначения. Конечные результаты работ по созданию и использованию ИПЯ зависят от многих условий и факторов, при этом различные факторы, элементы и подсистемы систем должны быть между собой хорошо сбалансированными.
К прагматике во втором ее понимании относятся различного рода оценки, как, например, оценки информативности терминов при проведении поиска информации. Через понятие СинформативностьТ элемент субъективной оценки имплицитно присутствует в содержании термина Уключевые словаФ. С этим видом прагматики связаны также выбор (критерии выбора) дескрипторов для представления словарных статей ИПТ и оценки языковой нормативности терминов и их связей в тезаурусе.
В третьей интерпретации данного термина прагматика определяет выбор решений по соображениям удобства, получения каких-либо преимуществ, полезности в самом широком значении слова. В таком понимании прагматики в ее содержание войдут такие характеристики разных систем, как технологичность, простота и удобство в создании и в использовании лингвистических средств ИПС. В данном аспекте прагматика иногда означает бульшие или меньшие отклонения от требования нормативности единиц ИПЯ, иногда допускаемые для решения более важной задачи, чем разработка ИПЯ, - задачи создания эффективно работающей ИПС. Прагматически ориентированными на удобство работы являются также решения, направленные на уменьшение объемов ИПЯ и обеспечение простоты и прозрачности его понятийной структуры. Прагматичность создания лингвистических средств заключается также в том, что обычно они создаются путем разумного компромисса между двумя с трудом совместимыми и разнонаправленными прагматическими установками. Одна из них, установка на то, чтобы система могла обеспечивать хорошие показатели точности и полноты, предполагает усложнение ИПЯ, вторая - желательность повышения технологичности ИПС, требует разработки небольших по объемам и простых языков индексирования. Противоречие между данными установками в большой мере снимается в небольших по объемам специализированных ИПС, где лингвистический материал хорошо структурируется. В крупных универсальных системах, где обычно используются предметизационные или классификационные ИПЯ и количество индексов (рубрик) является очень большим, говорить о простых языках не приходится.
В первой главе диссертации обосновывается предметно-аспектный подход к информации. В соответствии с этим подходом в информации всегда выделяются два элемента: предмет информации (S) и сторона его рассмотрения или аспект информации (P). В системах по огнеупорам и по сохранности документов, где разрабатывался данный подход, в схему анализа информации входят еще локализаторы места и времени (Loc), аналог обстоятельства образа действия (Instr) и аналог функции определения (Attr). Из указанных элементов и образуется изоморфная предложению предметно-аспектная схема S-Attr-P-Instr-Loc.
В литературе по информатике данные элементы как наиболее важные при индексировании в том или ином виде представлены в схемах анализа информации Ю.А. Шемакина, А.Г. Ханжина, в индексационных моделях, построенных на основе системного рассмотрения информации, в моделях предметных рубрик предметизационных ИПЯ, в фасетных формулах информации, в описаниях предикатных структур и семантических падежей, в информационно-поисковом языке СИНТОЛ и в теории дискурса Т. ван Дейка и др. К предметно-аспектным моделям близко стоят также другие семантико-синтаксические представления ИПЯ, с применением которых результаты индексационных работ предстают Ув виде графа, дерева зависимостей, матрицы или другим сходным образом организованного множества синтагматических (контекстуальных) отношений между ЛЕФ 1. К предметно-аспектной модели близки, например, описания языков индексирования, в которых каким-либо образом различают понятия предмет и аспект, и с последним понятием связывается главным образом процессная лексика. На указанной оппозиции построена, например, кандидатская диссертация В.В.аОтрадинского, и имеется много статей, где предметно-аспектный подход к индексированию в явном виде не сформулирован, но хорошо эксплицируется при рассмотрении списков аспектов и их содержательных характеристик.
______
1 Проблемы автоматизации индексирования и реферирования / Н.А.аПащенко, Л.В.аКнорина, Т.В. Молчанова и др. // Итоги науки и техники. Информатика. - М., 1983. - Т. 7. - C. 66.
Анализ литературы показывает, что модель информации S-Attr-P-Instr-Loc и ее элементы можно рассматривать с разных сторон и интерпретировать следующим образом:
- как разновидность мешочной грамматики, не имеющей явного выражения в поисковых образах документов;
- как структуру, которую образуют наиболее общие по содержанию фасеты из классификации Ш. Ранганатана. Это - такие абстрактные категории, как СматерияТ, СэнергияТ, СвремяТ и СместоТ, близкие к семантическим функциям S, P и Loc;
- как фасетную формулу, с применением которой регламентируется процесс индексирования (А.И. Черный);
- как модель построения сложных предметных рубрик в предметизационных ИПЯ;
- как предикатное выражение с элементами, соответствующими семантическим падежам Ч.аФиллмора;
- как структуру с концептуально-синтагматическими отношениями (R. Green); Данные отношения одновременно относятся и к синтагматике, и к парадигматике ИПЯ;
- как суперструктуру дискурса Т.А. ван Дейка;
- как модель, изоморфную предложению и УнакладываемуюФ на индексируемый текст с целью обеспечения простоты и единообразия его индексирования (Е.Н. Пименов).
Последнее понимание отличается прагматичностью и имеет своим преимуществом то, что с этих позиций не очень существенно, относятся ли эта структура к области онтологии или же это понятие - метаязыковое и относится только к ИПЯ. Применительно к документальным системам этот вопрос не имеет большого значения, коль скоро, как это показано в диссертации, использование данной модели дает положительные результаты при разработке ЛО ИПС.
Во второй главе диссертации описываются возможные применения предметно-аспектной модели, и показывается, как она вырабатывалась в двух разработанных диссертантом системах. В диссертации описано применение данных моделей при фасетной классификации ЛЕ, при типизации документов, при разработке тезаурусов и других словарей, при анализе и обработке информационных запросов.
Предметно-аспектный подход к информации обосновывался тем, что ключевые слова и дескрипторы, рассматриваемые сами по себе и безотносительно к какой-либо схеме, не выражают информации в обиходном и полезном для информатики смысле как сообщения чего-то о чем-то. Индексирование по предметно-аспектным моделям (когда индексаторы должны выявить в документах и описать ключевыми словами по возможности все элементы структуры S-Attr-P-Instr-Loc) обеспечивает единообразное индексирование, оптимизирует глубину индексирования и способствуют выявлению и отражению в ПОДах УскрытойФ, вербально не выраженной информации.
Выбор предметно-аспектной модели в начальный период работы с ней определялся не столько принципиальными (теоретическими) соображениями, сколько ее общеизвестностью и простотой, поскольку она изоморфна строению предложения, а модель предложения знакома практически каждому индексатору, хотя бы по школьной грамматике. В дальнейшем, когда был накоплен значительный опыт работы с рассматриваемой семантической схемой, потребовалось ее усложнение путем обращения, в частности, к теории актуального синтаксиса и разграничение формальных предметов, определяемых в соответствии с предметно-аспектной моделью, и актуальных предметов, репрезентируемых в таком качестве индексируемым текстом.
Вторым дополнением структуры S-Attr-P-Instr-Loc являлось введение в нее синтагматической позиции Ш, обозначающей нулевые, отсутствующие элементы модели. В применении к индексированию и ИПЯ нулевые позиции являются семиотически значимыми и обычно имеют значение, сопоставимое со значением квантора всеобщности, то есть Увсякий, любойФ S, Attr, P, Instr или Loc. Эта позиция хорошо выявляется при индексировании документов, в словарных статьях ИПТ и особенно часто - в информационных запросах. Предметно-аспектный анализ при обработке запросов является способом экспликации или учета в их содержании Уинформационных нулейФ и в таком его применении является средством определения и уточнения информационных потребностей пользователей. Кроме названных элементов, потребовалась дополнение модели еще одним синтаксическим членом - модальной рамкой S-P.
Содержание элементов предметно-аспектной модели.
Предметы информации (S). Лексико-семантические категории таких единиц в большой степени задаются по определению, УназначаютсяФ для соответствующей роли. Вместе с тем выбор предметов не является полностью произвольным и зависит от большого числа описанных в диссертации прагматических факторов.
Содержание понятия Спредмет информацииТ осмыслено только тогда, когда это понятие рассматривается в линейном ряду СпредметТ - СаспектТ информации, то есть оно относится к числу таких парных понятий, как подлежащее и сказуемое, тема и рема и др. Для выстраивания семантических схем по предметно-аспектной модели необходимо (удобно, естественно), чтобы в позиции Р выступали слова с категориальным значением СоперацияТ или СпроцессТ. Это значения требует семантического дополнения аспектов актантами предикатов, как СвремяТ, СместоТ, СсредаТ, СусловияТ и СспособыТ выполнения операций и протекания процессов. В лингвистическом отношении позиция Р является структурообразующим элементом в семантической схеме S-Attr-P-Instr-Loc. При процессной семантике функции Р, представленной иногда нулевым выражением, единообразие категориальной семантики S на уровне частных лексических категорий в общем случае не является обязательным.
Некоторые термины и категории предметных ЛЕ имеются в очень малом числе или представлены только одном документе. Поскольку, наверное, в любой ИПС можно выделить неопределенно большое число малозначимых для системы предметов и, соответственно, схем индексирования редко встречающейся информации, составление полного списка и детальное описание всех применяемых в ИПС, и особенно - уникальных моделей, нецелесообразно по прагматическим соображениям. Использование при индексировании информации слишком большого числа семантических схем вело бы к излишнему переусложнению методики индексирования информации, но из-за малых объемов такой информации почти не влияло бы на показатели точности и полноты предоставляемой пользователям информации.
Прагматическим основанием для выделения определенных ЛЕ как предметов является также общее назначение ИПС и предметная область системы. Так, в больших по объемам документального ввода универсальных системах, и именно в силу их универсальности, это понятие не может являться в той же степени ясно очерченным, как в специализированных ИПС. В универсальных системах предметы анализа информации не могут быть в смысловом отношении каким-либо образом ограничены и сведены к небольшому числу обобщенных понятий. Применение схем индексирования в этих системах возможно (и на практике они применяются, например, в виде моделей предметных рубрик в предметизационных ИПЯ) не в качестве универсальных моделей, но главным образом фрагментарно - в рамках каких-то отдельных и тематически ограниченных комплексов рубрик. В основном же процесс индексирования документов в универсальных системах ведется на уровне, который мы называем актуальным аспектом анализа информации. Но данный аспект индексирования не абстрагирован от лексических, грамматических, прагматических и возможных других малосущественных в содержательном плане характеристик индексируемых текстов.
Аспекты информации (Р) разделяются на простые и сложные, обобщенные и конкретизированные. Простые аспекты представлены в ПОДах только одной единицей ИПЯ. Семантически сложные - образуются сочинительной и подчинительной связью составляющих их элементов.
Аспектная часть информации представляет собой иерархически упорядоченный языковый конструкт. Обобщенные аспекты или аспекты первого рода - это слова, называющие самые общие операции, как исследование, получение, обеспечение сохранности. Конкретизированные аспекты или аспекты второго рода называют объекты таких операций, не относящиеся к категории предметов. Такими аспектами могут являться наименования других операций или процессов, названия составов и свойств, любые другие слова, семантически связанные с обобщенным аспектом, как Ууничтожение насекомыхФ, Уудаление пятенФ. К аспектам третьего рода относятся ключевые слова, конкретизирующие содержание аспектов первого или второго рода в таком отношении, как Уизучение (Р1) кинетики (Р3) спекания (Р2) окислов (S)Ф, Увлияние (Р3) составов (Р2) на свойства (Р2)Ф, Умеханизм (Р3) настылеобразования (Р2)Ф. Слово УметодыФ как аспект информации третьего рода определенным образом специфицирует операции. Указанным образом намечается по меньшей мере трехуровневая иерархия наименований аспектов.
Процессный (аспектный) характер семантики у некоторых категорий ЛЕ не является очевидным, но он хорошо раскрывается в свете предметно-аспектной модели. Так, слова типа УвыставкиФ и УэкскурсииФ при первом их рассмотрении не входят в предметно-аспектную схему. На материале системы по архитектуре эта схема выстраивается как S [архитектурные объекты, детали, строительные конструкции] - Attr [архитектурные стили] - P [благоустройство, проектирование, реконструкция и т.п. операции] - Loc [время и место]. Предметно-аспектный анализ показывает, что в ряду вышеназванных обобщенных аспектов должен иметься еще один, вышестоящий по отношению к словам типа УвыставкиФ и УэкскурсииФ, это - аспект Спроведение мероприятийТ или Сэкскурсионно-выставочная работаТ. По отношению к такому аспекту, то есть в контексте, как S [Зимний дворец, Исаакиевский собор] Ц - P [благоустройство, проектирование, Е, экскурсионно-выставочная работа] - P1 [выставки и экскурсии] рассматриваемые нами слова семантически интерпретируются как сложные, составные аспекты, в которых процессная часть их семантики (СпроведениеТ) представлена нулевым выражением.
В указанной семантической интерпретации многие категории непроцессных ЛЕ понимаются как УосколочныеФ формы аспектов. Более полное содержание аспектов раскрывается в таких типовых для тематики Собеспечение сохранностиТ моделях процессных дескрипторов, как СОперТ н.СШ биол. объектыТ: DERATISATION н.[Ш] RATS, [Ш] MICE. В контексте такого дескриптора и названной тематической области Ш означает СуничтожениеТ грызунов. СОперТ н.СШ стихийн. бедствияТ: DISASTER CONTROL c.[Ш] Disasters, [Ш] Стихийные бедствия н. [Ш] EARTHQUAKES, [Ш] ENERGY EMERGENCY, [Ш] FIRES и т.д. Содержание позиции Ш в данном случае эксплицируется как Спланирование мероприятий по предотвращениюТ (disaster planning) и СустранениеТ (disaster recover) последствий стихийных бедствий. Введение в практику разработки ИПЯ категории нулевого аспекта, то есть процесса, операции, действия в самом широком значении слова больше всего соответствует использованию аналогичных конструктов - процессных форм типа *ВАХТИТЬ, *КОМПРОМИССОВАТЬ - в модели СМЫСЛ у ТЕКСТ И.А. Мельчука. Такие слова, по И.А. Мельчуку, являются Уестественным способом минимизации базовой лексикиФ глубинно-синтаксического представления поверхностно-синтаксических структур. Приблизительно ту же задачу решает и использование категории Ш. Это - задача минимизации ИПЯ и упрощения его понятийной структуры за счет отнесения к категории процессных ЛЕ слов, прямо не связанных с идеей процесса. Тем самым из понятийной структуры тезауруса устраняется большое число малополезных при его разработке лексико-семантических категорий.
Наименования методов (Instr), если их структурировать с применением предметно-аспектной модели, описывает структура PЦInstr, где Р - элемент, называющий операцию, а Instr соответствует инструменталису предикатных структур (Скаким образомТ выполняется Р). Особенность языковых единиц, называющих методы, по нашему мнению, заключается также в том, что за названием УметодФ обычно стоит какая-то новая и нетривиальная операция, в связи с чем очень частый в документальных системах запрос УНовые методы определения (измерения, получения и др.) чего-либоФ является, видимо, тавтологичным и не вполне содержательным.
окализаторы места и времени (Loc). Локализаторы места нами рассматриваются не как чисто лексические, но семантико-синтаксические категории, к которым относятся также слова с окказионально адвербиальным значением. К таким номинациям относятся названия организаций и предприятий в контекстах, описывающих, например, что S или P имеется, изучается, применяется и т.д. в определенных документохранилищах, институтах и др.; локализаторы - наименования сред, как среда окислительная, безводная, водная, контролируемая, температура, влажность и др; локализаторы, обозначающие назначение устройств, как транспортеры для сыпучих веществ (Loc); локализаторы, называющие процессы и операции, ограничивающие действие Р и, тем самым, обозначающие условия их проведения и протекания, как, например, смачивание (P) пергамента (S) при его распрямлении (Loc). Из четырех вышеназванных локализаторов последние три составляют отдаленную периферию указанной категории.
Географические локализаторы могут указывать не только на определенное территориальное расположение объектов, но и на другие полезные при проведении поисков вещи. Когда речь идет, например, о вопросах Усохранности документов в библиотеках Великобритании, Чехии, Сербии, НигерииФ, такие локализаторы обозначают, помимо всего, уровень организации библиотечной работы, а их отсутствие должно означать, что в публикации рассматривается некоторая общая проблематика обеспечения сохранности документов. Локализаторы времени также часто привязывают информацию к определенному уровню технологий, к особенностям материалов и артефактов, как, например, Упроизводство бумаги в Англии [Ирландии, Японии и т.д.] в 17 векеФ. Отсутствие локализаторов времени чаще всего означает современный уровень технологии производства изделий и материалов, обеспечения сохранности фондов и т.д., и это полезно, а иногда просто необходимо учитывать при проведении поисков.
Темпоральное содержание информации может быть более или менее важным в зависимости от предметной области ИПС и аспектов, в которых рассматривается информация. Так, в математических текстах Увремя отсутствуетФ (В.Ш. Рубашкин), то есть данные тексты чаще всего являются вневременными в том смысле, что математические понятия и взаимосвязи понятий относятся ко всем временам и, следовательно, они не относятся к какому-то определенному времени. В документах, описывающих компонентный состав или свойства изделий и материалов, содержание информации никак не зависит от времени изучения составов и свойств. Но аспект производство уже можно связать, пусть даже косвенным образом, со временем изобретения или началом использования каких-либо технологий, составов и материалов с определенными свойствами.
При разделении континуального времени на дискретные его промежутки иногда получаются временные отрезки, границы которых либо слабо очерчены (Р.Г. Пиотровский), либо неоднозначно трактуются в различных системах периодизации. Выбор периодизации истории, определяющий, например, содержание понятия Ссредние векаТ, зависит от класса системы и обрабатываемых в ней документов. В крупных отечественных библиотеках, где основной объем информации приходится на советские публикации, используется советская периодизация истории (отраженная в ББК) и понятие Ссредние векаТ охватывает временной промежуток в 5-17 век. В системе по сохранению документов, где большую часть информации (85%) составляют работы западноевропейских и североамериканских авторов, для обеспечения соответствия между семантическим наполнением понятия Ссредние векаТ в индексируемых документах и в ИПЯ используется западноевропейское понимание средних веков (5-15 век).
Описательные или косвенные обозначения времени могут быть самыми разнообразными. В этом качестве могут использоваться указания на время правления династий или царствующих лиц: Stuart time, Петровское время и др., упоминание видных деятелей определенного времени, как, например, имени Гуттенберга для обозначения очень больших временных промежутков, называемых как УОт Гуттенберга до наших дней, до пишущей машинки, компьютера и т.п.Ф В семантической функции локализаторов (но в синтагматической роли предметов) могут использоваться и имена известных переплетчиков, иллюстраторов книг, мастеров по производству бумаги и других материалов. Поскольку известно, что данные мастера жили в определенной стране и в определенный период, это делает сведения о персоналиях, помимо всего, довольно точной и частой привязкой к определенному месту и времени.
Характеристики (Attr) представляют собой реализацию как бы УчистойФ синтагматической функции. По отношению к нескольким областям, где имеет хождение наименование УхарактеристикаФ, а именно - в применении к ИПТ, к индексированию информации и в обиходном использовании можно выделить три понимания функции характеристик.
К характеристикам в самом узком значении слова относится небольшое количество прилагательных типа LIMP [ветхий], WET [мокрый], VERTICAL [вертикальный], HANDMADE [ручной работы], плохо преобразуемых в существительные, так как такое преобразование обычно ведет в получению искусственных лингвистических конструктов (*вертикальность ,*мокрость и т.п.). Понятие СхарактеристикаТ в этом значении имеет по преимуществу негативное содержание, состоящее в том, в индексируемых документах такие слова не оставляют предметов, аспектов, локализаторов места и времени, а позитивный момент в их оценке заключатся главным образом в том, что такие характеристики в текстах обычно представлены прилагательными.
К характеристикам в более широком значении относятся прилагательные со значением СсвойствоТ (типа грибоустойчивый) и слова со значением СоперацияТ или СпроцессТ, представленные отглагольными прилагательными и причастиями (отбеленный, обесцвеченный и т.п.). Последняя интерпретация характеристик включает в себя уже семантически позитивный момент - указание и то, что такие слова, синтагматически подчиненные S, имеют значения, близкие к содержанию аспектов.
Третья и максимально широкая интерпретация функции СхарактеристикаТ имеет место в обычном, не специальном употреблении слова. В этом случае к характеристикам часто относят все прилагательные и причастия, все наименования свойств, числовые параметры разных вещей и т.д. К тезаурусам и индексированию информации такая широкая интерпретация характеристик, скорее всего, отношения не имеет.
При рассмотрении нормализации и фасетизации лексики в диссертации указывается, что имеются разные уровни нормализации ЛЕ, и наибольший уровень достигается, если нормализация проводится с применением тезаурусов. Второй уровень - и в таком случае говорят о Умягком нормированииФ лексики (Ф.С. Воройский) - имеется в базах данных, в которых нормализацию регламентируют правила подготовки тезаурусов, описанные в соответствующих ГОСТ. Самая слабая степень нормализации КС имеет место при так называемом свободном индексировании информации. Различия между мягким нормированием и свободным индексированием информации не могут быть точно определены, так как в разных системах могут слабо нормироваться или не унифицироваться вообще разные части лексического материала.
Свободное и нормализованное индексирование документов часто являются двумя стадиями разработки тезаурусов. На первом этапе идет накопление лингвистического материала, анализ ЛЕ и оценка целесообразности их включения в ИПТ. На этапе свободного индексирования документов устанавливаются также основные решения, соглашения и правила индексирования информации. На более продвинутой стадии разработки лингвистического обеспечения систем, когда информация индексируется нормализованной лексикой, остаются все же слова и отдельные категории слов, обработка которых ведется в порядке свободного индексирования информации. Последнее обусловлено тем, что решения, принимаемые при создании ИПЯ, формулируются не одномоментно, но вырабатываются постепенно в течение долгого времени. Поэтому почти во всех случаях в ИПТ можно найти не до конца обработанный лингвистический материал, работа с которым еще продолжается.
После нормализации лексики или одновременно с ней во многих системах проводится фасетный анализ ЛЕ, при котором ключевые слова объединяются в более или менее крупные классы - фасеты. Если система фасетов сравнима с системой координат (А.И. Черный), в рамках которых определяется много решений, связанных с разработкой тезауруса, то эта система должна содержать в себе лишь ограниченное число категорий, что обеспечивает многие преимущества при разработке ИПЯ. Фасетизация подготавливает лингвистический материал к его более глубокой лингвистической обработке на последующей стадии - дескрипторизации лексики.
Фасетизации поддается не весь лингвистический материал, и какая-то часть информации не укладывается в фасетные схемы и выделяется в класс Уи другоеФ. Эта особенность лингвистического материала и фасетных классификаций ЛЕ является непривычной и иногда вызывающей неприятие со стороны составителей ИПТ - представителей точных наук и естественников, профессионально лучше знакомых с классификациями, покрывающими, как таблица Д.И. Менделеева, весь без остатка классифицируемый материал. Основная особенность лингвистических классификаций как раз заключается в том, что языковые категории, в том числе и фасеты, отличает неопределенность, размытость, и особенно - в периферийных частях лингвистических категорий (Ф.аДанеш).
Прагматическая сторона составления тезауруса по обеспечению сохранности документов включала широкую интерпретацию синонимии и отношений род-вид. В словарных статьях ИПТ в роли синонимов иногда выступают слова, которые не являются полностью эквивалентными, но обладают частичной, условной или информационно-поисковой эквивалентностью. Различия в лексическом содержании таких единиц существенны, когда эти слова рассматриваются применительно к языку вообще, или по отношению к естественному языку. В тезаурусах как в значительной степени упрощенных, формализованных и в указанном отношении искусственных языках индексирования рассматриваемые нами различия снимаются, так как являются малосущественными.
При типизации родовидовых отношений устанавливался полный список моделей дескрипторов в тезаурусе по сохранности документов. Материалом исследования являлись дескрипторы, содержащихся в основной части тезауруса, без идентификаторов (наименований организаций, локализаторов места и времени). В приводимой ниже таблице представлены категориальные модели дескрипторов, построенные на основе предметно-аспектной модели. Справа от описания моделей дескрипторов приводится их частотность в тезаурусе, а символом Ш обозначено нулевое словесное выражения процессной семантики в сложных по содержанию дескрипторах, как СШ стихийные бедствияТ, СШ свойстваТ, СШ биологические объектыТ:
Сопер.Т н.Сопер.Т - 182; Свещ-воТ н.Свещ-воТ - 133; Сдок-тыТ н.Сдок-тыТ - 124; Смат-Т н.Смат-Т - 91; Счасть док-таТ н.Счасть док-таТ - 41; Соборуд.Т н.Соборуд.Т - 34; Сопер.Т н.СШ оборуд.Т - 32; Сопер.Т н.СШ вещ-воТ - 25; СлюдиТ н.СлюдиТ - 25; СШ методыТ н.СШ методыТ - 19; СШ LocТ н.СШ LocТ - 19; Спроц.Т н.Спроц.Т - 16; СШ св-ваТ н.СШ св-ваТ - 15; Сфонды хр.Т н.Сфонды хр.Т - 14; Сопер.Т н.СШ биол. объектыТ - 13; СШ вещ-воТ н.СШ вещ-воТ - 12; СШ опер.Т н.СШ стихийн.бедств.Т - 7; СШ биол. объек.Т н.СШ биол. объек.Т Ц 7; Сопер.Т н.СШ мат-Т - 5; Сопер.Т н.СШ часть док-таТ - 5; СШ пятнаТ н.СШ пятнаТ - 5; Смат-Т н.Сдок-тыТ - 4; СШ LocТ н.СШ опер.Т - 4; Сопер.Т н.СШ док-тыТ - 3; СШ стих. бедст.Т н.СШ стих. бедст.Т - 3; | СШ LocТ н.СШ оборуд.Т - 3; Спроц.Т н.СШ пятнаТ - 2; СШ св-ваТ н.СШ методыТ - 2; Счасть док-таТ н.Свещ-воТ - 2; СШ LocТ н.СШ св-ваТ - 2. СШ вещ-воТ н.Спроц.Т - 1; СШ здоровьеТ н.СШ болезниТ - 1; СШ здоровьеТ н.СШ предосторо- жностиТ - 1; СШ качествоТ н.СШ качествоТ - 1; СШ оборуд.Т н. СШ вещ-воТ - 1; СШ оборуд.Т н. СШ опер.Т - 1; СШ св-ваТ н.СШ мат-Т - 1; СШ составТ н.СШ составТ - 1; СзданияТ н.СШ зданияТ - 1; СзданияТ н.СШ часть зданияТ - 1; Сопер. + проц.Т н.Сопер.Т - 1; Сопер. + проц.Т н.Спроц.Т - 1; Сопер.Т н.СLocТ - 1; Сопер.Т н.СШ выставкиТ - 1; Сопер.Т н.СШ людиТ - 1; Сопер.Т н.СШ методыТ - 1; Сопер.Т н.СШ оборуд.Т - 1; Спроц.Т н.СШ часть док-таТ - 1; Счасть док-таТ н.Сопер.Т - 1; |
В приведенном списке моделей дескрипторов на фасеты с процессной (аспектной) семантикой, включая сюда и нулевое ее выражение, приходится бульшая часть обследованных родовидовых отношений. Кроме ближайших значений позиции Ш, то есть значений, которые в первую очередь ассоциируются с каким-либо термином, имеются еще отдаленные содержания данной позиций, к числу которых относится, например, семантика Сстадии контроляТ (St. Michalsky). Применительно к тематической области 'повреждения документов' данные стадии включают в себя операции установление, исключение, и блокирование факторов повреждения документов (загрязнения, биологических факторов и др.), принятие мер против них и устранение последствий вредного действия каких-либо факторов. Такая широкая интерпретация содержания информационных нулей все же является недостаточно полной, и за счет еще более отдаленных значений Ш в конечном итоге включает в себя любое процессное содержание.
Преобладание процессной семантики в ИПТ по сохранности документов, на наш взгляд, обусловлено субъективными и объективными факторами. К первым относятся вышеописанные теоретические (и в указанном отношении - субъективные) установки, имевшие место при составлении тезауруса, и особенно - применение семантических схем, в вершинах которых лежат элементы с процессной семантикой. Без этого общего положения понятийная схема тезауруса являлась бы, как очевидно, во многом иной. Объективным условием, определившим рассматриваемую особенность словаря, является, вероятно, специфика самой тематической области обеспечение сохранности документов, где с понятием СсохранениеТ связано 313 дескрипторов, а с понятием СдокументыТ - лишь 148.
При описании критериев устойчивости единиц ИПТ наиболее общее правило, определяющее выбор решений, формулируется следующим образом. Словосочетания не расчленяются на унитермы, если у словосочетаний имеется полезная при проведении поисков синонимия, общеизвестные аббревиатуры и/или такие же ниже- и вышестоящие термины. Под словом УполезныйФ понимается то, что выбор словосочетания является целесообразным, оправданным по каким-либо прагматическим соображениям. В прагматическом освещении в диссертации описаны 19 критериев неразложимости терминологических единиц ИПТ и, в том числе, правило экономии (минимизации) лингвистических средств ИПС и принцип единообразия (аналогии) в содержании принимаемых лингвистических решений. Ориентируясь на правило минимизации, разработчики ИПТ избегают решений, ведущих к малооправданному и при этом существенному увеличению объема тезауруса и чрезмерному усложнению его понятийной структуры. Под единообразием в принимаемых лингвистических решениях мы имеем в виду в данном случае не процесс индексирования информации, но единообразные, типовые решения, принимаемые при создании тезауруса.
Во второй главе диссертации также показывается, как предметно-аспектный подход применялся при выборе семантических схем индексирования и оптимизации ИПЯ в ИПС бестезаурусного типа. Описана также техника обработки запросов, состоящая в их обобщении, сужении и декомпозиции запросов, проводимой с использованием предметно-аспектной модели. Материалом исследования являлись запросы как обычных (несетевых) ИПС, так и запросы, которые строятся при работе в сети Интернет.
В третьей главе диссертации анализируется содержание понятия Спредмет информацииТ. В диссертации показано, что в обычных его дефинициях это понятие предстает как широкая по содержанию категория, характеризуемая не как специальный объект рассмотрения науки об информационных процессах и операциях, но скорее как объект философии и логики. В информатике и пока еще формирующейся в рамках ее дисциплины, называемой теорией предметизации, теорией ИПЯ (Л.В.аСахарный) или единой теорией предметизационных систем (Э.Л.аПризмент), начинает в какой-то степени вырабатываться ее собственный понятийно-терминологический аппарат. На данном этапе развития этой теории наиболее важным является установление того, что отличает предмет в информатике от предмета в его логико-философской интерпретации.
Данному требованию больше всего, на наш взгляд, удовлетворяет определение Э.Л. Призмента, где отмечается прагматический элемент в содержании данного термина: Упредмет - любой объект мысли, представляющий интерес (выделено мною - Е.П.) с политической, научной или практической точек зренияФ 1. Именно в этой семантике - в содержании прилагательных интересный, полезный для пользователей (для читателей, для индексаторов, при поведении поисков и т.д.) Ц мы видим главное, что отличает предмет в информатике от его дефиниций в других дисциплинах.
Если основываться на категориях логико-философского плана, как Спредмет мыслиТ, то за этим понятием едва ли стоит какое-то определенное лингвистическое содержание. Последнее приводит к тому, что некоторые авторы, в основном зарубежные, отказываются от попыток определения и от использования данного термина. Другие исследователи все же пытаются дать ему некоторую сущностную характеристику и говорят, например, о Упарадоксальности ситуации, когда в теории предметизационных ИПЯ эта базовая для теории категория до сих пор не имеет удовлетворительного определенияФ 2. В диссертации показывается, что ситуация с нечеткостью базовых для науки понятий является вовсе не редкой и исключительной, а скорее типичной для многих, причем самых разных наук, объекты которых определяют как так называемый Учерный ящикФ. Основные понятия и термины большого числа дисциплин, как, например, УэлектричествоФ - в физике, УязыкФ, УпредложениеФ, УфонемаФ, Уграмматическая категорияФ Ц
______________
1 Призмент Э.Л. Многоликий предмет, или больное место нашей теории предметизации : (письмо в редакцию) // Предметный поиск в традиционных и нетрадиционных информационно-поисковых системах :сб. науч. тр. / РНБ. - СПб., 1994. - Вып. 11. - С. 220.
2 Цветкова И.Б. Еще раз к вопросу о категории УпредметФ / И.Б.аЦветкова, В.Г.аЗущин // Предметный поиск в традиционных и автоматизированных информационно-поисковых системах : сб. науч. тр. / ГПБ им. М.Е. Салтыкова-Щедрина. - Л., 1990. - Вып. 10. - С.27.
в лингвистике являются в наименьшей степени определенными, чаще всего обсуждаемыми, а их окончательные дефиниции едва ли когда-нибудь будут получены.
Второе, что делает невозможным описание понятия Спредмет информацииТ как некоторой сущностной категории - это ущербность его денотативной семантики. Если рассматривать номинации УпредметФ и Упредмет информацииФ в свете того, что у данных ЛЕ должно быть значение, синтагматика и прагматика, то общее содержание слова УпредметФ лежит в основном в области синтагматики (определяется связью S-P) и прагматики, тогда как в определениях должна отражаться денотативная сторона содержания понятий.
О влиянии синтагматики на содержание слова УпредметФ свидетельствуют русские словари. В них различия в семантическом наполнении данного слова раскрывается указанием на контексты, как предмет разговоров, споров, шуток и т.п.; предмет любви, желаний, зависти, внимания и т.п.; предмет изучения, тема, содержание, материал чего-либо. Такие контексты показывают, что если у слова УпредметФ есть какое-то денотативное содержание, то им является, вероятней всего, самое общее представление о некоторой точке приложения сил (операций, процессов и др.), называемых приведенными выше отглагольными существительными.
Процессный и, значит, аспектный характер таких существительных специфицирует содержание слова УпредметФ как в обычном употреблении слова, так и в составе словосочетаний, как Упредмет индексирования [информации, документов, запросов]Ф. Прагматика, то есть, по меньшей мере, 14 описанных в диссертации факторов, также сужает абстрактное содержание концепта СпредметТ. Синтагматика и прагматика употребления слова УпредметФ накладывают, каждая со своей стороны, ограничения на его содержание, и вследствие этого чрезвычайно широкое и в указанном отношении УпустоеФ содержание слова предмет становится вполне УосязаемымФ, когда речь идет о предмете чего-либо в определенных контекстах.
В диссертации описано 14 прагматических факторов, определяющие выбор ИПЯ и общую конфигурацию лингвистических средств ИПС. Такими являются:
- преимущественное назначение ИПС;
- объем обрабатываемой информации;
- состав обрабатываемых документов;
- трудозатраты и стоимость документального ввода, вычислительной техники и др.;
- наличие широкого круга пользователей, в том числе, платежеспособных, если система работает на коммерческих основаниях;
- наличие вычислительной техники нужной производительности и емкости магнитных носителей;
- программное обеспечение, включая сюда стоимость его приобретения и возможность работы с редкими алфавитами и тезаурусами;
- наличие или отсутствие высококвалифицированного персонала;
- особенности комплектования ИПС;
- предметная область системы;
- время, необходимое на создание системы;
- ориентировочное Увремя жизниФ (эксплуатации) ИПС;
- среднее время, расходуемое на проведение одного информационного поиска;
- ценность имеющейся в ИПС информации.
Среди перечисленных факторов на характер ИПЯ прямо и непосредственным образом влияют такие условия.
Преимущественное назначение, которым определяется выбор ИПЯ и степень детальности его разработки. Под назначением мы имеем в виду основные задачи, решаемые в таких ИПС, как, например, системы типа АРМ библиографа, большие и малые, библиотечные ИПС, системы универсальные и специализированные, персональные ИПС, системы кодикологического назначения (работающие с редкими книгами и инкунабулами), базы данных по личным библиотекам (как, например, базы данных библиотека Ф. Сологуба, библиотека Петра I) и т.п. Назначение документальной системы определяет выбор ИПЯ таким образом, что, например, в специализированных информационных системах основным ИПЯ обычно являются жестко нормализованные или слабо нормированные ключевые слова. В крупных универсальных и библиотечных системах в первую очередь употребляются классификационные или предметизационные языки индексирования. Различия в преимущественном назначении ИПС влияют на глубину индексирования информации, значительно бльшую в специализированных, чем в универсальных системах.
Объем обрабатываемой информации. При небольших информационных массивах, по наблюдениям Л.В. Сахарного, создаются относительно простые ИПЯ, мало отличающиеся по их характеру от ЕЯ. Такие массивы хорошо обозримы и ошибки при индексировании информации в них легко устанавливаются и устраняются. Работа с большими массивами, - писал Л.В. Сахарный, - Укогда возросшие объемы требуют более тонкой дифференциации документов и, следовательно, ИПЯ, все более сложного, все более отличающегося от ЕЯ - неизбежно потребует больших коллективов исполнителей предметизаторов, а их не удержать Ув уздеФ ни какими инструкциями и заклинаниями к унификации в работеФ 1. Основные проблемы, решаемые при индексировании и разработке ИПЯ, согласно Л.В. Сахарному, объясняются тем, что при индексировании или предметизации произведений печати в этой работе задействованы три фигуранта или действующих лица - Уиндексы делаются
--------------------------
1 Сахарный Л.В. Предметизация в системе информационного поиска : природа, состояние, проблемы и перспективы // Предметный поиск в традиционных и нетрадиционных информационно-поисковых системах : сб. науч. тр. / ГПБ им. М.Е.аСалтыкова-Щедрина. Ц Л., 1990. - Вып. 10. - С. 22.
человеком, для человека и на основе текстов, написанных человекомФ 1. Отсюда - три типа возможных ошибок, возникающих при индексировании информации и обусловленных человеческим фактором. Это - ошибки авторов, которые могут неточно описывать предметы своих публикаций; ошибки предметизаторов (индексаторов), которые не всегда согласны друг с другом в определении главных тем документов, а также в использовании правил предметизационного или другого ИПЯ; ошибки читателей или пользователей информационных систем в ситуациях, когда содержание запросов неправильно выражается на ИПЯ. Вероятность указанных выше ошибок растет вместе с ростом объемов информационных массивов и данный параметр, среди многих других вышеназванных, определяет характер ИПЯ.
Состав обрабатываемых документов. На индексирование информации прямо влияют линейный размер и жанрово-видовая характеристика документов. Размер документов определяет их информативность и, значит, различную специфичность и глубину индексирования. Основной объем информации в специальных системах, иногда доходящий 100%, приходится на статьи, а количество обрабатываемых книг здесь обычно является небольшим. Уровень специфичности содержания заглавий статей, как правило, выше, чем уровень специфичности книжных изданий. Эту особенность содержания статей Э.Л.аПризмент характеризует следующим образом: УПри общности методов и подходов к предметизации книжных изданий и статей из журналов языки предметизации статей глубже, подробнее и - самое главное - охватывают весь универсум знаний той или иной тематической
_______
1 Сахарный Л.В. Предметизация в системе информационного поиска : природа, состояние, проблемы и перспективы // Предметный поиск в традиционных и нетрадиционных информационно-поисковых системах : сб. науч. тр. / ГПБ им. М.Е.аСалтыкова-Щедрина. Ц Л., 1990. - Вып. 10. - С. 21.
области. Это как бы язык в языке, относящиеся друг к другу по принципу матрешкиФ 1. Специализированные базы данных, помимо того, часто работают с аннотациями и рефератами, и это также способствует повышению глубины и более многоаспектному индексированию. По данным Ф.С. Воройского, например, средняя глубина индексирования в специализированных ИПС варьируется в зависимости от состава и способа индексирования документов и должна составлять 10-12 ЛЕ в реферативных БД и меньше когда обрабатываются краткие аннотации 2. Что касается крупных предметизационных библиотечных систем, то в Библиотеке Конгресса США, например, средняя глубина индексирования составляет 2,13 предметных рубрик (ПР)3, а глубина индексирования (предметизации) информации, централизованно подготавливаемой РКП, является, видимо, еще меньшей.
Другие из названных выше условий разработки информационных систем определяют характер ИПЯ не прямо, а косвенным образом. Так, фактор техническое обеспечение системы был особенно важен в 80-90 гг. при работе с 286 процессорами, поскольку указанный фактор определял время, расходуемое на проведение поиска. При введении в систему по огнеупорам технологии бестезаурусного поиска (элементов ее) бестезаурусные поиски были прямыми и поэтому медленными. На их
_____________
1 Воройский Ф.С. Аналитико-синтетическая обработка и переработка информации в автоматизированных системах НТИ : основы организации и технологии : учеб. пособие / Ин-т повышения квалификации информ. работников. - М.: ИПКИР, 1991. - С. 102.
2 Садовска Я. Проблемы предметного поиска в on-line каталогах // Предметный поиск в традиционных и нетрадиционных информационно-поисковых системах : сб. науч. тр. / РНБ. - СПб., 1994. - Вып. 11. - С. 108-115.
3 Призмент Э.Л. Централизованная предметизация: взгляд изнутри // Предметный поиск в традиционных и нетрадиционных информационно-поисковых системах : сб. науч. тр. / РНБ. - СПб., 1994. - Вып. 11. - С. 149.
проведение иногда уходило до 2 часов машинного времени, что было неудобным для пользователей и затрудняло работу в режиме on-line. Данное обстоятельство - малая производительность имевшихся ранее ЭВМ Ц потребовало разработки описанной в диссертации конфигурации лингвистических средств, когда поиски по центральным (наиболее характерным) для базы данных запросам проводились по инвертированному файлу и по тезаурусу, а поиски по тематически периферийным (редким, нехарактерным) запросам - путем комбинации инверсного и прямого информационного поиска. Ключевые слова фрагментировали информационный массив ИПС на относительно небольшие и тематически однородные подмассивы. Последнее уменьшало количество времени на проведение бестезаурусных поисков, и малая производительность ЭВМ компенсировалась лингвистическими средствами.
Взаимодействие связанных с индексированием факторов в диссертации исследуется на материале семи тематических областей и 21 ИПС.
В четвертой главе диссертации показывается, что положение о нормативном характере ИПЯ, как, наверное, всякая общая установка, применяемая к ИПЯ и ЕЯ, будучи проведенной абсолютно последовательно и до конца, оборачивается некоторыми негативными сторонами. Допущение небольшого количества исключений из правил, например, хорошо контролируемых не вполне нормативных ЛЕ, может способствовать совершенствованию тезауруса. Определенные отклонения от нормативности допускаются, например, для локальных систем, которые обеспечивают автоматическую трансляцию искусственно свернутых терминов в их каноническую форму на естественном языке (Ф.С.аВоройский).
За термином УнормативностьФ могут стоять два взаимосвязанных, но не всегда совпадающих по содержанию понятия. Имеется нормативность общеязыковая, определяемая правилами построения лексических, грамматических и фонетических единиц естественного, например, русского литературного языка. И есть нормативность внутрисистемная, это - правила построения того или иного конкретного ИПЯ.
Когда говорят, что тезаурусы являются нормативными словарями, то в первую очередь имеют в виду нормативность во втором ее понимании, внутрисистемную, а не правильность единиц ИПЯ вообще. В силу того, что имеется разные уровни структурирования языковых единиц (в языке вообще, а с другой стороны, в дескрипторных и других словарях), то должно быть два вида оценок с точки зрения нормативности / ненормативности, и такие оценки в ряде случаев могут не совпадать, а иногда даже противоречить друг другу. Последнее мы формулируем как давление прагматики на нормативность тезауруса.
В Заключении описаны результаты исследования и главные выводы диссертации.
Основные положения диссертации изложены в следующих публикациях:
- Автоматизация информационного обеспечения задач сохранности библиотечных фондов / В.П. Захаров, И.В. Азарова, У.В. Буторова, А.К.аБагажков, Е.Н. Пименов // БАН: 10 лет после пожара : материалы междунар. конф., 16-18 февр. 1998 г. - СПб., 1998. Ц С. 274-281.
- База данных по обеспечению сохранности документов: состав, лингвистические средства и перспективы использования / Е.Н. Пименов, В.П.аЗахаров, Л.Г.аЛевашова, М.И. Вершинин, А.К. Багажков // Библиотечное дело в России и за рубежом: наследие и современность : сб. тр. конф. (Краснодар, 21-22 мая 1999 г.). - Краснодар, 1999. - C. 136-142.
- Захаров В.П. Естественно-языковой подход к созданию лингвистического обеспечения информационно-поисковых систем / В.П. Захаров, Е.Н. Пименов // НТИ. Сер. 2. - 1997. - Nа12. - С. 24-27.
- Захаров В.П. Работа с тезаурусом в программной среде CDS/ISIS/M / В.П.аЗахаров, Е.Н.аПименов // Библиотеки в меняющемся мире : тез. междунар. семинара, Евпатория, май 1994 г. - Евпатория, 1994. - C. 113-115; То же // НТИ Сер.2 - 1997. Ц N 12. - С. 24-27.
- Каширина Е.В. CDS/ISIS/M: оценка надежности и других рабочих параметров ИПС / Е.В. Каширина, Е.Н. Пименов, Ю.М. Алтунин // Автоматизированные библиотечно-информационные системы. - Новосибирск, 1994. - C. 28-30.
- О лингвистическом обеспечении АИПС УОгнеупорФ / И.К. Амхир, Н.С.аЛаврентьева, В.Б. Ляцкий, Е.В. Макаров, Е.Н. Пименов, И.В. Щербак // Автоматическая обработка текста методами прикладной лингвистики. - Кишинев, 1977. - С. 76-78.
- Опыт оптимизации фрагмента ИПЯ по технологии огнеупорного производства / И.К.аАмхир, В.Б., Ляцкий, Е.В. Макаров, Е.Н. Пименов // Структурная и прикладная лингвистика. - Л:, 1978. - Вып. 1 - С. 193-198.
- Особенности индексирования документов в локальных системах БАН : автомат. индексирование информ / Е.Н. Пименов, В.П. Захаров, М.И.аВершинин, Л.Г.аЛевашова // Библиотечное дело - 2000: программа формирования открытого информационного общества : тез. докл. Пятой междунар. науч. конф. (Москва, 25-26 апр. 2000 г.). - М., 2000. - С. 166-168
- Особенности разработки и состав тезауруса по проблемам сохранности документов / Е.Н. Пименов, Л.Г. Левашова, Ю.П. Нюкша, В.П. Захаров // В новый век - с новыми технологиями : 3-я междунар. конф., посвящ. проблемам. обеспечения сохранности памятников культуры, 17-20 окт. 2000 г. : тез. докл. - СПб., 2000. - C. 61-63.
- Пименов Е.Н. Англо-русский тезаурус по сохранности документов и некоторые особенности его составления // Библиотеки национальных академий наук: проблемы функционирования и тенденции развития : науч.-практ. и теорет. сб. - Киев, 2003. - Вып. 2. - C. 260-275.
- Пименов Е.Н. Индексирование информации в БД по обеспечению сохранности документов // НТБ. - 2002. - N11. - С. 29-44.
- Пименов Е.Н. К изданию первого русского тезауруса по сохранению документов / Е.Н.аПименов, В.П. Захаров // Сохранение культурного наследия библиотек, архивов, музеев : материалы науч. конф. - СПб, 2003. - C. 226-236.
- Пименов Е.Н. Некоторые особенности разработки тезауруса по проблемам сохранности документов / Е.Н. Пименов, Е.Н. Ильин // Библиотечное дело - 2001. Российские библиотеки в мировом информационном и интеллектуальном пространстве : тез. докл. Шестой междунар. конф. - М., 2001. - Ч. 1. - C. 173-175.
- Пименов Е.Н. Нормативность и некоторые проблемы разработки тезаурусов и других лингвистических средств ИПС // Междунар. форум по информ. и документации. - 1999. - Т. 23. - С. 24-32; То же // НТИ. Сер. 1. - 2000. - N 4. - С. 7-16.
- Пименов Е.Н. О возможности Удвухступенчатой фасетизацииФ лексики : на примере атрибутив. словосочетаний в тезаурусе по сохранности документов / Е.Н. Пименов, Л.Г.аЛевашова, В.П. Захаров // НТИ. Сер. 2. - 2001. - N 9. - С. 19-24.
- Пименов Е.Н. О тезаурусе замолвим слово // Б-ка. - 2001. - N 7. - C. 42-45.
- Пименов Е.Н. О факторах, влияющих на индексирование : индексирование и предм. обл. // НТИ. Сер. 1. - 2000. - N 2. - C. 15-23.
- Пименов Е.Н. Об оценке документальных систем // Применение ЭВМ в информационно-библиотечных технологиях : сб. науч. тр. / БЕН. - М., 1995. Ц C. 108-109.
- Пименов Е.Н. Оптимизация поиска информации в БД по эволюции органического мира / Е.Н.аПименов, С.П. Финогенова // Библиотечное дело - 2000. Программа формирования открытого информационного общества : тез. докл. Пятой междунар. науч. конф. (Москва 25-26 апр. 2000 г.). - М., 2000. - С. 168-170.
- Пименов Е.Н. Особенности индексирования информации в локальных системах БАН / Е.Н. Пименов, М.И. Вершинин, Л.Г. Левашова // Библиотечное дело - 2000. Программа формирования открытого информационного общества : тез. докл. Пятой междунар. науч. конф. (Москва 25-26 апр. 2000 г.). - М., 2000. - С. 170-174.
- Пименов Е.Н. Прагматика и нормативность ИПЯ // Автоматизированные библиотечно-информационные системы - Новосибирск, 1994. - C. 51-53.
- Пименов Е.Н. Предметно-аспектный подход к анализу и индексированию информации // Предметный поиск в традиционных и нетрадиционных информационно-поисковых системах : сб. науч. тр. / РНБ. - СПб., 1998. - Вып. 12. - C. 96-114.
- Пименов Е.Н. Предметно-аспектный подход к индексированию информации : актуал. и нулевой предмет индексирования // НТИ. Сер. 2. - 2001. - N 7. - C. 18-25.
- Пименов Е.Н. Предметно-аспектный подход к рассмотрению информационных потребностей пользователей // Библиотечное дело - 2025, N4. - P. 84-86.