Обработка текста и когнитивные технологии
Вид материала | Документы |
5. Примеры правил снятия семантической многозначности Правила с атрибутивным определением. Правила с генитивной конструкцией. Правила с предложным управлением. Правила с глагольным управлением. |
- Нарушение требований точности словоупотребления: употребление слов в несвойственных, 177.4kb.
- Перевод и обработка текста но бф «приют детства» проект «К новой семье», 117.8kb.
- Центр усыновления швеции. Обработка текста но бф «приют детства» проект «К новой семье», 233.45kb.
- Системно-смысловой анализ текста, 11.16kb.
- План стилистического анализа текста Экстралингвистический анализ текста, 26.37kb.
- 1. Информационные технологии. Структура информационного процесса. Сбор, обработка,, 1016.5kb.
- М. Б. Бергельсон, мгу когнитивные механизмы через призму практического овладения языком, 388.98kb.
- «Прикладные технологии гидроакустики и гидрофизики» га–2012, 39.78kb.
- Тема: обработка конструкционных материалов лекция 16 Обработка конструкционных материалов, 82.83kb.
- А. В. Бернштейн, заведующий лабораторией, 122.14kb.
5. ПРИМЕРЫ ПРАВИЛ СНЯТИЯ СЕМАНТИЧЕСКОЙ МНОГОЗНАЧНОСТИ
Ниже приводятся примеры четырех типов правил, которые рассматривают различные синтаксические контексты (см. выше).
Правила с атрибутивным определением.
Если многозначное существительное имеет атрибутивное определение, относящееся к одному из следующих классов: человеческие качества, ментальные, эмоции, голос, возраст, характер, то данное существительное выступает в значении, относящемся к классу людей.
Надо отметить, что в русском языке насчитывается около 1 тыс. имен, одно значение которых относится к классу людей, таким образом, данное общее правило во многих случаях позволяет выбрать правильную семантическую интерпретацию, ср.:
Прайор вводит ее в вестибюль, а японские туристы уже встали и теперь толпятся вокруг скучающих гидов. (У.Гибсон. Мона Лиза Овердрайв)
В данном предложении у многозначного существительного гид {1) 'человек, сопровождающий туристов' 2) 'путеводитель'} будет правило выберет верное первое значение.
Правила с генитивной конструкцией.
В данном правиле используется информация о мереологическом статусе имени и рассматриваются существительные, одно из значений которых относится к кассу людей.
Если многозначное имя употреблено в качестве генитивного определения к существительному имеющему мереологическое описание часть тела, то в качестве правильного значения выбирается то, которое входит в класс людей.
В следующем предложении для многозначного имени амазонка {1) 'женщина-воительница'; 2) 'женское платье для верховой езды'} данное правило выберет верное первое значение, ср.:
В Америку же попал бюст амазонки - йогини из храма шестидесяти четырех йогиней в Мадхья Прадеш. (Ефремов. Таис Афинская)
Правила с предложным управлением.
В русском языке существует ряд слов, относящихся к классу мебели, которые могут также означать организацию определенного типа (буфет, стол, бюро, бар и др.). Следующее правило позволяет различить значения этих в некоторых употреблениях:
если слово данной группы употреблено в сочетании с предлогами на или под при глаголе положения в пространстве или каузации движения, то оно выступает в первом значении, ср.:
Она не отозвалась, сумасшедшая стерва, и я поставил стаканы на буфет рядом с телефоном, который как раз зазвонил. (В.Набоков. Лолита)
Правила с глагольным управлением.
Данное рестриктивное правило основывается на семантических ограничениях, налагаемых на позицию субъекта глаголов определенным семантических классов:
многозначное существительное, занимающее позицию субъекта при глаголах следующих классов восприятия, ментальных, обладания, поведения человека, речи, физиологических, эмоций не может выступать в значении, принадлежащем таксономическим классам пространство, растение, изделие, вещество, сооружение.
Таким образом, если на вход данного правила поступает предложение:
Он, белокурая бестия, просто по определению должен был задать перцу вот этому черненькому сморчку, а тут вдруг сморчок намекает, что все будет едва ли не наоборот, и даже портит игрушку... и деньги... (А.Лазарчук. Солдаты Вавилона)
то во втором употреблении слова сморчок, из двух значений будет удалено то, которое означает 'съедобный сумчатый гриб'.
6. ЗАКЛЮЧЕНИЕ
В ходе исследования было сформулировано около 40 правил, описывающих контекстные ограничения для многозначных существительных различных таксономических классов. По результатам предварительного тестирования на материале Национального корпуса русского языка выяснилось, что число употреблений многозначных предметных имен, к которым применимо по крайней мере одно из правил, колеблется от 40 до 60 % от общего количества примеров. Точность выбора значения составила больше 90%, что отражает главный принцип нашего подхода – максимально уменьшить число неверных семантических интерпретаций, которые выбираются правилами снятия многозначности.
Таким образом, при работе с корпусом, для которого применялось снятие многозначности, пользователь вправе ожидать, что в зоне предметных имен количество нерелевантных результатов запроса будет существенно ниже, чем в корпусе без снятой омонимии.
В перспективе этого метода лежит дальнейшее уточнение контекстных правил и пересмотр состава таксономических классов как для предметных существительных, так и для прилагательных и глаголов.
ЛИТЕРАТУРА.
- Ide N., Veronis J.: Introduction to the Special Issue on Word Sense Disambiguation: The State of the Art. Computational Linguistics, 24(1) (1998).
- Weiss S. (1973). Learning to disambiguate, Information Storage and Retrieval, 9.
- Yarowsky, David (1992). “Word sense disambiguation using statistical models of Roget's categories trained on large corpora.” Proceedings of the 14th International Conference on Computational.
- www.ruscorpora.ru – сайт проекта Национального корпуса русского языка.
- Кобрицов Б.П. Методы снятия семантической неоднозначности // Научно-техническая информация. Сер.2. – 2004. – №1.
- Кобрицов Б.П., Ляшевская О.Н., Рахилина Е.В. Именная классификация как лингвистическая проблема // Труды конференции Конгресс русского языка. – 2004. – МГУ.
- Корпусная лингвистика в России (сост. Рахилина Е. В., Шаров С. А.) // Научно-техническая информация, сер. 2: Информационные процессы и системы, 2003, №№ 6 и 10.
- Красильщик И.С., Рахилина Е.В. Предметные имена в системе "Лексикограф".// Научно-техническая информация. Сер.2. – 1992. – N 9.
- Плунгян В.А., Сичинава Д.В. Морфологическая информация в национальном корпусе русского языка // Труды II-го Международного конгресса русистов-исследователей 2004.
- Рахилина Е.В. О лексических базах данных // Научно-техническая информация. Сер.2. – 1992. – N 9.