О. А. Митрофанова

Вид материалаДокументы
Подобный материал:



О.А. Митрофанова


Измерение семантических расстояний
как проблема прикладной лингвистикиi

«Измеряй измеримое и делай неизмеримое измеримым», – утверждал Галилео Галилей. Современное состояние прикладной и математической лингвистики показывает, что этот призыв великого учёного можно воспринимать как руководство к действию даже тогда, когда речь идёт об исследовании объектов качественной природы, таких как, например, естественный язык.

Изучаемые лингвистами аспекты речевой деятельности в разной мере поддаются формализации или количественной оценке. Наиболее сложными являются эксперименты по моделированию естественно-языковой семантики, и возможности применения точных методов в исследовании содержательного уровня языка являются предметом дискуссий.ii Тем не менее, в данной области определён ряд задач, предполагающих измерение семантической информации в языке и в тексте, и для их выполнения необходимо привлекать математический аппарат. Одной из таких задач является измерение семантических расстояний, или количественная оценка тесноты семантических связей между единицами словаря, между единицами текста или между текстами.

История измерения семантических расстояний достаточно богата.iii Оживление интереса к этой проблеме можно объяснить тем, что сформирован теоретический фундамент и найдены практические пути её решения. Кроме того, сфера применения данных о тесноте семантических связей между языковыми объектами широка: это информационный поиск, автоматическая классификация лексики, создание формальных онтологий, построение компьютерных тезаурусов, моделирование предметных областей, автоматическое реферирование и индексирование, семантическая поддержка процедур автоматического анализа текста и машинного перевода, и т.д. Это означает, что результаты экспериментов по определению семантических расстояний будут востребованы.

С методологической точки зрения, принципиально важным для решения задачи измерения семантических расстояний является знание о природе отношений (парадигматических или синтагматических), о типах единиц – терминов отношений (единицы языка или речи), а также выбор исследовательского инструментария.

Информация о качестве семантических связей может быть сосредоточена в лексикографических источниках, ориентированных на парадигматику (имплицитно – в дефиниционном и иллюстративном блоках толковых словарей, эксплицитно – в систематическом блоке идеографических словарей, тезаурусов, словарей синонимов и пр.), или в текстах, реализующих многообразные синтагматические отношения лексических единиц.

Количественное описание семантических связей, наблюдаемых в языке и в тексте, невозможно без обращения к методам теории вероятностей, математической статистики, теории множеств, теории информации, теории распознавания образов и предполагает разработку специализированных алгоритмов и программ.

Итак, с практической точки зрения, возможны различные подходы к измерению семантических расстояний: это парадигматический и синтагматический подходы, ориентированные на оценку тесноты семантических отношений соответствующих типов, требующие привлечения разных источников (словарных описаний или корпусов текстов) и использования различных исследовательских инструментов (представление лексикона или текста как векторного пространства, применение методики латентного семантического анализа и близких ей, задание разнообразных мер для измерения семантических расстояний и пр.).iv

На сегодняшний день можно говорить о существовании двух типов ресурсов, предусматривающих количественные оценки тесноты семантических связей: это электронные лексикографические модули, в которых реализуется парадигматический подход к измерению семантических расстояний, и модули систем автоматической обработки текстов, обеспечивающие извлечение семантической информации из корпусов, в которых реализуется синтагматический подход. Предлагаемое ниже обсуждение новых разработок в области измерения семантических расстояний (ресурсы WordNet::Similarity, COALS и InfoMap) позволяет отметить те исследовательские шаги, которые свидетельствуют о сближении данных подходов.

Наиболее известный лексикографический ресурс, оснащённый специализированным модулем для определения количественных оценок тесноты связей между значениями слов, – это компьютерный тезаурус WordNet. Модуль WordNet::Similarity,v расширяющий возможности пользователей при работе с лексической базой данных WordNet, был создан группой исследователей под руководством Т. Педерсена. Данный модуль предназначен для определения тесноты семантических связей между словами, включёнными в WordNet (а точнее, между лексикализованными понятиями, соответствующими синсетам, в которые входят исследуемые слова).vi

В течение ряда лет шла разработка методов вычисления семантических расстояний в иерархически организованных словарных базах данных. Экспериментальную проверку прошли около десятка различных мер.vii Прежде всего, это меры, с помощью которых можно определять расстояние между значениями лексем через длину пути между соответствующими им узлами в иерархии, через расстояние от узлов до общего родового понятия, с учетом глубины иерархии или без, с учетом измерения направления движения по иерархии или без и пр. (WN-Path Length, WN-Hirst&St-Onge, WN-Leacock&Chodorow, WN-Wu&Palmer, WN-Resnik, WN-Lin, WN-Jiang&Conrath). Некоторые из мер имеют ограничения на использование (например, они дают количественную оценку тесноты лишь гипонимических связей).

Наряду с подобными мерами есть и другие, предусматривающие более точные вычисления. Так, можно рассматривать толкование значения слов, входящих в синсет, как своеобразный контекст и определять тесноту семантических связей лексем не в связи со структурой иерархии, а в связи с тем, насколько совпадают их дефиниции (WN-Adapted Lesk).viii Ещё более серьёзный шаг – формирование корпуса толкований и проведение на его основы процедуры латентного семантического анализа с построением матрицы совместной встречаемости элементов толкований, задания контекстных векторов и их сравнения путем вычисления косинуса угла между ними (WN-Patwardhan).ix Как показывает практика, использование этих мер приводит к более убедительным результатам.

Данные, полученные с помощью модуля WordNet::Similarity, можно применять для диагностики значений слов в текстах, для формирования кластеров семантически близких слов (блок SenseRelate), при осуществлении выбора лексики в процедурах синтеза связного текста. Некоторые из упомянутых мер успешно использовались в экспериментах по определению близости текстов.x Тем самым, пользователи WordNet::Similarity вправе варьировать исследовательские приёмы и опираться не только на парадигматические, но и на синтагматические данные о значении единиц языка и текста.

Среди модулей обработки семантической информации, извлекаемой из корпуса, обращает на себя внимание ресурс, разработанный группой исследователей под руководством Д. Рода в рамках проекта COALS (The Correlated Occurrence Analogue to Lexical Semantics).xi Ресурс COALS – это альтернатива надстройкам к лексикографическим базам данных, поскольку позволяет производить операции не только с данными словаря – высокоструктурированного метаописания, которое опирается на реальные естественно-языковые тексты, но и с теми данными, которые напрямую извлекаются из корпусов текстов, отражающих языковую реальность. По мнению разработчиков проекта COALS, у ресурсов типа WordNet::Similarity есть свои преимущества (например, возможность дифференцировать различные значения одного и того же слова), однако они уступают корпусным ресурсам, отличающимся не только удобством в практическом использовании и гибкостью, но и известной беспристрастностью.

Многофункциональная методика, используемая в COALS, привлекает внимание когнитологов, психолингвистов и специалистов по лексической семантике, поскольку она даёт возможность работать с точными данными, на их основе реконструировать ментальный лексикон человека и готовить разнообразные семантические описания.

Алгоритм COALS, сходный с алгоритмами HAL (Hyperspaсe Analogue to Language) и LSA (Latent Semantic Analysis), предусматривает анализ лингвистической информации о синтагматике изучаемых лексем. При стандартном режиме работы с ресурсом COALS строится матрица совместной встречаемости для 100 тыс. наиболее частотных слов в корпусе. Испытания показали, что качество вычислений возрастает при отбрасывании низкочастотных синтагматических коррелятов (например, дейктических элементов и служебных слов, которые несут не лексико-семантическую, а конструктивно-синтаксическую нагрузку) и сокращении размерности матрицы.

При построении матрицы совместной встречаемости в COALS не учитывается порядок следования синтагматических коррелятов, то есть сочетания типа A…B и B…A считаются равноценными. Выделение синтагматических коррелятов производится в пределах небольшого контекстного окна размером [–4…4]. Если слово A есть ближайший сосед слова B, ему присваивается вес 4, если слово A располагается на второй позиции по отношению к слову B, ему присваивается вес 3, и пр.

Количественная оценка семантической близости лексем в COALS осуществляется по результатам работы с векторными представлениями множеств синтагматических соседей слов, которые формируются на основе матриц дистрибуции. Для сравнения векторов применяется особая мера корреляционной зависимости: вычисляется кумулятивный коэффициент корреляции для векторов по каждой из координат.

В проекте COALS выдвигаются строгие требования к лингвистической обработке корпуса. В экспериментах задействован корпус объёмом 1,2 млрд с/у, который был сформирован из англоязычных новостных текстов электронной службы UseNet. Предварительно была осуществлена очистка корпуса от неязыковых элементов (рисунков, тегов, нестандартных знаков и пр.); отбрасывались тексты, содержащие более 80% малоупотребительной лексики, тексты-дубликаты; производилась автоматическая проверка орфографии. При выполнении этих процедур используется специально созданный словарный блок.

Возможности COALS как инструмента исследования лексики обширны: с его помощью можно производить эксперименты по кластеризации существительных и глаголов, по выделению ассоциативных групп “существительное + глагол”, по выявлению ближайших семантических коррелятов. Результаты автоматической классификации лексики, полученные с использованием COALS, выглядят оптимистично.

Подчеркнём, что проект COALS ориентирован на извлечение синтагматической информации из корпуса текстов, но предусматривает и словарную поддержку исследовательских процедур. Эффективность работы ресурса COALS подтверждена в ходе тестов на определение качества измерения семантических расстояний. Оказалось, что по сравнению с идентичными ресурсами, COALS даёт оценки, более близкие к реакциям носителей языка, и поэтому может считаться достаточно надёжным.

Совмещение парадигматического и синтагматического подходов к измерению семантических расстояний реализовано в проекте InfoMap (Information Mapping Project) лаборатории компьютерной семантики Стэнфордского университета США.xii Перед авторами проекта InfoMap стояли следующие задачи: создание инструментов для работы с формализованными семантическими представлениями, подготовка программного обеспечения для осуществления процедур автоматического понимания текста, построения концептуальных иерархий на основе корпуса текстов, автоматической классификации лексики, лингвистическое обеспечение семантических модулей для систем синтеза и анализа естественно-языкового текста, систем информационного поиска, машинного перевода.

Ресурс включает в себя ряд компонентов, выполняющих различные функции.

С помощью модуля InfoMap Graph можно производить автоматизированное построение семантической сети, отражающей связи лексем в отдельном тексте или корпусе текстов. Данная процедура осуществляется на основе гипериерархии, включающей 100 тыс. существительных и 500 тыс. отношений. При формировании запроса необходимо указать лексему, связи которой хотелось бы представить в виде семантической сети, а также задать параметры иерархии (глубину и степень ветвления). В модуле InfoMap Graph также предусмотрено построение кластеров близких по значению слов заданного объёма и маркирование их элементов в семантической сети.

Модуль InfoMap Class-Labelling позволяет генерировать множество наиболее вероятных родовых терминов, соответствующих некоторой совокупности тестируемых слов.xiii Ближайший родовой термин, общий для группы лексем, определяется на основе данных корпуса и верифицируется с помощью компьютерного тезауруса WordNet.

Необычные функции закреплены за модулем WordSpace. Его задача – строить векторные представления, отражающие дистрибуцию лексем во множестве документов, и на их основе вычислять количественные оценки тесноты семантических связей слов в корпусе.xiv Основной метод, применяемый авторами проекта при извлечении синтагматической информации из корпуса – это латентный семантический анализ. При измерении семантических расстояний принимается во внимание дистрибуция исследуемых лексем, а также корреляция частот употребления исследуемых лексем и маркеров предметной области в определённых документах или в корпусе. Работая с модулем WordSpace, можно получить информацию о текстах, в которых встречается данное слово, и о его семантических связях, отражаемую в виде кластеров соотнесённых по смыслу слов. Модуль WordSpectrum создаёт графическое изображение кластеров.xv Выдача этой информации производится одновременно с подсчётом тесноты семантических связей между элементами кластеров.

Сведения, полученные с помощью WordSpace, можно использовать для построения тезаурусов, баз знаний, формальных онтологий на основе корпусных данных. Этот модуль адаптирован для работы с текстами предметных областей и обслуживает системы поиска и обработки информации по медицине.xvi

Ресурс InfoMap в силу своих конструктивных особенностей допускает сравнение семантических связей заданной лексемы в разных корпусах английского языка (BNC, корпуса новостных текстов New York Times и Wall Street Journal, корпус медицинских текстов и др.). Предусмотрена и работа с параллельными корпусами (модуль Bilingual).xvii Многоязычный модуль действует в нескольких режимах – для английского, немецкого и японского языков. По замыслу авторов ресурса, это позволяет более точно определять межъязыковые соответствия, улучшать качество машинного перевода и корректировать двуязычных словарей.

Обзор ресурсов WordNet::Similarity, COALS и InfoMap, рассчитанных на решение задач количественной оценки семантической информации в словаре и в тексте, не претендует на полноту: за его рамками остались наблюдения о многих идейно близких проектах, которые составят материал для следующих публикаций.

Подведём итог. Если говорить о будущем ресурсов, ориентированных на квантитативные исследования в области семантики в целом и на решение задачи измерения семантических расстояний в частности, то оно за многофункциональными лингвистическими комплексами, дающими возможность параллельно работать и со словарной информацией, и с корпусными данными. Хочется выразить надежду, что подобные комплексы будут созданы для русского языка.

Примечания


i Данная работа выполнена при финансовой поддержке гранта Президента РФ для поддержки молодых российских ученых № МК-9701.2006.6.

ii Из отечественных публикаций, отражающих различные точки зрения по данному вопросу, необходимо упомянуть следующие: Апресян Ю.Д. В какой мере можно формализовать понятие синонимии? // Облик слова. М., 1997; Дорофеев Г.В., Мартемьянов Ю.С. К формализации элементарных значений // Мартемьянов Ю.С. Логика ситуаций. Строение текста. Терминологичность слов. М., 2004; Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы. М., 2006; Перцов Н.В. О некоторых проблемах современной семантики и компьютерной лингвистики // Московский лингвистический альманах. Вып. 1. Спорное в лингвистике. М., 1996; Пиотровский Р.Г. Текст, машина, человек. Л., 1975; Фитиалов С.Я. Синонимия и осмысленность текстов // Синонимия в языке и речи. Новосибирск, 1970; и т.д.

iii См., например, монографии и статьи: Апресян Ю.Д. Экспериментальное исследование семантики русского глагола. М., 1969; Макагонов П., Александров М., Гельбух А.  Формулы проверки подобия слов с обучением на примерах: построение и применение // Труды международной конференции «Корпусная лингвистика – 2004». СПб., 2004; Новиков А.И., Ярославцева Е.И. Семантические расстояния в языке и в тексте. М., 1990; Скороходько Э.Ф. Оценка и сопоставление толковых словарей // Научно-техническая информация. Сер. 2. Информационные процессы и системы. 2000. № 5; Buscaldi D., Rosso P., Alexandrov M., Ciscar A.J. Sense Cluster Based Categorization and Clustering of Abstracts // A. Gelbukh (ed.). Computational Linguistics and Intelligent Text Processing: Seventh International Conference CICLing 2006: LNAI 3878. Springer-Verlag, 2006; Gamallo P., Gasperin C., Augustini A., Lopes G. P. Syntactic-Based Methods for Measuring Word Similarity // V. Matoušek, P. Mautner, R. Mouček, K.Taušer (eds.). Text, Speech and Dialogue: Fourth International Conference TSD 2001: LNAI 2166; Springer-Verlag, 2001; Pantel P., Lin D. Document Clustering with Committees // SIGIR–02. Tampere, 2002; Smrž P., Rychlý P. Finding Semantically Related Words in Large Corpora // V. Matoušek, P. Mautner, R. Mouček, K.Taušer (eds.). Text, Speech and Dialogue: Fourth International Conference TSD 2001: LNAI 2166; Springer-Verlag, 2001; Young A.M. The Geometry of Meaning. San Francisco, 1976; и т.д. Автором статьи собрана обширная библиография работ об измерении семантических расстояний, которая постоянно пополняется.

iv Обсуждение парадигматического и синтагматического подходов к измерению семантических расстояний содержится, например, в статье: Митрофанова О.А. Семантические расстояния: проблемы и перспективы // XXXIV Международная филологическая конференция: Вып. 21. Прикладная и математическая лингвистика. СПб., 2005. О синтагматическом подходе см. статью: Митрофанова О.А. Измерение семантической информации в тексте на основе анализа латентных связей // Труды Международной конференции MegaLing-2005: Прикладная лингвистика в поиске новых путей. СПб., 2005. Вопросы количественной оценки тесноты семантических связей в словаре и в тексте затрагивались в докладах автора на семинаре по корпусной лингвистике (ИЛИ РАН).
v Сайт проекта WordNet::Similarity: http://marimba.d.umn.edu/cgi-bin/similarity/similarity.cgi; ресурс доступен в интерактивном режиме. Описание проекта WordNet::Similarity: http://wn-similarity.sourceforge.net/; публикации об исследованиях, проведённых в рамках проекта: .edu/~tpederse/wnsim-bib/.

vi Электронный тезаурус Роже имеет аналогичную надстройку: Jarmasz M., Szpakowicz S. Roget’s Thesaurus and Semantic Similarity // Proceedings of Conference on Recent Advances in Natural Language Processing (RANLP 2003). Borovets, Bulgaria, 2003. URL: uottawa.ca/~mjarmasz/pubs/jarmasz_roget_sim.pdf

vii Patwardhan S., Banerjee S., Pedersen T. Using Measures of Semantic Relatedness for Word Sense Disambiguation // Proceedings of the Fourth International Conference on Intelligent Text Processing and Computational Linguistics. Mexico, 2003. URL: .edu/~tpederse/Pubs/cicling2003-3.pdf

viii Banerjee S., Pedersen T. Extended Gloss Overlaps as a Measure of Semantic Relatedness // Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence. Mexico, 2003. URL: .edu/~tpederse/Pubs/ijcai03.pdf

ix Patwardhan S., Pedersen T. Using WordNet Based Context Vectors to Estimate the Semantic Relatedness of Concepts // Proceedings of the EACL 2006 Workshop Making Sense of Sense – Bringing Computational Linguistics and Psycholinguistics Together. Trento, Italy, 2006. URL: .edu/~tpederse/Pubs/eacl2006-vector.pdf

x Corley C., Mihalcea R. Measuring the Semantic Similarity of Texts // Proceedings of the ACL Workshop on Empirical Modeling of Semantic Equivalence and Entailment Ann Arbor, Michigan, 2005. URL: b.org/anthology/W/W05/W05-1203

xi Сайт проекта COALS: edu/~dr/COALS/. Ресурс доступен в интерактивном режиме. Описание проекта отражено в статье: Rohde D.L., Gonnerman L.M., Plaut D.C. An Improved Method for Deriving Word Meaning from Lexical Co-Occurrence // URL: edu/~dr/COALS/Coals.pdf

xii Сайт проекта InfoMap: tanford.edu/. Доступны демо-версии ресурса. Описание проекта отражено в библиографии на сайте и в учебнике: Widdows D. Geometry and Meaning // URL: tanford.edu/book/

xiii Widdows D. Unsupervised Methods for Developing Taxonomies by Combining Syntactic and Statistical Information // Proceedings of HLT/NAACL 2003. Edmonton, Canada, 2003. URL: tanford.edu/papers/enrich-taxonomies.pdf

xiv Widdows D. A Mathematical Model for Context and Word-Meaning // Fourth International and Interdisciplinary Conference on Modeling and Using Context. Stanford, California, 2003. URL: tanford.edu/papers/mathematical-context.pdf

xv Widdows D., Cederberg S., Dorow B. Visualisation Techniques for Analysing Meaning // Fifth International Conference on Text, Speech and Dialogue. Brno, Czech Republic, 2002. URL: tanford.edu/papers/visualising-meaning.pdf

xvi Widdows D., Peters S., Buitelaar P., Steffen D., Cederberg S., Dorow B. A Multilingual Medical Information System Using Unsupervised Word Sense Disambiguation // URL: tanford.edu/papers/muchmore-clir-wsd.pdf

xvii Widdows D., Dorow B., Chan Ch.-K. Using Parallel Corpora to Enrich Multilingual Lexical Resources // Third International Conference on Language Resources and Evaluation. Las Palmas, 2002. URL: tanford.edu/papers/bilingual-terms.pdf