Постановка проблемы

Вид материалаЗадача

Содержание


Поиск информации
Распознавание речи
Координатная теория семантического пространства (пространства понятий)
Пространство понятий (семантическое пространство)
Основные свойства
Иерархическая структура
Инкрементное увеличение информации
Отражение в семантическое пространство
Разрешенные и запрещенные области и действия
Применение КТПП для решения задач требующих распознавания смысла
Распознавание речи
Подобный материал:

Применение теории многомерного семантического пространства (пространства понятий) в задачах поиска информации, перевода текстов, распознавания речи, путем использования отражения в многомерное семантическое пространство (пространства понятий).


Тактаев С.А.

mail@taktaev.com

Постановка проблемы


В настоящее время при решении задач поиска информации, перевода текстов, распознавания речи, возникает ряд проблем, связанных с распознаванием смысла, которые выражается, в частности, в невозможности адекватного распознавания полисемов, синонимов и омонимов в рамках используемых технологий.

Области поиска информации, перевода текстов, распознавания речи являются динамичными и перспективными областями.

Показательно, что в Microsoft уже несколько раз пыталась создать собственную всемирную поисковую систему, но не очень неудачно, что говорит о том, что эффективных алгоритмов поиска у них (пока) нет. Но внимание этому сектору в Microsoft уделяют очень большое. Вот слова Билла Гейтса: "Сегодня информацию очень трудно найти. Для ее хранения мы применяем тысячи разных способов. У нас есть разные пространства имен. Вы только подумайте, как много поисковых команд вы должны знать. Нам необходимо двигаться вперед по многим позициям. И я ставлю на первую строчку в этом перечне „легкость получения информации“ — именно на этом нужно сосредоточить научные разработки».

В силу молодости данного рынка, проводились только единичные исследования его объемов (Knowledge Management Software Global Industry Analysts проведенное Marketresearch в 2001 году), на рынке преобладают прогнозы. Эксперты сходятся во мнении, что это одна из самых динамичных отраслей ИТ, и в 2003 (!) году общий объем данного рынка в США составит 10-12 млрд. долл. По оценкам, доля продаж ПО в общем объеме рынка составит порядка 10%, или 1-1.2 млрд. долларов. Более того, рынок этих систем может стать одним из локомотивов роста продаж на IT рынке, считает Susan Feldman, IDC's research vice president, Content Technologies. Она же характеризует ближайшие 5 лет для этого рынка как годы "спурта", мощного рывка.

По данным Gartner, объем продаж телефонных систем распознавания голоса в 2003 г. составит $130 млн., при том что в 2002 г. этот показатель составлял $128 млн., а в 2000 г. - $140 млн. По утверждению аналитиков Gartner, это свидетельствует о созревании рынка. В частности, его рост стимулирует приход таких компаний, как Microsoft, IBM и Intel.

По данным аналитического исследования Speech Recognition Telephony Software: Worldwide 2002-2007, лидирующую позицию на мировом рынке продуктов по распознаванию голоса занимает Северная Америка – на долю этого региона приходится 61% мирового дохода в 2003 г. Доля Европы, Ближнего Востока и Африки составляет 26 %.

Самый обширный сегмент на рынке этих устройств в данный момент составляют call-центры и приложения для бизнес-порталов. Ожидается, что будет возрастать объем продаж других коммуникационных устройств.

По оценкам фирмы «ПРоМТ», Европейский рынок систем автоматизированного перевода оценивается сейчас в 8 млрд. долл. при темпах роста от 10 до 15% в год. В силу культурной специфики, наличия большого количества языков, именно в Европе сосредоточен основной рынок систем перевода. Второй по значимости рынок расположен в юго-восточной Азии, его размер составляет примерно 80% от европейского. Общий объем рынка, соответственно, составляет порядка 15 млрд. долл. Поэтому системы машинного перевода необходимы: ведь переводчиков просто не хватает. Бюджет любой крупной компании на локализацию продуктов - десятки миллионов долларов. Машинный перевод тесно связан с управлением Интернет-контентом.

Поиск информации


В настоящее время в поисковых системах используется релевантная модель оценки соответствия исследуемого документа поисковому запросу. Данная модель практически не справляется с решением задач распознавания и поиска омонимов (грамматических, и особенно- лексических), синонимов и многозначных слов. Это обусловлено тем, что в основу релевантной модели поиска положен лингвистический подход и ряд оценочных синтетических критериев (таких как положение слов на странице), а перечисленные выше языковые артефакты не могут быть распознаны без понимания смысла поискового запроса.

Данное ограничение релевантной модели уже сейчас существенно снижает эффективность поискового механизма и закрывает возможности для дальнейшего повышения качества поиска. Соответственно, для преодоления этого нужно переходить к прямой оценке смыслового соответствия (пертинентности) поискового запроса и исследуемого документа.

Перевод


В настоящее время в системах автоматизированного перевода используется сугубо лингвистическая модель выбора перевода исходного текста. Данная модель практически не справляется с решением задач перевода омонимов (грамматических, и особенно- лексических), специальных терминов (классический пример “hard disk driver” - «тяжелый дисковый водитель») и многозначных слов.

То есть, при переводе слова - омонима «ключ» на английский язык надо точно определить смысловой контекст и выбрать правильный перевод (key, wrench, spring), а при переводе полисема нужно опять же правильно определить смысловой оттенок и выбрать правильный перевод (какой ключ – дверной или гаечный?).

Это обусловлено тем, что в основе лингвистической модели лежит (что естественно) анализ слов, а одни и те же понятия могут обозначаться различными словами (синонимы), а разные понятия одинаковыми словами (омонимы, полисемы), то есть современные алгоритмы осуществляют перевод без учета смыслового (семантического) контекста.

Данное ограничение лингвистической модели уже сейчас существенно снижает эффективность переводных систем и закрывает возможности для дальнейшего повышения качества перевода. Соответственно, для преодоления этого нужно переходить к прямой оценке смыслового соответствия переводимого текста и результата перевода.

Распознавание речи


При распознавании устной речи возникают проблемы, близкие к проблемам перевода.

То есть, существуют слова, близкие по звучанию, по набору фонем. Например, «шесть» и «шерсть» в русском языке. Человек достаточно легко справляется с различением таких слов за счет понимания контекста, в котором они произнесены, тогда как существующие алгоритмы различить такие наборы звуков практически не могут. Ведь для распознавания речи нужно не только слышать ее, но еще и понимать о чем идет речь. Человек, используя смысловой контекст, восстанавливает («домысливает») нерасслышанные фонемы, в то время как существующие алгоритмы этот контекст просто не могут учитывать.

Наличие эти проблем обусловлено опять же механистическим подходом к распознаванию фонем и символов – делается попытка распознать их как дискретные элементы, не учитывая семантических, смысловых, взаимосвязей.

Для решения этих проблем предлагается использовать новый теоретический подход – координатное представление семантического пространства.

Координатная теория семантического пространства (пространства понятий)


Координатная Теория пространства понятий (семантического пространства, далее - КТПП) – раздел теории информации, целью которого является проведение математического анализа смысла понятий. Данный теоретический подход является оригинальным и разрабатывается автором с 1995 года. В настоящее время материалы теории оформляются для защиты в кандидатской диссертации.

Новаторским подходом в данной теории является интеграция и развитие существующий подходов, таких как: «семиосферы» Ю.Лотмана, формального языка БД Cyc (ссылка скрыта), и подхода Web Ontology Language (OWL), разрабатываемый под руководством Тима Бернса Ли (ссылка скрыта). Концепция координатной теории представляется более продуктивной, поскольку открывает возможности расчета семантических расстояний между понятиями, что необходимо в решении задач распознавания смысла в построении систем искусственного интеллекта. Более того, по мнению автора, именно отсутствие координатного подхода и не позволило решить до сих пор качественно задачи распознавания, связанные с учетом смыслового контекста, что является одним из основных препятствий на пути создания систем искусственного интеллекта.

В данной теории понятие - это класс объектов окружающего мира - предметов, их состояний, свойств и происходящих процессов. Предлагается провести систематизацию понятий в абстрактном многомерном пространстве - Пространстве понятий, (семантическом пространстве, далее – ПП), где каждое понятие будет соответствовать многомерной области в этом пространстве.

Определения


Понятие – область абстрактного многомерного пространства понятий (подпространство), соответствующая классу объектов в реальном мире, понятие может быть описано как набор атомарных признаков, каждый их которых представляет собой отрезок на оси координат измерения семантического пространства.

Класс (домен) – группа объектов, имеющая одинаковые признаки, значимые для причисления объекта к этому классу (для распознавания объектов как представителей класса).

Пространство понятий (семантическое пространство) – это абстрактное пространство, которое состоит из одномерных пространств, каждое из которых разбито на отрезки, содержащие в себе определенный атомарный признак (свойство, характеристику) понятия - класса. Семантическое пространство, по сути, является отражением представлений человечества о той или иной области окружающего мира.

Процесс в данной работе рассматривается как вектор абстрактной «семантической» силы, которая изменяет признаки (т.е. координаты) у предметов, т.е. перемещает объект в пространстве понятий. Аналогично понятиям и признакам, также существует и иерархическая структура классов для процессов. Процесс, который меняет только один атомарный признак, считается атомарным (базовым).

Таким образом, подойдя к описанию пространства понятий «от процессов», можно сказать, состояние предмета в наборе процессов и определяет текущее положение этого предмета- объекта в пространстве понятий и его текущую принадлежность к определенным классам.

Поскольку атомарный процесс активирует или дезактивирует один признак, то можно отождествить этот процесс с этим признаком, соотнести его с некоей функцией, то есть перейти от векторного представления к функциональному. По суперпозиции, можно разложить каждый процесс на набор атомарных процессов, а значит и функцию предмета можно представить как набор векторов атомарных процессов. Следовательно, чтобы объект обрел нужные функции, то есть обрел принадлежность к требуемым классам, то есть появился в нужной области пространства понятий, надо осуществить ряд атомарных процессов над его компонентами, суперпозиция (векторная сумма) которых и даст желаемую функцию.

Основные свойства


Многомерность семантического пространства определяется наличием у понятий множества признаков, которые и задают их положение в пространстве.

Неоднородность семантического пространства подразумевает различную насыщенность понятиями различных областей пространства, что определяется неравномерным исследованием тех или иных областей деятельности. Неоднородностью пространства объясняется наличие разрешенных и запрещенных областей.

Анизотропность семантического пространства подразумевает различную информационную протяженность его измерений и является следствием его неоднородности и подразумевает что количество значений признаков в измерениях различно.

Размерность Понятие можно представить в виде двух векторов, первый из которых является набором координат гиперплоскости, отражающей минимальные значения координат границ области этого понятия («нижней» гиперплоскости), а второй, соответственно, координатами гиперплоскости, ограничивающей максимальные значения этих же координат («верхней» гиперплоскости).

Теоретически размерность ПП стремится к бесконечности, на практике, можно считать, для каждого конкретного понятия значительная часть координат стремится к нулю. То есть, проекция конкретной многомерной области какое то измерение ничтожно мала (что означает, что данное понятие, в данном контексте, не имеет значимого смысла) . Следовательно, для расчетов и рассуждений данное измерение для данного понятия можно считать вырожденным, пустым, свернутым и координатные данные, сопоставленные с этим измерением в расчетах можно принять нулевыми. Если это измерение вырождено для целого домена, то, очевидно, эти координаты можно опустить в расчетах, указав в каком домене ведутся вычисления.

Таким образом, свернутая, (расчетная) форма представления пространства понятий, будет выглядеть так:

N = {min, max}, или

N= {{x1,x2,…,xk}, {x1’,x2’,…,xk’}, или

N{{x1,x1’},{x2,x2’},…, |{xk,xk’}|}, где N – понятие, k-мерная область в n- мерном пространстве, где n – натуральное число, и k –натуральное число k
В дальнейшем, для рассуждений и расчетов, будет использоваться свернутая форма представления пространства понятий. Произведенная оценка n составляет порядка n~50 000.

Другие свойства семантического пространства:

Иерархическая структура Понятия также структурированы иерархически – каждое понятие уровня иерархии Z входит в один или несколько классов уровня Z-1, Z>0. Понятие уровня иерархии Z также включает в себя один или несколько классов уровня Z+1.

Наследование. Понятия уровня иерархии Z является подобластью (поддоменом) класса уровня Z-1, то есть наследует признаки класса уровня Z-1.
  • Теорема о размерности корпусов документов Размерность любого корпуса документов не превышает размерности семантического пространства и при увеличении числа документов до бесконечности стремится к размерности семантического пространства.
  • Следствие Конкретная область реального мира описывается областью семантического пространства с конечным числом измерений и, следовательно, может быть описана конечным объемом информации.

Инкрементное увеличение информации Понятия уровня иерархии Z имеет одну или несколько дополнительных координат (дополнительных признаков) по отношению к классу уровня Z-1. Именно эти признаки и позволяют отличить и сгруппировать понятия.
    • теорема об инкрементности информации. Каждое понятие может быть определено как набор других понятий, плюс некая доля дополнительной информации, выраженная в действии. Понятие i+1 может быть представлено как i+1=i + , где - дополнительная информация, создаваемая неким процессом создающим новый, дополнительный признак, причем с ростом i , ||  0.
    • Следствие 1 – Чем больше понятий определено в заданной области пространства понятий, тем меньше требуется дополнительной ( не описанной в предыдущих понятиях) информации для определения нового (еще не определенного ) понятия в этой области.
    • Следствие 2. Для каждого нового понятия требуется ввод дополнительной информации, и, если эта информация до их пор не была зафиксирована в каком то виде, то для ее ввода необходимо вмешательство человека.

Отражение в семантическое пространство


Основная идея отражения состоит в том, чтобы каждому понятию–классу окружающего мира сопоставить абсолютные координаты в пространстве понятий, сделать его положение исчислимым относительно положения других понятий. В общем случае, слова естественного языка не соответствуют однозначно понятиям-классам.

Пусть задана некая область пространства N{{x1,x1’},{x2,x2’},…, {xn,xn’}} соответствующая понятию E(entity) . Тогда отражением E  N, будет

E  N = {{x1},{x2},…, {xn,}} + O{0,0,0….0), где O – точка отсчета, а - вектор создания для Е. То есть, для каждой области N можно задать свой вектор создания, по сути – вектор от точки отсчета O до области N, соответствующей E.

Очевидно, вектор создания соответствует действиям (процессам), выполняемым в реальном мире, чтобы получить объект, соответствующий конкретному понятию. Вектор создания является суммой векторов действий-процессов, и отражает количество и структуру информации, переданной объекту, принадлежащему данному классу при его создании.

Процесс отражения текста, закодированного в любых кодах – языковых, музыкальных, визуальных в семантическое пространство есть процесс восстановления по входному коду исходных семантических отношений в виде понятий и процессов и может быть проведен двумя способами:

1. путем анализа уже накопленных знаний о структуре естественных языков (семантика, морфология, грамматика), а также – знаниями о связях слов и понятий естественного языка (словари, тезаурусы), однако, данный подход представляется сложным в реализации, так как семантические корни многих слов естественных языков не соответствуют их смыслу и тем понятиям, которые они обозначают.

2. путем поиска соответствий между словами языков и понятиями. Этот путь предполагает наличие исходной карты семантического пространства, в которой будут увязаны термины языка (языков) и понятия. При наличии такой карты, возможные варианты понятий могут быть просто выбраны «по карте». Однако, в силу неоднозначности исходных кодов, при процессе отражения результат нуждается в верификации путем проверки попадания результата в запрещенные или разрешенные области.

Разрешенные и запрещенные области и действия


Область семантического пространства, в которой определено понятие считается разрешенной или заполненной областью. Если провести над понятием операцию вида:

i+1=i + j где i+1, i - произвольные области понятий, а j - произвольный вектор,

истинна, то есть после выполнения некоего действия над понятием, мы получаем определенное понятие, то данное действия с понятием является разрешенным, так как в реальном мире оно соответствует некоей реальной операции над реальным объектом, приводящей к реальному результату.

если Ложна, то данное сочетание является еще неописанным в пространстве понятий, «белым пятном» . Ложность выражения не означает неосуществимости данной операции, но дает ресурс для поиска новых решений, открытий и изобретений. Возможно, раньше никто не задумывался о возможности такой операции и такого результата. Такая область считается «запрещенной» или «пустой» областью.

Проверка на разрешенные и запрещенные области позволяет точно выяснить, является ли полученное понятие осмысленным (описанным в карте семантического пространства) или нет.

Применение КТПП для решения задач требующих распознавания смысла

Поиск информации


С точки зрения теории семантического пространства (пространства понятий), оценка информационного соответствия между одним документом (поисковым запросом) и другим (исследуемым документом) есть проекция пространства первого на пространство второго. И чем больше эта проекция, тем больше смысл исследуемого документа соответствует смыслу поискового запроса.

Перевод


С другой стороны, имея отражения различных языков в пространство понятий, можно построить прямое сопоставление между понятиями, описанными на одном естественном языке, областью, сопоставленной данному слову в пространстве понятий и слову, обозначающему такое же понятие на втором (третьем, пятом) языке.

Преимуществом такого подхода является то, что сам координатный механизм КТПП имеет встроенную защиту от ошибок, связанных с близкими по значению словами, омонимами и полисемами.

Поскольку отражение в пространство понятий происходит со всем контекстом, то сразу выясняется в какой (тематической) области пространства находятся понятия исходного текста. Расчет же точного положения производится с использованием механизма алгебры понятий, что позволяет проверить попадание понятия в разрешенную или запрещенную область, что позволяет решить проблему полисемии и омонимии еще до перевода.

А, зная, в какой области семантического пространства находится понятие, обозначаемое переводимым словом, можно сразу выбрать правильный перевод, то есть построить обратное соответствие понятий и слов целевого языка.

Это позволит получить осмысленный перевод с одного языка на другой.

Распознавание речи


Здесь, как и в задаче перевода, проблема распознавания решается отражением семантическое пространство для тех гипотез значений, которые наиболее вероятны для звучаний и написаний распознаваемых слов. Изначально рассматриваются все варианты слов, которые могут быть получены из распознанной информации. Так как отражение проводится вместе с предыдущим контекстом, то сразу можно выбрать то понятие, которое наиболее семантически близко к данному контексту и по нему ( если нужно) восстановить то слово, которое требуется распознать.

Заключение


Как видно из изложенного доклада, теоретический подход координатного представления семантического пространства является очень продуктивным и позволяет решить те проблемы, которые без него в принципе неразрешимы. Развитие данной технологии позволит существенно улучшить показатели качества работы систем поиска информации, перевода текстов, распознавания речи, то есть позволит получить достаточно быстрый (2-3 года) экономический эффект от инвестиций в данную область.

Наша исследовательская группа открыта для обсуждения всех мнений и предложений. Полная версия теории изложена на сайте ссылка скрыта .