Книги по разным темам Pages:     | 1 | 2 | Известия Челябинского научного центра, вып. 2 (15), 2002 ИНФОРМАТИКА И ИНФОРМАЦИОННЫЕ СИСТЕМЫ УДК 681.3.068 + 658.512Ц52:681.3.068 + 681.3.068:655.5 МЕТОДИКА ИЗВЛЕЧЕНИЯ СТРУКТУРНЫХ ЗНАНИЙ ИЗ ЕСТЕСТВЕННЫХ ТЕКСТОВ А.В. Вохминцев, А.В. Мельников eЦmail: vav@comp.susu.ac.ru ЮжноЦУральский государственный университет, г. Челябинск, Россия Статья поступила 2 июня 2002 г.

Современные достижения в области информационных технологий позволили за короткий промежуток времени скопить в хранилищах данных различных организаций большие объемы информации, которая содержит скрытые пласты информации в виде знаний, поэтому задача аналитической обработки больших объемов информации становится весьма актуальной. Наибольшие возможности для аналитиков предоставляет технология Data Mining, которая позволяет получать ранее неизвестные закономерности, носящие не универсальный характер, в больших объемах информации. Источниками исходной информации для аналитической обработки являются: средства массовой информации, Internet, хранилища данных различных организаций и учреждений. Значительная часть информации в этих источниках представлена в виде естественных текстов, процесс аналитической обработки которых требует создания принципиально новых моделей, методик и систем интеллектуального анализа информации. Задача аналитической обработки естественных текстов является достаточно сложной и в общем случае связана с построением систем с искусственным интеллектом. Однако информационноЦаналитические службы не нуждаются в извлечении всех закономерностей из естественных текстов, поэтому нет необходимости в построении модели естественного текста, реализующей глубинный семантический анализ текста [6]. Одной из актуальных задач, решаемых аналитиками, является определение отношений между объектами, которыми являются физические и юридические лица. Наиболее адекватно отношения между объектами представляются семантическими сетями [4]. Традиционная интерпретация семантической сети позволяет получать только представление о структуре отношений между объектами, которой недостаточно для проведения полноценного аналитического исследования. Поэтому в работе предлагается расширение семантической сети для представления информации о классификации отношений между объектами и о принадлежности объектов к классам предметной области. В основе модели знаний находится нечеткая семантическая гиперсеть [1], вершины которой соответствуют физическим и юридическим лицам, а ребра соответствуют отношениям между ними.

Отношения между вершинами семантической гиперсети носят нечеткий характер, который определяется лингвистической переменной A Ч сила интегрального отношения. Определим множество ее значений (термЦмножества): T = {очень значимое, значимое, значимое больше среднего, средняя значимость, значимое ниже среднего, незначимое, абсолютно незначимое}. Аналогичным образом определим множество лингвистических переменных j B = {B1, B2,, Bp }, B, j = 1, p Ч сила дифференциального отношения для каждого диффе ренциального отношения R (H ) с множеством значений T [3, 5].

j Перед тем как приступить к анализу информации в базе знаний, необходимо предварительно исключить большую часть несущественной информации из базы знаний. Для этого используются следующие методы извлечения ассоциаций:

Методика извлечения структурных знаний из естественных текстов Метод глубина транзитивных отношений определяет множество вершин НСГС, достижимых из вершины (объект анализа) при помощи нечетких цепей С ( xi, xq +1) с максимально х i допустимой длиной q.

Метод принадлежность объекта к классу определяет принадлежность классов объектов xi в вершинах НСГС aклассы объекта к классам модели знаний с = {c1, c2,, cM}, ci2, i2 =1, M для каждого уровня глубины транзитивных отношений, где M Ч количество классов в модели знаний.

Если класс не определен для некоторого уровня 0 < l q, то для последующего анализа отбираются все вершины НСГС хil l Цуровня. Иначе необходимо проверить условие:

xil l l l l аклассы объекта c, где cl = {c1, c2,, cs}, cil, = 1,s, cl c = {c1, c2,, cM } Ч мноi жество классов l Цуровня, определяемое аналитиком. Если объект в вершине НСГС хil принадлежит хотя бы одному из классов во множестве, то вершина НСГС отбирается для дальнейшего анализа.

Метод сила отношения устанавливает принадлежность силы отношения ребра НСГС к терму лингвистической переменной соответствующей данному отношению. Аналитик определяет значение лингвистической переменной соответствующей данному отношению. Если значение лингвистической переменной не определено для отношения, то все ребра НСГС, для ко торых выполняется условие e = {< R(H)- (xi, x ) > i j }. сключаются из дальнейшего j анализа.

Метод тип отношения определяет принадлежность типа отношения ребра НСГС одному из ek типовых отношений в модели знаний. Если aтип. отн = (интегральное отношение), то такие ek ребра отбираются для дальнейшего анализа. Иначе aтип. отн (дифференциальное отноше ek / / / ние) необходимо проверить условие aтип. отн {R1,R2,..., Rz } где = {R1, R2,, Rz} R/ / / / R/, j = 1, z Ч подмножество типовых отношений, выбранных аналитиком из множества типоj / вых отношений в модели знаний R = {R1, R2,..., Rp}, R/ R. Если множество R =, то для последующего анализа отбираются все ребра НСГС. Иначе отбираются только те ребра НСГС, для которых справедливо условие.

Методы извлечения ассоциаций управляются соответствующими параметрами извлечения ассоциаций, тогда запрос к нечеткой семантической гиперсети можно представить в виде кортежа:

, 2 x) l (,..., q x), A, B1, B2,..., Bp, R/, X, I = x, q, 1 x) 2( ( где Ч параметр объект анализа;

x q Ч параметр длина нечеткой цепи;

l l l q(x) =< c1, c2,..., cs, x > Ч кортеж параметров, где cil Ч параметр класс l Цуровня, l * x x Ч параметр конкретный объект;

A = Aq,, Ч кортеж параметров, где Aq Ч параметр значение лингвистической переменной A, Ч параметр степень принадлежности, = {=, >, <,, } Ч параметр стратегии отбора по методу сила отношения;

p p Bp = Bq,, Ч кортеж параметров, где Ч параметр значение лингвистической Bq p переменной Bq, Ч параметр степень принадлежности, = {=, >, <,, } Ч параметр стратегии отбора по методу сила отношения;

12 А.В. Вохминцев, А.В. Мельников / / / / R/ = {R1, R2,..., Rz } R Ч параметр типовое отношение; X = {x1, x2,..., xy }, x, j =1, y Ч j j параметр множество объектов, подлежащих исключению из анализа [1].

Естественный текст представляет собой трудно формализуемую информацию с преобладанием качественных отношений между именами собственными, которые носят нечеткий нелинейный характер. На основе целевой модели знаний можно сделать вывод, при анализе естественного текста интерес представляют только отношения между именами собственными. Поэтому модель метатекста не требует проведения полноценного лингвистического анализа.

Отношения между именами собственными определяются лингвистической переменной С Ч синтаксическая конструкция теории нечетких множеств [3]. Определим множество ее значений: T = {словосочетание, простое предложение, причастный оборот, деепричастный оборот, сложноподчиненное предложение, сложносочиненное предложение, бессоюзное предложение, предложение без главных членов, транзитивное отношение}. В качестве базового множества возьмем последовательность целых чисел от 0 до 100 с шагом 1:

tV -A = {0, 1, 2, 3,...,100}. Определение принадлежности синтаксической конструкции между именами собственными к термЦмножеству лингвистической переменной происходит на осС нове морфологического анализа, в результате которого каждой морфе Ч слову или комбинации слова с некоторым знаком пунктуации Ч в нормализованном естественном тексте присваивается весовой эквивалент. После этого для каждого отношения между именами собственными определяется функция лингвистики:

f RV -A =100 - wi, ( ) i =где Ч количество морф в отношении RV - A ; Ч весовой эквивалент морфы. По значеw i нию функции лингвистики определяется принадлежность отношения между именами собственными RV - A Сq к термЦмножеству, q = 1, 9 лингвистической переменной. На основании модели метатекста определяется структура лингвистического процессора, который преобразует отношения между именами собственными RV - A в отношения между объектами R на основе лингвистической переменной С Ч синтаксическая конструкция.

Классификация объектов, соответствующих вершинам НСГС, осуществляется на основе иерархии классов предметной области. Иерархия классов представляет дерево с произвольным количеством ветвлений, при этом множества свойств классов потомков являются вложенными во множества свойств классов родителей.

Назовем кортеж = aназвание, aсоб, авлож классом объекта, если выполняются условия:

p s авлож \ aсоб =, ai =, =, ai 1{b } = (i, j ), bj j i =1 j =где aназвание Ч название класса;

aсоб = {a1, a2,..., ap }, ai, i = 1, p Ч собственные свойства предметной области класса;

aвлож = {b1, b2,..., bs }, b, j = 1, s Ч вложенные множества свойств классов.

j Иерархия классов составляется аналитикамиЦэкспертами на основе анализа предметной области их деятельности. При этом корневой класс будет содержать все вложенные множества в иерархии классов, а терминальные классы не будут содержать ни одного вложенного множества. На основе иерархии классов осуществляется классификация объектов по методу С4.5.

Критерий разбиения определяется следующим образом:

тест тест I тест = I ( ) (O )- Iтест (O ), тест где I(O ) Ч энтропия множества Oтест ;

Методика извлечения структурных знаний из естественных текстов Iтест (Oтест ) Ч энтропия множества Oтест после его разбиения по проверке.

Критерий определяется для всех свойств дерева решений, а затем выбирается свойство с максимальным значением I(тест).

Для перехода с уровня метатекста на уровень базы знаний необходимо определить функцию семантики, которая должна учитывать: классы объектов в отношении, тип отношения, частоту появления отношения, лингвистическую характеристику отношения. Лингвистическая характеристика отношения определяется лингвистической переменной С. В соответствие значениям С поставлены весовые эквиваленты g, k = 1, 9, которые не позволяют дать выk сокую оценку отношению между объектами, полученному в результате опосредованных ассоциативных отношений между именами собственными. Соответствие между значением лингвистической переменной Сq в отношении R и весовым эквивалентом g устанавливает k g функция F (Oх, Oу, R, C). Так как отношение R между объектами в пределах одного метаj j текста может повторяться более одного раза, необходимо при определении функции семантики складывать лингвистические характеристики этих отношений. Каждое типовое отношение оказывает различное влияние на силу отношения между вершинами НСГС, что связано как с предметной областью деятельности аналитиков, так и с неравномерным распределением частоты появления разных типовых отношений в метатекстах. Поэтому необходимо введение функции коррекции типового отношения (R ), которая является функцией принадлежноj сти нечеткого множества R с базовым множеством R = {R1, R2,..., RP }, Rj, j = 1, p Анало.

гично объекты в отношениях R оказывают различное влияние на силу отношения между вершинами НСГС, поэтому необходимо введение функции коррекции объекта (сi2 xi ), кото рая является функцией принадлежности нечеткого множества с базовым множеством c = {c1, c2,..., cM }, ci2, i2 = 1, M. Так как объект в вершине НСГС может иметь несколько классов, то после определения значения функции (сi2 xi ) для каждого класса объекта из последовательности (с1xi ), (с2xi ),..., (сmxi ) выбирается минимальное значения функции:

, m - f (Oх ) = (сi2 xi ). Так как отношение устанавливается между двумя объектами, то & R i2 = функция f (O ) определяется для каждого объекта, после чего из двух значений функций вых бирается минимальное: f (Oх, Oу ) = f (Oх ) & f (Oу ). Таким образом, функции семантики для интегрального R(H ) и множества дифференциальных отношений R(H ) будут представимы j в виде системы уравнений.

N p A = f Ox, Oy R Fig Ox,Oy,R,C () ( ) ( ) j j R H ( ) i =1 j = N B1 = f Ox,Oy Fig Ox,Oy,R1,C ( ) ( ) R H ( )i = N BP = f Ox,Oy Fig Ox,Oy,RP,C, ( ) ( ) R H ( )P i = где N Ч количество отношений между объектамиOx, Oy в метатексте.

14 А.В. Вохминцев, А.В. Мельников Практическим результатом применения методики извлечения структурных знаний из естественных текстов на основе нечетких семантических гиперсетей является разработка программного комплекса ИАС Analyst Wizard. Для хранилища данных ИАС выбрана технология хранилища данных Oracle. Унификация естественных текстов в ИАС осуществляется программной системой Intellect Miner for Text (IBM). Из хранилища данных информация отбирается для построения базы знаний. При этом для агрегации информации относительно признаков и учета релевантности информации используется программная система Glimpse. Отфильтрованная информация поступает на вход лингвистического процессора, который генерирует метатекст. Для проведения лингвистического анализа используется программная система Lingvo_Rus, которая является авторской разработкой. Лингвистический процессор при работе обращается к базе данных словаря русского языка. Для генерации баз данных словаря используется ht://Dig версии 3.1.1 и русский словарь Лебедева. В качестве СУБД базы данных словаря русского языка выбран Oracle 8. Классификация объектов осуществляется программной системой Darwin 3.1.1. Для определения отношений между вершинами НСГС используется авторская разработка Ч программная система Links. Для извлечения ассоциаций из базы знаний используется авторская разработка Ч программная система Miner.

Постановка аналитической задачи а. Определить связи В. Лисина с металлургическими компаниями, банками и политиками.

б. Определить связи физических и юридических лиц в окружении В. Лисина с и И. Махмудовым.

Определим параметры запроса к нечеткой семантической гиперсети:

I = x = Лисин, q = 2, 1(x) = Металлургия, Банк, Политик, 2(x) =Искандер Махмудов, A = A2, 0,1, =.

Полученная таким образом НСГС (рисунок) непосредственно используется для решения поставленной аналитической задачи. После изучения структуры НСГС аналитик обращается к естественным текстам, в которых встречается интересующая его ассоциация [2].

Pages:     | 1 | 2 |    Книги по разным темам
."/cgi-bin/footer.php"); ?>