Х Также мы готовы стать единым центром доступа к нормативным актам и предоставить API для разработчиков и различных бизнес-решений, где востребованы нормативные акты.
Х Предоставить профессиональным справочным системам доступ к полной базе документов.
SOPHIA: система семантического поиска и анализа текстовых коллекций - опыт поиска в коллекции правовых документов США В.аЮ.аДобрынин*,а А.аА.аМатвеев Введение Система SOPHIA [2] основана на применении алгоритма выделения тем из корпуса документов и последующей кластеризации (Contextual Document Clustering, CDC [3]), разработанного в результате сотрудничества между СПбГУ (факультет прикладной математики - процессов управления) и Университетом Ольстера (Северная ирландия, Соединенное Королевство) в 2003 году.
После ряда лет исследований с целью коммерциализации проекта в 2007 году был создан стартап Sophia Search Ltd. (
Кластеры документов, порождаемые в процессе работы CDC, можно интерпретировать как дискурсы, порожденные различными дискурсивными сообществами (профессиональными группами). Различные дискурсы характеризуются наборами тем, обсуждаемыми в соответствующих дискурсивных сообществах, стилями, лексическими особенностями (терминология, жаргон) [1].
Метод CDC основан на анализе коллекции текстовых документов, в процессе которого происходит выявление жаргонизмов и терминологии, специфичной для различных дискурсивных сообществ. При этом используются методы теории информации, позволяющие отделить жаргонизмы и терминологию от менее специфических слов. Контексты выделенных терминов (на уровне всего корпуса документов) используются в качестве аттракторов кластеров, объединяя тексты, порожденные соответствующим дискурсивным сообществом.
* ДобрынинаВладимираЮрьевич, к. ф.-м. н., доцент кафедры технологии программирования факультета прикладной математики, МатвееваАндрейаАнатольевич, к. ф.-м. н., и. о. зав. отдела интеллектуальной собственности и трансфера технологий, Санкт-Петербургский государственный университет.
Построение кластеров документов обеспечивает возможность выполнения одного из вариантов семантического поиска - поиска, основанного на кластерах. В отличие от обычного поиска по ключевым словам, в рамках которого пользователь получает список всех релевантных документов (содержащих слова запроса), где различные темы перемешены, SOPHIA предъявляет список кластеров, релевантных запросу. Пользователь выбирает кластер для более детального анализа и может просматривать содержащиеся в нем документы, релевантные как в обычном смысле (по наличию слов из запроса), так и семантически (могут не содержать слов из запроса, но семантически быть близкими релевантным документам). В отличие от систем, выполняющих кластеризацию нескольких сотен документов, выбранных из результата поиска по ключевым словам [11], SOPHIA выполняет кластеризацию всех документов коллекции на этапе индексирования и использует эту структуру на этапе представления результатов пользователю.
CDC был протестирован на стандартных тестовых коллекциях (Reuters-21578, Reuters-RCV1, OHSUMED) [4-10], а также применялся при кластеризации больших коллекций документов в реальных приложениях:
рефераты патентов - 4 500 000 документов, рефераты статей из области биомедицины (Medline) - 18 000 000 документов.
В данной работе описывается пример применения системы SOPHIA для поиска Описание метода В соответствии с вышеизложенными понятиями дискурса и дускурсивного сообщества важной проблемой является задача автоматического выявления жаргонизмов и терминологии в больших коллекциях текстовых документов.
Для поиска таких термов выполняется построение контекстов для всех слов словаря коллекции, за исключением очень редких и очень популярных.
Под контекстом слова понимается распределение вероятностей всех слов, которые встречаются совместно с данным словом в одном документе. иными словами, контекст слова z определяется, как:
tf (x, y) xX( z), p(y | z) = tf (x,t) xX( z),tY где p(y | z) есть вероятность слова y в контексте слова z, tf (x, y) есть частота встречаемости слова y в документе x, X(z) есть множество всех документов, содержащих слово z, и Y есть словарь коллекции.
Слова, специфические для отдельных сообществ, должны иметь контексты с относительно невысокой энтропией:
H (Y | z) = - p(y | z)log( p(y | z)) y Выбор таких слов основан на вычислении энтропии всех построенных контекстов с учетом частоты встречаемости слов в коллекции. Учет частоты встречаемости слова связан с тем, что сообщества могут быть представлены в данной коллекции как большим, так и малым числом документов и учет одной только энтропии приведет к преимущественному выделению слов, специфических для малых сообществ. Множество всех слов Y (за исключением очень редких и очень популярных) разбивается на заданное число r непересекающихся подмножеств:
Y = UYi i Yi = {z : z Y,dfi df (z) < dfi+1} i =1..r где параметры Zi разбивают интервал частот документов для слов коллекции на r интервалов, порождающих разбиение слов на r непересекающихся подмножеств.
Последним этапом является выбор заданного числа N слов с относительно малой энтропией из каждого подмножества слов пропорционально мощности подмножества. из подмножества слов Zi выделяется подмножество Zi, обладающее следующими свойствами:
N.| Yi |, | i |= | Yj | j=1,..r z1 i, z2 Yi - i H (Y | z1) H (Y | z2) Иллюстрация применения системы SOPHIA В целях иллюстрации используется коллекция англоязычных документов, посвященных налоговому законодательству США. Эта коллекция содержит несколько сотен тысяч документов. Более детальное описание коллекции не приводится в связи с тем, что доступ к ней был получен в рамках коммерческого проекта.
В качестве запроса было выбрано словосочетание Уvisiting professorФ в связи с тем, что вопросы налогообложения для данной категории граждан в свое время представляли определенный интерес для авторов. Всего было найдено 32 документа, содержащих указанную фразу буквально (при поиске по фразам стемминг не используется). Первая страница результатов приведена на рис. 1. Видны описания первых 5 релевантных кластеров, содержащих по крайней мере один релевантный документ (всего имеется 15 релевантных).
Для каждого кластера указаны:
Х число релевантных документов в кластере;
Х динамическое описание кластера (названия нескольких релевантных документов);
Х статическое описание кластера (автоматически выделенные фразы, отражающие содержание кластера без привязки к конкретному запросу).
Риса1.аРелевантныеакластеры В таб. 1 приведены статические описания первых 5 кластеров и метки, которые мы назначили этим кластерам для удобства.
Таблицаа1а Метки и статические описания первых пяти кластеров 1 иностранцы- nonresident aliens аtrade or business нерезиденты аtemporarily presentааsources within the unitedааtax treatiesааresident of the united аnonresident alien engaged 2 профессор streng is the vinson аstreng graduated юриспруденции аlaw university of houston law center houston аsouthern methodist university аprofessor of law university of houston law law at the university of houston law 3 расходы travel expenses аbusiness expenses аexpenses incurred petitioner wife а ordinary and necessary expenses аpetitioner paid petitioner is entitled 4 гранты scholarships or fellowship grants schol- arships and fellowship grants scholarship or fellowship grants аmedical residents аuniversity hospital residency program scholarship program 5 пенсионные idb plans pension plans actuarial планы valuation incurred but unpaid medical claims incurred but unpaid claims actuarial certification defined benefit plans...
Далее приведен анализ содержимого первых четырех кластеров, включая как релевантные документы (содержащие буквально фразу запроса), так и семантически релевантные документы (не содержащие указанной фразы).
В качестве иллюстрации приведены рис. 2, 3 и 4, содержащие соответственно образы экрана со списком релевантных документов из первого кластера, с текстом первого релевантного документа из первого кластера и списком семантически релевантных документов. Более детальная информация о содержании первых четырех кластеров представлена в таб. 2.
Риса2.аРелевантныеадокументыаизапервогоакластера Рис. 2 иллюстрирует содержимое первого кластера (иностранцы-нерезиденты). Облако тегов составлено из автоматически выделенных фраз, отражающих содержание релевантных документов. Отмечая любой из тегов, пользователь сужает область релевантности - выводятся только релевантные документы, содержащие выделенный тег. Для каждого документа приводится его заголовок и автоматически построенный реферат (из фраз, входящих в документ). Некоторые слова, выделенные в реферате красным цветом, должны помочь пользователю понять смысл документа.
На рис. 3 приведен текст первого релевантного документа из первого кластера. Красным отмечены автоматически выделенные слова, характеризующие смысл документа. Синим цветом отмечена фраза-запрос.
На рис. 4 приведен список семантически релевантных документов для первого кластера.
В таб. 2 содержится анализ содержимого первых четырех кластеров.
Рис.а3.аПервыйарелевантныйадокументаизапервогоакластера Рис.а4.аСписокасемантическиарелевантныхадокументова дляапервогоакластера Таблицаа2а Содержание ряда релевантных и семантически релевантных документов из первых четырех кластеров 1 2 3 4 1. иностранцы- 8 около 1-й Х Нерезидент из Японии нерезиденты 700 релевантный Х Приглашенный исследователь в США Х Ранее уже работал в США как приглашенный профессор Х Существует соглашение между США и Японией о подоходном налоге Х Работа выполняется в университете США в общественных интересах Х Освобождение от подоходного налога на 2 года 2-й Х Нерезидент из Японии релевантный Х Приглашенный профессор в США Х Ранее уже работал в США Х Существует соглашение между США и Японией о подоходном налоге Х Работа выполняется в университете США в общественных интересах Х Освобождение от налога на 2 года. Для получения нового освобождения необходимо покинуть США на 1 год 1 2 3 4 1-й Х Нерезидент из Японии семантически Х Приглашенный (на 3 года) исследователь в США релевантный Х Ранее не работал в США Х Существует соглашение между США и Японией о подоходном налоге Х Работа выполняется в университете США в общественных интересах Х Освобождение от налога на 2 года. Доход, полученный в 3-й год, подлежит налогообложению 2. профессор 6 34 1-й Х Профессор юридической школы из университета Кентукки юриспруденции релевантный Х Ранее был приглашенным профессором в другом университете документ Х Автор ряда книг в области налогообложения 2-й Х Данные о том же профессоре, что и в 1-м документе релевантный Х Документы отличаются только названием документ 1-й Х Профессор юридического центра университета Хьюстона семантически Х Нет данных о его публикациях релевантный документ 3. расходы 5 около 1-й Х Временная работа приглашенным профессором в другом 2000 релевантный университете в США документ Х Дополнительные расходы на переезд, питание, аренду жилья Х желает получить освобождение от налогов на эти расходы, не претендуя на освобождение от налогов на расходы по содержанию жены и детей 1 2 3 4 Х Освобождение от налогов возможно на такие расходы, как:
аренда жилья, питание, прачечная, транспортные расходы (от места временного проживания до места временной работы) 2-й Х Профессор из США получил временную работу в качестве релевантный приглашенного профессора в Европе Х Уезжает на срок менее 1 года с женой документ Х Налоги с доходов в Европе следует платить в США Х Освобождение от налогов на транспортные расходы, питание и проживание на время дороги в Европу и обратно. Нет освобождения от налогов на любые расходы во время каникул и любых расходов на жену 1-й Х Профессор из США предполагает получить временную работу семантически (visiting professorship) на 9 месяцев в другом университете в США Х Просит освобождения от налогов на расходы на еду, аренду релевантный жилья документ Х Освобождение от налогов возможно на такие расходы, как:
аренда жилья, питание, прачечная, транспортные расходы (от места временного проживания до места временной работы). Хотя профессор переезжает на новое место с семьей, компенсация за расходы на аренду жилья возможна только в сумме, соответствующей стоимости аренды жилья на одного человека гранты 2 около 1-й Х Перечень стран, граждане которых освобождаются в США от 570 релевантный подоходного налога, будучи приглашенными профессорами или учителями документ Х Для каждой страны приведены условия такого освобождения и сроки (2Ц3 года) Х России в этом списке нет 1 2 3 4 2-й Х Налогоплательщик работал приглашенным профессором в релевантный течении 2 лет документ Х На очередной учебный год получил награду за успешную работу Х По закону США награды не включаются в налогооблагаемый доход при условии, что награжденный не должен выполнять впоследствии некоторую работу как условие получения награды Х В данном случае профессор должен читать лекции в двух семестрах. Условий для освобождения от налога нет 1-й Х Подробное описание различных типов грантов и стипендий, семантически которые могут быть полностью или частично освобождены от релевантный налогов документ Х Для конкретного случая (медицинское образование) получатели стипендий освобождаются от уплаты налогов на суммы, выделяемые на оплату обучения, оборудования, книги.
Расходы на проживание и питание облагаются налогом Выводы Приведенный пример иллюстрирует основные преимущества использования системы SOPHIA перед более традиционными в том случае, когда пользователь желает получить общее представление по интересующему его вопросу. В ответ на запрос Уvisiting professorФ выявились три важные и релевантные темы, представленные в кластерах 1, 3 и 4 (кластер 2 не представляет интереса, так как содержит данные о профессиональной карьере американских профессоров юриспруденции).
Первая тема (тег линостранец-нерезидент) касается иностранцев, прибывших на временную работу в один из университетов США по приглашению. Семантически релевантные документы не содержат фразы запроса, но представляют интерес, так как или касаются сходных случаев (visiting researcher) или содержат фразу-синоним (visiting professorship).
Третья тема (тег расходы) касается запросов на освобождение от налога расходов, связанных с переездом к месту временной работы для граждан США.
Последняя из представленных тем (тег гранты) затрагивает тему освобождения от налогов для грантополучателей.
Pages: | 1 | ... | 29 | 30 | 31 | 32 | 33 | ... | 42 | Книги по разным темам