Дайджест представляет собой аннотированный текст, построенный на основе анализа нескольких документов

Вид материалаДокументы

Содержание


Информационные портреты
Подобный материал:
Дайджесты

Дайджест представляет собой аннотированный текст, построенный на основе анализа нескольких документов. При составлении дайджестов методы авторефе­рирования одного документа распространяются на массив из большого количест­ва документов. Вместе с тем, дайджест можно также рассматривать как анноти­рованный источник гиперссылок на документы, лежащие в его основе.

При формировании дайджестов методами квазиреферирования практически невозможно получить связный текст. Объединение рефератов каждого из доку­ментов неизбежно будет содержать избыточную несвязную информацию. Однако при условии составления автореферата, состоящего из определенного количества анонсов входных документов и разделенного на подразделы в соответствии с этими документами, описанный выше метод оказывается вполне приемлемым.

Как и в случае квазиреферирования одного текстового документа, на первом этапе формирования дайджеста происходит отбор наиболее весомых лексических единиц, входящих в массив исходных документов (входной информационный поток), на основании которых строится словарь системы.

Выбор исходных документов из входного массива построения дайджеста осу­ществляется также с учетом их весов. Вес каждого документа определяется с учетом нормированной по длине документа суммы весов отдельных слов, вхо­дящих в этот документ. Этап выбора документов для дайджеста состоит из та­ких шагов, как определение веса каждого документа, сортировка входного пото­ка документов по весам, определение смысловых дублей документов по статистическим критериям, отбрасывание документов, непригодных для по­строения дайджестов (недопустимых типов документов, например обзоров), а также смысловых дублей (выявляемых по частотным алгоритмам). Последний этап выбора документов для формирования дайджеста заключается в выборе за­ранее определенного количества самых весомых документов из отсортированного и отфильтрованного на предыдущих этапах массива.

Статистический алгоритм выявления дублирующихся документов из входного потока может базироваться, например, на определении цепочек ключевых слов и частот их использования для отдельных документов и последующем сравнении их между собой всех таких цепочек исходных документов.

Последний этап синтеза дайджеста заключается в выделении из отобранных документов самых значимых предложений и построении из них единого текста, разделенного на подразделы. Для этого к каждому из отобранных документов может применяться описанный выше алгоритм квазиреферирования.

Отобранные документы представлены в дайджесте заранее заданным количе­ством весомых предложений. В случае формирования дайджестов на основе ди­намически изменяющейся информации из Internet, автоматически формируется гипертекстовое представление самого дайджеста, который можно рассматривать как самостоятельный документ, обладающий ссылками на документы-первоисточники в Сети.

Приведенная выше процедура обеспечивает формирование дайджеста, отра­жающего основные тенденции, представленные в исходном информационном массиве. Вместе с тем, имеет смысл формирование "веерного" многоаспектного дайджеста, отражающего наряду с главной тенденцией несколько других аспек­тов, игнорируемых в дайджестах первого типа. Многоаспектный дайджест мож­но построить, базируясь на технологических решениях, применяемых при пре­дыдущем подходе, при реализации следующего алгоритма.
  • 1 этап. Построение дайджеста, отражающего основную тенденцию.
  • 2 этап. Удаление из входного информационного потока документов, соот­ветствующих тенденции, определенной на предыдущем шаге.
  • 3 этап. Построение дайджеста, отражающего основную тенденцию остав­шейся части информационного потока.
  • 4 этап. Объединение полученных дайджестов.
  • 5 этап. При необходимости (исходя из требуемых объемов результирующе­го дайджеста) выполняется переход к этапу 2.

Поисковые образы документов

Задача полнотекстового поиска, в последнее время ставшая особенно акту­альной в связи с развитием ресурсов Internet, предполагает проведение поиска документов, в том числе и больших объемов, с использованием весовых крите­риев и логических операторов. Вместе с тем, проведение поиска по всему тексту может оказаться неэффективным, — например, в романе Л.Н. Толстого "Война и мир" можно найти большинство лексем русского языка. В таких случаях про­блему точности решает поиск по аннотированным текстам. Иначе говоря, вместо поиска по полным текстам оказывается целесообразным выполнять поиск по ан­нотациям — поисковым образам документов.

При этом методы квазиреферирования легко настроить для обработки крупных массивов информации. Хотя квазиреферат часто для больших текстов оказывается образованием, лишь отдаленно напоминающим исходный текст и при этом зачас­тую не воспринимаемым человеком, именно как поисковый образ документов, со­держащий взвешенные ключевые слова и фразы, он может приводить к вполне адекватным результатам при полнотекстовом поиске. Поэтому можно прогнозиро­вать, что статистические методы реферирования, квазиреферирование получат широкое распространение в области автоматического индексирования.

Информационные портреты

Портрет можно рассматривать как модель реального объекта (или субъекта), выраженную его наиболее узнаваемыми чертами. Как в связи с задачами авторе­ферирования, так и для решения других аналитических задач возникает потреб­ность оценить содержание документа, получить его "информационный портрет", т.е. статистически значимую совокупность информационных характеристик. В большинстве из существующих реализаций такой портрет состоит из статистиче­ски значимых слов и выражений, сопровождающих упоминание объекта.

Например, в качестве информационного портрета темы, соответствующей за-просу, можно рассматривать множество ключевых слов, наиболее точно (по ста­тистическим и смысловым алгоритмам) отражающее информацию, получаемую в результате поиска по данному запросу. Построение информационных портретов в реально функционирующих системах выполняется на базе эмпирических и статистических методов, основу которых, как и в случае автореферирования, составляют частотно-лингвистические алгоритмы.

С помощью информационного портрета в ИПС может детализироваться и уточ­няться критерий поиска. Информационный портрет может быть реализован как отдельная семантическая карта или как таблица на экране с результатами поиска. Чаще всего в этих случаях для уточнения запроса определенным словом из ин­формационного портрета достаточно просто активизировать гиперссылку, соответ­ствующую этому слову. Для уточнения запроса сразу несколькими словами из ин­формационного портрета часто используется механизм установки флажков опций (checkbox), находящихся рядом со словами в информационном портрете.