Дайджест представляет собой аннотированный текст, построенный на основе анализа нескольких документов
Вид материала | Документы |
СодержаниеИнформационные портреты |
- «История на острие пера» представляет собой элективный курс в 8 классе, построенный, 234.21kb.
- А. В. Репников некоторые аспекты проблемы национальной безопасности россии на современном, 101.36kb.
- Анкета участника международной научно-практической конференции «актуальные проблемы, 62.51kb.
- Настоящее издание представляет собой текст популярных лекций, объединенных под названием, 16.48kb.
- Чеченский государственный университет, 4764.73kb.
- Чеченский государственный университет, 1110.04kb.
- Теоретическая часть, 252.19kb.
- Чеченский государственный университет, 2162.89kb.
- Добрый день, уважаемые участники и гости форума. Всовременных условиях модернизации, 29.58kb.
- Чеченский государственный университет, 2104.48kb.
Дайджесты
Дайджест представляет собой аннотированный текст, построенный на основе анализа нескольких документов. При составлении дайджестов методы автореферирования одного документа распространяются на массив из большого количества документов. Вместе с тем, дайджест можно также рассматривать как аннотированный источник гиперссылок на документы, лежащие в его основе.
При формировании дайджестов методами квазиреферирования практически невозможно получить связный текст. Объединение рефератов каждого из документов неизбежно будет содержать избыточную несвязную информацию. Однако при условии составления автореферата, состоящего из определенного количества анонсов входных документов и разделенного на подразделы в соответствии с этими документами, описанный выше метод оказывается вполне приемлемым.
Как и в случае квазиреферирования одного текстового документа, на первом этапе формирования дайджеста происходит отбор наиболее весомых лексических единиц, входящих в массив исходных документов (входной информационный поток), на основании которых строится словарь системы.
Выбор исходных документов из входного массива построения дайджеста осуществляется также с учетом их весов. Вес каждого документа определяется с учетом нормированной по длине документа суммы весов отдельных слов, входящих в этот документ. Этап выбора документов для дайджеста состоит из таких шагов, как определение веса каждого документа, сортировка входного потока документов по весам, определение смысловых дублей документов по статистическим критериям, отбрасывание документов, непригодных для построения дайджестов (недопустимых типов документов, например обзоров), а также смысловых дублей (выявляемых по частотным алгоритмам). Последний этап выбора документов для формирования дайджеста заключается в выборе заранее определенного количества самых весомых документов из отсортированного и отфильтрованного на предыдущих этапах массива.
Статистический алгоритм выявления дублирующихся документов из входного потока может базироваться, например, на определении цепочек ключевых слов и частот их использования для отдельных документов и последующем сравнении их между собой всех таких цепочек исходных документов.
Последний этап синтеза дайджеста заключается в выделении из отобранных документов самых значимых предложений и построении из них единого текста, разделенного на подразделы. Для этого к каждому из отобранных документов может применяться описанный выше алгоритм квазиреферирования.
Отобранные документы представлены в дайджесте заранее заданным количеством весомых предложений. В случае формирования дайджестов на основе динамически изменяющейся информации из Internet, автоматически формируется гипертекстовое представление самого дайджеста, который можно рассматривать как самостоятельный документ, обладающий ссылками на документы-первоисточники в Сети.
Приведенная выше процедура обеспечивает формирование дайджеста, отражающего основные тенденции, представленные в исходном информационном массиве. Вместе с тем, имеет смысл формирование "веерного" многоаспектного дайджеста, отражающего наряду с главной тенденцией несколько других аспектов, игнорируемых в дайджестах первого типа. Многоаспектный дайджест можно построить, базируясь на технологических решениях, применяемых при предыдущем подходе, при реализации следующего алгоритма.
- 1 этап. Построение дайджеста, отражающего основную тенденцию.
- 2 этап. Удаление из входного информационного потока документов, соответствующих тенденции, определенной на предыдущем шаге.
- 3 этап. Построение дайджеста, отражающего основную тенденцию оставшейся части информационного потока.
- 4 этап. Объединение полученных дайджестов.
- 5 этап. При необходимости (исходя из требуемых объемов результирующего дайджеста) выполняется переход к этапу 2.
Поисковые образы документов
Задача полнотекстового поиска, в последнее время ставшая особенно актуальной в связи с развитием ресурсов Internet, предполагает проведение поиска документов, в том числе и больших объемов, с использованием весовых критериев и логических операторов. Вместе с тем, проведение поиска по всему тексту может оказаться неэффективным, — например, в романе Л.Н. Толстого "Война и мир" можно найти большинство лексем русского языка. В таких случаях проблему точности решает поиск по аннотированным текстам. Иначе говоря, вместо поиска по полным текстам оказывается целесообразным выполнять поиск по аннотациям — поисковым образам документов.
При этом методы квазиреферирования легко настроить для обработки крупных массивов информации. Хотя квазиреферат часто для больших текстов оказывается образованием, лишь отдаленно напоминающим исходный текст и при этом зачастую не воспринимаемым человеком, именно как поисковый образ документов, содержащий взвешенные ключевые слова и фразы, он может приводить к вполне адекватным результатам при полнотекстовом поиске. Поэтому можно прогнозировать, что статистические методы реферирования, квазиреферирование получат широкое распространение в области автоматического индексирования.
Информационные портреты
Портрет можно рассматривать как модель реального объекта (или субъекта), выраженную его наиболее узнаваемыми чертами. Как в связи с задачами автореферирования, так и для решения других аналитических задач возникает потребность оценить содержание документа, получить его "информационный портрет", т.е. статистически значимую совокупность информационных характеристик. В большинстве из существующих реализаций такой портрет состоит из статистически значимых слов и выражений, сопровождающих упоминание объекта.
Например, в качестве информационного портрета темы, соответствующей за-просу, можно рассматривать множество ключевых слов, наиболее точно (по статистическим и смысловым алгоритмам) отражающее информацию, получаемую в результате поиска по данному запросу. Построение информационных портретов в реально функционирующих системах выполняется на базе эмпирических и статистических методов, основу которых, как и в случае автореферирования, составляют частотно-лингвистические алгоритмы.
С помощью информационного портрета в ИПС может детализироваться и уточняться критерий поиска. Информационный портрет может быть реализован как отдельная семантическая карта или как таблица на экране с результатами поиска. Чаще всего в этих случаях для уточнения запроса определенным словом из информационного портрета достаточно просто активизировать гиперссылку, соответствующую этому слову. Для уточнения запроса сразу несколькими словами из информационного портрета часто используется механизм установки флажков опций (checkbox), находящихся рядом со словами в информационном портрете.