Концепции информационного поиска

Отчет по практике - Компьютеры, программирование

Другие отчеты по практике по предмету Компьютеры, программирование

µра Жаккара.

 

 

Определение веса индексных терминов

Нам нужно рассмотреть два вопроса. Во-первых, при двоичном назначении веса похожие термины рассматриваются по-разному. Во-вторых, нормализация может быть недостаточной для компенсации разницы в длинах документов.

Более длинный документ имеет больше возможностей содержать релевантные к запросу компоненты.

Поэтому вес индексных терминов должен быть пропорционален одновременно их важности в документе и во всей коллекции документов.

Вес wi,j может быть рассчитан по следующей формуле:

 

 

- частота термина ti в документе dj. Обеспечивает меру того, как хорошо термин описывает содержимое документа.

- обратная частота документа для термина ti. Термины, появляющиеся во многих документах, не очень полезны для отличия релевантных от нерелевантных документов.

Вес термина увеличивается с ростом количества его вхождений в документ и с редкостью появления термина во всей коллекции.

Частота термина в документе:

 

 

Иногда, чтобы предотвратить смещение в сторону более длинных документов, рассчитывается как:

 

Либо просто:

Обратная частота для термина:

 

где N - количество документов в коллекции, ni - количество документов, содержащих ti.

Было произведено множество улучшений в схеме tf- idf. Следующая формула была определена в качестве хорошей реализации:

 

 

Достоинства векторной модели:

Схема, определяющая веса терминов, повышает производительность поиска по отношению к булевой модели.

Стратегия частичного соответствия позволяет находить документы, частично удовлетворяющие условиям запроса.

Ранжированные результаты поиска и контроль их величины.

Гибкость и интуитивная геометрическая интерпретация.

Недостатки векторной модели:

Предположение о независимости между терминами.

Невозможность использования структурированных запросов (нет операторов OR, AND, NOT).

Термины являются осями (даже с использованием стемминга может получиться более 20000 измерений).

Исследование методов оценки качества поиска

Главной мерой качества поиска является счастье пользователя. Оно зависит от многих факторов:

Релевантности результатов.

Дизайна макета интерфейса пользователя.

Скорости отклика.

Целевого приложения:

oВеб-движок: пользователь находит то, что хочет, и возвращается к движку.

oСайт продажи онлайн: пользователь находит то, что хочет, и делает покупку.

oСайты предприятий, компаний, государства, образования: забота о производительности пользователя (как много времени он сохраняет, когда ищет информацию).

Качество системы зависит от скорости индексации, скорости поиска, величины коллекции документов, используемого языка запросов, скорости при использовании сложных запросов. Чтобы измерить эффективность информационного поиска, нам необходимы:

тестовая коллекция документов (должна иметь разумный размер). Необходимо усреднять производительность, так как результаты сильно отличаются в зависимости от различных документов и информационных потребностей.

тестовый набор информационных потребностей, выраженный через запросы,

набор оценок релевантности, обычно это двоичное обозначение для каждой пары запрос-документ, показывающее релевантен ли результат.

Релевантность оценивается по отношению к информационной потребности, а не к запросу. Документ является релевантным, если он относится к указанной информационной потребности, а не просто содержит все слова из запроса.

Оценка неранжированных наборов результата поиска.

Точность (P): доля релевантных документов из всех найденных.(релевантные|найденные) =

= #(найденные релевантные объекты) / #(найденные объекты)

Позволяет определить степень надежности системы. Не учитывает общее количество документов.

Полнота (R): доля найденных релевантных документов из всех релевантных в коллекции.(найденные|релевантные) =

= #(найденные релевантные объекты) / #(релевантные объекты)

Позволяет определить степень полноты системы.

 

Таблица 1. Обозначения множеств в коллекции обрабатываемых документов.

Relevant (релевантные)Non-relevant (нерелевантные)Retrieved (найденные)true positive (TP) (верно положительные)false positive (FP) (ложно положительные)Not retrieved (ненайденные)false negative (FN) (ложно отрицательные)true negative (TN) (верно отрицательные)

Рисунок 2. Графическое представление обрабатываемой коллекции документов.

 

Точность - доля правильных классификаций.

 

Точность не подходит для использования в контексте ИП. Во многих случаях данные крайне искажены, например, 99,9% документов являются нерелевантными. В этом случае система, настроенная на максимизацию точности будет почти всегда объявлять каждый документ нерелевантным.

Можно получать высокую полноту (но низкую точность), извлекая все документы для всех запросов. Полнота является неубывающей функцией от количества найденных документов. Точность обычно падает (в хороших системах). Точность может быть вычислена на разных уровнях полноты. Пользователи, ориентированные на высокую точность - веб-серферы, на высокую полноту - профессиональные исследователи, юристы, аналитики.

F-мера является комбинированной мерой, оценивающей компромисс между точностью и полнотой (взвешенное среднее гармоническое):

 <