Организация поиска информации

Информация - Компьютеры, программирование

Другие материалы по предмету Компьютеры, программирование

бие - это косинус угла между двумя векторами. Оно показывает сходство, а не дистанцию. Для косинусного подобия не выполняется неравенство треугольника.

Косинусная мера нормализует результаты с учетом длины вектора документа. Для двух векторов сходство определяется их направлениями. Для нормализованных векторов косинусное подобие равно их скалярному произведению.

Меры подобия определяются для двух произвольных множеств A и B:

Мера Жаккара:

Коэффициент Дайса:

Мера Шимкевича-Симпсона:

Они могут быть расширены для недвоичных векторов.

Расширенная мера Жаккара.

.4 Определение веса индексных терминов

Нам нужно рассмотреть два вопроса. Во-первых, при двоичном назначении веса похожие термины рассматриваются по-разному. Во-вторых, нормализация может быть недостаточной для компенсации разницы в длинах документов. Более длинный документ имеет больше возможностей содержать релевантные к запросу компоненты. Поэтому вес индексных терминов должен быть пропорционален одновременно их важности в документе и во всей коллекции документов.

Вес wi,j может быть рассчитан по следующей формуле:

- частота термина ti в документе dj. Обеспечивает меру того, как хорошо термин описывает содержимое документа.

- обратная частота документа для термина ti. Термины, появляющиеся во многих документах, не очень полезны для отличия релевантных от нерелевантных документов.

Вес термина увеличивается с ростом количества его вхождений в документ и с редкостью появления термина во всей коллекции.

Частота термина в документе:

Иногда, чтобы предотвратить смещение в сторону более длинных документов, рассчитывается как:

Либо просто:

Обратная частота для термина:

где N - количество документов в коллекции, ni - количество документов, содержащих ti.

Было произведено множество улучшений в схеме tf- idf. Следующая формула была определена в качестве хорошей реализации:

Достоинства векторной модели:

Схема, определяющая веса терминов, повышает производительность поиска по отношению к булевой модели.

Стратегия частичного соответствия позволяет находить документы, частично удовлетворяющие условиям запроса.

Ранжированные результаты поиска и контроль их величины.

Гибкость и интуитивная геометрическая интерпретация.

Недостатки векторной модели:

Предположение о независимости между терминами.

Невозможность использования структурированных запросов (нет операторов OR, AND, NOT).

Термины являются осями (даже с использованием стемминга может получиться более 20000 измерений).

3. Исследование методов оценки качества поиска

информационный векторный matlab программа

Главной мерой качества поиска является "счастье" пользователя. Оно зависит от многих факторов:

Релевантности результатов.

Дизайна макета интерфейса пользователя.

Скорости отклика.

Целевого приложения:

oВеб-движок: пользователь находит то, что хочет, и возвращается к движку.

oСайт продажи онлайн: пользователь находит то, что хочет, и делает покупку.

oСайты предприятий, компаний, государства, образования: забота о "производительности пользователя" (как много времени он сохраняет, когда ищет информацию).

Качество системы зависит от скорости индексации, скорости поиска, величины коллекции документов, используемого языка запросов, скорости при использовании сложных запросов. Чтобы измерить эффективность информационного поиска, нам необходимы:

тестовая коллекция документов (должна иметь разумный размер). Необходимо усреднять производительность, так как результаты сильно отличаются в зависимости от различных документов и информационных потребностей.

тестовый набор информационных потребностей, выраженный через запросы,

набор оценок релевантности, обычно это двоичное обозначение для каждой пары запрос-документ, показывающее релевантен ли результат.

Релевантность оценивается по отношению к информационной потребности, а не к запросу. Документ является релевантным, если он относится к указанной информационной потребности, а не просто содержит все слова из запроса.

.1 Оценка неранжированных наборов результата поиска

Точность (P): доля релевантных документов из всех найденных.

P(релевантные|найденные) =

= #(найденные релевантные объекты) / #(найденные объекты)

Позволяет определить "степень надежности" системы. Не учитывает общее количество документов.

Полнота (R): доля найденных релевантных документов из всех релевантных в коллекции.

P(найденные|релевантные) =

= #(найденные релевантные объекты) / #(релевантные объекты)

Позволяет определить "степень полноты" системы.

Таблица 1. Обозначения множеств в коллекции обрабатываемых документов.

Relevant (релевантные)Non-relevant (нерелевантные)Retrieved (найденные)true positive (TP) (верно положительные)false positive (FP) (ложно положительные)Not retrieved (ненайденные)false negative (FN) (ложно отрицательные)true negative (TN) (верно отрицательные)

Рисунок 2. Графическое представление обрабатываемой коллекции документов.

Точность - доля правильных классификаций.