Концепции информационного поиска
Отчет по практике - Компьютеры, программирование
Другие отчеты по практике по предмету Компьютеры, программирование
Оглавление
Введение
Исследование основных концепций информационного поиска
Исследование моделей поиска информации
Булева модель
Векторная модель
Меры подобия
Определение веса индексных терминов
Исследование методов оценки качества поиска
Оценка неранжированных наборов результата поиска
Реализация векторной модели в среде Matlab
Функция расчета евклидовой меры
Функция расчета косинусной меры
Расчет ранжированных списков документов
Реализация оценок качества поиска в среде Matlab
Расчет точности, полноты и F-меры в зависимости от числа найденных документов
Листинг программы
Расчет интерполированной средней точности, ROC-кривой и зависимости точности от полноты
Функция для расчета значений кривой точности в заданных точках
Листинг программы
Расчет среднего значения средней точности
Листинг программы
Выводы
Список используемой литературы
Введение
Цели прохождения производственной практики:
-изучение основных концепций информационного поиска;
рассмотрение базовых моделей поиска информации;
рассмотрение методов оценки качества поиска информации;
приобретение практических навыков по реализации изученных моделей и методов в среде Matlab.
Исследование основных концепций информационного поиска
Информационный поиск занимается представлением, хранением, организацией и обеспечением доступа к информационным объектам. Представление и организация информации должны предоставлять пользователю удобный доступ к интересующей его информации. Основной целью системы ИП является получение информации, которая может быть полезна и релевантна для пользователя, с использованием его запроса. Основной акцент делается на том, что поиск информации - это не поиск данных.
Поиск данных - это извлечение всех объектов, которые удовлетворяют четко определенным условиям, выраженным через язык запросов. Данные имеют строго определенную структуру и семантику. Используются формальные языки запросов (например, регулярные выражения). Результаты обязаны быть точными, ошибки не допускаются. Нет ранжирования по отношению к информационной потребности пользователя.
Поиск информации - это нахождение материалов (обычно документов) неструктурированной природы (обычно текст), которые удовлетворяют информационной потребности, используя большие коллекции (обычно хранящиеся на многих компьютерах). Запросы обычно не структурированы (запросы на основе ключевых слов, контекста, фраз, запросы на естественном языке). Ошибки в полученных результатах допустимы. Концепция релевантности по отношению к потребностям пользователя занимает центральное место:
Осуществляется ранжирование по релевантности.
Не ясна степень релевантности, которой доволен пользователь. Для системы может быть неизвестно что является для пользователя более важным - точность или полнота.
Ранжирование позволяет пользователю начинать с начала ранжированного списка и исследовать его, пока он не удовлетворит свои потребности.
Модель поиска информации может быть определена как:
где- набор логических представлений для документов в коллекции.
Q - набор логических представлений для нужд пользователя (запросов).
- функция ранжирования, связывающая действительное число с представлением документа dj для запроса qi. Такой рейтинг определяет порядок документов по отношению к запросу qi.
Релевантность:
Субъективна: два пользователя могут иметь одни и те же информационные потребности, но по-разному оценивать одни и те же найденные документы.
Динамична в пространстве и времени. Найденные и отображенные пользователю документы могут повлиять на его оценку документов, которые будут показаны позднее. В зависимости от своего состояния пользователь может по-разному оценивать один и тот же документ для одного и того же запроса.
Многогранна: релевантность документа определяется не только темой, но и авторитетностью, специфичностью, полнотой, новизной, ясностью и т.п.
Неизвестна системе до оценки пользователя. Система угадывает релевантность документов по отношению к данному запросу с помощью расчета , которая зависит от принятой IRM (например, булева, вероятностная, векторная).
Исследование моделей поиска информации
Модели поиска назначают меру сходства между запросом и документом. Общая идея: чем чаще термины находятся одновременно в документе и в запросе, тем более релевантным считается документ по отношению к запросу. Стратегия поиска - это алгоритм, который принимает запрос q и набор документов d1, d2,…,dN и определяет коэффициент подобия SC(q,dj) для каждого из документов 1?j?N. Классические модели ИП: булева, вероятностная, векторная.
Каждый документ представляется набором ключевых слов, называемых индексными терминами. Индексные термины используются для индексирования и обобщения содержимого документа. Различные индексные термины отличаются по релевантности, когда используются для описания содержимого документа. Этот эффект отражается в назначении числовых весов каждому индексному термину документа.
Пусть ti - индексный термин, dj - документ, а wi,j?0 - вес, связанный с парой (ti, dj). wi,j определяет качество индексного термина для описания смыслового содержания документа. Каждый документ связан с вектором индексных термино?/p>