Концепции информационного поиска
Отчет по практике - Компьютеры, программирование
Другие отчеты по практике по предмету Компьютеры, программирование
?азоне [0;5]= 0:0.01:5;
f_measure_A = (beta.^2 + 1)*precision(2)*recall(2)./(precision(2)*beta.^2 + recall(2));_measure_B = (beta.^2 + 1)*precision(5)*recall(5)./(precision(5)*beta.^2 + recall(5));
% Вывод графиков F-мер(beta,f_measure_A,b), hold on, plot(beta,f_measure_B,r), hold off(F-мера A,F-мера B);
xlabel(Beta);
Расчет интерполированной средней точности, ROC-кривой и зависимости точности от полноты.
Входные данные:
-список ранжированных документов;
relevance - массив, указывающий релевантнос-ть каждого документа запросу;
Выходные данные:
precision - массив точности для фиксированного числа первых документов;
recall - массив полноты для фиксированного числа первых документов;
precisionI - интерполированная точность;
IAP_11 - 11 точек интерполированной средней точности;
fp_rate - доля неверно положительных;
tp_rate - доля верно положительных.
Функция для расчета значений кривой точности в заданных точках
function i = nearestPoint(v,n)= find(v >= n);= x(1);
Листинг программы
numTot = length(relevance);= zeros(numTot,1);= zeros(numTot,1);= zeros(numTot,1);_rate = zeros(numTot,1);numRet = 1:numTot= 0;= 0;= 0;= 0;i = 1:numRetrelevance(i) == 1= TP + 1;= FP + 1;i = numRet+1:numTotrelevance(i) == 1= FN + 1;= TN + 1;(numRet) = TP / (TP + FP);(numRet) = TP / (TP + FN);
% Расчет доли ложно положительных документов_rate(numRet) = FP / (FP + TN);
end
% Расчет интерполированной точности(end) = precision(end);i = numTot-1:-1:1(i) = max(precision(i),precisionI(i+1));
end
% Расчет 11 точек интерполированной средней точности
IAP_11 = zeros(11,1);i = 1:11_11(i) = precisionI(nearestPoint(recall,0.1*(i-1)));
end
% Вывод графика зависимости точности от полноты
figure(recall,precision,b),hold on,plot(recall,precisionI,r)(0:0.1:1,IAP_11,ok),hold off(точность)(полнота)(неинтерполированная,интерполированная,IAP_{11})
% ROC-кривая_rate = recall;(fp_rate,tp_rate,b)(TP_{доля})(FP_{доля})
title(ROC)
Расчет среднего значения средней точности
Входные данные:
-Q списков ранжированных документов для (по одному для запроса);
relevance - Q-мерный массив, указывающий релевантность каждого документа запросу;
Выходные данные:
precision - массив точности для фиксированного числа первых документов;
AP - массив средних точностей для запросов;
MAP - среднее значение средней точности.
Листинг программы
[numTot,Q] = size(relevance);= zeros(Q,1);= zeros(Q,1);j = 1:Q(j) = sum(relevance(:,j));= zeros(m(j),1);= 0;= 0;= 0;= 1;index < m(j)relevance(i,j) == 1= TP + 1;= index + 1;(index) = TP / (TP + FP);= FP + 1;= i + 1;
end
% Расчет средней точности(j) = mean(precision);
% Расчет среднего значения средней точности= mean(AP)
Выводы
Во время прохождения производственной практики:
-изучены основные концепции информационного поиска;
рассмотрены базовые модели поиска информации, выделены их основные преимущества и недостатки, соответственно которым можно определить для решения каких задач обработки данных наиболее выгодно использовать ту или иную вычислительную модель;
рассмотрены методы оценки качества поиска информации, показаны основные случаи их применения;
-приобретены практические навыки по реализации изученных моделей и методов в среде Matlab.
Список используемой литературы
R. Baeza-Yates, B. Ribeiro-Nieto, Modern Information Retrieval, 1999
C.D. Manning, P. Raghavan and H. Schtze, Introduction to Information Retrieval, Cambridge University Press. 2008