Концепции информационного поиска

Отчет по практике - Компьютеры, программирование

Другие отчеты по практике по предмету Компьютеры, программирование

?азоне [0;5]= 0:0.01:5;

 

f_measure_A = (beta.^2 + 1)*precision(2)*recall(2)./(precision(2)*beta.^2 + recall(2));_measure_B = (beta.^2 + 1)*precision(5)*recall(5)./(precision(5)*beta.^2 + recall(5));

% Вывод графиков F-мер(beta,f_measure_A,b), hold on, plot(beta,f_measure_B,r), hold off(F-мера A,F-мера B);

xlabel(Beta);

Расчет интерполированной средней точности, ROC-кривой и зависимости точности от полноты.

Входные данные:

-список ранжированных документов;

relevance - массив, указывающий релевантнос-ть каждого документа запросу;

Выходные данные:

precision - массив точности для фиксированного числа первых документов;

recall - массив полноты для фиксированного числа первых документов;

precisionI - интерполированная точность;

IAP_11 - 11 точек интерполированной средней точности;

fp_rate - доля неверно положительных;

tp_rate - доля верно положительных.

Функция для расчета значений кривой точности в заданных точках

function i = nearestPoint(v,n)= find(v >= n);= x(1);

Листинг программы

numTot = length(relevance);= zeros(numTot,1);= zeros(numTot,1);= zeros(numTot,1);_rate = zeros(numTot,1);numRet = 1:numTot= 0;= 0;= 0;= 0;i = 1:numRetrelevance(i) == 1= TP + 1;= FP + 1;i = numRet+1:numTotrelevance(i) == 1= FN + 1;= TN + 1;(numRet) = TP / (TP + FP);(numRet) = TP / (TP + FN);

% Расчет доли ложно положительных документов_rate(numRet) = FP / (FP + TN);

end

% Расчет интерполированной точности(end) = precision(end);i = numTot-1:-1:1(i) = max(precision(i),precisionI(i+1));

end

% Расчет 11 точек интерполированной средней точности

IAP_11 = zeros(11,1);i = 1:11_11(i) = precisionI(nearestPoint(recall,0.1*(i-1)));

end

% Вывод графика зависимости точности от полноты

figure(recall,precision,b),hold on,plot(recall,precisionI,r)(0:0.1:1,IAP_11,ok),hold off(точность)(полнота)(неинтерполированная,интерполированная,IAP_{11})

% ROC-кривая_rate = recall;(fp_rate,tp_rate,b)(TP_{доля})(FP_{доля})

title(ROC)

Расчет среднего значения средней точности

Входные данные:

-Q списков ранжированных документов для (по одному для запроса);

relevance - Q-мерный массив, указывающий релевантность каждого документа запросу;

Выходные данные:

precision - массив точности для фиксированного числа первых документов;

AP - массив средних точностей для запросов;

MAP - среднее значение средней точности.

Листинг программы

[numTot,Q] = size(relevance);= zeros(Q,1);= zeros(Q,1);j = 1:Q(j) = sum(relevance(:,j));= zeros(m(j),1);= 0;= 0;= 0;= 1;index < m(j)relevance(i,j) == 1= TP + 1;= index + 1;(index) = TP / (TP + FP);= FP + 1;= i + 1;

end

% Расчет средней точности(j) = mean(precision);

% Расчет среднего значения средней точности= mean(AP)

Выводы

Во время прохождения производственной практики:

-изучены основные концепции информационного поиска;

рассмотрены базовые модели поиска информации, выделены их основные преимущества и недостатки, соответственно которым можно определить для решения каких задач обработки данных наиболее выгодно использовать ту или иную вычислительную модель;

рассмотрены методы оценки качества поиска информации, показаны основные случаи их применения;

-приобретены практические навыки по реализации изученных моделей и методов в среде Matlab.

 

 

Список используемой литературы

 

R. Baeza-Yates, B. Ribeiro-Nieto, Modern Information Retrieval, 1999

C.D. Manning, P. Raghavan and H. Schtze, Introduction to Information Retrieval, Cambridge University Press. 2008