Организация поиска информации

Информация - Компьютеры, программирование

Другие материалы по предмету Компьютеры, программирование

?ности для фиксированного числа первых документов;

recall - массив полноты для фиксированного числа первых документов;

f_measure_A - F-мера для первых 20 документов;

f_measure_B - F-мера для первых 50 документов.

.2 Листинг программы

= length(relevance);= round(numTot/10);= zeros(numStep,1);= zeros(numStep,1);= 10:10:numTot;

% Расчет точности и полноты для фиксированного числа первых документов

for j = 1:numStep = 0;= 0;= 0;= 0;i = 1:numRet(j)relevance(i) == 1= TP + 1;= FP + 1;i = numRet(j)+1:numTotrelevance(i) == 1= FN + 1;= TN + 1;(j) = TP / (TP + FP); % Расчет точности(j) = TP / (TP + FN); % Расчет полноты

end

% Вывод графиков точности и полноты

figure(numRet,recall,b), hold on, plot(numRet,precision,r), hold off

legend(полнота,точность);(Количество найденных документов);

% Расчет F-меры для первых 20 и 50 документов

% Бета изменяется в диапазоне [0;5]= 0:0.01:5;

f_measure_A = (beta.^2 + 1)*precision(2)*recall(2)./(precision(2)*beta.^2 + recall(2));_measure_B = (beta.^2 + 1)*precision(5)*recall(5)./(precision(5)*beta.^2 + recall(5));

% Вывод графиков F-мер(beta,f_measure_A,b), hold on, plot(beta,f_measure_B,r), hold off(F-мера A,F-мера B);

xlabel(Beta);

6. Расчет интерполированной средней точности, ROC-кривой и зависимости точности от полноты

Входные данные:

список ранжированных документов;

relevance - массив, указывающий релевантность каждого документа запросу;

Выходные данные:

precision - массив точности для фиксированного числа первых документов;

recall - массив полноты для фиксированного числа первых документов;

precisionI - интерполированная точность;

IAP_11 - 11 точек интерполированной средней точности;

fp_rate - доля неверно положительных;

tp_rate - доля верно положительных.

.1 Функция для расчета значений кривой точности в заданных точках

i = nearestPoint(v,n)= find(v >= n);= x(1);

6.2 Листинг программы

= length(relevance);= zeros(numTot,1);= zeros(numTot,1);= zeros(numTot,1);_rate = zeros(numTot,1);numRet = 1:numTot= 0;= 0;= 0;= 0;i = 1:numRetrelevance(i) == 1= TP + 1;= FP + 1;i = numRet+1:numTotrelevance(i) == 1= FN + 1;= TN + 1;(numRet) = TP / (TP + FP);(numRet) = TP / (TP + FN);

% Расчет доли ложно положительных документов_rate(numRet) = FP / (FP + TN);

end

% Расчет интерполированной точности(end) = precision(end);i = numTot-1:-1:1(i) = max(precision(i),precisionI(i+1));

end

% Расчет 11 точек интерполированной средней точности

IAP_11 = zeros(11,1);i = 1:11_11(i) = precisionI(nearestPoint(recall,0.1*(i-1)));

end

% Вывод графика зависимости точности от полноты

figure(recall,precision,b),hold on,plot(recall,precisionI,r)(0:0.1:1,IAP_11,ok),hold off(точность)(полнота)(неинтерполированная,интерполированная,IAP_{11})

% ROC-кривая_rate = recall;(fp_rate,tp_rate,b)(TP_{доля})(FP_{доля})

title(ROC)

7. Расчет среднего значения средней точности

Входные данные:

Q списков ранжированных документов для (по одному для запроса);

relevance - Q-мерный массив, указывающий релевантность каждого документа запросу;

Выходные данные:

precision - массив точности для фиксированного числа первых документов;

AP - массив средних точностей для запросов;

MAP - среднее значение средней точности.

.1 Листинг программы

[numTot,Q] = size(relevance);= zeros(Q,1);= zeros(Q,1);j = 1:Q(j) = sum(relevance(:,j));= zeros(m(j),1);= 0;= 0;= 0;= 1;index < m(j)relevance(i,j) == 1= TP + 1;= index + 1;(index) = TP / (TP + FP);= FP + 1;= i + 1;

end

% Расчет средней точности(j) = mean(precision);

% Расчет среднего значения средней точности= mean(AP)

Выводы

Во время прохождения производственной практики:

изучены основные концепции информационного поиска;

рассмотрены базовые модели поиска информации, выделены их основные преимущества и недостатки, соответственно которым можно определить для решения каких задач обработки данных наиболее выгодно использовать ту или иную вычислительную модель;

рассмотрены методы оценки качества поиска информации, показаны основные случаи их применения;

приобретены практические навыки по реализации изученных моделей и методов в среде Matlab.

Список используемой литературы

R. Baeza-Yates, B. Ribeiro-Nieto, "Modern Information Retrieval", 1999

C.D. Manning, P. Raghavan and H. Schtze, "Introduction to Information Retrieval", Cambridge University Press. 2008