Структура пошукових систем, показники ефективності пошуку

Информация - Компьютеры, программирование

Другие материалы по предмету Компьютеры, программирование

ачем придатності видань, що витягують з бази.

Неважко зрозуміти, що першій моделі найкраще відповідає атрибутивний пошук, а другий - повнотекстовий. Принципова відмінність між цими двома методами пошуку полягає в тому, що результат застосування атрибутивного пошуку детермінований, тоді як повнотекстовий пошук слід характеризувати як імовірнісний, тобто його результат містить набір документів, що характеризуються певним рівнем релевантності, придатності.

Історично першими використовувалися бази даних для зберігання структурованої інформації з жорстким набором атрибутів. Потім виникла необхідність зберігання документів, включаючи журнали і книги, які є набором неструктурованої або майже неструктурованої інформації. Останніми роками виникла певна тенденція до розмітки або структуризації текстових документів. Для цього створені спеціальні мови, зокрема XML.

Атрибутивний пошук простіший і швидший, а також дозволяє отримати точний, а не імовірнісний, результат. Для його реалізації не потрібно створювати повнотекстовий індекс, що займає значний дисковий простір, а також складні пошукові механізми. До речі, в останні роки в мережі Інтернет взятий курс на пошукові системи, заснований на частковому використанні метаінформації, принаймні в тих випадках, коли ця інформація відома користувачеві. Вводиться і відповідний стандарт на зміст атрибутів на кожній Web-сторінці для реалізації такого пошуку. Проте повнотекстові бази і пошук поки що достатньо широко використовуються у видавничих інформаційних системах. Атрибутивний пошук не завжди застосовний, оскільки користувач може не знати жодного атрибуту.

Відомо декілька методів пошуку в текстових базах даних. Першою і найбільш простою моделлю пошуку є перегляд, тобто процес схожий із звичайною роботою з книгою. В цьому випадку з бази даних витягується певне електронне видання і користувач знайомиться з його змістом. Використовуючи сучасні засоби навігації, можна переміщатися по каталогу видань, розкривати потрібні книги і проглядати їх зміст і анотації. Для великих баз даних такий спосіб неефективний і може використовуватися тільки у поєднанні з іншими моделями.

Варіантом цієї моделі є зв'язане читання, яке використовує концепцію гіпертексту і переходи по гіперпосиланнях усередині одного видання або навіть між виданнями, включаючи малюнки, звукові- і відеофрагменти.

Найчастіше застосовується Булеві моделі пошуку, логічні конструкції, що використовують як основу, тобто слова або фрази (останні полягають зазвичай в круглі дужки), об'єднані знаками логічних операцій І (AND &), АБО (OR) і НЕ (NO). Вхідні в конструкцію смислові елементи, тобто слова і фрази, якщо останні розглядаються як єдине ціле, зазвичай називають термами. Якщо в результаті запиту пошукова система видала надмірно великий список документів, запит можна спробувати ускладнити, включивши в нього більшу кількість термів і операторів І, що припускають одночасну наявність в документі базових слів і фраз. Навпаки, якщо знайдена невелика кількість придатних (релевантних) документів, запит можна спростити, виключивши з нього окремі конструкції з оператором І (або додавши конструкції з оператором АБО).

Спеціальне програмне забезпечення може забезпечити автоматичну оцінку ступеня корисності кожного з видань, що витягують. Ця оцінка робиться на основі частоти, з якою зустрічаються у виданні терми, використовувані в запиті. Результати зазвичай сортуються по ступеню релевантності. Така модель пошуку використовується, зокрема, на пошуковому сервері Rambler.

Векторна модель пошуку заснована на представленні кожного окремого видання деяким вектором в N-вимірному просторі. Запит також представляється у вигляді вектора. Ступінь корисності документа, визначається як його близькість у вказаному N-вимірному просторі до вектора запиту. Кількісна оцінка близькості виражається косинусом кута між цими векторами і змінюється в межах від 0 до 1.

Векторна модель пошуку обов'язково має на увазі послідовні ітерації. На початку пошуку користувач зі всієї безлічі вибраних видань визначає деякі як потрібні, корисні. На підставі цього вибору виробляється уточнене положення вектора запиту.

Ефективність - головний критерій при визначенні вживаного методу повнотекстової вибірки. Ефективність пошуку видання можна описати двома характеристиками: точність і обхват. Точність P визначається відношенням числа релевантних документів R до загальної кількості документів у вибірці

пошук інформаційний повнотекстовий тематичний

N (P=R/N)

Обхват а характеризується відношенням числа релевантних документів у вибірці R до загального числа релевантних документів в базі даних

Т (a=R/T)

У разі ідеального пошуку всі вибрані документи повністю придатні і вичерпують список придатних документів в базі даних, тобто а=1 і P=1. Проте численні дослідження, виконані різними фахівцями, показали що точність і обхват зв'язані один з одним зворотною залежністю, а максимальне значення суми P+а близько до 1,4.

Такий результат виглядає цілком осмисленим. Дійсно, якщо ми хочемо збільшити точність Р ми повинні якомога точніше сформулювати запит, включивши в нього велику кількість різних термів, зв'язаних за допомогою операторів І, щоб виключити можливість попадання в результати пошуку непридатних документів. Проте в цьому випадку загальна кількість вибраних видань не може бути великою, точніше - вона буде малою.