Структура пошукових систем, показники ефективності пошуку

Информация - Компьютеры, программирование

Другие материалы по предмету Компьютеры, программирование

Міністерство освіти і науки, молоді та спорту України

Державний вищий навчальний заклад

Київський національний економічний університет імені Вадима Гетьмана

Кафедра інформаційного менеджменту

 

 

 

 

 

 

 

Реферат

 

на тему: Структура пошукових систем, показники ефективності пошуку

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Київ 2011

Вступ

 

Завдання будь-якої пошукової системи - доставляти людям ту інформацію, яку вони шукають. Навчити людей робити правильні запити, тобто запити, відповідні принципам роботи пошукових систем неможливо. Тому розробники створюють такі алгоритми і принципи роботи пошукових систем, які б дозволяли знаходити користувачам саме ту інформацію, яку вони шукають. Це означає, пошукова система повинна думати так, як думає користувач при пошуку інформації.

Автоматичні системи інформаційного пошуку використовують для зменшення так званого "інформаційного перевантаження". Найвідомішим прикладом систем ІП можна назвати пошукові системи в Інтернеті.

Обєктом інформаційного пошуку є текстова інформація, зображення, аудіо, відео інформація.

З інформаційним пошуком змикаються проблеми: розсилки інформації (information routing); сортування інформації (information filtering); упорядкування (класифікація) інформації (information categorization); відбір інформації (information extraction).

1. Поняття пошукова система

 

Пошукова система це - онлайн-служба, яка надає можливість пошуку інформації на сайтах в інтернеті, а також (можливо) у групах обговорення та ftp-серверах.

Індексація в пошукових системах сайтів здійснюється пошуковим роботом. Робот - це невелика програма, що ходить по посиланнях на сайті й індексує (збирає і запам'ятовує) зустрінуту на шляху інформацію. Також інформація з веб-сайтів збирається за допомогою спайдерів та кроуберів.

Основними критеріями якості роботи пошукової системи є релевантність, повнота бази, врахування морфології мови.

Сьогодні Інтернет поєднує безліч різних мереж, мільйони комп'ютерів, близько 800 мільйонів користувачів усіх континентів і, за різними оцінками, число таких користувачів збільшується на 15-80% щорічно. Можна виділити два основних напрямки у використанні Інтернет у бізнесі. Це оперативний доступ до воістину неозорих джерел інформації з будь-якої тематики (на сотнях тисяч інформаційних серверів), пошук і інтерактивне спілкування з партнерами, практично в будь-якій спеціалізації і географічному розташуванні. Як зорієнтуватися в настільки масштабному інформаційному просторі? Для цього існують спеціалізовані пошукові сервера. Їх можна розділити на тематичні каталоги, роботи індексів (пошукові машини). Також, для пошуку необхідної інформації в Інтернет дуже корисні системи пошуку в конференціях Usenet і служби пошуку людей.

 

2. Методи організації пошуку

 

Методи організації пошуку можуть бути розділені на дві групи. До першої з них відноситься так званий атрибутивний пошук. Він заснований на тому, що кожен документ характеризується певним набором атрибутів (полів). Ці поля заповнені конкретною інформацією, яка змінюється для різних видань. При пошуку перевіряється збіг значень, що містяться в запиті, із значеннями у відповідних полях кожного з видань. Такий метод організації пошуку характерний для фактографічної моделі.

До атрибутів видань відносять: назву, автора (авторів), час створення, ISBN (індивідуальний номер видання по універсальній книжковій класифікації) і так далі. Останнім часом набір атрибутів все частіше називають метаінформацією.

До другої групи засобів відноситься повнотекстовий пошук і вибірка видань. Дійсно, будь-яка книга, зокрема - в електронному вигляді, є слабо структурований набір символів, організованих в слова, пропозиції, розділи, параграфи і розділи. Для організації повнотекстового пошуку необхідно спочатку провести індексацію видань, скласти для них так званий повнотекстовий індекс. У простому випадку він є списком всіх значущих слів в текстовій базі даних з вказівкою, в яких виданнях зустрічаються ці слова. Зустрічаються багаторівневі індекси, в яких на верхньому рівні розташований словник або пошуковий індекс слова. В ньому кожному значущому слову відповідає покажчик розташований на наступному рівні, список місцезнаходжень або індекс посилань, в якому містяться адреса видання і, іноді, позиція слова усередині документа.

Багато хто з читачів, ймовірно, використовував повнотекстовий пошук, працюючи в мережі Інтернеті пошуковими серверами. В цьому випадку в спеціальне поле пошуку вводиться конструкція з деякої кількості слів або фраз, іноді зв'язаних один з одним знаками логічних операцій. Відповідний механізм на сервері автоматично перевіряє вміст посилань на документи, що містяться в його базі даних і видає результат пошуку у вигляді списку відповідних або релевантних документів.

Можна сформулювати чотири основні відмінності повнотекстової вибірки від атрибутивної:

повнотекстова вибірка відповідає на запити з меншою точністю;

вибірка імовірнісна, а не детермінована;

критерієм правильності вибірки є не точний збіг, а лише придатність видання, що витягує з бази;

час пошуку і витягання видання більше залежить не від технічних засобів, а від якості формулювання запиту і швидкості аналізу користув