Курсовой проект по технологии научных исследований сравнительный анализ методов поиска информации в Интернете

Вид материала

Содержание

Процедура поиска информации по ключевым словам.

Подобный материал:

ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО ОБРАЗОВАНИЮ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

“САМАРСКИЙ ГОСУДАРСТВЕННЫЙ АРХИТЕКТУРНО-СТРОИТЕЛЬНЫЙ УНИВЕСИТЕТ”

ФАКУЛЬТЕТ ИНФОРМАЦИОННЫХ СИСТЕМ И ТЕХНОЛОГИЙ

КАФЕДРА ВЫСШЕЙ МАТЕМАТИКИ

КУРСОВОЙ ПРОЕКТ ПО ТЕХНОЛОГИИ НАУЧНЫХ ИССЛЕДОВАНИЙ

Сравнительный анализ методов поиска информации в Интернете.

ВЫПОЛНИЛа: студентка ГИП-103 Голубева М.Н.

НАУЧНЫЙ РУКОВОДИТЕЛЬ: Козлов В.В.______

САМАРА 2005

Сегодня Интернет объединяет множество разных сетей, миллионы компьютеров, около 300 миллионов пользователей со всех континентов, число которых постоянно увеличивается.

Можно выделить два основных направления использования Интернета: оперативный доступ к огромному массиву информации по любой тематике и интерактивное общение с партнерами, независимое от их географического положения.

В связи с необозримым количеством информации, в Web, обеспечение поиска в Интернете становиться критически важной задачей. Найти в Web нужную информацию без соответствующих поисковых средств является практически неразрешимой задачей.

Субъективно понимаемая цель информационного поиска - найти все пертинентные и только пертинентные документы (найти "только то, что надо, и ничего больше"). Где под термином пертинентный подразумевается - подходящий по сути, относящийся к делу.

Эта цель - недостижима. Человек в большинстве случаев в состоянии оценить пертинентность документа только в сравнении с другими документами. Для того чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов. Эти документы называются шумом. Слишком большой шум затрудняет выделение пертинентных документов, слишком малый - не даёт уверенности в том, что найдено достаточное количество пертинентных документов.

Когда документов много, для поиска документов используется информационно-поисковая система (ИПС). В этом случае информационная потребность должна быть выражена в виде фразы (запроса) на специальном информационно-поисковом языке (ИПЯ).

Степень соответствия документа запросу называется релевантностью. Релевантный документ может оказаться непертинентным и наоборот.

Существуют два основных подхода к поиску информации. Первый заключается в использовании специальных тематических каталогов, а второй - поисковых машин (search engine), основанных на индексе. Наиболее продуктивной схемой поиска является комплексное использование этих двух базовых подходов. Поэтому современные поисковые системы предоставляют пользователям возможность использования обоих подходов.

Классификационные ИПС

В основе составления тематических каталогов лежит принцип классификации, то есть распределения документов (или целых сайтов) по иерархии тематических рубрик (классификатору).

Каталоги могут содержать рефераты документов и краткие описания сайтов. Количество классифицированных документов ничтожно мало по сравнению с их общим количеством в Web, поэтому каталоги не могут дать исчерпывающих сведений по определённой тематике. Небольшие размеры и созданная людьми система упорядочения материала делают их особенно пригодными для быстрого нахождения качественной информации. В данном случае делается ставка именно на качество информации, а не на её количество.

Классическим примером классификационной ИПС является тематический каталог Yahoo!

.com/

Сейчас в Yahoo! Он представляет собой огромную базу данных URL-адресов сайтов самой различной тематики. Yahoo! предлагает пользователям воспользоваться иерархическим деревом при поиске информации. Т.е. пользователь выбирает сначала общую тематику и далее конкретизирует, следуя подсказкам каталога. В конечном результате он получает список сайтов, содержащих информацию, соответствующую его запросу.

Наиболее известные русскоязычные каталоги:

- первый российский каталог «Russia on the Net» u>

- Российский вариант Yahoo! ссылка скрыта

- Рамблер u/

- List.ru ru/

Недостатки классификационных ИПС:

1. Не могут дать исчерпывающих сведений по определённой тематике.

2. Осуществляя поиск необходимо взаимодействовать с культурами разработчиков классификатора и систематизаторов.

Достоинства классификационных ИПС:

1. Быстрый поиск сведений по определённой достаточно популярной и крупной теме.

2. Содержат качественную информацию.

3. Содержат сравнительно небольшое количество документов, что позволяет пользователю ориентироваться в них.

Yahoo

1.Процедура поиска информации по дереву разделов.

На первой же странице Yahoo пользователь получает доступ к двум основным методам работы с каталогом: поиску по ключевым словам и иерархическому дереву разделов (категорий).
Начав спуск по разделам каталога, можно увидеть, что каждый раздел содержит точно такое же поле для ввода ключевых слов и кнопку Search, запускающую поиск, а также стандартную панель заголовка.
Значки с надписями на панели заголовка приглашают познакомиться с новыми, недавно появившимися в каталоге ссылками ("New"), с собранием страниц, которые пришлись составителям каталога особенно по душе ("Cool") и др. Между панелью управления и строкой поиска обычно размещается реклама.
Каждый раздел может включать в себя как перечисление входящих в него подразделов (они расположены сразу после строки поиска, иногда в две колонки), так и собственно ссылки на страницы, относящиеся сразу ко всему разделу, с их краткими описаниями.
URL-адреса страниц и разделов самого каталога составляются из адреса первой страницы Yahoo и названий подразделов, по которым пользователь спускается вниз (пробелы в названиях страниц заменяются на символы подчеркивания). Например, если на главной странице Yahoo выбрать раздел "Computers and Internet", а в нем раздел "Internet", то страница, которая появится, будет иметь URL .com/Computers_and_ Internet/Internet.
В списках подразделов, рядом с их названиями, выделенными жирным шрифтом, можно увидеть одно из следующих обозначений:
- число в скобках сообщает, сколько ссылок содержит этот подраздел.

- символ "@" означает, что этот подраздел помещен в данный раздел "по совместительству", а его "основное место работы" в другом разделе каталога.

- надпись "NEW!" рядом со ссылкой на раздел означает, что в этом разделе за последние три дня появились новые ссылки или подразделы (если та же надпись стоит рядом со ссылкой на страницу, то эта ссылка была добавлена в каталог в течение последней недели);
- “очки” отмечают те ссылки и разделы, которые, по мнению специалистов Yahoo, следует посетить в первую очередь.

2. Процедура поиска информации по ключевым словам.

Введя одно или несколько ключевых слов, разделенных пробелами, в строку поиска и нажав кнопку Search, можно получить список всего в Yahoo, что содержит в себе указанные пользователем ключевые слова. Этот список будет разделен на две части - categories “разделы” и sites “страницы”.
Если общее количество ссылок, возвращенных в результате поиска, превышает 25, список ссылок будет разбит на несколько частей, и в конце каждой части будет надпись Next 25 matches “следующие 25 ссылок”. Щелчок по этой надписи загрузит следующую порцию результатов (если необходимо получать за раз больше ссылок, то следует обратиться к странице опций поиска).
При поиске текст описания каждой ссылки рассматривается вместе с полным названием раздела, в который эта ссылка входит. Автоматическим поиском можно воспользоваться не только с главной страницы Yahoo, но и из любого подраздела; при этом специальный переключатель, расположенный под полем ввода ключевых слов, позволяет либо ограничить поиск текущим разделом и его подразделами, либо искать во всем каталоге.
Щелкнув по надписи Options справа от кнопки Search, можно с помощью специального бланка установить некоторые дополнительные параметры для своего запроса.
Прежде всего необходимо определить, нужны ли ссылки, содержащие все введенные ключевые слова (“логическое И”) или хотя бы одно из них (“логическое ИЛИ”). Целью большинства запросов является поиск минимального количества ссылок, среди которых будут нужные. В этом случае режим логического И, при котором каждое дополнительное ключевое слово уменьшает общее количество результатов, более полезен на практике (поэтому он и стоит по умолчанию)

Словарная ИПС

Основная идея словарной ИПС - создать словарь (индекс) из слов, встречающихся в документах Интернет, в котором каждому слову будет соответствовать список документов, его содержащих. Если поиск слов в таком словаре выполняется быстро, то можно отказаться от дорогих услуг разработчиков классификаторов и систематизаторов.

Большинство из слов естественных языков употребляется крайне редко. Основную же часть нашей речи составляют предлоги, междометия, предлоги, артикли и т.д. Поэтому даже словарь самой крупной словарной ИПС Интернет будет составлять не более нескольких Гбайт.

Поскольку слова в словаре упорядочены, поиск осуществляется без последовательного просмотра и достаточно быстро. Наличие списков документов, в которых встречается искомое слово позволяет выполнять с ними различные операции: их слияние, пересечение и вычитание.

Словарные ИПС имеют 3 логических оператора И, ИЛИ, И-НЕ. По приоритету И-НЕ, И, ИЛИ.

В некоторых поисковых системах можно использовать скобки.

Каждая ИПС имеет свой собственный ИПЯ, на котором необходимо формулировать поисковые запросы к ней. Поэтому для того, чтобы осуществлять полнофункциональный

поиск с использованием нескольких ИПС пользователю придётся изучить несколько ИПЯ. ИПЯ разных ИПС хотя и различаются, но в большинстве своём несильно и уже предпринимаются попытки создания стандарта на ИПЯ.

Самая популярная в мире поисковая машина AltaVista http://www.altavista.com/ содержит 11 миллиардов слов, извлеченных из 30 миллионов Web-страниц. Но Altavista не очень подходит для поиска в русскоязычном Интернете, т.к. индексирует в основном англоязычную его часть.

К ведущим российским словарным ИПС относятся: Яndex (/) , Рамблер (www.rambler.ru) , Апорт (.ru/)

Наиболее развитый сервис поиска русскоязычной информации предоставляет сервер Яndex. В ней пользователь может просто написать по-русски фразу, описывающую то, что он хочет найти. Система самостоятельно проанализирует и обработает его запрос, а затем постарается найти все, что относится к заданной теме. Ну а в том случае, если нужных документов не обнаружится, можно продолжить поиск через AltaVista, куда автоматически передается уже обработанный системой запрос. Но до передачи запроса AltavVista вряд ли дойдет, так как база Яndex содержит порядка 2 000 000 документов и постоянно обновляется. Проблема больше состоит в том, что поисковая машина в результате вашего запроса генерирует гигантский список адресов URL с короткими описаниями. Яndex позволяет конкретизировать запрос пользователя для сокращения этого списка до разумных пределов. Он может на запрос либо набрать фразу по аналогии с предыдущими системами, либо, используя, специальные операторы, составить строку, поясняющую Яndex, каким требованиям должна отвечать, интересующая его информация.

Большие объёмы баз данных делают словарные ИПС особенно полезными для исчерпывающих поисков, сложных запросов или для локализации неясной информации. Это достоинство, однако, становится западнёй, когда производится быстрый поиск. Большинство таких систем облегчает восприятие чрезмерного количества информации, упорядочивая результаты поиска так, чтобы ссылки с наиболее высоким уровнем соответствия запросу располагались выше.

Недостатки:

1. Сложность ИПЯ

2. Большое количество документов в отчёте

Достоинства:

1. Широкий охват web-ресурсов;

2. Не требуется дорогой ручной труд разработчиков классификатора и систематизаторов.

Системы мета поиска

Пользователю часто бывает недостаточно провести поиск с помощью единственной ИПС, и поэтому ему приходится повторять тот же самый запрос для нескольких ИПС. Для выполнения этой рутинной работы и предназначены системы метапоиска. Метапоисковые системы знают расположение поддерживаемых ИПС, их ИПЯ, умеют выполнять преобразование поискового запроса со своего ИПЯ на их ИПЯ и интерпретировать результаты, полученные от них. Интересно, что метапоисковые системы также могут обращаться к метапоисковым системам

Наиболее популярная в мире система такого класса Search.com (http://www.search.com/), но если пользователь работает преимущественно с русскоязычными документами, то можно использовать Savvy Search (http://guaraldi.cs.colostate.edu:2000/form?lang=russian).

Это достаточно мощная система отсылающая запросы на 13 крупнейших поисковых машин (в том числе и российских) и возвращающая пользователю их отчеты. Система Web Town (ссылка скрыта) осуществляет поиск не только через системы поиска в Web (Rambler, Яndex, Апорт, Ау, Russia on the Net, AltaVista, InfoSeek, Lycos, NetFind, HotBot, WebSitez, Yahoo) но и по следующим категориям: софт, FTP, XXX-сайты, рефераты, игры, мультимедиа, персоналии, бизнес, и др.

Следует отметить также и английскую систему MetaCrawler (.ru/projects/InterSearch/www.metacrawler.com/), которая запускает девять автономных поисковых систем одновременно (Alta Vista, Yahoo! и др.). Можно сортировать информацию по территориальной близости, по близости к определённому узлу, по отношению к компании и т.д. Два режима поиска: быстрый и тщательный. Возможен поиск страниц на русском языке.

Российская система мета поиска "Следопыт" (lingua.ru/www/Wwwsearc.htm) работает только с пятью англоязычными поисковыми машинами (AltaVista, Euroseek, Excite, HotBot, WebCrawler) и одной русскоязычной (Апорт), но интересна тем, что для англоязычных поисковых машин переводит русскоязычный запрос на английский язык.

Можно сказать, что единой оптимальной схемы поиска в Интернет не существует. В зависимости от специфики необходимой информации, для её поиска должноиспользовать соответствующие поисковые службы. В принципе, конечно, можно всегда пользоваться какой-нибудь одной поисковой системой, но чем грамотнее подобраны поисковые службы и составлен запрос на поиск информации, тем качественнее будут результаты поиска.