Общая характеристика работы

Вид материалаЗакон

Содержание


Общая характеристика работы
1 Теория поиска информации
1.1 Как работают поисковые машины
Search Engine Results Engine
Алгоритмом поиска
1.2 Алгоритмы поиска. Законы Зипфа
Вероятность = Частота вхождения слова / Число слов
С = (Частота вхождения слова * Ранг частоты) / Число слов
1.3 Как поисковые машины могут использовать законы Зипфа?
Инверсная частота термина i = log (количество документов в базе данных / количество документов с термином i).
2.Представление базы данных
2.1 Матричное представление базы данных
2.2 Пространственно-векторная модель ПС
Коэф.полноты поиска
Коэф.точности поиска = Количество релевантных документов/Общее количество документов в ответе ПС на запрос
3 Основные аспекты поиска информации
3.1 Этапы поисковой процедуры
1.Формирование потребности в информации.
2. Формирование запроса.
3. Поиск нужной информации.
...
Полное содержание
Подобный материал:
  1   2   3   4   5   6   7   8   9

Оглавление



Введение

Общая характеристика работы

1.Теория поиска информации

1.1 Как работают поисковые машины

1.2 Алгоритмы поиска. Законы Зипфа

1.3 Как поисковые машины могут использовать законы Зипфа

2.Представление базы данных

2.1 Матричное представление базы данных

2.2 Пространственно-векторная модель поисковой системы(ПС)

2.3 Полнота и точность поиска

3 Основные аспекты поиска информации

3.1 Этапы поисковой процедуры

3.2 Информационно-поисковый язык

4 Поисковые системы

4.1 Какая из поисковых машин лучше

4.2 Обзор основных поисковых систем

4.2.1 Google и его поисковые серверы

4.2.2 Яндекс и его поисковые серверы

4.2.3 Alta Vista и его поисковые серверы

4.2.4 Метапоисковые системы

4.2.5 Система поиска в конференциях Usenet News

4.2.6 Скрытый веб

5.Практическая часть

5.1 Сложные запросы в Яндекс

5.1.1 Анализ сложных запросов

5.1.2 Составление запросов

Заключение

Основные результаты работы

Рекомендации по практическому использованию результатов

Список использованных источников

Введение



Наверное, у каждого, кто в первый раз выходил в мировую Сеть, дух захватывало от обилия возможностей и самой разнообразной информации. Все было безумно интересно и хотелось бродить по просторам Интернета часами. Потом эффект новизны проходит и мы начинаем относиться к нему как к средству зарабатывания денег, поиска информации или способу связи. И вот уже это средство не кажется нам таким чудесным. Да, действительно, чаще там можно найти интересующую информацию, но для этого приходится часами перебирать разнообразные файлы, и в какой-то момент осознаешь, что в поисках не всегда критично важной информации тратится самый важный наш ресурс время. Особенно дорог этот ресурс у высокооплачиваемых специалистов (поиск-то ведется в рабочее время) и у бизнесменов (пока вы теряете время на поиск, конкуренты наступают).

С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает. Для сравнения: объем информации библиотеки Конгресса США, где хранится 19 млн. книг и 56 млн. рукописей – содержит

около 10 терабайт информации, в то время как Интернет - 5000000 терабайт. Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается на 15-80% ежегодно. И, тем не менее, все чаще при обращении к Интернет основной проблемой оказывается не отсутствие искомой информации, а возможность ее найти. Как правило, обычный человек в силу разных обстоятельств не может или не хочет тратить на поиск нужного ему ответа больше 15-20 минут. Поэтому особенно актуально правильно и грамотно научиться, казалось бы, простой вещи – где и как искать, чтобы получать желаемые ответы.

Общая характеристика работы


В данном реферате раскрываются основные технологии поиска информации в Интернет, предоставляются общие черты поисковых инструментов, рассматриваются структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.

Задачами данной работы являются:
  • Изучить теорию поиска информации в Интернет
  • Сравнить основные поисковые системы в Интернет
  • Описать основной язык запросов большинства поисковых систем Интернет
  • Рассмотреть основные методики эффективного поиска в теории и на практике

1 Теория поиска информации


Большинство современных молодых людей имеют мобильные телефоны; подавляющее большинство из них не знает, как работает сеть мобильной связи. Поисковыми системами можно пользоваться так же, как мобильными телефонами — освоив нехитрые элементы управления ими, научившись нажимать нужные кнопочки. Для того чтобы уметь пользоваться поисковой машиной (или поисковой системой), не обязательно понимать, как она работает, и тем более знать ее внутреннее устройство.

Однако ситуация здесь примерно такая же, как с автомобилем: на нем можно ездить, умея лишь заправлять его, управлять им и зная правила дорожного движения. Но тот, кто хочет чувствовать себя за рулем уверенно и при необходимости самостоятельно устранять мелкие неисправности, должен знать устройство автомобиля, названия и принципы функционирования хотя бы важнейших узлов. Поэтому далее мы будем говорить об устройстве поисковых машин и основных терминах, которые приступающий к поиску информации в интернет пользователь должен знать так же хорошо, как автомобилист термины «карбюратор» и «зажигание».

Условно инструменты поиска подразделяются на поисковые средства справочного типа (directories) и поисковые системы в чистом виде (search engines). Первые подобны глобальным электронным справочникам, имеющим привычную логико-тематическую структуру, что позволяет ориентироваться в ресурсах Интернет в пределах отдельных отраслей знания. Вторые представляют собой системы, действующие по аналогии с традиционными базами данных, когда при вводе термина выдается перечень документов, содержащих искомое определение. Деление же это условно потому, что практически все средства справочного типа обладают некоторой возможностью непосредственного поиска, а многие поисковые системы снабжены небольшими справочниками.

Поисковые системы (search engines) распространены в гораздо большем количестве нежели электронные справочники и число их продолжает увеличиваться. Работа с ними требует серьезных навыков, поскольку простой ввод искомого термина в поисковую строку может привести к получению в ответ списка из сотен тысяч документов, содержащих данное понятие. Поисковые системы по существу представляют собою базы данных слов, полученных при периодическом сканировании виртуального информационного пространства. С помощью специальных компьютерных программ поисковые системы регулярно обследуют Интернет, выявляя все существующие, и, в особенности, новые и обновленные источники и удаляя сведения о вышедших из употребления. Этот колоссальный материал, с указанием ссылки на то где хранится каждое слово, содержится в виде гигантских индексных файлов, к которым и происходит обращение при конкретном запросе. Достоинства и недостатки поисковых систем складываются из нескольких важнейших характеристик. Принципиальным вопросом является то, насколько полно та или иная система обследует тексты, т.е. все ли слова заносятся в индексные файлы или же только термины из названий, заголовков, резюме, первых двух страниц текста и т.д. Важно также как часто происходит обновление данных, каким образом системы "взвешивают" понятия, определяя их соответствие данному запросу. Безусловно, не последнюю роль играет простота и информативность интерфейса, возможность использовать булевые операторы и операторы расстояния, дополнительные сервисные функции.