Общая характеристика работы

Вид материалаЗакон
5.1.1 Анализ сложных запросов
5.1.2 Составление запросов
Заключение Основные результаты работы
Подобный материал:
1   2   3   4   5   6   7   8   9

5.1.1 Анализ сложных запросов


Пример1.Общий запрос на тему бокса не совсем релевантен:

(бокс|боксер|боксерский)

Очевидно, что по результатам поиска будет найдено довольно много документов в том числе и не относящихся к спорту.

Улучшим запрос:отсечем анекдоты, собак, чехлы для техники, душевые, больничную тему.

Запрос

(бокс|боксер|боксерский)~~ (анекдот|собака|больничный|медицинский|душевая|чехол)

выдаст более релевантные документы. После нескольких проверок запрос можно улучшить еще.


Пример 2.

Нужно найти резюме жителей Минска со знанием итальянского языка, имеющих опыт работы с Windows, Vba. При этом уровень знания итальянского языка имеет первостепенное значение.


Строим запрос 


$title(резюме) && +(минск | !375) && +итальянский && +vba && +windows


При переводе на русский язык это означает «В заголовке должно быть слово «резюме», а в пределах одного документа – слова: «минск» (или код города 375), «итальянский», «vba», «windows» в точной словоформе»

ПС так выбирает слова для аннотации результатов поиска, что слово «итальянский» попадает в них редко — придется открывать все страницы.

Или слово «итальянский» играет второстепенное значение, так что смысл документов не соответствует запросу.

Переформулируем:можно воспользоваться оператором <<:


+французский << ($title(резюме) && +(москва | !495) && +linux && +windows)


Теперь слово «итальянский» будет иметь первостепенное значение для ранжирования, но при этом остальные слова тоже играют роль в результатах поиска.


Пример3

Найти описание алоэ,но чтоб не сталкиваться с прайс-листами Интернет-магазинов:

алоэ << (лечение|лечебный|болезни) ~~ (цена|прайс|рубль|доллар|фирма|магазин)


Будут найдены все страницы, где есть слово алоэ, а также любое из слов лечение, лечебный или болезни, и нет ни одного из слов, перечисленных после оператора ~~.

5.1.2 Составление запросов


Следующие задания взяты с Кубок.Яндекса 2000 года. Идея кубка состоит в том, что пользователи соревнуются в поиске в интернете ответов на заданные вопросы. Соревнование проводится между людьми, владеющими одним и тем же языком (группой языков). Участники могут пользоваться любыми поисковыми машинами или каталогами. Цель - максимально быстро выдать ответ на заданный вопрос.

Пример 4.

Как расшифровывается V.S.O.P на коньячной этикетке?

Запрос следует составить следующим образом: "V S O P коньяк сокращение", т.к. без последнего слова в большом количестве появятся ссылки на торговцев спиртными напитками. К тому же V.S.O.P. - это сокращение. Получено, однако, 2 ответа: Very Special Old Pale и Very Superior Old Pale.


Пример 5

Сколько стоил проезд в метро в феврале 95 года?

Для наиболее быстрого получения ответа был задан следующий запрос:

проезд метро стоимость 1995

Результат:600 рублей. Ответ находится в первой ссылке, выданной Яндексом


Пример 6

Сколько лет было жене Рубенса, когда Рубенс умер?

Сформулировав запрос: Рубенс жена биография можно получить много ссылок, дающих информацию не о художнике а о гонщике формулы 1 Барикелло Рубенсе.К тому же во многих текстах его называют еще и «Баррикелло».

Поэтому необходимо отсечь ненужные варианты, использовав запрос: Рубенс жена биография – Барикелло – Баррикелло.

Выйдя на страницу с биографией художника, определяем, что Рубенс женился на 16-летней Елене Фоурмен в 1630 году, а умер в 1640.


Пример 7

Hа каком этаже в Эрмитаже висят картины импрессионистов?

Запрос:Эрмитаж импрессионисты этаж

Результат: Получаем ссылки, в описаниях которых уже видно, что этаж третий.


Пример 8

Как называется денежная единица Hикарагуа?

Лучше будет искать страницу с общими сведениями о стране: "Hикарагуа валюта население площадь". Задав в яндексе, получим на первых страницах ответ: "кордоба" .


Пример 9

В какой группе в 1968 году играл Андрей Макаревич?

Поисковые системы индексируют числа. Следовательно, запрос можно сформулировать так: "Андрей Макаревич 1968 биография". На что получен результат The Kids


Пример 10

Как называлась и сколько весила атомная бомба, сброшенная на Хиросиму?

Учитывая, что требуется довольно конкретная информация, составим запрос так: +хиросима атомная бомба масса

ответ: "Малыш", 4080 кг.


Пример 11

Как назывались районы в японских городах, где жили гейши?

Запрос:Гейши район назывался

Результат: Ханамати - «цветочные улицы»


Пример 12

Когда в советской армии была введена практика выдачи военнослужащим по 100 грамм водки на человека в сутки?

Очевидно, что необходимо чтоб в запросе присутствовали слова 100 грамм и военнослужащие .Запрос:100 грамм водки военнослужащий

Результат:1 сентября 1945 года


Пример 13

Как называется душевное состояние, при котором человек боится всего?

Следует применить немного фантазии.Запрос формулируем так: +боязнь +всего психическая +болезнь

Ответ: Панафобия


Пример 14

Сколько литров воды вмещается в мешочек под клювом пеликана?

Запрос: мешочек клюв пеликана вмещается

Ответ:12 литров


Пример 15

В каком году Чарлз Лютвидж Додгсон (Доджсон) стал Льюисом Кэрролом?

Очевидно, что необходимо обязательно использовать в запросе имена собственные.

Запрос: Льюис Кэррол Чарльз Лютвидж Доджсон стал

Результат: Получены страницы, содержащие биографии писателя, перейдя по первой ссылке и нажав ctrl + F, узнаем ответ - в 1865 году


Пример 16

Когда Томас Эдисон впервые продемонстрировал электрическую лампочку?

Запрос : Эдисон впервые продемонстрировал электрическая лампочка

Результат:31 декабря 1879 года


Пример 17

К какому семейству приматов относится человек?

Если понять, где может содержаться ответ на этот вопрос, то все просто: "человек примат +семейство".Желательно перед «семейство» поставить плюс,т.к. употребление этого слова обязательно.

Получим ответ: Гоминиды.


Пример 18

Когда отмечается день независимости Зимбабве?

Задав вопрос "+Зимбабве день независимости", получим хорошие ссылки.

Ответ.18 апреля.


Пример 19

Кто был руководителем иностранных дел в России с 1648 по 1653 гг?

Запрос: иностранные дела России +1648 +1653

Волошенинов Михаил Дмитриевич - думный дьяк


Пример 20

Сколько куполов на соборе Василия Блаженного на Красной площади?

Запрос: собор Василия Блаженного !куполов

Ответов однако найдено 2: 11 и 10.


Пример 21

В каком году был издан первый перевод Библии на русский язык?

Запрос: первый перевод Библии на русский язык год

Ответ: В 1876 году


Пример 22

Назовите адрес кинотеатра "Октябрь" в городе Ярославле?

Очевидно, что слово адрес необязательно задавать в запросе,в то время как кинотеатр «октябрь» и Ярославль обязательно. Следовательно: кинотеатр «Октябрь» Ярославль.

Результат: в первой ссылке получаем улица Блюхера, 46а.


Пример 23

Каково среднее имя Джорджа Буша-младшего?

Заметим, что нецелесообразно задавать поисковику «среднее имя Джорджа Буша-младшего», лучше будет «Полное имя Джорджа Буша-младшего»

Результат: Уокер


Пример 24

В каком году в период с 1897 по 2003 года в г. Сыктывкаре была зарегистрирована самая высокая численность населения?

Запрос: Сыктывкар численность населения 1897 2003

Результат: ответ получен только в 7й ссылке.1989 год.

Пример 25

Чем выложены ступени к наиболее известному вулкану Ма Ань на втором по величине острове Китая?

Запрос: После усечения стоп-слов и слов, не имеющих особой смысловой нагрузки получаем «ступени вулкана Ма Ань»

Результат: магма.1я ссылка

Пример 26

В каком месяце года начинается действие фантастической повести В. Хлумова “Прелесть”?

Запрос: Хлумов +”Прелесть”

Результат: на 3й ссылке получаем текст повести, где в первом предложение находим Сентябрь.

Пример 27

Кто переводил Омара Хайяма на русский язык пятистопным анапестом?

Запрос: Омар Хайям пятистопный анапест

Результат: А.В. Старостин

Пример 28

Под каким псевдонимом опубликовал фантастический роман лауреат Нобелевской премии по физике?

Запрос: Формулируя запрос различными способами ответа в яндексе найдено не было,по крайней мере на первых 10 страницах,однако после того как такой же запрос был задан в Google ,ответ был выдан на первой же странице.

«лауреат Нобелевской премии по физике фантастический роман»

Результат: Улоф Иоханнессон

Пример 29

Каково имя третьей дочери первого президента Тувы?

Запрос: «семья первый президент республики Тыва»

Результат: Ооржак Анета Шериг-ооловна

Пример 30

Сколько невест было выдано замуж в Ивановской области в 2001 году?

Запрос: Следует применить немного логики. Ответ на этот вопрос скорее всего будет находиться в официальной статистике, а замужество на официальном языке это брак, следовательно «Брак Ивановская область 2001»

Результат: Получена ссылка, в которой говорится о количестве зарегистрированных браков на 2003 год и процент от 2001.Путем математических операций вычисляем 7066.

Заключение

Основные результаты работы


В данной работе были рассмотрены основные технологии поиска информации в Интернет и представлены в общих чертах поисковые инструменты, которые существуют на данный момент в Интернете, а также структура поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.


Рекомендации по практическому использованию результатов

Применив полученные навыки по поиску информации в Интернет на практике, были получены результаты, на основе которых можно сделать следующие выводы:
  • прежде, чем начать поиск необходимой информации через определенную поисковую систему следует внимательно изучить соответствующий язык запросов;
  • как видно из проведенного эксперимента для эффективного поиска информации в web-пространстве через поисковую систему наиболее часто употребляются лишь основные операторы ИПЯ такие как + (обязательное наличие слова), ~~ (отсечение слова), | (использование синонимов) и некоторые другие;
  • для быстрого получения наиболее релевантных результатов в некоторых случаях недостаточно использования ИПЯ и синонимов, а необходимо полное перефразирование запроса и даже применение фантазии, смекалки и общих знаний.

А также, исходя из полученных знаний, можно дать общие рекомендации по эффективному поиску в Интернет:
    • Начинайте поиск с наиболее известных и мощных поисковых серверов.
    • Внимательно прочтите инструкцию (help, FAQ) по выбранной поисковой системе.
    • Выделяйте ключевые слова для поиска, наиболее точно отражающие интересующую Вас проблематику.
    • Сформулируйте ваш запрос по возможности точнее.
    • Проверьте правильность написания ключевых слов.
    • Используйте синонимы.
    • Используйте опцию "расширенного поиска" (Advanced Search).
    • Постарайтесь локализовать поиск
    • Старайтесь сами определить наиболее вероятный узел, где хранится искомый документ или файл.


Подводя итог вышесказанному, можно отметить, что единой оптимальной схемы поиска информации в Интернет не существует. В зависимости от специфики нужной пользователю информации, он может использовать соответствующие поисковые инструменты и службы. А от того, как грамотно будут подобраны поисковые службы, зависит качество результатов поиска.




Список использованных источников
  1. Байков В., Интернет: поиск информации и продвижение сайтов, М., 2000
  2. Браун М., Методы поиска информации в Интернет. - М.: Новый издательский дом ,2005
  3. Брезгунова И.В., Интернет-технологии для пользователя. — Ч. 1: Работа с основными ресурсами Интернета: Учеб. пособие: В 2 ч, М., 2000
  4. Гилстер П., Навигатор Internet. М., 1995
  5. Гультяев А., Поиск в Интернете, М., 2004
  6. Гусев В.С., Google: эффективный поиск. Краткое руководство. – М.:«Вильямс», 2006.
  7. Гутовская Г.В., Поиск информации в Интернет: Метод. рекомендации / Учреждение образования "Гродн. обл. ин-т повышения квалификации и переподгот. руководящих работников и специалистов образования"; 2002
  8. Дудихин В.В., Дудихина О.В., Конкурентная разведка в Интернет. – М.: ООО «Изд-во АСТ»: изд-во «НТ Пресс», 2004.
  9. Коцюбинский А.О. Современный самоучитель работы в сети Интернет. Быстрый старт: Практ. Пособие, М., 1999
  10. Ландэ Д.В., Поиск знаний в INTERNET. Профессиональная работа.: Пер. с англ. – М.: «Вильямс», 2005.
  11. Пайк М., Internet . СПб., 1996.
  12. Поиск информации в Internet: Практ. пособие: Для студентов всех специальностей дневного и заоч. отд-ний / Н.В.Самовендюк, Т.А.Трохова; Учреждение образования "Гомел. гос. техн. ун-т им. П.О.Сухого", Каф. "Информ. технологии" 2005
  13. Энциклопедия Интернет, СПб, 2001


Ресурсы Интернет:

ссылка скрыта

ссылка скрыта

ссылка скрыта

ссылка скрыта

Язык запросов. Как искать? Помощь Яндекса.

Google Всё о Google

Alta vista help, about altavista


Приложение


Стратегия поиска

Итак, мы знаем, как система выделяет ключевые слова. Воспользуемся этим знанием, чтобы сформировать оптимальный запрос. Прежде всего, оговорим некоторые исходные предпосылки. Допустим, мы имеем некий текст-источник и хотим найти в сети Интернет документы схожего содержания. Откуда возьмется текст-источник? Поскольку сама задача поиска не могла возникнуть из ничего, где-то непременно должна существовать информация, возбудившая интерес к проблеме. Может быть, это журнальная статья, книга, веб-страница и т.п. Именно эту информацию и нужно упорядочить и привести в форму, удобную для анализа. Если задача существует только у вас в голове, попробуйте написать небольшое сочинение, изложив свое видение проблемы, -- оно и станет текстом-источником. Если бы нам удалось препарировать текст-источник так же, как это делает поисковая машина, по идее, мы могли бы получить результаты с максимально высокой релевантностью. Попробуем. Возьмем текст-источник и проанализируем его. Для автоматизации процесса можно заглянуть на интерактивную страничку ссылка скрыта.Когда текст-источник -- страница в журнале, анализ придется сделать вручную.

Последовательность действий такова:
  1. Подбираем текст-источник. Чем четче описание проблемы в тексте-источнике, тем качественнее и точнее окажется результат. Размытый и путаный текст-источник выудит из поисковой системы столь же бестолковые документы.
  2. Удаляем из текста стоп-слова (их можно просто вычеркивать).
  3. Вычисляем частоту вхождения каждого термина. Причем делаем это без учета морфологии слов. Так, слова стол и столы будут разными терминами. Не нужно учитывать и регистр, все буквы считаем строчными.
  4. Выписываем на отдельный лист термины в порядке убывания их частоты вхождения (первыми должны идти те, которые встречаются чаще).
  5. Выбираем диапазон частот. Он должен лежать где-нибудь посередине. Не нужно брать слишком часто или, наоборот, слишком редко встречающиеся термины. Выбор диапазона субъективен. Вам следует ориентироваться на конкретный смысл текста. Необходимость выбирать диапазон вручную не должна смущать, ведь теперь вы выбираете термины не из текста, а из построенного по определенному закону упорядоченного списка.
  6. Из выбранного диапазона выписываем термины. В большом тексте в диапазоне может оказаться довольно много слов. Все их применить вряд ли удастся. Достаточно взять 10-20 терминов. Их следует выбирать, руководствуясь, в первую очередь, здравым смыслом. Причем не стоит ограничиваться только характерными терминами, даже если они кажутся наиболее удачными. В список должны попасть и общие слова (их лучше выбирать из средней части диапазона).
  7. Составляем запрос, располагая отобранные слова в порядке их следования в списке терминов. Запрос должен пониматься машиной как слова, связанные логическим оператором ИЛИ. Это очень важное требование. Чтобы результат не исказился, следует изучить особенности синтаксиса запросов конкретной поисковой системы.
  8. Отправляем запрос поисковой системе.

В ответ вы можете получить несколько миллионов ссылок. Но не пугайтесь. Если поисковая машина ранжирует результаты (а это еще одно необходимое условие), на первых страницах окажутся практически стопроцентно релевантные документы. Самое любопытное, что документ -- источник запроса (если его аналог существует в Интернете) вовсе не обязательно будет возглавлять список.