Автоматизированная информационная система сбора и анализа статистики посещаемости сайта

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование

?те. Всегда надо помнить, что конкурент находится не далее щелчка мышью. Это означает, что клиент встретив затруднение в виде заполнения анкеты, без труда уйдет туда, где он сможет получить ту же информацию меньшим трудом.

На многих сайтах размещают блиц-опросы на главных страницах сайта. Практика показывает, что большой пользы от этого нет. Выборка в виде пяти ответивших из ста возможных вряд ли будет являться серьезным аргументом для принятия решения о свойствах аудитории. Существует практика, когда ответ на опрос сопровождается вознаграждением. Это намного более действенный способ, обычно достигающий поставленной цели. [3]

Способы ведения статистики сайта.

Посетители сайта делятся на две большие категории: пользователи и поисковые роботы.

Пользователи это люди, которые посещают сайт с помощью браузеров. Пользователи обычно скачивают страницы целиком, смотрят картинки, используют JavaScript. Это самые дорогие клиенты. Про них нужно знать все.

Поисковые роботы (просто роботы или краулеры от crawler), это бездушные программы, выполняющие задачи поисковых машин и каталогов. Роботы обходят все сайты с целью обновить поисковый индекс - они скачивают страницы сайта, индексируют и именно благодаря посещениям роботов сайт можно найти, например в Google.

Особенностью роботов является их нелюбовь к картинкам, которые не нужны им для поискового индекса и роботы картинки не скачивают.

Существуюет всего три способа сбора данных о посетителях сайта:

-лог-файлы веб-сервера;

-накопление данных в локальной базе данных;

-накопление данных на стороннем сервере статистики.

Накопление данных на стороннем сервере статистики.

Начнем с последнего способа - установка счетчика от стороннего сервера-статистики. Тут ключевыми являются два слова - "счетчик" и "сторонний". "Сторонний" - это значит: вся информация будет храниться на удаленном сервере (возникают вопросы безопасности); точность статистики будет зависеть от надежности каналов связи и программного обеспечения стороннего сервера. "Счетчик" - это значит, на сервер, где располагается сайт, ставится html-код, который вызывает картинку, расположенную на другом сервере. Картинку, а это значит, что такой категории посетителей как роботы мы уже автоматически лишаемся!

Итак, использование стороннего сервера статистики может быть полезно только:

-для участия в рейтинге сайтов похожих тематик (привлечение людей, смотрящих рейтинг);

-отсутствия возможности установить свою систему сбора и анализа статистики сайта.

Важное примечание. Некоторые сервера статистики пытаются заменить картинку на различного вида include. Это хорошая тенденция, однако, подходить к этому надо крайне осторожно - сервер то сторонний! Это значит, что малейший сбой в работе стороннего сервера повлечет за собой неработоспособность вашего.

Лог-файлы веб-сервера.

Тут надо исходить из следующего - лог-файлы никогда лишними не бывают. Вообще говоря, это единственный правильный способ для хранения данных о посещениях сайта длительное время (год и более). Однако, лог-файл это не статистика сайта, а только исходные данные. Для анализа этих файлов требуется программа. А вот с программами для анализа лог-файлов следует разобраться подробнее. Вообще, их два типа:

-программы, которые выполняются на веб-сервере, где расположен сайт;

-программы, которые требуют перекачку лог-файла на Windows компьютер, и там они анализируются.

Недостаток у этих программ общий - невозможность оперативного контроля за работой сайта. Всегда анализируется вчерашний день!

Перекачивать файлы для анализа на Windows компьютер, особенно при больших объемах сложно и невыгодно.

Удачным выглядит вариант, настройки ротации логов на сервере в зависимости от желаемого периода хранения и текущих объемов, а затем использования бесплатного анализатора логов на стороне сервера. Бесплатный анализатор должен: работать быстро, уметь ставить временные периоды анализа, осуществлять поиск по условию. Этого достаточно, больше не нужно!

Вообще не надо стремиться хранить все и за все время! Практика показывает, что логи просто занимают место на носителях. Там много "лишней" информации, например, зачем знать про скачивания всех картинок составляющих дизайн сайта? 30-60 дней хранения подробной информации достаточно в 99.999% случаев.

Итак, лог-файл следует использовать в том случае, когда необходимо хранить все данные о запросах за все время работы сайта;

Накопление данных в локальной базе данных.

Это единственный способ, позволяющий надежно учитывать и роботов и людей, а также оперативно контролировать и анализировать их работу - буквально в момент совершения действий. Моментальный доступ к любым данным по посещениям, которые хранятся в базе.

Кажущийся тонкий момент - производительность базы и повышенная сложность содержания. Однако достаточно один раз настроить систему, и она будет работать и работать. А производительности баз данных хватает - если сайт работает с этой базой данных, значит, будет работать и статистика, как часть сайта.

Итак, накопление данных в локальной БД это очень привлекательный способ для:

-коммерческих сайтов, где важен оперативный контроль за посетителями;

-для новых сайтов начинающих свою раскрутку;

-для небольших и средних (до 10 000 уникальных хостов в сутки) сайтов использующих БД в работе своего ядра. [4]

 

1.