Учебно-методический комплекс дисциплины аналитика Интернет проектов Специальность

Вид материалаУчебно-методический комплекс

Содержание


1.2. Сбор данных
1.3. Базовые метрики
1.4. От статистики к аналитике
1.5. Сегментация. Разделяй и думай
Подобный материал:
1   2   3   4   5   6   7   8

1.2. Сбор данных

Перед тем, как анализировать данные статистики, нужно понимать, как они были собраны, какие из них могут быть неточными, и почему. Сервер в интернете получает от браузера пользователя запросы и отдает данные. На каждый просмотр страницы сервер получает один запрос (на тело страницы), а затем несколько дополнительных (картинки, скрипты, таблицы стилей и другие дополнительные данные для отображения страницы). Скрипты на странице также могут генерировать запросы к серверу — в том числе, к отдельному серверу статистики.

Веб-сервер связывает запросы одного и того же пользователя с помощью сессий. Когда к серверу обращается новый пользователь, он создает новый идентификатор сессии, который пользователь сообщает серверу при каждой новой загрузке страницы. Обычно идентификатор сессии передается на сервер из cookie — файла переменных, который браузер может сохранить для конкретного сайта. Что же сервер может узнать о пользователе?

Прежде всего, его ip-адрес. Он обычно используется лишь для одной цели: узнать регион, из которого пользователь выходит в интернет. Большинство провайдеров настроены таким образом, что у каждого пользователя адреса все время меняются. К тому же, многие выходят из сети с единственным внешним адресом. Таким образом, одинаковые адреса вовсе не говорят о том, что с них работает один и тот же пользователь, и наоборот.

Адрес страницы, которую посещает пользователь.

Адрес страницы, с которой пользователь перешел на текущую, или «реферер». Эти данные оказываются очень полезными. Если пользователь, например, пришел с поисковика, то в предыдущем адресе сохранен запрос, который он ввел в поисковик.

Точное время запроса.

“Позывные” браузера пользователя — его строку идентификации. По ней можно понять, какие браузеры популярны среди пользователей, а также отличить запрос от поискового робота.

Cookie — данные, которые сервер ранее “попросил” браузер запомнить. Cookie могут быть постоянными (сохраненными на определенный период времени) и сессионными (уничтожаемыми после закрытия браузера). Они содержат произвольные наборы переменных и значений.

Переменные, которые передает браузер.

Есть три основных вида систем статистики. Одна, “пассивная”, основана на анализе серверных логов — записей о запросах, совершенных на сервер. При каждом обращении пользователя к серверу тот пишет в журнал событий набор данных об этом запросе. Обычно такой журнал ведется сервером для своих нужд, поэтому лишней нагрузки из-за сбора статистики не возникает, и ни один запрос не остается неучтенным. Однако для того, чтобы получить все необходимые данные, стандартной конфигурации сервера недостаточно.

Второй тип систем сбора статистики добавляет на страницу, показываемую пользователем, дополнительный код, который осуществляет запрос к системе статистики. Когда интернет был еще молодой и браузеры были несовершенными, для этого использовались картинки: чтобы отобразить картинку на странице, браузеры делали запрос на сервер статистики. Этот сервер делал запись уже в свой журнал, а потом отображал картинку с цифрами — именно с тех пор пошла рунетовская традиция “вешать счетчики” размером 88х31. Этот способ почти всем хуже первого, и использовался только потому, что у владельцев сайтов не было доступа к журналам своего сервера. Когда браузеры повсеместно научились выполнять скрипты (мини-программы) " onclick="return false">
У внешнего счетчика на JS тоже есть недостатки:— с его помощью невозможно отследить закачки файлов с сайта, — он записывает лишь переходы на страницы, загруженные полностью (т.к. иначе код не успеет исполниться),— он требует современного браузера и разрешения на работу скриптов,— он не работает на мобильных браузерах (кроме Opera Mini и современных смартфонов),— чтобы записывать параметры внутренней “кухни”, вроде данных учетной записи пользователя, все эти данные нужно перегонять в код счетчика, что обычно небезопасно, трудно и в результате бессмысленно. Представьте себе, что речь идет о сайте знакомств, каждый из пользователей которого имеет анкету с кучей параметров. Чтобы проанализировать поведение пользователей с разными параметрами анкет, нужно связать анкеты с запросами.

В таких сложных случаях разработчики сайтов сами разрабатывают систему записи статистики, в которую добавляют все возможности, которые им нужны. Преимущества такой системы — ее бесконечная гибкость. Из этого вытекает и главный недостаток: необходимость писать для такой системы средства анализа данных вручную. Так что разработчики, нужды которых удовлетворяются готовыми системами, стараются пользоваться именно ими

Системы сбора статистики

 

Серверные логи

Внешняя статистика

Самописная статистика

Отслеживание сессий

— (достаточно сложно реализуемо)

+

+

Запись всех визитов

+

— (только браузеры со включенным JS и страницы, загруженные полностью)

+

Отслеживание закачиваемых файлов

+



+

Отслеживание поисковых и др. ботов

+



+

Связь визитов с внутренними данными сайта





+

Сравнение с данными других сайтов



+



Возможность отслеживания транзакций и воронки продаж



+

+

Отслеживание событий, не приводящих к запросам на сервер



+

+


Первое и самое важное, что нужно запомнить при работе со статистическими данными из интернета: точные и полные данные чаще всего добыть очень сложно. Будем уточнять неточности по мере перечисления метрик. Ключевым навыком аналитика является умение отличить важные ограничения от неважных.

Например, системы внешней статистики на основе " onclick="return false">
Общие ограничения систем сбора статистики:

Невозможно отследить, кто сидит за компьютером. Можно лишь различить браузеры.

Невозможно точно определить регион — лишь попробовать угадать на основе IP пользователя (хотя он может выходить в сеть через удаленный Proxy, VPN и т.д). Например, все пользователи мобильного интернета через Opera Mini записывались системами статистики в регион “Норвегия”, поскольку запросы проходили через адаптирующий сервер в этой стране.

Невозможно узнать пользователя, если он пришел с другого компьютера и не ввел пароль на сайт.

Невозможно определить, откуда пришел пользователь, если фаерволл фильтрует поле реферера, или же он нажал на ссылку в почте, аське, перепечатал ее из рекламы и т.д.

Невозможно определить, совершил ли пользователь транзакцию, если он решил на определенном этапе продолжить ее в оффлайне (позвонить в магазин, например). Эта проблема значительнее других влияет на грамотный расчет качества интернет-магазинов и требует дополнительных мер в оффлайне .

Стандартные, популярные системы чаще всего используют второй метод. Больше всего мы будем говорить о Google Analytics, и в следующей части курса рассмотрим основные метрики, доступные его пользователям.


1.3. Базовые метрики


Рассмотрим метрики — те величины, которые считает любая система статистики. Начнем с прямых метрик — тех, которые можно посчитать легко и без применения формул.

Просмотры страниц (Pageviews). Самый очевидный, простой и незатейливый счетчик считает количество загрузок тела страницы в браузер пользователя. Несмотря на его простоту, здесь уже есть несколько ограничений:

JS-счетчики посчитают загрузку только тогда, когда браузер пользователя позволяет выполнить " onclick="return false">
JS-счетчики не посчитают загрузку страниц поисковым роботом, индексирующим сайт. Анализаторы логов посчитают и такие заходы, но опять же могут не отличить их от заходов обычного пользователя.

Посетители (уникальные посетители, пользователи, охват, visitors, reach)

Система статистики анализирует все записанные ей просмотры страниц и пытается определить, какие из них были произведены из одного браузера. Суммируя количество разных браузеров за промежуток времени, она подсчитывает “число уникальных посетителей”, подразумевая, что одним браузером пользуется один пользователь.

JS-счетчики определяют “уникальность” посетителя, оставляя в его браузере cookie с уникальным числом во время первого визита. Все визиты этого пользователя будут теперь объединены этим идентификатором. Так же поступают и продвинутые анализаторы логов.

Собственные системы статистики могут измерять не только число уникальных посетителей, но и заходы зарегистрированных пользователей (вводивших свое имя и пароль для данного сайта). Не надо путать эти две метрики.

Важно понимать, что охват нельзя суммировать: если сегодня у вас 2000 уникальных посетителей, а завтра будет 3000, то, не зная, сколько из них пришло повторно, нельзя сосчитать суммарный охват — он может быть от 3000 до 5000 пользователей. Зато система статистики, помня уникальный код каждого пользователя и просмотра страницы, может сообщить вам эту информацию для каждого интервала времени.

Google Analytics устанавливает для отслеживания уникальных посетителей cookie с названием __utma со сроком действия 2 года.

Визиты (сессии, посещения)

Каждый уникальный пользователь может совершить один или несколько визитов на сайт. Визит — это несколько просмотров сайта в пределах ограниченного интервала времени. Например, Google Analytics считает одним визитом просмотры страниц, между которыми прошло меньше получаса, и браузер не был закрыт. Если пользователь открыл страницу сайта и ушел на час обедать, а потом нажал ссылку на “контакты”, это будет уже два визита.

Google Analytics устанавливает для отслеживания визитов два cookie, давая браузеру разные установки на их удаление:__utmb удаляется через 30 минут после его установки. Google Analytics обновляет эту cookie при каждом новом открытии страницы, и если не находит его — засчитывает открытие нового визита.

__utmc удаляется при закрытии браузера. Если этого cookie нет, начинается новый визит.

Liveinternet.ru считает визитом просмотры страницы с интервалом не более 15 минут.

География.

Сравнивая IP-адрес пользователя с имеющейся в распоряжении базой данных географической привязки, система статистики присваивает каждому пользователю регион. Исходя из этого, несложно посчитать распределение посетителей сайта по регионам. Google Analytics даже изображает сравнительную активность пользователей из разных регионов на карте:






Браузеры.

Исходя из присланной браузером в запросе строки идентификации, сервер определяет, какой браузер стоит у клиента, является ли он поисковым роботом. В зависимости от специфики сайта и его аудитории, эта статистика может вовсе не совпадать со средней по рунету. Из-за этого и возникают «шокирующие» графики, отображающие огромный перевес альтернативных браузеров — они считали не весь интернет, а лишь определенные сайты.




Источники перехода.

Браузер сообщает серверу, с какой страницы пользователь нажал на ссылку, чтобы очутиться на текущей странице. Эта информация используется для сегментации, анализа источников трафика и множества других целей.

Из адреса страницы можно извлечь дополнительную информацию: например, ключевое слово, которое ввел пользователь в Яндексе, после чего увидел ссылку на ваш сайт. Иногда это выглядит смешно, но применения у этих данных весьма серьезны.



Страницы на визит. Простейшая производная метрика — среднее число страниц, открываемых пользователем в пределах одного визита. Для многих видов сайта этот параметр определяет заинтересованность аудитории… но не будем забегать слишком вперед!

Отказы

Еще один критерий качества сайта и аудитории — “отказы” (bounce rate). Это количество посетителей (обычно в процентах от общего числа), которые посетили только одну страницу на сайте.

Время на сайте. Часто измеряемая метрика — время, которое пользователь провел на сайте. Однако, поскольку все распространенные системы статистики регистрируют только время открытия страницы, измерить время, проведенное пользователем на последней из открытых страниц, невозможно. Поэтому не получается и замерить среднее время просмотра для тех, кто не продвинулся дальше первой страницы.

Сейчас приобретают популярность JS-системы, фиксирующие не только загрузки страницы, но и каждое действие пользователя на сайте, даже движения мыши (Например, отечественная система Webvisor). Они легко справляются с этой задачей.

Также невозможно оценить, какую часть времени пользователь действительно наблюдал страницу, а какую она была открыта в фоновом режиме, в соседнем окне и так далее.

Особые действия

Для того, чтобы обработать действия пользователей, не связанные с загрузкой новых страниц (подгрузка с помощью AJAX, просмотр видео на странице, пребывание на ней некоторое время и т.д.), требуются дополнительные усилия.

Google Analytics позволяет элементам страницы вызывать особую функцию _trackEvent() для того, чтобы внести в систему статистики запись о таком особом событии.

Далее мы поговорим уже о более сложных метриках, сегментации и принятии решений с помощью данных статистики, а пока, если вы не знакомы с данными LiveInternet по сайтам рунета, вы можете исследовать эти данные по адресу liveinternet.ru/stat/ru. Здесь суммируются описанные выше метрики для всех сайтов, использующих счетчик Li.ru, и можно сходу наблюдать довольно интересные тенденции. Внизу каждой страницы есть краткое описание считаемых метрик, которое помогает ориентироваться в них.

1.4. От статистики к аналитике


Перед тем, как перейти к описанию метрик и технологий анализа, еще раз напомним о том, зачем мы тратим на это своё время. Заниматься исследованием поведения аудитории имеет смысл только тогда, когда вы хотели бы, чтобы она вела себя определенным образом. Так что:

Перед работой с данными необходимо определить цели, которые вы преследуете на сайте.

Цели должны быть измеримы.

Для коммерческого сайта цели должны быть максимально близки к получению прибыли.

Истинная цель маркетинговых мероприятий в Интернете находится вне Интернета.

Почему мы вновь заговорили о целеполагании? Во-первых, это важнее всего, а во-вторых, для тех целей, достижение которых мы можем отследить через систему статистики, снятие данных может быть автоматизировано. В таких системах аналитики для электронной коммерции, как Google Analytics и Яндекс.Метрика, есть способ регистрировать достижение целей и даже рассчитывать прибыль, которую компания получает от их достижения.




Обычно цель задается адресом страницы, которую посещает пользователь. К примеру, для интернет-магазина целью может быть “оформление заказа”, а соответствующей страницей — информация о том, что заказ принят. Можно задавать и несколько целей и привязывать их достижение к рекламным кампаниям в контекстной рекламе, что даст возможность напрямую оценить стоимость привлеченного покупателя (стоимость клика по рекламе поделить на долю кликнувших, которые затем купили товар).

Если вы продаете товары через Интернет, то Google Analytics способен учитывать прибыль с каждой транзакции. Для этого нужно включить в Analytics раздел “Электронная торговля” и заставить ваш сайт передавать в код скрипта данные о прибыли. Такая учетная система обеспечит вас очень интересными данными — для контекстной рекламы, например, это будет прибыльность каждого рекламного объявления.

Если ваш сайт — простая визитка, а цель — продажи товара или услуги, то, конечно, никакая статистика не позволит вам определить достижение этой цели. В таких случаях необходимо:

Отслеживать, сколько клиентов пришло к вам с сайта, одним из неточных способов.

Отслеживать достижение “самых близких к продаже” целей — например, просмотра прайс-листа.

“Оффлайновые” компоненты анализа неизбежны для всех магазинов, заказ в которых не оканчивается электронной транзакцией. Проводить такой учет следует постоянно: иначе легко упустить изменения, которые сильно повлияют на прибыльность.

Другой важной настраиваемой метрикой является учет запросов к внутренней поисковой системе. Например, Google Analytics позволяет отслеживать такие запросы и составлять по ним статистику.





Запросы к поиску на сайте — это хороший источник информации о том, чего не хватает пользователям, в каких местах сайта затруднена навигация и как откорректировать результаты поиска вручную, чтобы требуемые пользователю результаты располагались выше. “Правильная” система поиска практически всегда содержит дополнительные “вручную дописанные” ссылки — вот, к примеру, страница поиска на Microsoft.com:


В выборе таких ссылок помогает именно анализ внутреннего поиска.

Имея полный комплект данных статистики и настроенный учет целей, можно переходить от “статистической” части напрямую к аналитической: попытаться воспользоваться полученными данными для того, чтобы принять решения о коррекции рекламной кампании, внешнего вида страниц сайта или ассортимента товаров. Аналитическая работа в целом состоит из трех этапов:
  • получить данные;
  • сделать выводы о том, почему данные выглядят именно так;
  • предложить изменения, которые улучшили бы ситуацию.

Однако, тут нас поджидают сложности. Одной из главных проблем при анализе данных интернет-статистики, как и в других областях маркетинга, является некорректное определение причинно-следственных связей. Предположим, что данные аналитики говорят о том, что определенный товар просматривается чаще, а покупается — реже. Совсем неопытный маркетолог предположит, что “в интернете такая аудитория”, чуть более продвинутый аналитик сразу изложит несколько возможных причин:
  • текст одного рекламного объявления более привлекателен и создает завышенные ожидания у аудитории
  • ресурсы, на которых публикуется реклама, имеют специфическую аудиторию
  • страницы с описанием товаров неравнозначны по качеству
  • сами товары имеют различный уровень конвертации

и т.д.

Скорее всего, разные результаты являются следствием сразу нескольких причин, а вот каких именно — предстоит узнать из более тщательного анализа. Помочь в определении истинных причинно-следственных связей может сегментация данных и тестирование. О них пойдет речь далее.


1.5. Сегментация. Разделяй и думай


Продолжим наше путешествие в мир веб-аналитики. В прошлой части мы вплотную занялись анализом статистики и получением информации из собираемых данных. Оказалось, что мы можем отследить поведение пользователя, но не причины этого поведения. А для того, чтобы стимулировать желательные поступки и предотвращать нежелательные, нужно знать именно причину этих поступков.

Каким же образом опытные аналитики “залезают в голову” пользователю, имея лишь усредненные данные по сайту? Никакой магии. Они проводят процедуры, которые разбирают эти авгиевы конюшни:
  • — Сегментируют данные: разделяют всех пользователей на группы исходя из определенных критериев и рассматривают поведение не всех пользователей, а каждой из этих групп в отдельности.
  • — Строят предположения и проверяют их: выискивают вероятные объяснения для сложившейся ситуации и пытаются повлиять на ситуацию исходя из этих предположений, наблюдая за результатом.