Подборка статей Сазанова В. М

Вид материала

Подобный материал:

1 ... 8 9 10 11 12 13 14 15 ... 42

Слава роботам?.., или Прикладной «копипаст»

Олег Лебедев Дата публикации: 01.09.2007

Использовано - ссылка скрыта

Работая над подготовкой обзора «Рунет: наша сотня»*, мы регулярно ловили себя на мысли, что посещаемость сайта — показатель недостаточный. Даже если забыть о технологиях искусственного наращивания показаний всевозможных «счетчиков», остается проблема сравнения «качества» аудитории. В результате обсуждений (порой бурных) возникло несколько идей, которые мы и попытались реализовать на базе собранного массива информации.

* Публикуется в PC Magazine/RE 9/2007

Сразу скажем, это ни в коем случае не истина в последней инстанции, это условные результаты одного эксперимента. На наш взгляд, небезынтересного, хотя и довольно скромного. Его цель состояла скорее в проверке гипотезы о принципиальной возможности расчета формальных показателей, характеризующих социальные сети и Интернет-СМИ. Сначала мы были уверены, что кто-то из специалистов этим вопросом уже занимался, но поиски оказались безрезультатными, поэтому пришлось поэкспериментировать практически самостоятельно.

* Ранее некоторые идеи такого исследования вызвали бурное обсуждение на сайте habrahabr.ru; мы признательны ряду его членов за ценные комментарии.

Очевидно, что понятие «информационной ценности» сайта зависит от его типа. При внешнем разнообразии сайты можно отнести к одному из типов: «контентный сайт», «навигационный сайт», «социальная система» и Web-служба. Первый — сайт, основное содержимое которого составляют материалы (статьи и чаще новости) на заданную тему, обычно подготовленные коллективом авторов и редакторов. В этом случае удобно использовать три очевидных критерия оценки: «полнота информации», «покрытие тематического поля» и «редакционный вклад». Поскольку в данной категории доминируют новостные сайты, на их оценке мы и сосредоточились, отобрав несколько, на наш взгляд, наиболее актуальных. «Полнота информации» — сложно формализуемый критерий; мы понимали под ним соответствие некоторым эмпирическим закономерностям. Например, известно, что основных источников информации в большинстве Интернет-СМИ два: пресс-релизы компаний (более свойственно специализированным и деловым СМИ) и публикации коллег (чаще в общих изданиях). Соответственно логичной выглядит идея сравнительного анализа публикаций конкретного издания с первоисточниками, что вполне возможно автоматизировать (хотя бы отчасти). Для этого была сформирована база данных, содержащая публикации онлайновых СМИ-первоисточников (выбирались экспертом), и подборка пресс-релизов. Создавался как бы «информационный портрет дня» (с учетом выбранных тематик). Затем выполнялось сравнение с реальными статьями. С сайта загружался текстовой контент, поступивший в течение дня, а также 100 случайных статей. В ходе анализа определялся также показатель, который мы назвали «редакционным вкладом», он отражает степень переработки публикации-первоисточника. Процедура определения сходства между публикациями была построена на базе упрощенного алгоритма шинглов с выделением ключевых слов (выражаем признательность компании «Микросистемы», разработчикам пакета TextAnalyst и ссылка скрыта для него). Мы исходили из предположения, что в среднем ценность публикации, полностью воспроизводящей первоисточник, ниже той, где редакция собрала дополнительную информацию, выделила суть сообщения, добавила комментарии фигурантов, сторонних экспертов и др. Учитывалось, что среднестатистический первоисточник может быть урезан, но сокращение объема обычно не рассматривалось как «смягчающее обстоятельство». Контрольные измерения на заведомо сходных и несходных базах публикаций показали, что в нашем частном случае метод работает. Предложенная методика несовершенна, — например, не учитывается то, что перепечатка чужих материалов (с разрешения правообладателя) составляет принципиальную идеологию некоторых сайтов. (Хотя ценность ресурса, специализирующегося на банальном «копипасте», представляется сомнительной в эпоху социальных новостных служб, где, помимо воспроизведения материалов, можно найти и мнения заинтересованной аудитории.) На базе этой же «методы» рассчитывался индекс «информационной полноты», по сути, соотношение количества ключевых слов в конкретной публикации к аналогичному показателю публикации-первоисточника (в предположении, что «больше — лучше»). Он, очевидно, коррелирует с предыдущим параметром.

Кроме «информационной полноты» для тематических ресурсов рассчитывался индекс «покрытия тематического поля». Оценивалось, сколько «тем дня» попадало в поле зрения редакции конкретного СМИ. Методика очевидна: имея базу данных с информационным «портретом дня», довольно просто сформировать набор «тем», а затем подсчитать, сколько из них упоминается в новостной ленте сайта. В этом случае есть существенный источник погрешности: методика принципиально не учитывает редакционную политику (отсеивание на ранних этапах обработки некоторых новостей, не представляющих интереса с точки зрения редакции). В то же время она дает представление об охвате тематики, поскольку большинство сайтов претендуют на полноту (дабы удержать у себя посетителей и предоставить им полный обзор событий дня). Из любопытства мы провели контрольные замеры для ряда сайтов по разным тематикам, приняв за основу эмпирические гипотезы о важности конкретных событий (скажем, довольно сложно представить новостной сайт, посвященный компьютерам и проигнорировавший выпуск нового процессора Intel/AMD или очередной версии Windows Vista).

Социальные системы — крайне разношерстная категория сайтов, у которых, однако, есть определяющий признак. Все они «построены» вокруг сообщества. Это и социальные сети, и блоги, и форумы. Сюда же мы отнесли фотосайты, системы обмена видео, даже многие развлекательные ресурсы, контент которых определяет «коллективный разум» участников. В частности, интерес представляет изучение природы этого «разума».

Сегодня есть основания полагать, что значительное количество посещений страниц в Интернете вообще генерируют > не живые люди, а специализированные роботы (или боты): агенты сбора новостей, разнообразные «пауки» и т. д. Здесь не стоит искать злого умысла (гипотеза, что администрация систем сама запускает роботов в погоне за цифрами баннеропоказов и аудитории, как правило, критики не выдерживает). Web-роботы обычно приходят извне. Тем более что когда речь идет о простом добавлении записи в блог, закладки в социальную систему или реплики в форум, то особенных сложностей с технической реализацией не возникает. Причем такой робот может быть весьма интеллектуальным — он порой способен голосовать, открывать ссылки и пр. При достаточной изощренности даже создаются системы, способные имитировать «обсуждения» в комментариях или заявки типа «привет тебе, лови пять [голосов в рейтинг]». Написать бота, симулирующего «поколение Пепси», сегодня почти тривиально (с системами, где при регистрации запрашивается, например, номер паспорта, такой фокус выкинуть сложнее). Не случайно некоторые службы знакомств даже в телерекламе как одно из достоинств преподносят «только реальные анкеты». Точно оценить степень «зараженности роботами» непросто, но сформировать некоторые предварительные оценки — задача решаемая. Для этого мы зарегистрировали соответствующую учетную запись на некоторых социальных службах. В наших блогах размещались анонсы статей сайта pcmag.ru, лента играла роль источника стабильно поступающих записей. Кроме того, были созданы несколько виртуальных пользователей, которые размещали записи и ссылки на заведомо популярные темы (список таких тем формировался на основе рейтинга службы «Яндекс.Блоги»). В ходе исследования фиксировалась статистика и реакция «социума». При оценке результатов стало очевидно, что существуют характерные сценарии поведения, отличающие человека от робота. Обобщая, можно сказать, что человек непоследователен и разнообразен, робот же методичен и последователен.

Еще одна проблема — забытые дневники. Создатели социальных сетей любят измерять число участников в «зарегистрированных пользователях», тогда как практика показывает, что в среднем из 10 новых блоггеров спустя полгода про свой дневник вспоминает едва ли треть. Мы отслеживали даты записей в 100 произвольно выбранных дневников (каждой системы); процент забытых блогов колеблется от 15 до 30.

Интересная возможность, которую предоставляет предложенный нами подход, — оценка некоторых нетипичных показателей. Например, по архиву блогов можно приблизительно оценить уровень образования среднестатистического пользователя, материальное положение аудитории системы (нам последний параметр был интересен исключительно в связке с предыдущим) и др. В первом случае для оценки был сформирован пул ключевых слов, определяющих кластер интересов аудитории, в отношении которой сложно предполагать высокий образовательный ценз. В качестве основы мы выбрали названия сериалов и молодежных комедий, популярных у массовой аудитории (вроде «Мальчик в девочке» или «Не родись красивой», «Счастливы вместе», «Секс в большом городе» и др.). Данные извлекались с помощью службы «Яндекс.Блоги» (отметим очень удобный интерфейс и интересные возможности анализа). Для оценки второго параметра можно подсчитать количество упоминаний в дневниках о покупках дорогих товаров, туристических поездках, зарубежных командировках и т. д. В графе «Разнообразие интересов» приводятся оценки, отражающие широту интересов пользователей системы (определяется на основании анализа «облака тегов» или категорий блога); более интересна цифра, которую мы условно назвали «Стадность». Этот показатель, отражающий готовность аудитории обсуждать предложенные ей темы, определялся как соотношение среднего количества «топиков» на заданную тему (с одинаковым тегом или в одной категории) к средней длине обсуждения. Идея состояла в том, чтобы выявить естественным образом складывающиеся сообщества, заинтересованные той или иной тематикой.

Еще один типичный архетип сайта образца 2007 г. — Web-службы. В этом случае мы не стали анализировать содержательную составляющую — как правило, это бессмысленно. Сайты выбирались скорее за актуальность службы и техническую реализацию (в некоторых случаях на основании ранее сделанных оценок, в частности, это относится к системам обмена файлами, фотосайтам и пр.).

В заключение еще раз подчеркнем: приводимые цифры — это не оценки, а обобщенные показатели, которые отражают некоторые тенденции, выявленные нами в ходе эксперимента на ограниченном массиве данных. Их целесообразно рассматривать как ориентиры, искусственные метрики, позволяющие выявить специфику конкретных ресурсов.

* Кроме обозначенных направлений для исследования, немалый интерес представляет изучение ряда чисто статистических показателей. В частности, частоты и (особенно) динамики поступления новых сообщений, средняя длина обсуждения, среднее количество тем, вызвавших интерес и т. д. На сегодня мы не планируем проведение масштабных тестов такого рода, однако, с удовольствием поделимся результатами собственных экспериментов и соображениями о разработке методологии с независимыми исследователями или специализированными аналитическими агенствами.

Блоги и сообщества

Система	«Реальность аудитории»	Образование и интеллект	Достаток	Разнообразие интересов
habrahabr.ru
Privet.ru
«Блоги@Mail.ru»
«ЖЖ»
«Рамблер·Планета»

Тематические СМИ

Сайт	Информационная полнота	Покрытие новостного поля	«Редакционный вклад»
lenta.ru
astera.ru
utro.ru
rbc.ru
securitylab.ru
klerk.ru
regnum.ru
3dnews.ru
membrana.ru
sostav.ru