Книги по разным темам Pages:     | 1 |   ...   | 21 | 22 | 23 | 24 | 25 |   ...   | 30 |

Х постоянное наличие как текущей, так и исторической информации;

Х регистрация на сервере всех происходящих событий;

Х возможность анализа сайтов даже с низким трафиком.

Наиболее очевидными недостатками анализа являются:

Х сложности со стандартизацией метрики;

Х значительная часть посещаемых онлайновых ресурсов остается без регистрации.

Причина этого в сложности оценки динамических страниц и в неспособности измерить трафик или кэширование, осуществляемое клиентом. В последнее время некоторые системы управления контентом (CMS) стали включать сторожевые модули для контроля над веб-сайтом, занося системные действия в журнал, который будет впоследствии изучаться уполномоченным сотрудником.

Сторожевой журнал - это список зарегистрированных событий, содержащих данные об использовании, производительности, ошибках и предупреждениях, а также оперативную информацию. Важно регулярно проверять сторожевые отчеты, поскольку зачастую они являются единственным способом понять происходящее;

Х сложности с подсчетом времени, реально затрачиваемым на странице (запрос на ресурс не обязательно предполагает его просмотр);

Х отсутствие социально-демографической информации;

Х отсутствие информации о конкуренции;

Х отсутствие сертификации информации, полученной от третьих лиц, поскольку все процессы находятся под непосредственным управлением базовых программных средств.

2.6.5 Конфиденциальность сообщений Онлайновая оценка аудитории может потребовать предоставления сведений личного характера о пользователях Сети.

В случае интервьюирования и проведения оценки всех участников следует предупреждать заранее об использовании аудиометрических процедур, чтобы люди знали, как осуществляется сбор их персональной информации. При использовании методов вебаналитики запись информации осуществляется автоматически, и людей, подвергающихся оценке, не предупреждают о происходящем.

В обоих случаях каждая организация, осуществляющая сбор информации о пользователях Сети, должна соблюдать законы в отношении конфиденциальности сообщений и защиты персональных данных.

Директива 2002/58/СЕ Европейского Союза, касающаяся обработки персональных данных и защиты конфиденциальности в сфере электронных коммуникаций147 предупреждает о необходимости информировать субъектов мониторинга об использовании средств сбора данных, чтобы сделать этот процесс прозрачным. В то же время Директива признает, что средства сбора данных следует считать законными как инструмент совершенствования онлайновых услуг.

Консорциум W3C предлагает стандартизированное решение, известное как Платформа для Проекта предпочтения конфиденциальности P3P (Platform for Privacy Preferences Project)148. Эта платформа позволяет веб-сайтам объявлять, как они собираются использовать информацию, полученную от пользователей.

Circulation Audit Board.

Rules & Guidelines for Interactive Publishers, Diamond, Fran. Web Traffic Analytics and User Experience. 28 July Double Click. Internet Audience Dynamics:

How Can You Effectively Use Online as a Reach Medium. September Esomar Web Analytics Association. Web Analytics Key Metrics and KPIs, Version 1.0, Для ознакомления с текстом данной Директивы и других соответствующих законов предлагается обращаться на сайт European Protection Supervisor, но эта страница недоступна (март 2010). О защите данных см. портал ЕС Прим. редактора Страница недоступна (март 2010). Прим. редактора 2.7 Пользователи в глобальном мире: вопросы многоязычия В настоящее время растет понимание значения многоязычия для предоставления всем пользователям цифрового культурного наследия Европы. Язык - один из главных барьеров для доступа к веб-сайтам, из-за которого значительные части цифрового наследия Европы найти в Интернете невозможно.

Это действительно проблема. В мире существует около 7 000 известных разговорных языков150, причем около 2 200 из них имеют также письменные формы, но только 300 из них обладают некоторыми средствами обработки лингвистической информации. В одной только Европе существует 23 официальных языка, а в употреблении находится гораздо большее число языков. Однако, несмотря на такое глобальное многоязычие, английский язык по-прежнему доминирует в Интернете, хотя и в меньшей степени, чем в прошлом.

Понятно, что если национальные языки следует сохранить для будущего, то необходимо предоставлять многоязычные точки доступа.

Тенденция развития многоязычной Сети (источник: Консорциум, координатором которого является Паскуале Савино (Pasquale Savino, savino@isti.cnr.it), включает Институт информатики и информационных технологий (Istituto di Scienza e Tecnologie dellТInformazione), Университет Шеффилда (University of Sheffield), Университет Дублина (Dublin City University), Университет Амстердама (University of Amsterdam), Университет Женевы (University of Geneva), Национальный университет удаленного обучения (Universidad Nacional de Educacin a Distancia), OCLC, WIND Telecomunicazioni S.p.A., Культурное наследие (Cultural Heritage), Институт художественных произведений Фрателли Алинари (Fratelli Alinari Istituto Edizioni Artistiche SpA), Нидерландский институт звука и образа (Netherlans Institute for Sound and Vision), Университет Аликанте - Виртуальная библиотека имени Мигеля де Сервантеса (University of Alicante - Biblioteca Virtual Miguel de Cervantes).

Страница недоступна (март 2010). Прим. редактора В информационном обществе комплектование и распространение информации в цифровом формате не должны оставаться в пределах языковых границ: если Сеть предназначана для распространения и комплектования знаний, ее контент должен предоставляться на многих языках. Поставщики информации и люди, занимающиеся ее поиском, должны обладать равными возможностями, независимо от того языка, который является для них наиболее предпочтительным.

Когда мы говорим о доступе к информации без языковых или культурных барьеров, мы имеем в виду, что должна быть гарантирована определенная функциональность: должна существовать возможность найти информацию на иностранных языках, читать и интерпретировать эту информацию и группировать ее с информацией на других языках.

Исследования в области доступа к многоязычной информации (Multilingual Information Access, MLIA) сосредоточиваются, таким образом, на вопросах хранения, доступа, поиска и представления информации на любом языке мира.

Исследования ведутся по 2-м основным направлениям:

Мы позволили себе привести более свежие статистические данные по распространению языков в Интернете. Данные с сайта на 30 сентября 2009 года. Русский язык вошел в первую десятку. Прим. редактора Х многоязычный доступ, который занимается технологиями, обеспечивающими поиск и просмотр информации и ее отображение, включая кодировку символов, поддержку определенных требований конкретных языков и шрифтов, интернационализацию и локализацию;

Х поиск и сбор информации на разных языках (CLIR), который занимается проблемами подготовки запроса на одном языке по коллекции, содержащей документы на разных других языках, фильтрации, отбора и ранжирования найденных документов и представления полученной информации в форме, подходящей для перевода и дальнейшей работы.

Основная (хотя, конечно, не единственная) проблема в процессе создания системы CLIR заключается в том, чтобы сопоставить запрос пользователя с коллекцией документов. Для этого и запросы, и документы должны пройти предварительную обработку и индексирование, как правило, с использованием методов, уникальных для каждого языка (сегментация текста, игнорируемые слова, выделение основы слова, морфологический анализа, разложение на составляющие и пр.). Для этого используются разные подходы, которые, как правило, предполагают перевод запроса или документа (а иногда и того, и другого). Системы, работающие с разными языками, могут использовать интерлингву или промежуточный язык. Для перевода можно использовать машинный перевод, параллельные словари корпоративных терминов, двуязычные словари, многоязычные тезаурусы, концептуальный промежуточный язык. Наиболее успешно работающие системы часто используют комбинацию из нескольких указанных выше средств перевода.

Основные трудности CLIR включают: определение языка; морфологию; имена собственные; терминологию; концепции, состоящие из нескольких слов; устойчивые словосочетания и идиомы; омонимию и полисемию. Так, одновременная обработка многих языков, объединение результатов из разных источников/носителей, а также представление результатов в надлежащей форме для конкретного пользователя представляет собой сложнейшую задачу, успешное решение которой все еще находится на стадии изучения.

Интерактивные системы CLIR могут помочь пользователю обнаружить и определить релевантные документы на иностранном языке путем формулирования и перевода запроса или путем переформулирования его запроса, поиска результатов и/или определения релевантных документов.

Отнюдь не тривиальной задачей является проведение многоязычного поиска по коллекции материалов на разных носителях. Разные носители подвергаются разным формам обработки и страдают от разных видов ошибок индексирования: устные документы индексируются с использованием средств распознавания речи, рукописные документы индексируются с использованием OCR, а коллекции изображений используют индексирование, основанное на выделении признаков. Поиск в таких случаях предполагает сложную интеграцию разных технологий.

В любом случае внедрение функции доступа к многоязычной информации - сложный процесс, который включает разные вопросы разных уровней сложности. В случае многоязычного портала необходимо решить, какое количество языков он будет поддерживать, какие уровни сайта будут многоязычными, и как следует работать с обновлениями. Для моноязычного поиска в многоязычном контенте следует решить вопросы кодирования и представления (идентификация языка и вопросы индексирования, такие как игнорируемые слова, выделение основы слова, морфологические анализаторы, распознавание именованных сущностей и пр.). Для поиска на разных языках следует приобрести надлежащие средства перевода, которые необходимо поддерживать и регулярно обновлять. Наконец, представление результатов должно быть сделано в такой форме, которая поддается переводу и подходит для дальнейшей работы пользователя.

Многоязычный доступ к информации по культурному наследию испытывает те же проблемы. Системы нуждаются в настройке в области специальной терминологии и мультимедийных файлов, а также конкретных профилей пользователей (см. 2.4.)153.

2.7.1 Пример исследования: проект MultiMatch Во Всемирной паутине информационные ресурсы по культуре находится везде - в традиционных организациях, какими являются библиотеки, музеи, галереи и архивы аудиовизуальной информации, и в популярных журналах и газетах, на разных языках и разных носителях.

Первой попыткой дать полное и интегрированное решение, облегчающее поиск информации по культуре, стало изобретение поисковой машины MultiMatch. Она осуществляет поддержку разных видов поиска информации по культуре:

Х свободный текстовый поиск. Этот режим поиска аналогичен тому, который осуществляют общецелевые поисковые машины типа Google, с той разницей, что MultiMatch должен поддерживать многоязычный поиск и обеспечивать большую точность его результатов, поскольку информация будет извлекаться из определенных источников, содержащих информацию по культурному наследию;

Х многоязычный поиск на основе установления подобия и автоматического извлечения информации;

Х поиск с использованием метаданных, при котором пользователь может отобрать один из имеющихся индексов, составленных для конкретного поля метаданных, и определить ценность поля метаданных (например, имя создателя) плюс возможные дополнительные условия;

Х просмотр, позволяющий пользователям осуществлять навигацию по коллекции MultiMatch, используя структуру, подобную веб-директории на основе онтологии MultiMatch.

Что касается многоязычной функциональности MultiMatch, то пользователи смогут формулировать запросы на одном из возможных языков этой поисковой машины и получать результаты на одном или на всех языках, охваченных прототипом (английском, итальянском, испанском, голландском, немецком и польском). Осуществляется поддержка 6-и раздельных моноязычных предметных указателей.

Поиски на многих языках выполняются комбинацией машинного перевода и тематических словарей. Пользователи могут выбирать исходный и конечный языки, а также наиболее правильные варианты перевода их тех, что будут предложены системой.

Тематические словари составляются путем компилирования из соответствующих корпоративных источников культурного наследия и, в частности, из Wikipedia. В дополнение к отдельным моноязычным предметным указателям для облегчения многоязычных поисков осуществляется поддержка одного многоязычного предметного См. также Многоязычие в проектах Европейской Комиссии. Доклад Н.В. Браккер и Л.А. Куйбышева на Международной конференции Языковое и культурное разнообразие в киберпространстве, Якутск, 2 - июля 2008 г. Прим. редактора указателя, созданного в результате перевода на английский язык всех поступающих документов. Входящие запросы на любом языке могут быть переведены на английский язык и переданы в этот указатель. Производительность по выдаче результатов повышается благодаря расширению тезауруса и обратной связи по соответствию выданного результата.

3. Инструменты для практического применения В данной главе мы представляем два инструмента для практического применения, предназначенные для учреждений и организаций культуры, желающих оценить точку зрения своих пользователей.

Pages:     | 1 |   ...   | 21 | 22 | 23 | 24 | 25 |   ...   | 30 |    Книги по разным темам