Управления реляционными базами данных и анализа данных
Вид материала | Руководство |
СодержаниеМощный и гибкий анализ данных на веб-основе Выявление закономерностей и анализ статистики посещений веб-узлов Связанные кубы данных и доступ к ним по протоколу HTTP |
- Программа дисциплины Системы управления базами данных Семестры, 22.73kb.
- Проектирование базы данных, 642.58kb.
- «Прикладная информатика (по областям)», 1362.72kb.
- Тема Базы данных. Системы управления базами даннях (12 часов), 116.1kb.
- Реляционная модель данных в системах управления базами данных, 200.05kb.
- Системы управления базами данных, 313.7kb.
- Системы управления базами данных (субд). Назначение и основные функции, 30.4kb.
- 1. 2 Системы управления базами данных. Основные функции, 630.95kb.
- Развитие объектно-ориентированных систем управления базами данных, 122.52kb.
- Любая программа для обработки данных должна выполнять три основных функции: ввод новых, 298.05kb.
Мощный и гибкий анализ данных на веб-основе
SQL Server 2000 предоставляет несколько важных средств в службах анализа данных, позволяющих компаниям делать дополнительные выводы на основе своих данных с помощью быстрого и универсального анализа. В сервере SQL Server 2000 применяется новая интегрированная технология выявления закономерностей, которая является базовым компонентом для реализации на основе сервера SQL Server законченного комплексного решения для анализа данных. Связанные кубы данных и доступ к ним по протоколу HTTP распространяют возможности анализа за пределы компании и ее корпоративной сети, открывая новые рынки для многомерных данных и новые способы поиска этих данных в Интернете. Помимо этих очевидно важных средств, службы анализа данных также включают в себя такие возможности, как DISTINCT COUNT, которые упрощают работу аналитика. Особенно удобный для анализа пользовательского трафика на веб-узлах метод DISTINCT COUNT традиционно считается профессиональным средством анализа данных из-за относительной сложности его реализации. Службы анализа данных в сервере SQL Server 2000 предоставляют всем пользователям возможность применять метод DISTINCT COUNT в качестве нового измерительного средства и позволяют аналитикам отвечать на такие важные вопросы, как: «Сколько различных пользователей посетило сегодня мой веб-узел?» Это лишь один небольшой пример того, как группа разработки SQL Server расширила возможности и гибкость служб анализа данных в сервере SQL Server 2000.
Выявление закономерностей и анализ статистики посещений
веб-узлов
Интегрированное выявление закономерностей является новым средством сервера SQL Server 2000, которое в составе служб анализа данных включено в выпуски Enterprise Edition, Standard Edition, Personal Edition, Developer Edition и Enterprise Evaluation Edition. Технология выявления закономерностей помогает пользователям анализировать данные в реляционных базах данных и многомерных кубах OLAP для обнаружения закономерностей и структур, которые могут быть полезны для прогнозирования. Компоненты для выявления закономерностей в сервере SQL Server 2000 тесно интегрированы с источниками реляционных данных и данных OLAP. Фактически результаты выявления закономерностей могут использоваться при создании дополнительных измерений куба для последующего анализа данных OLAP. Их можно использовать в реляционных базах данных с помощью простого выполнения запросов SQL. Средства выявления закономерностей, включенные в службы анализа данных сервера SQL Server 2000, вошли в открытую и расширяемую реализацию новой спецификации OLE DB для выявления закономерностей.
Сервер SQL Server 2000 включает в себя два класса алгоритмов выявления закономерностей, разработанные группой Microsoft Research: Microsoft Decision Trees (деревья решений) и Microsoft Clustering (кластеризация). Алгоритм Microsoft Decision Trees в действительности состоит из четырех различных алгоритмов и основан на понятии классификации. Алгоритм строит дерево, прогнозирующее значения столбцов на основании других столбцов обучающего набора (т.е. таблицы фактов). Решение о размещении каждого узла в дереве принимается алгоритмом, а наиболее значимые и определяющие различие атрибуты отображаются ближе к корню дерева решений. Реализация алгоритма Microsoft Decision Trees может использоваться для определения тех посетителей веб-узла, кто вероятнее всего щелкнет конкретный рекламный заголовок или купит конкретный продукт на коммерческом веб-узле. Алгоритм Microsoft Clustering использует метод ближайшего соседа для группировки записей в кластеры, проявляющие некоторые подобные, предсказуемые характеристики. Часто эти характеристики могут быть скрыты или неясны. Например, алгоритм Microsoft Clustering может использоваться для оценки зависимости потребительского спроса от возраста. Разумеется, интегрированное выявление закономерностей в сервере SQL Server 2000 поддерживает алгоритмы, разработанные сторонними производителями.
Поддержка выявления закономерностей пронизывает службы анализа данных и другие компоненты сервера SQL Server 2000. Для упрощения разработки, создания, изучения и использования моделей выявления закономерностей предусмотрены новые мастеры, редакторы и другие элементы пользовательского интерфейса. Результаты выявления закономерностей могут быть включены в кубы OLAP, а для упрощения программного управления моделями выявления закономерностей, связанными с этими кубами, в сервере SQL Server 2000 был расширен синтаксис MDX.
![](images/18075-nomer-7d2c4ce5.png)
Рис. 3. Редактор Data Mining Model Editor отображает результаты анализа закономерностей (здесь применяется алгоритм дерева решений, разработанный корпорацией Майкрософт)
Интегрированная технология выявления закономерностей (технология «информационной проходки») – ключевой элемент в стратегии корпорации Майкрософт, направленной на создание средств анализа статистики посещений веб-узлов. Они предназначены для работы в итеративном цикле, включающем следующие операции:
- Сбор информации о работе пользователей при просмотре страниц того или иного веб-узла и при поиске по нему.
- Анализ этой информации, позволяющий выявить закономерности и подготовить соответствующие прогнозы (с использованием технологии информационной проходки).
- Индивидуализированный подбор рекламы и веб-ресурсов для посетителей веб-узла, осуществляемый на основе такого анализа (например, показ баннеров для тех продуктов, которыми может заинтересоваться конкретный покупатель).
- Принятие решений о перенастройке действующих систем на основе данных, накопленных с использованием операций OLAP.
В идеальном случае такой процесс идет на веб-узлах электронной коммерции непрерывно, что позволяет максимально учитывать интересы покупателей и дает возможность этим узлам выгодно отличаться от своих конкурентов. Интеграция с сервером Commerce Server 2000 упрощает сбор сведений о перемещении пользователей по веб-узлу, данных о покупках и других торговых операциях, прочей информации об их действиях – в результате у менеджеров возникает целостное представление о работе веб-узла. Как следствие, у них появляется возможность изменять или создавать новые маркетинговые программы, проводить рекламные кампании, а также осуществлять коммерческое планирование и поддерживать личные настройки пользователей веб-узла. Собранные сведения также можно использовать в системах планирования ресурсов предприятия (ERP) и управления связями с потребителями (CRM), что позволяет регулировать поставки в зависимости от потребностей покупателей.
Связанные кубы данных и доступ к ним по протоколу HTTP
Поскольку объемы данных, которые компании собирают о своих покупателях, постоянно увеличиваются, компаниям приходится искать новые способы анализа и эффективного использования этой информации. Службы анализа данных сервера SQL Server 2000 используют две новые технологии, позволяющие выполнять анализ через Веб: связанные кубы данных и доступ к ним по протоколу HTTP. Благодаря этим технологиям пользователи получают возможность использовать для анализа кубы данных, которые принадлежат партнерам или продаются исследующими рынок компаниями.
Связанными называются кубы данных, которые определены и хранятся на других серверах анализа данных, в том числе на внешних серверах, находящихся за корпоративным брандмауэром. Конечные пользователи видят и используют связанные кубы так же, как и обычные кубы данных. Связанные кубы дают поставщикам данных возможность создавать, хранить и поддерживать какой-либо куб данных на одном сервере анализа данных, одновременно открывая его для доступа как связанный куб для множества других серверов. Передача данных происходит по протоколам HTTP и HTTPS. Связанные кубы используют сводные данные, полученные на основе исходных кубов и не требуют хранения собственных данных. Этот метод позволяет организации, с одной стороны, сохранять право собственности на куб данных и обновлять его, а с другой – предоставлять находящиеся в нем сведения для одновременного доступа многим потребителям. Благодаря такой технологии обеспечивается безопасность информации поставщиков данных, поскольку важные сведения можно хранить в источниках и кубах данных на защищенных серверах, но при этом они будут широко доступны для других серверов в виде связанных кубов. Кроме того, комбинируя данные из внешнего связанного куба, полученного от проводящей исследования рынка компании, и внутреннего куба, в котором содержатся собственные данные по сбыту, можно составить виртуальный куб данных. С его помощью достигается новый уровень аналитического понимания рыночной ситуации благодаря мгновенным оценкам доли рынка для определенного товара, а также относительных тенденций развития, охвата и потенциала этого рынка.
Важным фактором при проведении веб-анализа куба данных является гибкость этой операции, возможность использовать для нее разнообразные клиентские программы. Службы анализа данных сервера SQL Server 2000 используют встроенное средство поддержки протокола HTTP, обеспечивающий доступ к кубу по этому протоколу. Таким образом у организаций появляется возможность совместно использовать кубы данных или безопасно обращаться к удаленным кубам по протоколу HTTP через брандмауэр без необходимости открывать определенные порты веб-сервера.