Ландшафт области управления данными: аналитический обзор

Вид материала

Подобный материал:

1 2 3 4 5

5. Новые технологии для обработки потоковых и сенсорных данных

Для некоторых прикладных областей традиционная технология управления данными, основывающаяся на двух- или трехзвенной системной архитектуре с выделенным сервером баз данных, размещении данных в медленной дисковой памяти и т.д., оказывается неприемлемой. К таким областям относятся, в частности, приложения потоковых и сенсорных данных.

5.1. Требования реального времени

Основная особенность потоковых и сенсорных данных состоит в том, что такие данные динамически генерируются с очень большой скоростью, ценность этих данных может иногда стремительно падать со временем, и приложения должны успевать обрабатывать эти данные в реальном времени, в темпе их генерации. При этом число приложений потенциально очень велико, и по части базовой обработки данных между ними много общего, так что наличие специализированных средств управления потоковых и сенсорных данных ускоряет разработку новых приложений, делает их более надежными и эффективными.

5.2. Прикладные области, в которых требуется обработка потоковых данных

Наиболее важной областью, в которой требуется обработка потоковых данных, признается финансовая деятельность, связанная с использованием биржевой информации. Биржи круглосуточно генерируют чрезвычайно интенсивные потоки данных, отражающие текущие курсы акций, объемы и покупок и продаж, и анализ этих данных в реальном времени исключительно актуален как для компаний, акции которых продаются и покупаются на биржах, так и для различных финансовых организаций. До появления специализированных средств управления потоковыми данными соответствующие приложения делались на основе проприетарных технологий, и эти приложения часто не выдерживали возрастающих темпов поступления данных.

5.3. История потоковых систем, существующие системы и их особенности

Исследования в области систем управления потоковыми данными и разработка прототипов таких систем начались с начала 2000-х гг. в университетских проектах Aurora [51] и TelegraphCQ [52]. В этих проектах исследовались основные проблемы систем управления потоковыми данными, в частности, изучались возможности эффективного выполнения «непрерывных» (continuous) запросов. В 2003 г. была создана компания StreamBase Systems [53], которая вскоре выпустила инструментальную систему обработки потоковых данных StreamBase [54]. В этой системе используются и развиваются результаты предыдущих исследований, применяется подход к встраиванию средств управления данными в приложения, используется специальное средство управления данными в основной памяти и т.д.

5.4. Проблемы управления данными в сенсорных сетях

В настоящее время исследуются возможности использования сенсорных сетей в приложениях мониторинга окружающей среды, медицинского мониторинга, промышленной автоматизации, самоуправляемых групп роботов и интеллектуальных домов. В этих приложениях основными ресурсами, которые требуется беречь, являются пропускная способность и энергия. Кроме того, основная часть энергии тратится на коммуникации, а не на обработку или сохранение данных. Требуется такой способ управления сенсорными данными, который обеспечивал бы к ним доступ в реальном времени без потребности массовой передачи данных в центральные узлы.

5.5. История систем управления сенсорными данными и их особенности

Управление сенсорными данными еще не вышло на производственный уровень. Наиболее интересным и развитым является университетский проект TinyDB [55], выполненный в университете Беркли совместно с исследовательской лабораторией компании Intel. Основная идея этой системы состоит в том, что вся сенсорная сеть представляется как огромная распределенная база данных, каждый узел которой (сенсор) хранит крохотный объем данных. Запрос к этой базе данных компилируется таким образом, что на каждый сенсор попадает компонент запроса, имеющий отношение к соответствующей порции данных. Каждый сенсор сохраняет свой компонент запроса и обрабатывает его в непрерывном режиме. Конечно, для построения системы, которую можно было бы использовать в производственном режиме, здесь требуется выполнить ряд научно-исследовательских и опытно-конструкторских работ.

6. Системы управления полуструктурированными и неструктурированными данными

Наряду с наличием огромных объемов структурированных данных, хранимых и обрабатываемых с использованием традиционных средств СУБД, в мире накоплен колоссальный объем представленных в электронном виде полуструктурированных и неструктурированных данных, для эффективной работы с которыми требуются специальные программные средства.

6.1. XML как общепринятый формат представления полуструктурированных данных, стандарты XML

В последние десять лет фактическим стандартом представления полуструктурированных данных является расширяемый язык разметки XML [56]. XML применяется в качестве формата сообщений в протоколе SOAP [57], являющемся основой технологии Web-сервисов, на XML представляется большинство документов, публикуемых в Web, и т.д. Консорциум World Wide Web [58] разрабатывает и публикует стандарты, определяющие функциональные возможности средств управления XML-данными. Одной из проблем XML является то, что эти стандарты очень часто изменяются, а иногда кажутся перегруженными, как, например, в случае стандарта языка XQuery [59].

6.2. Особенности и подходы систем управления XML-данными

Развитые средства управления XML-данными поддерживаются в основных SQL-ориентированных СУБД. В Oracle 11g [2] и IBM DB2 v.9 [3] даже поддерживаются специализированные хранилища XML-данных, позволяющие более эффективно их обрабатывать. На основе ООСУБД ObjectStore была создана XML-СУБД eXcelon, которая позже была приобретена компанией Progress Software и, в конечном счете, стала называться Progress Sonic XML-Server [60].

Для более эффективной и менее тяжеловесной обработки XML-данных разработан ряд специализированных XML-СУБД, базовым языком которых является XQuery. К числу наиболее развитых и известных специализированных XML-СУБД относятся Marklogic [61], X-Hive [62] и Sedna [63, 64]. СУБД Sedna разработана, развивается и внедряется Институтом системного программирования РАН. У каждого из подходов имеются собственные достоинства и недостатки, позволяющие эффективно выполнять только некоторые операции манипулирования XML-данными.

6.3. Проблемы XML-СУБД

Для успешного применения систем управления XML-данными требуется решить ряд проблем. Из-за потенциальной сложности структуры и различий в потребностях разных приложений в разных ситуациях требуются разные методы хранения и индексации баз XML-данных. Нужно понять, в каких ситуациях, и каким образом необходимо оптимизировать запросы к базам XML-данных. В частности, до сих пор непонятно, нужны ли XML-СУБД «стоимостные» оптимизаторы запросов наподобие тех, которые используются в SQL-ориентированных СУБД. Остается открытым вопрос о требуемом уровне изоляции данных при поддержке транзакционного доступа к базам XML-данных.

6.4. Системы текстового поиска и потребности в поддержке семантики

Традиционно применяемый в информационно-поисковых системах контекстный поиск по ключевым словам перестает удовлетворять пользователей. Особенно это заметно в поисковых средствах, ориентированных на работу в Web. Огромные объемы хранимых в Web текстовых документов приводят к недопустимо высокому уровню погрешностей поиска. Для решения этой проблемы при поиске должен использоваться не только контекст, но и семантика документов в виде, например, тезаурусов, онтологий и т.д.

6.5. Краткая характеристика целей и методов направления Semantic Web

Практически параллельно с работами по стандартизации XML основатель консорциума World Wide Web Тим Бернерс-Ли (Tim Berners-Lee) сформулировал понятие Semantic Web и инициировал исследования в этом направлении. В основе предполагаемого им будущего лежит способность машин не только читать, но и понимать содержание Web-сайтов, причем достигнуть этого нужно не путем создания программ искусственного интеллекта, моделирующих деятельность человека, а через использование средств выражения семантики данных и их связей [65].

В начале развития направления Semantic Web предполагалось, что публикации в Internet будут сопровождаться сравнительно формально представленными аннотациями, позволяющими автоматически распознавать семантическое содержание текстов. Для этого был разработаны язык описания RDF [66] и язык представления онтологий OWL [67]. Однако оказалось, что даже при наличии этих языковых средств и поддерживающих их механизмов находится мало желающих вручную описывать семантику документов. Поэтому стало активно развиваться направление интеллектуального анализа текстов (text mining) для автоматического обнаружения их семантики [68]. Добываемая таким образом семантика текстов представляется, например, на языке RDF и в дальнейшем используется для обеспечения более качественного поиска.

6.6. Проблемы семантически обогащенных систем

Для выполнения анализа текстов и поддержки поиска с использованием семантики приходится иметь дело с огромными объемами текстов. Для этого непригодны ни традиционные файловые системы, ни традиционные СУБД. Первыми примерами систем управления данными, специализированными для обработки текстов, являются Map-Reduce [69], Google File System [70] компании Google и конкурирующие с ними открытые разработки компании Yahoo! Hadoop Map-Reduce, Hadoop Distributed File System [71]. Необходимо продолжать исследовать новые средства анализа текстов с целью извлечения из них семантики, а также изучать требуемые свойства систем управления данными.