u/text/302/181130/ html Открытые системы, процессы стандартизации и профили стандартов

Вид материалаДокументы

Содержание


Извлечение и структурирование фактографической информации
Добыча данных
Технологии извлечения знаний из текста
Игры в «жизненный цикл»
Рис. 2. Архитектура хранения без физической сегментации данных
Игры в «жизненный цикл»
Подобный материал:
1   ...   11   12   13   14   15   16   17   18   ...   22

Извлечение и структурирование фактографической информации


Для выделения объектов и их свойств (адреса, поездки, встречи, бизнес и т. п.) используются компоненты управления фактографической информацией и ведения досье. Например, в терминах системы Xfiles [2] факт об объекте является структурированным представлением фрагментов текста документа в виде значения факта: его суть, время и место совершения, его участники. Факты выделяются из предложений, содержащих упоминания объектов или ссылки на них. Технология выделения фактов основана на использовании специальных семантико-лингвистических методов, которые дают возможность получить точность и полноту фактов, сравнимую с экспертными.

Зачастую факты содержат информацию о взаимосвязях объектов и классифицируются как прямые (имеется факт о связи двух объектов); нечеткие (нет фактов); общего места и времени (для пары различных фактов различных объектов); косвенные, или транзитивные (через общий третий объект-связь у пары фактов различных объектов); рефлективные (между парой атрибутов досье, связанных семантически). Если в одном из них появляется факт с определенным объектом-связью, то в симметричном атрибуте для объекта-связи также появляется этот факт. Скажем, атрибут «продажа акций» имеет симметричный атрибут «покупка акций». Симметричные атрибуты «срабатывают» по прямым связям. Свойство симметричности задается при создании атрибутов независимо от того, в какие досье они входят. При включении атрибута в другое досье свойство симметричности сохраняется.

Все эти свойства необходимы в системах аналитической разведки, немыслимых без следующих сервисов: автоматическое выявление прямых и косвенных (т. е. через третье лицо) связей объекта; автоматическое выявление связей объектов по месту и времени (когда события произошли с разными объектами в одном месте или в близкое время); типизация связей, представленных различной лексикой; формирование групп объектов, связанных между собой общностью фактов (например, место, время, содержание факта); построение карты связей объектов для различных типов связей, визуализация и фильтрация связей; поиск оптимальных (обычно кратчайших) связей между заданными объектами; построение многомерных частотных распределений фактов. Сегодня системы извлечения фактов являются наиболее эффективным инструментом выделения нужной для принятия решений информации, заменяя ее поиск.

Добыча данных


Широкое применение методов искусственного интеллекта позволяет порождать гипотезы — предложения по дальнейшему исследованию. Типичная технология анализа взаимосвязей проблем содержит следующие фазы:
  • получение подборки документов по запросу;
  • получение ее семантической карты;
  • просмотр документов о связи выделенной пары тем;
  • кластерный анализ этих документов;
  • анализ документов нужных кластеров;
  • резюме о структуре связи тем.

ссылка скрыта    ссылка скрыта    ссылка скрыта    3    ссылка скрыта    ссылка скрыта

Технологии извлечения знаний из текста


Николай Ильин, Сергей Киселев, Владислав Рябышкин, Сергей Танков

ссылка скрыта :: ссылка скрыта

Так, и типичная технология анализа динамики развития проблемы в регионе (стране) включает следующие фазы:
  • получение подборки документов по запросу;
  • получение двумерного частотного распределения рубрик-проблем по регионам;
  • выделение значимой проблемы в исследуемом регионе;
  • получение частотного распределения рубрики-проблемы в регионе по времени;
  • анализ документов в пиковые периоды времени;
  • кластерный анализ этих документов;
  • предложения по нормализации проблемы.

К примеру, многие ежедневно ездят на работу по Москве, но эти факты еще не свидетельствуют о наличии связи между ними, однако если два дипломата работали в одно время в небольшой стране, то с большой вероятностью следует, что они могли быть знакомы. Система должна уметь предлагать аналитику такого типа гипотезы.

Заключение


Необходимо отметить обостряющуюся проблему с качеством базовых средств лингвистического анализа текста на русском языке. Другой важной проблемой является разрешение анафорических ссылок, требующая создания общего тезауруса русского языка. Эти проблемы сдерживают развитие методов интеллектуального анализа русскоязычных текстов, а их решение возможно скорее в рамках академических исследований (тем более, что это соответствует заявленным государственным приоритетам).

К наиболее актуальным методам сегодня можно отнести: семантические сети тем и объектов текста документов, выделение фактографической информации с учетом анафорических ссылок, возможность параллельной обработки распределенных архивов документов, различные стратегии нечеткого поиска, тематическое и тональное рубрицирование, кластеризация документов, аннотирование, анализ многомерных частотных распределений документов.
Литература
  1. П.Браславский, И.Колычев, Автоматическое реферирование веб-документов с учетом запроса. Грант ООО «Яндекс» № 102707, ссылка скрыта
  2. Сергей Киселев, Модель информационной системы бизнес-разведки. ссылка скрыта.
  3. Илья Сегалович, Михаил Маслов, Денис Нагорнов, «Как работают новые Яндекс.Новости». ссылка скрыта
  4. Удо Хан, Индерджиет Мани, Системы автоматического реферирования. ссылка скрыта

Николай Ильин — начальник управления информационных систем Спецсвязи ФСО России, Сергей Киселев (kiselev@i-teco.ru) — заместитель директора департамента разработки информационно-аналитических систем, Владислав Рябышкин (ryabyshkin@i-teco.ru) — системный аналитик компании «Ай-Теко», Сергей Танков — заместитель начальника управления информационных систем Спецсвязи ФСО России.

ссылка скрыта    ссылка скрыта    ссылка скрыта    ссылка скрыта    4

Игры в «жизненный цикл»


Михаил Головко

ссылка скрыта :: ссылка скрыта
Поводом для этой статьи послужил номер № 3/2004 журнала «Открытые системы», посвященный модному течению — управлению жизненным циклом информации (information lifecycle management, ILM). Удивительно, но ни одна из статей о ILM, не содержала аббревиатур CALS и PLM, за которыми скрываются идеологии и технологии управления информационным обеспечением и жизненным циклом изделий. Более того, исследование ресурсов Сети показало полное отсутствие публикаций, в которых встречаются вместе оба эти понятия. Удивляет и молчание поставщиков систем PLM/PDM относительно ILM.

Новоявленные методологии и технологии часто увеличивают число точек зрения на одно и тоже количество фундаментальных понятий, законов и технологий, не определив ни цену своей оригинальности, ни свое место в иерархии уже существующих методологий и технологий. В результате вместо зрелого рынка открытых и гармонизированных технологий, получается базар лоскутных технологий, одни участники которого создают, а другие приобретают «эксклюзивные» короткоживущие поделки. Растет информационная и технологическая энтропия, а ключевые понятия бизнеса (в данном случае, жизненный цикл) превращаются в модные игрушки. Отсюда искусственный рост сложности технологических и бизнес-решений, их стоимость и низкая эффективность информационных систем [1].

Приверженцы PLM утверждают, что по сути, разницы между CALS и PLM нет [2]. Тем не менее, многие из них активно игнорируют CALS. В ряде PLM-глоссариев, например, от Dassault Systemes, места для CALS попросту не нашлось [3]. Но еще интереснее другое, например, наблюдение Михаила Зырянова: «C конца 90-х годов прошлого столетия европейская индустрия, в том числе и ИТ, усиленно «выдавливает» понятие CALS, подменяя ее PLM, и проводя активную экспансию этого понятия за пределы Евросоюза, в том числе на родину CALS — США. С 1999 года в Европе CALS (Continuous Acquisition&Life-Cycle Support) приобретает «новую», очень узкую трактовку — Commerce At the Light Speed («коммерция со скоростью света»), существующую с 1990 года».

Это неслучайно: концепция PLM шла от узких мест в области рыночной конкуренции, и отражает интересы отдельных гигантов ИТ-индустрии. Областью действия PLM являются дизайн, разработка, производство изделия и интеграция со смежными системами [2, 4]. При таком подходе разница между CALS и PLM не видна. Но если посмотреть на область применения CALS [5-7] с точки зрения государственных (скажем, США) или многонациональных (страны НАТО) интересов, станет понятно, что не только PLM, но и ILM являются составной частью CALS.

Показательно следующее высказывание, отражающее текущее состояние и вектор развития PLM в сторону CALS: «В нашем понимании, основу производственной деятельности образует модель PPR (‘продукт, процесс, ресурс’) — информационная магистраль, соединяющая воедино PLM, ERP, SCM и CRM. Каждая из этих систем не может существовать изолированно и через некоторое время все системы проектирования можно в той или иной степени считать PLM-решениями» [2]. Концепция PPR существует с 2001 года и выдвинута производителем, компанией Dassault Systemes. Ее концептуальный аналог, так называемая интегрированная среда совместно используемых данных (shared data environment, SDE) выдвинута NATO CALS Organization в 1994 году и отражает государственные, межгосударственные и индустриальные стран в целом. ссылка скрыта иллюстрирует спектр данных, который CALS отводит SDE.

Анализ [6] показывает, что идеология CALS социально ориентирована и за счет строгой стандартизации несет определенную угрозу гигантам индустрии PLM, снижая их монополию путем обеспечения реальной интероперабельности данных.

И все же, ILM — это управление хранением или управление жизненным циклом информации? Жизненный цикл информации, с точки зрения ее хранения, тесно связан с архитектурой данных, временем хранения информации и скоростью доступа к данным. Целесообразно выделить два принципиально различных типа информации: процесс-ориентированный и продукт-ориентированный.

Первый тип направлен на системы обработки неструктурированных или слабоструктурированных данных с гипертекстовой организацией (например, сообщения электронной почты). Сюда относятся и монолитные данные (сильно связанные с точки зрения их хранения), фактически не затрагивая вопросы архитектуры хранения: системы офисного документооборота, архивы медицинских данных, реляционные базы данных и т.п. Их данные обычно отличает отсутствие четкой общепринятой классификации прикладной информации. При отсутствии стандарта, регламентирующего классификацию и взаимосвязи информационных объектов, невозможно выделить устойчивые наборы (классы) этих объектов, которые могли бы перемещаться в хранилище по определенным правилам. В результате, при доступе к информации первого типа, навигационный доступ используется очень ограниченно и фактически не связан с классификацией. Отсюда широкое использование механизмов поиска при доступе к данным, многократное увеличение нагрузки на хранилище, необходимость держать большой объем невостребованных данных в оперативном хранилище, часто превышающий объем полезных данных. Время активной жизни данных в таких системах обычно определяется временем жизни какого-либо процесса (например, завершение проекта) или отчетным периодом (например, закрытие квартала).

Именно на системы с такими свойствами вот уже второе десятилетие ориентированы традиционные модели хранилищ «оперативная память — долговременная память», в которых миграция данных, резервное копирование и репликация обычно управляются по тайм-ауту и/или расписанию. Архитектура хранения данных в них не связана с архитектурой прикладных данных.

Второй тип информации ориентирован на продукт. Как правило, продукт имеет четко выраженную одну или несколько классификаций информации, например, по функциональному признаку, конструкторско-технологическому членению и т.д. Многие из таких классификаций закреплены стандартами, как правило, отраслевыми (например, авиационные стандарты — отечественный ГОСТ 18675-79 и западноевропейский AECMA-1000D). Примером систем, управляющих такими данными, являются конструкторские и технологические системы, часто использующие для управления данными инструменты категории PDM. Требования к хранению/доступу, предъявляемые этими системами, дают ключ к пониманию проблем, которые необходимо решить ILM, если она действительно претендует на звание системы управления жизненным циклом информации [8].

Информация о продукте по своей природе мобильна: различные профили данных о продукте передаются между маркетологами и покупателями, конструкторами и технологами, технологами и производителями и т.д. — по всему жизненному циклу изделия. Но мобильны ли эти данные? Легко ли их извлечь, поместить в нужный формат и передать по назначению? Трудно представить себе модель и информационной системы, в которой все представления изделия хранились бы в едином хранилище в едином формате, и единую сеть непрерывных телекоммуникаций, которая бы обеспечила обмен данными между их потребителями только за счет репликаций. Следовательно, информационные объекты, ассоциированные со своими физическими объектами, должны храниться в физически целостном виде, чтобы не только быстро мигрировать между уровнями хранилища, но, главное, легко переноситься в базы данных каждого участника жизненного цикла изделия. Для этого кроме представления данных необходимо управлять архитектурой прикладных данных и обеспечить ее взаимосвязь с архитектурой хранения данных.

Рассмотрим две принципиальных схемы организации хранения данных, содержащих описания компонентов изделия, например, самолета.

Архитектура хранения без физической сегментации данных (рис. 2), традиционная для многих PDM-систем, хорошо работает при нагрузке на устройства хранения, не превышающей определенного порогового значения. При выполнении массовых операций, например, выгрузке всех данных по крылу, нагрузка на хранилище может существенно замедлить работу других отделов, работающих со своими информационными объектами.



Рис. 2. Архитектура хранения без физической сегментации данных

Напротив, архитектура хранения с физической сегментацией данных (рис. 3) распределяет информационные объекты в соответствии с компонентами логической архитектуры изделия (крылья, фюзеляж и т.д.), и обладает следующими преимуществами:



Рис. 3. Архитектура хранения с физической сегментацией данных
  • возможность создавать распределенные хранилища в соответствии с топологией участников жизненного цикла;
  • высокая степень масштабируемости данных;
  • возможность динамически распределять нагрузку на хранилище и корпоративную сеть;
  • возможность распараллелить процессы резервного копирования, миграции и др. или наоборот, выполнять эти процессы последовательно;
  • обеспечение переноса данных вместе с носителем между их источниками/потребителями в случаях отсутствия коммуникаций;
  • возможность обеспечить физическую изоляцию данных и модель защиты данных, основанную на физическом разделении данных.

Какими свойствами должна обладать система ILM? Изобразим модель потоков требований, предъявляемых к хранилищу. Жирными стрелками выделены потоки требований, влияющие на хранение/доступ к данным (ссылка скрыта).

Несложно заметить, что «гордиевым узлом» требований прямо или косвенно является архитектура прикладных данных корпоративной базы данных.

Таким образом, полноценная технология управления жизненным циклом информации должна:
  • располагать данными о логической организации информационных объектов изделий;
  • располагать данными об архитектуре прикладных данных корпоративной базы;
  • располагать данными об организационной структуре (источники данных), инфраструктуре предприятия и его телекоммуникациях (для этого, кстати, существует еще одна разновидность ILM — Infrastructure Lifecycle Management);
  • располагать данными о мобильности и путях миграции информационных объектов в ходе бизнес-процессов;
  • обеспечивать механизмы защиты данных, основанной на логической организации данных изделия и физической изоляции соответствующих сегментов данных;
  • учитывать ограничения ИТ-инструментов на организацию хранения данных.

1    ссылка скрыта    ссылка скрыта

Игры в «жизненный цикл»


Михаил Головко

ссылка скрыта :: ссылка скрыта

Концептуальные ошибки создателей современных продуктов категории ILM заключены в изолированности их подхода от реальных задач, связанных с управлением жизненным циклом информации.
  • Идеология ILM, основанная на принципах открытых систем, должна опираться не на время жизни данных в том или ином хранилище, а мобильность информационных объектов.
  • Ключевым звеном между бизнес-процессами и ILM является архитектура прикладных данных, которая связывает воедино бизнес-процессы и хранение/доступ к данным. Для этого необходим стандарт, связывающий архитектуру прикладных данных с архитектурой их физического представления в хранилище (архитектура хранения). Метаданные о представлениях информационных объектов в хранилище должны иметь единый формат, что позволит обеспечить их мобильность, независимо от конкретной PDM-системы, типов устройств хранения и типов носителей данных.
  • Управление политиками хранения/доступа должно осуществляться на уровне бизнес-логики (например, на уровне управления проектом) на основе сведений о мобильности информационных объектов. Следовательно, нужны программные модули расширения (plug-in), стандартным образом встраиваемые в бизнес-приложения.
  • каждый переносимый информационный объект должен иметь свой «полис обслуживания» (service level agreement, SLA), который содержит сведения о мобильности и уровне обслуживания. Взаимосвязанная система полисов информационных объектов корпоративной базы данных обеспечивает взаимодействие бизнес-процессов с корпоративным хранилищем через стандартный механизм взаимодействия между архитектурой данных и архитектурой хранения (ссылка скрыта). Таким образом, осуществляется управление процессами перемещения информационных объектов как в хранилище, так и в бизнес-пространстве.

ILM сегодня есть результат эволюции технологий, и неслучайно, разные вендоры имеют различные точки зрения на ILM. Но почему бы им совместно с ведущими разработчиками инструментов PLM/PDM не создать новый стандарт управления жизненным циклом информации, интегрировав стандарты унифицированного представления данных об устройствах хранения и их взаимодействия SMI-S/CIM со стандартами представления и управления данными об изделии (например, STEP)? Между тем, в области интегрированных вертикальных решений сохраняется полная тишина.