Интеллектуальный анализ данных в системе медис-4
Вид материала | Документы |
- Составлен с учетом требований Государственного стандарта госо рк для специальности, 959.08kb.
- Задача глобальной идентификации данных в системе, 33.01kb.
- 1352. 08. 02;LS. 01, 19.55kb.
- Удк 007. 5: 510. 66: 159. 955. 5 Решение задач психосемантики и инженерии знаний, 119.11kb.
- Анализ и оценка дисциплин обслуживания требований (запросов) с учетом их приоритетов, 20.53kb.
- Дисциплина: Конъюнктура товарных рынков, 21.42kb.
- Современный интеллектуальный анализ нечетких временных рядов, 141.75kb.
- Оценка производственных функций, 268.17kb.
- Формулирование и анализ требований 1 Определение требований к системе 2 Пользовательские, 512.06kb.
- Программа дисциплины Анализ данных средствами ms excel для направления 080102. 65 Мировая, 121.98kb.
УДК 004.896(06) Интеллектуальные системы и технологии
А.В. ВОЙНОВ
Exelixis Inc. 170 Harbor Way, South San Francisco, CA 94080
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ
В СИСТЕМЕ МЕДИС-4
Система Медис-4 предназначена для инструментальной поддержки исследований в области извлечения знаний, психосемантики и интеллектуального анализа данных. В настоящей работе рассматриваются предоставляемые системой алгоритмы обработки данных, их математические свойства, а также инженерные аспекты их реализации.
Данные о попарном сходстве или различии некоторых объектов естественным образом возникают в различных гуманитарных и прикладных исследованиях. Можно отметить такие области, как экспериментальная психодиагностика, инженерия знаний, когнитивные науки, социология, медицина, экономика, маркетинг и пр. Источником таких данных может служить прямое экспертное оценивание сходств/различий; экспертное оценивание некоторых свойств объектов с последующим определением меры сходства между объектами на основе того или иного определения метрики на множестве объектов; прямое количественное измерение объективных свойств (параметров) объектов с аналогичным переходом к мерам сходства на основе определения метрики.
Множество допустимых значений сходства может быть как числовым (непрерывным или дискретным) так и нечисловым. Определение метрики на множестве объектов также может иметь как численную природу (коэффициент корреляции и т.п.), так и нечисленную.
Система МЕДИС [1, 2] предназначена для поддержки сбора прямых и косвенных оценок различий произвольных объектов, их обработки методами многомерного шкалирования, интерпретации полученных результатов, формального представления этих результатов в виде «полей знаний» над набором выявленных в ходе обработки и интерпретации «концептов».
Исследования, проведенные с помощью системы МЕДИС, относятся к областям психосемантики, инженерии знаний [3], когнитивной науки [4]. Для поддержки исследований в области моделирования образного мышления и интуиции [5], интеллектуального анализа медицинских данных [6] в версию 4.0 включена поддержка сбора косвенных данных о различиях произвольных объектов на основе т.н. «словарного шкалирования» аннотаций этих объектов терминами из предопределенного тезауруса.
Система Медис представляет самостоятельный интерес ввиду ряда особенностей, не имеющих аналогов в других системах обработки данных. В подсистеме сбора прямых экспертных оценок различий реализован подход, сочетающий достоинства т.н. «субъективного шкалирования» и теста репертуарных решеток Келли. Шкалируемые объекты делятся на два метакласса – «элементы» и «конструкты». В процедуре предъявления «элементы» сравниваются друг с другом, кроме того, каждый «элемент» сравнивается (сопоставляется) со всеми «конструктами».
Центральным в подсистеме обработки данных о различиях является оригинальный метод многомерного шкалирования, который приспособлен к обработке нечисловых данных о различиях, где список допустимых категорий имеет очень небольшую длину и не допускает однозначной «оцифровки» числовыми значениями. Такие данные чаще всего появляются в задачах субъективного шкалирования, где эксперту (респонденту) предъявляется список категорий вида «очень похоже», «похоже», «затрудняюсь ответить», «непохоже», «очень непохоже» и пр.
Из числа нововведений в версии 4.0 следует отметить оригинальный подход к определению метрики на множестве аннотаций объектов, а также возможность совместной обработки данных прямых и косвенных оценок различий.
Настоящий доклад посвящен обсуждению некоторых математических свойств указанных алгоритмов, а также технических аспектов их реализации.
Список литературы
- Воинов А.В. Интеллектуальная система анализа данных МЕДИС // Пятая национальная конференция с международным участием «Искусственный интеллект-96». Казань, 1996. Т.3.
- Воинов А.В. Решение задач психосемантики и инженерии знаний в системе МЕДИС 4.0 // КИИ-06. 2006.
- Воинов А., Гаврилова Т. Инженерия знаний и психосемантика: об одном подходе к выявлению глубинных знаний // Известия РАН. Техническая кибернетика. №5. 1994. С. 3-11.
- Черниговская Т.В., Гаврилова Т.А., Воинов А.В., Стрельников К.Н. Сенсомоторный и когнитивный латеральный профиль: тестирование и интерпретация // Журнал «Физиология человека». 2005. Т. 31. № 2. C. 35-44.
- Воинов А.В., Кобринский Б.А. Иерархия локально-непротиворечивых полей знаний как модель образного мышления и интуиции эксперта в мягких предметных областях // Девятая национальная конференция по искусственному интеллекту с международным участием: Тр. конф. Т.2. М.: Физматлит, 2004.
- Воинов А.В., Демикова Н.С., Кобринский Б.А. Словарное шкалирование в медицинской информатике: инженерия знаний и интеллектуальный анализ данных. КИИ-06.
ISBN 5-7262-0710-6. НАУЧНАЯ СЕССИЯ МИФИ-2007. Том 3