На правах рукописи
МОШКОВ Илья Сергеевич
СИСТЕМНЫЙ АНАЛИЗ ТЕКСТОВОГО ПРЕДСТАВЛЕНИЯ ТАКСОНОМИИ И РАЗРАБОТКА МОДЕЛЕЙ ДЛЯ ОЦЕНКИ ПРОФЕССИОНАЛЬНЫХ ЗНАНИЙ С ИСПОЛЬЗОВАНИЕМ ТЕСТОВ ОТКРЫТОГО ТИПА
Специальность 05.13.01 - Системный анализ, управление и обработка информации (промышленность) А в т о р е ф е р а т диссертации на соискание ученой степени кандидата технических наук
Самара - 2012
Работа выполнена на кафедре Информационные технологии Федерального государственного бюджетного образовательного учреждения высшего профессионального образования Самарский государственный технический университет
Научный консультант: доктор технических наук, доцент Якимов Владимир Николаевич
Официальные оппоненты: Дилигенский Николай Владимирович заслуженный деятель науки РФ, доктор технических наук, профессор, Самарский государственный технический университет, зав. кафедрой Управление и системный анализ в теплоэнергетике Минаков Игорь Александрович доктор технических наук, Учреждение Российской академии наук Институт проблем управления сложными системами РАН (ИПУСС РАН), г. Самара, старший научный сотрудник лаборатории анализа и моделирования сложных систем
Ведущая организация: Научно-производственный центр информационных и транспортных систем (НП - ИНФОТРАНС), г. Самара
Защита состоится л_____ ______________ 2012 года в ______ часов на заседании диссертационного совета Д 212.217.ФГБОУ ВПО Самарский государственный технический университет по адресу: г. Самара, ул. Галактионовская, 141, корпус № 6, ауд. 33.
С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО Самарский государственный технический университет по адресу: ул. Первомайская, 18.
Отзывы на автореферат в 2-х экземплярах, заверенные печатью, просим направлять на имя ученого секретаря диссертационного совета Д 212.217.по адресу: 443100, г. Самара, ул. Молодогвардейская, 244, ФГБОУ ВПО Самарский государственный технический университет, Главный корпус.
Факс (846) 278-44-
Автореферат разослан л_____ ______________ 2012 года
Ученый секретарь диссертационного совета Д 212.217.03 Губанов Н.Г.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы. Современная промышленность имеет сложную диверсифицированную многоотраслевую структуру и характеризуется высоким уровнем специализации производства. В результате важнейшим стратегическим ресурсом промышленного производства становятся профессиональные знания. Вследствие этого подготовка квалифицированных кадров и совершенствование их знаний отнесены к числу высших приоритетов государства, что отмечено в проекте документа Основы политики Российской Федерации в области развития науки и технологий на период до 2020 года и дальнейшую перспективу.
Следует отметить и то, что растет число предприятий, эксплуатирующих опасные производственные объекты. Неквалифицированные действия специалистов на таких предприятиях могут привести к производственным инцидентам катастрофического характера. Поэтому деятельность промышленных предприятий регулируется федеральным законом О промышленной безопасности опасных производственных объектов, согласно которому они должны регулярно проводить аттестацию работников.
Оценить степень готовности специалистов выполнять свои текущие служебные обязанности можно лишь только в ходе постоянного мониторинга их профессиональных знаний. Для этого предприятие должно уметь идентифицировать знания, требуемые для его нормальной производственной деятельности, и иметь организационные и технические возможности сравнить их с действительным состоянием знаний своих специалистов.
Формирование потенциала профессиональных знаний базируется на таксономии многообразных форм теоретических знаний и опыта работы специалистов. Таксономия знаний - это результат идентификации и структурирования знаний, это иерархическая система классификации, которая, будучи основана на отношениях подчинения, помогает систематизировать процедуру группировки и категоризации формализованных знаний. Важным свойством таксономического представления профессиональных знаний является то, что оно способствует выявлению случаев возникновения проблем со знаниями у специалистов и позволяет связать их с определенной категорией причин.
Понимая всю значимость проверки уровня квалификации специалистов, следует иметь в виду, что промышленное производство накладывает определенные особенности на представление и оценку их профессиональных знаний. Эти особенности обусловлены как объективными факторами (непрерывным обновлением технологий, сменой номенклатуры производимой продукции, спецификой условий производства, наличием различий между предприятиями даже в рамках одной отрасли и т.п.), так и субъективными факторами (ведомственными нормативными актами, особенностями руководства и его индивидуальными установками, мотивацией работников и т.п.).
В настоящее время для оценки знаний специалистов широко применяются тестовые испытания и экспертное оценивание. При этом в процессе тестирования в основном используются тесты закрытого типа. Процедуру такого тестирования можно легко автоматизировать, но она не выявляет способности тестируемого к рациональному мышлению и не позволяет проанализировать ход его рассуждений. Что касается экспертного оценивания, то оно позволяет оценить весь комплекс знаний специалиста и получить представление о его компетентности принимать решения, но автоматизация такого контроля знаний затруднена вследствие непосредственного участия в нем экспертов. Получить информацию о том, насколько системно специалист владеет профессиональными знаниями, можно с помощью тестов открытого типа.
Поэтому они могут быть использованы для оценки системно-организованных профессиональных знаний и способности применять их на практике. Однако автоматизация этих тестов приводит к необходимости анализа текстов на естественном языке, что сдерживает их применение на практике.
Таким образом, создание качественного инструментария оценки профессиональных знаний специалистов, следует рассматривать как важную, актуальную проблему современного промышленного производства.
В соответствии с вышеизложенным, целью диссертационной работы является системный анализ представления таксономии в текстах на естественном языке, разработка моделей терминологических и системно-организованных профессиональных знаний и создание на их основе алгоритмического и программного обеспечения для оценки знаний специалистов промышленных предприятий с использованием тестов открытого типа.
Для достижения поставленной цели были решены следующие задачи:
1) проведен анализ методов контроля и формализованного представления профессиональных знаний в промышленности, а также анализ методов извлечения знаний из связного текста на естественном языке и языковых средств формирования текстов данного вида;
2) проведен системный анализ представления таксономии в тексте на естественном языке, определены его основные языковые конструкции, среди которых особое внимание уделено понятию термина как элементу языка фиксации знаний, а также исследована связь этих конструкций с представленными в них элементами знаний;
3) разработана формальная модель термина, позволяющая хранить смысловые значения терминов, которые используются при описании таксономии профессиональных знаний;
4) на основе модели термина разработана формальная модель таксономии, предназначенная для хранения совокупности смысловых значений терминов в процессе организации баз профессиональных знаний;
5) разработана методика оценки профессиональных знаний, основанная на сопоставлении смыслового содержания баз профессиональных знаний, созданных экспертами, и данных о знаниях специалистов, полученных в результате автоматизированного анализа тестов открытого типа;
6) на основе моделей термина и таксономии разработано алгоритмическое обеспечение, которое позволяет проводить анализ текстов на естественном языке, описывающих таксономию, а также рассмотрена программная реализация этих алгоритмов для автоматизированной оценки профессиональных знаний специалистов с использованием тестов открытого типа.
Методы исследования. В качестве методологической основы решения указанных задач в диссертационной работе использовались методы системного и функционального анализа, графоаналитические методы, методы представления знаний. Для подтверждения полученных теоретических результатов применялись методы экспериментальных исследований совместно с методами математического и имитационного моделирования.
Научная новизна заключается в следующем:
1) проведен системный анализ представления таксономии в виде связанных текстов, который позволил установить закономерности построения таких текстов и выявить типовые языковые конструкции, используемые для описания терминологических и системно-организованных знаний в виде иерархических структур;
2) разработана формальная модель описания терминов, отличительной особенностью которой является то, что она за счет разделения элементов сложных терминов по их семантическим ролям позволяет связать составные части терминов с их текстовым представлением;
3) разработана формальная модель описания таксономии, отличающаяся от известных тем, что она позволяет связывать системно-организованные профессиональные знания в виде иерархических структур с их представлением в тексте на естественном языке;
4) предложена методика анализа текстов на естественном языке, особенностью которой является использование синтаксических шаблонов и семантических правил для определения семантических ролей языковых конструкций текстового представления таксономических структур в соответствии с разработанными формальными моделями терминов и таксономии;
5) предложена методика оценки профессиональных знаний, отличительная особенность которой заключается в возможности сравнения знаний специалистов с формализованными знаниями, как между терминами таксономии, так и между составными частями сложного термина, что позволяет дать комплексную оценку системности знаний специалистов.
Практическая значимость работы:
1) разработанные модели терминов и таксономии позволяют экспертам представлять терминологические и системно-организованные профессиональные знания в виде баз формализованных знаний с учетом специфики производственных процессов конкретных промышленных предприятий;
2) предложенная методика анализа текста, описывающего классификацию, позволяет извлекать из него терминологические и системно-организованные профессиональные знания и осуществлять оценку знаний специалистов, путем сопоставления их с формализованными знаниями;
3) разработанное алгоритмическое и программное обеспечение может быть использовано при построении систем оценки профессиональных знаний для автоматизированного контроля компетенций специалистов промышленных предприятий при подборе новых работников, а также в процессе подготовки и проведения аттестации персонала.
Реализация результатов исследований. Диссертационная работа выполнена в соответствии с действующим координационным планом фундаментальных научных направлений деятельности ФГБОУ ВПО Самарский государственный технический университет (СамГТУ) в рамках темы Системный анализ сложных технических объектов и методы обработки информации. Результаты диссертационной работы апробированы в ООО Региональная энергетическая сервисная компания Искра (г. Самара). Материалы диссертационной работы также используются в учебном процессе СамГТУ в лекционном курсе и лабораторном практикуме по дисциплине Системы искусственного интеллекта для студентов специальности 230102 Автоматизированные системы обработки информации и управления.
Положения, выносимые на защиту:
1) формальная модель описания терминов, которая за счет разделения элементов сложных терминов по их семантическим ролям позволяет связать составные части терминов с их текстовым представлением;
2) формальная модель описания таксономии, связывающая системноорганизованные профессиональные знания в виде иерархических структур с их представлением в тексте на естественном языке;
3) методика анализа текстов на естественном языке, основанная на построении синтаксических шаблонов и семантических правил для определения семантических ролей языковых конструкций;
4) методика оценки профессиональных знаний, позволяющая осуществлять комплексный анализ знаний специалистов в результате выполнения процедуры их сравнения с базами формализованных знаний, как на уровне терминов таксономии, так и между составными частями сложного термина.
Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на следующих конференциях:
Международной конференции по мягким вычислениям и измерениям (СанктПетербург, 2008, 2010, 2011); Международной научно-практической конференции Фундаментальные и прикладные проблемы приборостроения, информатики и экономики (Сочи, 2008, 2010, 2011); Международной научнопрактической конференции Ресурсо- и энергосберегающие технологии и оборудование, экологически безопасные технологии (Минск, 2010); Международной научно-практической конференции Инновация-2011 (Ташкент, 2011); Всероссийской научно-практической конференции Наука. Технологии. Инновации (Новосибирск, 2009); Всероссийской научно-практической конференции Компьютерные технологии в науке, практике и образовании (Самара, 2010, 2011); Всероссийской научно-практической конференции ученых и педагогов-практиков Актуальные проблемы развития высшего и среднего образования на современном этапе (Самара, 2008).
Основные публикации. По теме диссертационной работы опубликовано 19 работ, 5 из которых опубликованы в рецензируемых изданиях из перечня ВАК России, а также получено одно свидетельство об официальной регистрации программы для ЭВМ.
Структура и объем диссертационной работы. Общий объем работы 173 страницы. Диссертация состоит из введения, четырех разделов и заключения, изложенных на 159 страницах, включая 43 рисунка, 7 таблиц, а также содержит список использованных источников из 108 наименований на страницах и 3 приложения на 3 страницах.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертационной работы, определены цель и задачи исследований, охарактеризована научная новизна и практическая значимость полученных результатов, приведены сведения по апробации и реализации работы, а также сформулированы основные положения, выносимые на защиту.
В первом разделе рассмотрена проблема автоматизированной оценки профессиональных знаний специалистов.
Обеспечить объективную оценку профессиональных знаний специалистов можно только с учетом специфики их формирования и структурной организации. Документально закрепленные профессиональные знания являются формализованными, причем в основе их формализации лежат те или иные принципы систематизации. Фактически приходится иметь дело с системноорганизованной совокупностью формализованных профессиональных знаний, которым свойственна иерархичность описания производственных процессов в виде таксономических структур.
В настоящее время интенсивно применяется тестовая форма контроля профессиональных знаний, а также их экспертное оценивание. Получившие широкое распространение тесты закрытого типа можно легко автоматизировать, но они не позволяют оценивать высокопродуктивные уровни знаний.
Экспертное оценивание позволяет решить эту проблему. Однако автоматизация такого оценивания затруднена в виду участия в его процессе экспертов.
Достаточно объективную оценку профессиональных знаний могут дать тесты открытого типа, но в этом случае автоматизация тестирования приводит к необходимости обработки высказываний специалистов в виде текстов на естественном языке. Для этого необходимо располагать моделями и базами профессиональных знаний, построение которых связано со сложностями, обусловленными большим количеством задействованных понятий и их высокой связностью. Найти рациональное решение данной проблемы можно, если учесть таксономический характер организации профессиональных знаний.
В процессе решения указанной проблемы были рассмотрены вопросы структурной организации текста, методы его автоматизированной обработки и методы построения баз профессиональных знаний. Было учтено, что организация текстов является сложной, многоуровневой и открытой системой. В качестве основных уровней выделены морфологический, синтаксический и семантический уровни, на каждом из которых были рассмотрены и обобщены языковые средства формирования типовых языковых конструкций.
Морфологический уровень определяет характеристики отдельных слов.
Слово на этом уровне рассматривается как набор морфем, которые являются значимой текстовой единицей слова. Основной характеристикой слова является часть речи. Представление об организации текста на морфологическом уровне позволяет учитывать согласованность слов предложения в процессе автоматизированной обработки текста.
Языковые конструкции на синтаксическом уровне строятся на основе правил согласования морфологических характеристик. На этом уровне можно получить представление об языковых средствах установления потенциальных ролей слов и их структурной организации в предложении. При этом текст рассматривается как линейная последовательность связанных синтаксических единиц, которыми являются отдельные слова, словосочетания и предложения. Основными средствами представления синтаксических связей являются морфологические словоизменительные характеристики, части речи, служебные слова, знаки препинания и порядок слов в предложениях. Также существует ряд ограничений, определяющих правильность построения синтаксической структуры: проективность, древовидность, согласованность синтаксических ролей слов и их порядок в предложении. Выделение синтаксических единиц при автоматизированной обработке текста позволяет делить его на относительно равнозначные фрагменты по смысловому наполнению.
На семантическом уровне организацию профессиональных знаний можно рассматривать как многомерную структуру с точки зрения связности смысловых конструкций. На этом уровне выделяются дополнительные уровни для представления значений языковых конструкций: 1) уровень слова; 2) уровень словосочетания; 3) уровень сегмента предложения; 4) уровень предложения; 5) уровень абзаца; 6) уровень текстового документа. В зависимости от ролей, которые играют смысловые конструкции в предложении, можно выделить: 1) субъект, о котором идет речь; 2) действие, которое совершает субъект; 3) объект (или объекты), над которым совершаются действия. Представление текста в виде уровневой структуры обуславливается содержащейся в тексте информацией, а также накладываемыми на него правилами и ограничениями. В связи с этим, для осуществления автоматизированной обработки текстов следует располагать моделью представления знаний, учитывающей связь с каждым из уровней представления текста.
В зависимости от уровня организации текста, выделяют следующие методы его анализа: графематический, морфологический, синтаксический, семантический и прагматический. Каждый из этих видов анализа осуществляется на соответствующем уровне организации текста. Морфологический и синтаксический виды анализа несущественно зависят от поставленных задач анализа текста. При этом имеются достаточно хорошо разработанные способы их практической реализации. Семантический анализ существенно зависит от конечной цели анализа текста и во многом определяется используемой моделью представления знаний.
Анализ моделей представления знаний показал, что наиболее адекватной формой представления профессиональных знаний является иерархическая семантическая сеть. Она соответствует специфике формирования профессиональных знаний. При этом для повышения детализации описания понятий следует ввести трехуровневую организацию такой сети. На этих уровнях будем иметь: 1) множество элементов, образующих единое понятие; 2) множество взаимосвязанных понятий, образующих единую таксономию знаний; 3) множество альтернативных способов классификации понятий.
Таким образом, проведенные исследования показали, что оценивание профессиональных знаний с использованием тестов открытого типа требует сравнения извлекаемых из текста на естественном языке знаний специалиста (субъективных знаний) с формализованными экспертными знаниями. Вследствие этого требуется наличие обобщенной модели представления формализованных профессиональных знаний. Данная модель должна отражать терминологию и альтернативное описание системно-организованных знаний.
Во втором разделе рассматриваются вопросы системного анализа представления таксономии в тексте, а также вопросы, связанные с разработкой модели профессиональных знаний. В процессе системного анализа использовалось два подхода к рассмотрению текста: имманентный и репрезентативный. Имманентный подход исходил из рассмотрения текста как законченного по своему содержанию фрагмента и был направлен на выявление его внутренней структуры. Репрезентативный подход основывался на рассмотрении текста как формы представления знаний об объективно существующей по отношению к нему области профессиональных интересов.
Системный анализ представления таксономии в тексте позволил установить основные закономерности построения языковых конструкций, используемых для его формирования. С учетом этих закономерностей высказывание специалиста можно записать следующим образом:
=< Obj, Mt, Nc >, (1) где Obj - языковые конструкции смысловых объектов (конструкции языкаобъекта), описывающие в тексте производственные объекты, их состояния, а также технологические процессы; Mt - языковые конструкции, которые связывают объекты между собой и описывают особенности их структурной организации (конструкции метаязыка); Nc - нецелевые языковые конструкции, смысловое значение которых не относится к описанию таксономии.
Высказывание специалиста рассматривается как связный текст. В соответствии с этим показано, что описание таксономии на уровне текста определяет ее смысловое содержание, а на уровне предложения - как правило, группу смысловых объектов, связанных с объектами предыдущего предложения и непосредственно между собой. Поэтому предложение pi, принадлежащее высказыванию , можно представить как совокупность множеств:
p pi =< Obj, L, K,T >, (2) p где Obj - множество терминов предложения; L - множество связей между терминами; K - множество критериев их деления, T - множество метаязыковых конструкций, описывающих особенности таксономии.
На уровне словосочетания в зависимости от особенностей текстового представления и принадлежности к элементам таксономии описание смыслового объекта представляется следующей конструкцией:
Obj =< P, k, Sub >, (3) где P - множество признаков, описывающих смысловой объект; k - основное смысловое содержание объекта (ядро); Sub - подчиненный ядру смысловой объект (субъект).
В процессе системного анализа языковые конструкции, описывающие понятия таксономии, были определены как термины. Также были определены четыре основные семантические роли слов, образующих термин.
1) Слово может являться ядром k термина и ассоциироваться со смысловым значением объекта. На синтаксическом уровне представления текста ядро не подчинено другим словам этого термина, но все остальные его слова имеют прямое или косвенное синтаксическое подчинение ядру.
2) Слово может обозначать субъектную часть термина Sub, которое модифицирует значение всего термина за счет вложенных терминов. Ядро термина субъектной части синтаксически согласовано с ядром всего термина.
3) Слово может относиться к признаковой части P, которое состоит из множества признаков pi. Признаки служат для модификации описываемого значения термина и разграничения значений родственных терминов. Они не имеют никакой внутренней семантической структуры. На синтаксическом уровне представления текста признаки связаны только с ядром текущего термина и являются, как правило, определениями.
4) Слово может принадлежать логической части термина Log, которая может состоять из множества терминов, присоединенных к основному термину с помощью логических связей. В логической части, как правило, используются сложные термины, которые в отдельных случаях могут быть заменены их признаками. В работе такой тип термина определен как логически присоединенный термин (ЛПТ).
На рисунке 1 приведены основные языковые конструкции текста, описывающего таксономию, и их семантические роли.
Рисунок 1 - Типы языковых конструкций текста, описывающего таксономию Совокупность языковых конструкций могут образовывать сложный термин, в котором каждая конструкция играет свою роль. Схема семантических ролей языковых конструкций сложного термина приведена на рисунке 2. Этот рисунок иллюстрирует, что в общем случае между ядром k термина существуют внутренние связи с другими терминами, которые также присутствуют в модели представления знаний как самостоятельные термины.
Рисунок 2 - Схема семантических ролей языковых конструкций сложного термина Для того чтобы связать сложный термин, состоящий из множества слов, с его значением, были разработаны структуры морфологического и семантического словарей. Семантический словарь является основой для построения модели представления таксономии и описывается выражением:
- DS =< We, Sem, Fsem, Fsem >, (4) где We - морфологический словарь, содержащий множество словоизменительных парадигм всех слов; Sem - множество значений слов, связанных со словоизменительными парадигмами; Fsem - функция, определяющая значе-ние слова; Fsem - функция, определяющая текстовое представление значения.
На основе семантических ролей и связей языковых конструкций термина разработана модель сложного составного термина:
k k S (k ) L t =< {p1,..., pN },k,t,{t1L(k ),...,tM(k )} >, (5) где N - число подчиненных ядру k признаков термина; M - число подчиS (k ) S ненных ядру k ЛПТ; t - внутренний термин с ядром k, подчиненным L(k ) L ядру k ; t - ЛПТ с ядром k, подчиненному ядру k.
L(k ) В зависимости от tS (k ) и T термины классифицированы по структурL(k ) ной сложности на четыре типа. Простой термин: tS (k ) = , T = . СложL(k ) L(k ) ный термин: tS (k ) , T = . Составной термин: tS (k ) = , T .
L(k ) Сложный составной термин: tS (k ) , T .
В процессе построения модели таксономии, были рассмотрены способы определения родственных связей между смысловыми значениями, задаваеS,N -мыми семантическим словарем. Сложные термины tiN =< k,t > ссылаются j N -1 S на более простые термины t =< k,tm,N -2 >, где N - количество вложенных j терминов, а i, j,m - индексы терминов. Для того чтобы иметь возможность оценивать модификацию смысловых значений сложного термина, обусловленную субъективным искажением, введены простейшие таксономии, которые описывают структурную организацию простейших терминов. Простейшей считается таксономия Tri0, для которой корневой элемент troot,0 Tri0 и j является простым термином, т.е. troot,0 =< k >, где i - индекс таксономии, j - j индекс термина. В свою очередь сложной считается таксономия TrjN, в котоroot,N рой t0 =< k,tiS,N >, где внутренний термин tiS,N Tri. Пример формирования смысловых значений в таксономию представлен на рисунке 3.
Рисунок 3 - Пример формирования смысловых значений в таксономию В вершине любой таксономии Tr находится термин troot, который классифицируется посредством подчиненных терминов таксономии. В одной таксономии находятся термины, которые напрямую или косвенно связаны друг с другом родовидовой или партитивной связью. Следовательно, для любого термина таксономии, кроме troot, выполняется условие:
ti Trt Tr : Pl (ti,t ) = 1, (6) j j где ti и t - два родственных термина одной таксономии Tr ; Pl - предикат, j определяющий косвенную связь между терминами.
Обобщенная модель таксономии построена на основе множества терминов и множества таксономий различного уровня сложности, а также функций определения связности. Она имеет вид:
M =< {t0,...,tL},{TRC10,...,TRCij,...,TRCN }, Pil, Pl, Fkr >, (7) где Pil и Pl - предикаты, определяющие соответственно непосредственную и косвенную связи двух терминов; Fkr - функция связи одного термина с одной группой терминов, объединенной одним критерием деления Kr.
Модели (5) и (7) позволяют экспертам представлять терминологические и системно-организованные профессиональные знания в виде баз формализованных знаний с учетом специфики производственных процессов.
В третьем разделе рассмотрены вопросы разработки алгоритмического обеспечения системы оценки профессиональных знаний на основе разработанных моделей термина и таксономии. Структурная схема системы оценки профессиональных знаний представлена на рисунке 4. Основными компонентами системы являются лингвистический процессор, база профессиональных знаний и оценочные аппараты структуры таксономии и терминов.
ингвистический процессор обеспечивает извлечение профессиональных знаний из текста. Он содержит: препроцессор; морфологический, синтаксический и семантический анализаторы. Препроцессор собирает отдельные символы в слова, а также разбивает предложения на сегменты Seg в соответствии с принципами организации предложений (1), (2), (3). Сегменты разбиваются так, чтобы простой термин находился только в одном сегменте:
мtk :tk Segi tk Segi (8) Морфологический анализатор сопоставляет слово с его словоизменительной парадигмой на основе словарного метода.
Работа синтаксического анализатора основана на принципах организации связного текстового представления таксономии (2) и на принципе деления слов в термине по их семантическим ролям (5). Для формализации данных принципов разработаны шаблоны языковых конструкций. При этом простейший шаблон слова w имеет вид:
< w( p1,..., pi,..., pN ) >, (9) где pi - i-ое свойство слова; N - число свойств.
На основе простейшего шаблона с учетом согласованности свойств pi строится множество шаблонов, позволяющих проводить синтаксический анализ сложных терминов сегмента текста и строить его синтаксическую структуру. В таблице 1 приведены основные синтаксические шаблоны.
Рисунок 4 - Структурная схема системы оценки профессиональных знаний Таблица 1. Основные синтаксические шаблоны Семантическая роль Шаблон языковой конструкции Ядро термина ::= ]+<> ]* ]* ]* Таблица 2. Основные правила подтверждения семантической роли Семантическая роль языковой Семантическое правило конструкции Связь языковых конструкций Hsub(1,2) = 1 Fil(Fsem(1), Fsem(2)) Проверка ядра Hk() = (k ()) Проверка признака Hp() = (p ())(2: Hk (2)Hsub(,2)) Проверка ядра внутреннего термина Hk`() = (k,k` ())(2: Hk(2)Hsub(,2)) Проверка ядра ЛПТ Hkl() = (kl, k ())(2: Hk (2)Hsub(,2)) Проверка термина Ht(t) = HkHpHk`Hkl Проверка термина темы Hth(t) = Ht(t)Fl(t, t0th)(t2: Fil(t2, t1) = 1) Проверка терминов ремы Hrh(t) = Ht(t)Fl(t, t0th) Проверка связи между терминами HL() = L ()(tTrh: Fil(t, tth)) Проверка критерия деления Hkr(, t) = kr ()(tKr)(TrhKr) Профессиональные знания оцениваются на основе результатов семантического анализа. Численное значение оценки соответствия моделей субъективных и экспертных знаний определяется как: N M Q = Max Qat(tiс,tэ ), (10) =1 j =j i э где Qat(tiс,t ) - оценка соответствия i-ого термина tiс построенной модели j таксономии j-ому термину tэ в экспертной таксономии. j 0, Qr (tic,tэ) 0; j Qat(tiс,tэ ) = (11) Q (tiс,tэ) /Qr (tic,tэ), Qr (tic,tэ) > 0; j ter j j j э где Qter (tiс,t ) - оценка близости структур терминов tiс, и tэ, а Qr (tic,tэ) - j j j оценка близости этих терминов в модели таксономии. Qr (tic,tэ) = Rc(tic, Fp (tic)) /(Rэ(tэ, Fp(tэ)) - Rc(tic, Fp(tic))), (12) j j j где Rc (...) и Rэ(...) - операторы определения длины пути между терминами в вершинах субъективной и экспертной таксономий; Fp (Е) - оператор определения подчиняющего (родительского) термина. M e Qter = =1 Qter,i; M i (13) 0,мTR:kiэ TR kiс TR; e D0 +Qter,i = |D(kiэ,kiс )| +1 Qp(ki )QTL(ki ),TR:kiэ TR kiс TR, e где M - число корневых вершин в структуре термина; Qter,i - оценка i-ого элемента термина; kiэ и kic - i-ые значения ядер термина в экспертной и субъективной таксономиях; D(kiэ,kiс ) - длина пути между вершинами, соответствующим понятиям в простейшей таксономии TR; D0 - эталонная длина пути между ядрами в субъективной и эталонной таксономиях; Qp (ki ) и QTL (ki ) - оценки соответствия признаков и ЛПТ. Оценки Qp (ki ) и QTL (ki ) равны: 1, p (Pkэ Pkс ); j |Pkэ Pkсi | |Pkэ Pkсi | i i i i e Qp (ki ) = (14) =1 Qe, ; Qp, = =1 ,p (Pkэ/Pkс ); C p j j miss j i i j j C,p (Pkс/Pkэ); err j i i где Pkэ и Pkc - множества признаков экспертной и субъективной таксономий, i i относящиеся к ядру ki; Cmiss и Cerr - коэффициенты поправки, которые задаются экспертами и учитывают соответственно случаи возможного отсутствия термина или наличие недопустимого термина в субъективной модели знаний. Оценка (10), будучи основана на выборе максимально подходящих терминов субъективного и экспертного смыслового содержания моделей таксономии, позволяет судить о степени отклонения субъективных знаний специалистов от экспертных знаний. На основе оценки (10) с учетом выражений (11)-(14), а также с учетом представленных выше синтаксических шаблонов и семантических правил (таблицы 1 и 2), разработано алгоритмическое обеспечение, которое позволяет автоматизировать процедуру обработки текстового представления таксономии и оценки профессиональных знаний. В четвертом разделе рассмотрена практическая реализация системы обработки текста, описывающего таксономическую структуру. Разработанная система реализует три функции: 1) создание и обновление базы экспертных знаний; 2) извлечение знаний специалистов из текстов на естественном языке в процессе тестирования; 3) оценку знаний специалистов. Данная система основана на модульном принципе построения в рамках объектно-ориентированного программирования. В работе приводятся диаграммы классов моделей хранения и обработки терминов. В особый класс выделены системы связанных таксономий. Кроме того, приводятся диаграммы потоков данных процесса обработки высказываний на различных этапах оценки профессиональных знаний. Апробация системы была осуществлена в процессе тестирования специалистов ООО Региональная энергетическая сервисная компания Искра (г. Самара, 2012). Целью апробации системы было подтверждение достоверности предложенных методик анализа текстов и оценки профессиональных знаний специалистов. Для подтверждения достоверности результатов был разработан сценарий эксперимента, состоящий из двух этапов: 1) подбор исходного материала для оценки; 2) получение и обработка результатов тестирования. Для определения степени связности экспертной и программной оценок использовался коэффициент корреляции Пирсона: -N N N rxy = (15) (x - x)(yi - y) (x - x)( yi - y) , i i i=1 i=1 i= где xi и yi - значения экспертных и программных оценок, x и y - средние значения этих оценок; N - общее количество оценок. На рисунке 5 приведены диаграммы рассеяния экспертных оценок и оценок, полученных программным путем. Диаграммы также иллюстрируют зависимость получаемых результатов тестирования от сложности описываемой таксономии. Соотношение экспертной Соотношение экспертной и программной оценки и программной оценки 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Программная оценка Программная оценка a) б) Рисунок 5 - Диаграммы рассеяния экспертных и программных оценок результатов открытого тестирования Экспертная оцека Экспертная оцека Как следует из этих диаграмм, результаты тестирования зависят от выбранной сложности терминологии, используемой для описания таксономии, которая определяется как количество внутренних ядер tS,N термина. Для таксономии, основанной на термине tS,2 сложностью 2 (см. рисунок 5а), коэффициент корреляции экспертной и программной оценки составил 0,931. Для комплексной таксономии, основанной на термине tS,4 сложностью 4 (см. рисунок 5б), коэффициент корреляции для распознанных ответов составил 0,896. Степень распознавания уменьшается в тех случаях, когда ответ имеет сложную логическую структуру или характеризуется низкой системностью описания. Отсюда следует, что в случае корректного распознавания материалов тестирования, разработанная система позволяет получать в автоматизированном режиме оценки профессиональных знаний специалистов, сопоставимые с результатами экспертного оценивания. Таким образом, экспериментальные исследования свидетельствуют о том, что данную систему можно использовать в процессе контроля знаний специалистов промышленного производства. В заключении приведены основные научные результаты работы. Основные результаты и выводы 1. Профессиональные знания специалистов являются формализованными, и им свойственна иерархичность описания производственных процессов в виде таксономических структур. Получить достаточно объективную оценку профессиональных знаний можно с использованием тестов открытого типа. Однако автоматизация этих тестов приводит к необходимости обработки текстов на естественном языке. 2. Системный анализ представления таксономии в тексте позволил выявить основные типовые языковые конструкции, среди которых особое внимание уделено понятию термина. Также исследована связь выявленных языковых конструкций с их смысловым содержанием. 3. На основе типовых языковых конструкций представления таксономии в тексте разработана формальная модель термина, которая позволяет хранить смысловые значения, используемые при описании таксономии профессиональных знаний. 4. Разработанная модель термина послужила основой для построения модели таксономии профессиональных знаний. Данная модель позволяет проводить обработку текстового представления таксономии, как на уровне отдельных терминов, так и на уровне таксономии в целом, а также интерпретировать полученные результаты обработки. 5. Разработаны синтаксические шаблоны ролей языковых конструкций и семантические правила распознавания текстового представления таксономии, которые позволили формализовать процедуру анализа профессиональных знаний в процессе использования тестов открытого типа. На основе этих шаблонов и правил предложена методика обработки текстового представления таксономии. 6. Разработана методика оценки соответствия моделей субъективных и экспертных знаний, основанная на выборе максимально подходящих терминов субъективного и экспертного смыслового содержания моделей таксономии, которая позволяет судить о степени отклонения субъективных знаний специалистов от экспертных знаний. 7. Разработано алгоритмическое и прикладное программное обеспечение системы обработки результатов тестов открытого типа, которое осуществляет автоматизированную оценку профессиональных знаний специалистов. Опубликованные работы по теме диссертации Публикации в рецензируемых изданиях из перечня ВАК: 1. Мошков И.С. Автоматическое извлечение знаний о таксономиях из текста на естественном языке / И.С. Мошков // Вест. Самар. гос. техн. ун-та. Сер. Технические науки. - 2011. - № 1 (29). - С. 45-51. 2. Мошков И.С. Система распознавания терминов таксономии в документах на естественном языке / И.С. Мошков, В.Н. Якимов // Программные продукты и системы. - 2011. - № 3 (95). - С. 36-41. 3. Мошков И.С. Методика анализа сложных составных терминов в тексте на естественном языке / И.С. Мошков, В.Н. Якимов // Информационные технологии. - 2011. - № 11. - С. 26-30. 4. Мошков И.С. Сопоставление синтактико-грамматической и семантической моделей в процессе анализа текста на естественном языке / И.С. Мошков // Вест. Самар. гос. техн. ун-та. Сер. Технические науки. - 2011. - № 3 (31). - С. 82-88. 5. Мошков И.С. Структурный анализ сложных терминов в технических документах / И.С. Мошков, В.Н. Якимов // Интеллектуальные системы в производстве. - 2011. - № 2. - С. 270-278. Публикации в других изданиях: 6. Мошков И.С. Проблема анализа текста на естественном языке в задачах обработки результатов открытого тестирования [Текст] / В.Н.Якимов, И.С. Мошков // Сборник докладов Международной конференции по мягким вычислениям и измерениям (SCM'2008). 23-25 июня 2008 г. - СанктПетербург: СПбГЭТУ ЛЭТИ, 2008. - Т.1. - С.210-214. 7. Мошков И.С. Методика оценки знаний в текстах результатов открытого тестирования / И.С. Мошков, В.Н. Якимов // Научные труды XI Международной научно-практической конференции Фундаментальные и прикладные проблемы приборостроения, информатики и экономики. 6-10 октября 2008: книга Информатика. - М.: МГУПИ, 2008. - С. 206-211. 8. Мошков И.С. Обработка синтактико-грамматической структуры текста таксономического типа в процессе распознавания/ И.С. Мошков // Наука. Технологии. Инновации: Материалы Всероссийской научно-практической конференции молодых ученых. - Новосибирск, 2009 - С. 61-62. 9. Мошков И.С. Особенности анализа на естественном языке, описывающих таксономическую структуру / И.С. Мошков, В.Н. Якимов // Сборник докладов XIII Международной конференции по мягким вычислениям и измерениям (SCM'2010). 23-25 июня 2010 г. - Санкт-Петербург: СПбГЭТУ ЛЭТИ, 2010. - Т.1. - С.232-236. 10. Мошков И.С. Построение синтактико-грамматической и семантической моделей текста, описывающих таксономическую структуру / И.С. Мошков, В.Н. Якимов // Фундаментальные и прикладные проблемы приборостроения и информатики: Сборник научных трудов по материалам XIII Международной научно-практической конференции. Сочи, 4-8 октября 2010: книга Информатика. - М.: МГУПИ, 2010. - С. 145-149. 11. Мошков И.С. Анализ способов описания классификаций в тексте на естественном языке / И.С. Мошков // Компьютерные технологии в науке, практике, образовании: Труды IX Всероссийской научно-практической конференции. 18 ноября 2010 / Самар. гос. техн. ун-т. - Самара, 2010. - С. 48-50. 12. Мошков И.С. Извлечение объектов предметной области из текста с таксономической структурой / И.С. Мошков, В.Н. Якимов // Компьютерные технологии в науке, практике и образовании: Труды IX Всероссийской межвузовской научно-практической конференции. 18 ноября 2010 / Самар. гос. техн. ун-т. - Самара, 2010. - С. 51-53. 13. Мошков И.С. Определение объектов и их характеристик в процессе обработки текстовой информации / И.С. Мошков, В.Н. Якимов // Ресурсо- и энергосберегающие технологии и оборудование, экологически безопасные технологии: Материалы IX Междунар. науч.-техн. конф., Минск, 24-26 ноября 2010 г. - Минск: Белорусский гос. техн. ун-т, 2010. - Ч.2. - С.334-337. 14. Мошков И.С. Анализ структуры сложных составных терминов в тексте таксономического типа / И.С. Мошков, В.Н. Якимов // Сборник докладов XIV Международной конференции по мягким вычислениям и измерениям (SCM'2011). 23-25 июня 2011 г. - Санкт-Петербург: СПбГЭТУ ЛЭТИ, 2011. - Т.1. - С.279-283. 15. Мошков И.С. Компьютерная система анализа текста таксономического типа применительно к оценке профессиональных знаний / А.Н. Краснов, И.С. Мошков, В.Н. Якимов // Международная научно-практическая конференция Инновация-2011: Сборник научных статей. Ташкент, 25-октября 2011 / Ташкентский гос. техн. ун-т. - Ташкент, 2011. - С. 287-289. 16. Мошков И.С., Якимов В.Н. Построение синтактико-грамматической и семантической моделей знаний в текстовых документах / И.С. Мошков, В.Н. Якимов // Фундаментальные и прикладные проблемы приборостроения и информатики: Сборник науч. трудов по материалам XIV Международной научно-практической конференции. Сочи, 3-7 октября 2011: книга Информатика. Информационная безопасность. - М.: МГУПИ, 2011. - С. 125-129. 17. Мошков И.С. Особенности описания терминов в тексте таксономического типа / И.С. Мошков // Компьютерные технологии в науке, практике и образовании: Труды X Всероссийской межвуз. научно-практической конференции. 17 ноября 2011 / Самар. гос. техн. ун-т. - Самара, 2011. - С. 67-70. 18. Мошков И.С. Принципы построения модели знаний для анализа текстового представления таксономической структуры / И.С. Мошков // Компьютерные технологии в науке, практике и образовании: Труды X Всероссийской межвуз. научно-практической конференции. 17 ноября 2011 / Самар. гос. техн. ун-т. - Самара, 2011. - С. 70-73. 19. Мошков И.С. Формирование стандартной языковой картины предметной области как основа теоретической подготовки студентов [Текст] / В.В. Жиров, А.Н. Краснов, А.Н. Меркушев, О.Н. Моисеева, И.С. Мошков, С.А. Никаев, Е.А. Слоева // Актуальные проблемы развития высшего и среднего образования на современном этапе: Материалы Всероссийской научнопрактической конференции ученых и педагогов-практиков. - Самара: Изд-во Самарского научного центра РАН, 2008 - Т.1. - С. 271Ц273. 20. Свидетельство об официальной регистрации программы для ЭВМ №2012611706, Рос. Федерация. Прикладная программа анализа терминов в тексте таксономического типа на естественном языке / В.Н. Якимов (РФ), И.С. Мошков (РФ). - Зарегистрировано в Реестре программ для ЭВМ 15.02.2012. Заявка №2011619647, 15.12.2011. Автореферат отпечатан с разрешения диссертационного совета Д 212.217.ФГБОУ ВПО Самарский государственный технический университет (протокол № 2 от 6 марта 2012г.) Заказ № 214. Формат 6084. Усл. печ. л. 1,0. Тираж 100 экз. Отпечатано в типографии. ФГБОУ ВПО Самарский государственный технический университет Отдел типографии и оперативной печати 443100, г. Самара, ул. Молодогвардейская, 2
Авторефераты по всем темам >>
Авторефераты по техническим специальностям