Автоматизированная система рубрикации лекционного материала с использованием нейронных сетей и компетентностных моделей

Вид материалаДокументы

Содержание


Компетентность выпускника
Насколько существующий объем знаний, которым располагает ВУЗ, обеспечивает выполнение требований, предъявляемых обществом к соде
1. Общая постановка задачи
2. Краткое описание функциональности автоматизированной системы рубрикации
3. Нейронная сеть Гроссберга для рубрикации ТЕЯ
4. Принципиальная схема работы АСР
Подобный материал:
АВТОМАТИЗИРОВАННАЯ СИСТЕМА РУБРИКАЦИИ ЛЕКЦИОННОГО МАТЕРИАЛА С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ И КОМПЕТЕНТНОСТНЫХ МОДЕЛЕЙ

(А.С. Кожаринов, Е.А. Ефремова1)

Приведена краткая характеристика разработанного исследовательского прототипа автоматизированной системы рубрикации лекционного материала на соответствие компетентностным моделям выпускников ВУЗа с использованием нейронных сетей Гроссберга и без заданных заранее словарей предметных областей.

Введение

Система высшего образования в нашей стране серьезно меняется и объективно ответить на вопрос, "хорошо это или плохо" сейчас не сможет ответить никто. Это, в полной мере, относится и к внедряемой новой двухстадийной модели высшего образования "бакалавр – магистр", базирующейся на, так называемом, компетентностном подходе.

Компетентность выпускника высшего учебного заведения (ВУЗ) – это проявляемая им на практике способность реализовать свой потенциал (знания, умения, опыт, личностные качества и др.) для успешной деятельности в профессиональной и социальной сфере. Она складывается из частных компетентностей, сформированных в учебном процессе, в процессе самовоспитания и в других видах деятельности. Кроме того, ее можно рассматривать как цель и/или результат воздействия системы образования на конкретного человека [1].

Появление таких понятий в образовательной практике, как компетентность, компетенция и компетентностные модели, потребовало серьезной работы с существующим гносеологическим багажом. В это понятие включаются все виды и множества существующих знаний, как зафиксированных в любых формах (книги, печатные издания, конспекты лекций, учебные пособия, макеты, тренажеры, программное обеспечение и т.д.), так и знаний, которые содержаться только "в сознании и памяти" профессорско-преподавательского состава ВУЗа.

Одним из главных вопросов, на который каждому ВУЗу нужно объективно ответить, является вопрос: " Насколько существующий объем знаний, которым располагает ВУЗ, обеспечивает выполнение требований, предъявляемых обществом к содержанию и качеству образования?". В свою очередь, множество требований общества к содержанию и качеству подготовки через утвержденные образовательные стандарты представляются в форме компетентностных моделей для каждой конкретной специальности.

Появление такого нового "акцента" породило лавину проблем, многие из которых касаются в первую очередь именно гносеологического багажа каждого конкретного ВУЗа. Так, например, в рамках выполнения в Государственном Технологическом Университете "Московский Институт Стали и Сплавов" (МИСиС) инновационного образовательной программы "Качество. Знания. Компетентность" был сформирован полный набор учебно-методических комплексов документации (УМКД) по каждой учебной дисциплине. Все курсы были переведены в электронную и бумажную форму, что привело к появлению гигантского информационного массива, требующего тщательного исследования на предмет актуальности содержащихся в нем знаний.

Методов и средств, которые комплексно бы решали такую масштабную задачу не существует, поэтому необходимо разрабатывать методики и инструментальные средства, что называется "с нуля". Однако даже сейчас можно выделить ряд подзадач, решение которых возможно найти, с учетом ряда допущений. Как раз здесь и целесообразно использовать методы и средства ИИ, особенно технологии обработки текстов на естественном языке (ТЕЯ) и нейросетевые технологии.

1. Общая постановка задачи

МИСиС в настоящий момент располагает гигантским объемом УМКД по всем направлениям подготовки специалистов в виде текстовых документов, причем с течением времени эти объемы увеличиваются, за счет разработки новых учебных программ для бакалавриата и магистратуры. УМКД представляет собой квинтэссенцию знаний о предмете, аккумулированных преподавателями на протяжении многолетней образовательной и научной практики. Однако вопрос, насколько имеющийся массив знаний соответствует требованиям к содержанию и качеству подготовки выпускников остается открытым. Каждый комплект УМКД включает в себя следующие материалы: программу учебной дисциплины в компетентностном подходе; учебное пособие; демонстрационную презентацию; тесты, задачи и вопросы для контроля; конспекты лекций; вопросы к экзаменационным билетам и целый ряд других материалов.

Вследствие этого, было принято решение в качестве "пилотной" задачи выбрать задачу разработки автоматизированной системы рубрикации (АСР) лекционного материала УМКД и оценки качества рубрикации2 (на уровне исследовательского прототипа).

В качестве исходных данных взяты конспекты лекций по учебным дисциплинам отдельных специальностей МИСиС. Исключительно лекции были отобраны потому, что для отработки технологии на уровне исследовательского прототипа необходимо использовать самые информативно-ценные и самые простые по внутренней структуре из имеющихся документов. Кроме того, весь объем документации предварительно был разделен на блоки с различной направленностью содержания: общеобразовательные, гуманитарные и специализированные дисциплины – и дальнейшая работа проводилась для разнопрофильных документов отдельно.

При рубрикации лекционного материала роль классов (рубрик) играют отдельные компетентности, которые составляют для каждой специальности компетентностную модель. В МИСиС такая модель для каждой специальности имеет двухуровневую структуру. На верхнем уровне такой модели находятся интегральные (групповые) компетентности, а на нижнем, формирующие их частные компетентности. Пример структуры типовой компетентностной модели представлен на рис.1.



Рис.1. Пример структуры модели компетентности выпускника МИСиС

Для каждой специальности выпускающие кафедры формируют свои наборы интегральных и частных компетентностей, причем, количество их на каждом уровне никак не ограничено и именно частные компетентности и играют в задаче роль классов (рубрик).

Следует отметить, что в рамках данной проблематики актуальным является применение технологий, для которых характерна "терпимость" к неточности, неопределенности в сочетании с легкостью обработки, низкой "стоимостью" обучения решению в изменяющейся реальности. К таким технологиям относятся искусственные нейронные сети.

2. Краткое описание функциональности автоматизированной системы рубрикации

Основная функциональность разработанного исследовательского прототипа АСР определяется возможностью решения следующих основных задач:
    • рубрикация ТЕЯ с использованием следующих типов классификаторов: метод на основе нейронной сети Гроссберга [2]; метод опорных векторов3; "наивный" Байесовский метод – рубрикатор, основе которого лежит формула Байеса для условной вероятности и исходящий из предположения о взаимной независимости признаков;
    • расчет критериев качества классификаторов и выбор на их основе для входных ТЕЯ заданного профиля наилучшего из них.

В силу ограничений на размер статьи кратко опишем особенности применения метода рубрикации на основе нейронной сети Гроссберга.

3. Нейронная сеть Гроссберга для рубрикации ТЕЯ

Нейронные сети приспособлены обрабатывать информацию, представленную числовыми векторами, поэтому для их применения в обработке ТЕЯ, последние необходимо представлять в векторном виде. В АСР используется наиболее адекватный способ – модель терм-документ с частотными характеристиками.

Постановка задачи в этом случае заключается в проведении частотного анализа , где требуется исходный текст представить как точку в n-мерном пространстве признаков (системный словарь4), так что: .

Здесь – итоговая частота i-го термина, – элемент словаря, набор слов, имеющих одинаковый информативный вес: синонимы, синонимичные устойчивые словосочетания и т.п.; – информативный вес, . Если термин часто встречается в документах одного класса, но редко в документах другого, то будем считать, что этот термин более значим, чем термин, встречающийся в малом количестве документов, но во многих классах.

Топология сети ART (Adaptive Resonance Theory), разработанная Гроссбергом и Карпентером, хорошо зарекомендовала себя для решения задач кластеризации. Основная идея сетей Гроссберга - опознание образа за счет сравнения характерных признаков сигнала с запомненным ранее эталоном (классом). Сеть ART имеет достаточно много выходных нейронов, однако используется только часть из них. В сети хранится набор образцов для сравнения с входным сигналом. Если входной сигнал достаточно похож на один из эталонных образцов (находится с ним в резонансе), усиливается вес для синапса нейрона, отвечающего за данную категорию. Если же в сети нет схожих с входным вектором образцов, ему в соответствие ставится один из незадействованных выходных нейронов [1].

В АСР используется модифицированный алгоритм её работы для классификации ТЕЯ. Как и любая сеть с обратными связями, ART обладает «памятью», что очень ценно в условиях нашей задачи, поскольку она ориентирована на анализ текстов в условиях меняющейся реальности. Нейронная сеть Гроссберга состоит из двух слоев нейронов (рис.2). Первый (входной) слой – сравнивающий, второй слой – распознающий. Здесь: – множество тематических классов-рубрик.

В общем случае между слоями существуют прямые связи с весами от i – ого нейрона входного слоя к j–му нейрону распознающего слоя (сплошные стрелки на рис.2), обратные связи с весами – от i-ого нейрона распознающего слоя к j–му нейрону входного слоя (пунктирные стрелки на рис.2).



Рис.2. Топология сети Гроссберга применительно к задаче классификации.

Так же существуют латеральные тормозящие связи между нейронами распознающего слоя (точечные стрелки на рис.2). Входной слой содержит столько нейронов, сколько терминов в словаре обучающей выборки документов. Каждый нейрон распознающего слоя отвечает за один класс объектов.

Согласно назначению приведенных компонентов такой сети процедура классификации укрупнено представляет собой следующую последовательность операций:

Этап 1: Вектор F (исходный текст, преобразованный с помощью функции q в числовой n-мерный вектор) подается на вход сети. Для каждого нейрона распознающего слоя определяется взвешенная сумма его входов.

Этап 2: За счет латеральных тормозящих связей распознающего слоя на его выходах устанавливается единственный сигнал с наибольшим значением, остальные выходы считаются близкими к 0. В этом заключается принцип «последовательного победителя», лежащий в основе сети Гроссберга.

Этап 3: Определяется уровень порогового значения , который является и параметром алгоритма и определяет необходимую степень похожести входного вектора на прототип класса. Если р близко к 1, то требуется, чтобы исходный текст практически идеально соответствовал классу, если р около 0, то к классу могут быть отнесены и непохожие документы. Вычисляется функция активации нейрона:



Если результат сравнения превышает порог p, делается вывод о том, что входной вектор принадлежит классу ci: , тогда . Выход данного нейрона обнуляется (принудительная блокировка) и повторяется процедура этапа 2, в которой за счет обнуления самого активного нейрона происходит выбор нового. Эта процедура повторяется до тех пор, пока результат не станет меньше порогового значения, это значит, что выбраны все рубрики, к которым относится входной текст. В противном случае, - если результат сравнения на первом шаге уже меньше порога, то делается выход о том, что документ не принадлежит ни одной из заданных рубрик.

Емкость сети совпадает с числом нейронов второго слоя и может увеличиваться в процессе функционирования сети. В АСР для обучения разработанной нейронной сети был выбран принцип обратного распространения, реализующий методику "обучения с учителем".

4. Принципиальная схема работы АСР

Разработанный исследовательский прототип АСР, принципиальная функциональная схема которого представлена на рис.3, состоит из ряда функциональных модулей, среди которых: модуль ввода документов; среда разработки описаний, модуль преобразования текста; модуль обучения, модуль классификации, модуль оценки качества классификации. Основные функции каждого модуля также показаны на рис.3. в соответствующих блоках.

Входом для АСР в общем случае являются множество классифицируемых ТЕЯ и набор классов. Единицей классификации («документом») является одна лекция со средним размером 15 страниц. Формат представления - документ Microsoft Word. После получения и подготовки исходных документов АСР можно проводить рубрикацию ТЕЯ различными классификаторами.

Для оценки результатов классификации рассчитываются шесть показателей качества классификации (пример - см. рис.4). В качестве оценок качества показателей классификации в АСР производится расчет: точности и полноты, применяемые так же при оценке качества естественно-языкового поиска. Для количественной оценки полноты и точности рубрикатора используются измерения: число правильно рубрицированных документов, число неправильно рубрицированных документов, число неправильно отвергнутых документов [3].

Под правильной и неправильной рубрикацией понимается случай, когда классификатор приписывает анализируемый документ некоторой рубрике, что расценивается некоторым экспертом соответственно, как верное и неверное решение. Под неправильным отвержением документа понимается случай, когда классификатор не приписывает документ рубрике.

В результате рубрикации считается, что документ "найден", если ему сопоставлена некоторая рубрика, иначе считается, что документ "не найден" – он «чужой». Для такой схемы определены пять возможных различных исходов рубрицирования каждого документа: документ «Свой» правильно определился в свою рубрику; действительно «Чужой» документ определился как «Чужой»; документ определился не в свою рубрику; «Свой» документ ошибочно определился как «Чужой»; «Чужой» документ ошибочно определился как «Свой». Первые две ситуации – правильная работа рубрикатора, остальные – ошибочные исходы.



Рис.3. Принципиальная функциональная схема АСР



Рис.4. Значения показателей качества классификации

В связи с противоречивостью характеристик полноты и точности – чем меньше полнота классификации, тем больше её точность и наоборот – в АСР производится расчет величины, известной как F-мера. Когда важно оценить качество работы классификатора в среднем, а не с точки зрения полноты или точности, именно F-мера является наиболее адекватной оценкой.

Участие эксперта в процессе работы и настройки АСР необходимо. Несмотря на то, что принятие решения о выборе рубрикатора в первую очередь основывается на рассчитанных значениях критериев качества классификации, не малую роль в нем играет и мнение эксперта, поскольку он устанавливает важность этих критериев – рис.5.

Для эксперта реализована возможность ручной корректировки значений составляющих вектора весовых коэффициентов при показателях. Автоматическая система выбирает наилучший с учётом веса авторубрикатор для входных документов определенного типа.



Рис.5. Настройка весовых коэффициентов и выбор наилучшего классификатора

Так, например, в ситуации, когда эксперт считал, что при классификации лекционного материала наиболее важно, насколько полно будут отражены связи в рамках модели компетентности, а точность отражения играет меньшую роль, было установлено, что наиболее эффективным является классификатор на основе нейронной сети Гроссберга.

В заключении необходимо отметить, что АСР является открытой к расширению пространства информационных признаков, и уже сейчас позволяет проводить исследование на разнопрофильных УМКД, используя в качестве набора классов модель компетентности выпускника ВУЗа, и выявлять наиболее эффективный способ авторубрицирования для определённых входных данных. К сожалению ограничения на объем статьи не позволяют подробнее описать результаты исследований и все реализованные функциональные возможности АСР.

Список литературы

1. Зимняя И.А. Ключевые компетенции - новая парадигма результата образования // Высшее образование.-2003-№3.-с.34-42.

2. Carpenter G.A., Grossberg S. Pattern Recognition by SelfOrganizing Neural Networks. - MIT Press, Cambridge, Mass., 1991.

3. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. – М.: Наука, 1989.


1 ФГОУ ВПО ГТУ "Московский Институт Стали и Сплавов", 119049, Москва, Ленинский пр., д. 4, Efremova.E.A@mail.ru.

2 Рубрикация - подзадача классификации, где в качестве объекта исследования выступают ТЕЯ, а в качестве классов – смысловые темы, т.е. это распределение документов по тематическим рубрикам. Классификацию текстов на естественном языке называют рубрицированием, и в дальнейшем эти термины принимаются идентичными.

3 Также известен как метод классификатора с максимальным зазором. Он принадлежит к семейству линейных классификаторов, был предложен В.Вапником в 70-х годах и реализует алгоритмы вида «обучение с учителем».

4 Набор признаков, характеризующий пространство, в рамках которого функционирует система классификации. Применительно к задаче рубрикации это набор слов и частот их появления, характерных для каждого класса.