2 Сивицкий Павел Александрович МЕТОДЫ ОЦЕНКИ КАЧЕСТВА КОНТРОЛИРУЮЩИХ МАТЕРИАЛОВ И ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ ИХ ПРИМЕНЕНИЯ В АДАПТИВНЫХ ОБУЧАЮЩИХ СИСТЕМАХ 05.13.01 - Системный анализ, управление и обработка информации Автореферат диссертации на

Книги по разным темам Pages: | 1 | 2 | 3 |

Имитация диалогового общения предполагает, что учащийся вводит ответ на естественном языке изучаемой предметной области. Это достигается за счёт описания основного смыслового содержания понятия вводимого эталонного ответа с помощью дескрипторов Ч лексических единиц информационно Ч поискового языка. Каждая такая лексическая единица является компонентом тезауруса системы (словаря), представляющего собой дерево понятий, корневая вершина которого Ч наиболее обобщенные понятия, конечные вершины Ч листья (альтернативные дескрипторы).

Организация тезауруса может быть осуществлена по признаку принадлежности слова к понятийному классу (рубрике), с наложением формальных ограничений. Каждому слову присваивается шифр принадлежности к понятийному классу и информативная оценочная характеристика ("вес"). С помощью классификационного рубрикатора система осуществляет смысловую интерпретацию введенного ответа учащегося, путем преобразования фразы с помощью тезауруса и ее сравнения с эталонным вариантом. Информативность опознанной смысловой единицы оценивается посредством суммирования значений весов всех встретившихся в нем ключевых последовательностей.

Устойчивая работа алгоритма возможна лишь при условии выполнения принципа Эшби (ограничения разнообразия), данном случае ограничение разнообразия вариаций лексем выполняет тезаурус. Эта структура является универсальным средством фиксации общей информационной базы человека и автоматизированной системы.

Применение УвесовыхФ характеристик основано на исследованиях Джорджа Ципфа. Для ключевых слов можно присвоить каждому термину весовой коэффициент, отражающий его значимость:

n ti = log Wij = dijti, где ki Wij - вес термина i в документе j, dij - частота термина i в документе j, ti - инверсная частота термина i, n - количество документов в БД, ki - количество документов с термином i.

Вероятность обнаружения слова в тексте, умноженная на ранг частоты, diri постоянна: C = где ri - ранг частоты термина i (порядковый номер s частоты встречаемости слова в тексте), di - частота вхождения термина i; s - число слов.

Исследования показывают, что наиболее значимые слова лежат в средней части графика зависимости ранга от частоты. Слова, которые попадаются часто, в основном оказываются предлогами, местоимениями и т.д. Редко встречающиеся слова тоже, в большинстве случаев, не имеют решающего смысловою значения.

От правильного определения диапазона значимых слов зависит эффективность анализа. При широком диапазоне нужные термины потонут в море вспомогательных слов, при узком потеряются смысловые термины.

Для решения задачи организации информации была разработана универсальная система присвоения значимости концепту, входящему в состав эталонной семантической сети и предложена следующая структура семантической сети, рисунок 4.

Шкала выбора весов не влияет K1 K2 Kn Уровень на процесс формирования эталонной семантической сети, а определяет лишь количество возможных K1 K2 Kn Уровень уровней M. Не рекомендуется брать M меньше 5 и больше 20. Выбрав такую структуру семантической сети, а следовательно и базы знаний K1 K2 Kn Уровень M системы, мы получили возможность реализовать алгоритм Рисунок 4 - Структурная схема семантической сети.

автоматического формирования эталонных ответов в базе знаний системы.

В качестве языка представления знаний в системе использована теория нейронных сетей. Определим отдельный нейрон как ni. Областью определения такой алгебры будет множество нейронов N={n1,n2,...,nk}, содержащееся в нейронной сети. Каждый нейрон представлен набором ni=(S, R) из внутреннего состояния нейрона S и набора его связей R. Набор связей нейрона R=(L1,L2,...Lq), состоит из отдельных связей нейрона Li=(a, n), где a - тип связи (например: вход, выход, синхронизирующие связь), n - нейрон с которым установлена эта связь. Входные связи называются дендритом, выходные - аксоном. Внутреннее состояние нейрона S включает в себя операцию, выполняемую нейроном и результаты обработки входных данных.

В процессе работы нейрон получает данные от других нейронов по дендриту, обрабатывает некоторым образом и передает далее по аксону в нейроны - приемники.

Реализация формального языка обработки смысла в виде нейронной сети дает множество преимуществ, по сравнению с другими методами.

Нейронные сети могут быть смоделированы существующими аппаратными средствами, так же возможно создание специализированных нейронных процессоров. Смысл текста, формальный язык обработки смысла и средство выполнения формального языка совмещаются в одну физическую сущность.

Такое совмещение позволяет выполнять обработку формального языка теми же методами, что и обработку смысла текста, записанного на этом формальном языке. Таким образом, формальным языком описания смысла предложения на естественном языке может выступать предложенная структура.

Смысл текста, представленный состоянием нейронной сети, обрабатывается нейронной сетью как поток градиентных данных передаваемых от одного нейрона к другому нейрону. Градиентные данные представляют собой целые числа, расположенные в некотором диапазоне.

Для упрощения изложения мы будем предполагать, что минимальное значение этого диапазона равно 0, а максимальное Vmax. В случае обработки диапазона в интервале от Vmin до Vmax легко провести нормализацию данных и получить диапазон в интервале от 0 до Vmax-Vmin.

Базовые операции обработки данных реализуются отдельными нейронами. Для извлечения и обработки смысла текста на естественном языке в качестве операций, выполняемых нейронами нами было предложенно взять операции нечеткой логики: дизъюнкцию, конъюнкцию и инверсию.

Операция дизъюнкции применяется в случае, когда на выходе нейрона необходимо получить истинный результат, когда хотя бы один входной сигнал истинен. Реализация операции дизъюнкции в аналоговой нейронной сети возможна различными математическими функциями. Наиболее полезными можно считать операцию взятия максимума и операцию сбалансированного сложения.

Операция взятия максимума рассчитывает максимальное значение от всех входных градиентных величин, пришедших на дендрит нейрона:

V=V1 V2... VN=max(V1,V2,... VN) где V - результат дизъюнкции; V1,V2,... VN - входные данные.

Операция сбалансированного сложения определяется как:

V=V1 V2=V1+V2 - V1*V2/Vmax где V - результат дизъюнкции; V1,V2 - входные данные; Vmax - максимальное значение, принимаемое входными данными.

Операция конъюнкции применяется в случае, когда необходимо получить истинный результат, когда все входные сигналы истинны. Для реализации операции конъюнкции были выбраны операции взятия минимума и операцию сбалансированного умножения.

Операция взятия минимума рассчитывает минимальное значение от всех входных градиентных величин, пришедших на дендрит нейрона:

V=V1 V2... VN=min(V1,V2,...,VN) где V - результат конъюнкции; V1,V2,... VN - входные данные.

Операция сбалансированного умножения определяется как:

V=V1 V2=V1*V2/Vmax где V - результат конъюнкции; V1,V2 - входные данные; Vmax - максимальное значение, принимаемое входными данными.

Операция инверсии применяется в случае необходимости получения истинного результата, когда входной сигнал ложен. Операция инверсии реализована с помощью операции изменения знака.

V=м V0=Vmax-Vгде V - результат инверсии; V0 - входная величина; Vmax - максимальное значение, принимаемое входными данными.

Таким образом, нейронная сеть, как формальный язык, позволяет обрабатывать смысл текста как функцию некоторой алгебры. Функции строятся из отдельных нейронов, выполняющих операции дизъюнкции, конъюнкции и отрицания. Структура нейронной сети определяет порядок применения базовых операций этой алгебры к входным данным. Отдельный нейрон, расположенный в части нейронной сети, извлекающей смысл из текста на естественном языке, будет обозначать элементарное понятие анализируемого языка. Элементарными понятиями являются любые понятия естественного языка с законченным смыслом, такие как символ, часть слова, слово, словосочетание, предложение, абзац, весь текст. В случае наличия соответствующего понятия в анализируемом тексте нейрон принимает значение "Истина", а в случае отсутствия - "Ложь".

Применение модели вербального общения в тестовых элементах дистанционных обучающих систем дает следующие преимущества:

1) Четко выраженный подъязык предметной области;

2) Отсутствие необходимости реализации модулей перефразирования, умозаключения и т.д.;

3) Нет необходимости в реализации модулей оценки контекста фразы, т.к.

вопросы, задаваемые пользователю, должны предполагать малую вариативность и краткость ответа;

4) Оперирование довольно простыми семантическими конструкциями при построении модели мира.

Кроме поиска в ответе ключевых слов алгоритм предусматривает этапы морфологического, синтаксического, семантического и прагматического анализа.

В третьей главе диссертационной работы описывается разработанная методика оценки качества контролирующих материалов. На основе анализа Отраслевого стандарта министерства образования ОСТ Т 1.1-2000 была получена классификация контролирующих материалов:

Х по цели применения;

Х по формам проведения;

Х типам вопросов;

Х видам контролирующих материалов.

Получен общий список количественных характеристик качества получаемых с помощью методов математической статистики и анализа.

Сформирован ряд рекомендаций применения данных качественных характеристик исходя из типов заданий и теста в целом.

Рисунок 5. Один из вариантов применения тестов и соответствующие ему статистические характеристики.

Разработанная комплексная методика содержит два этапа получения качественных характеристик контролирующего материала. Первый этап - это определение качественных показателей отдельных заданий, второй - определение характеристик всего теста в целом. Для выполнения данного анализа полученные результаты прохождения испытания группой испытуемых представляются в виде матрицы тестовых результатов, желательно представлять результаты в долях правильного ответа в диапазоне от 0 до 1. В таблице i-ая строка представляет результаты i-го тестируемого по всем тестовым заданиям.

Качественные характеристики отдельных заданий оцениваются по следующему алгоритму и имеют следующие критерии:

1) Уровень трудности тестового задания; Под параметром трудности тестового задания понимали процент правильного выполнения n X ij i=данного задания тестируемыми: где X результат прохождения i ij n тестируемым j задания, n общее количество испытуемых. В тест отбираются задания, имеющие процент правильного выполнения в пределах 20-90%. При этом большинство из заданий имеют параметр 40-60%.

2) Дифференцирующая способность тестового задания определяется, как способность задания различать сильных и слабых n (X - X ) j ij i=студентов. Характеризуется дисперсией тестового задания s2 =.

j n -В тест рекомендовано отбирать задания с дисперсией превышающей 30%.

Достаточным можно считать значение 20%.

3) Валидность тестового задания; Понимается как согласованность баллов по заданию с итоговым баллом. Вычисляется следующим образом n (X - X )(Yi - Y)/(n -1) ii=rX Y =. Задание признаётся валидным n n 2 (X - X ) /(n -1) (Yi - Y) /(n -1) ii=1 i=при значении коэффициента равного 0,5. При значении от 0,2 до 0,5 во внимание начинают принимать другие характеристики задания.

4) Интеркорреляция тестовых заданий; Интерес представляет корреляция заданий между собой внутри теста. Для анализа формируется полная корреляционная матрица размерностью (j+1)x(j+1), задания должны положительно коррелировать между собой и сильно коррелировать с итоговым балом. Хорошим значением коэффициента считается 0.3-0.5, интервал 0.2-0.3 считается критическим.

5) Анализ распределения ответов учащихся по предложенным вариантам ответа позволяет оценить вклад каждого из предложенных вариантов ответа. Хорошо работающие задания должны иметь выраженные максимумы на правильных вариантах ответа и равномерное распределение ответов по неправильным вариантам.

6) Анализ коэффициентов корреляции с тестовым баллом правильных ответов и неверных альтернатив позволяет оценить влияние каждого из предложенных вариантов ответа на дифференцирующую способность задания. Расчёт производится исходя из предположения что Xj результат выбор каждой альтернативы. Для правильных ответов коэффициент должен лежать в интервале 0.3-0.5, для неправильных иметь отрицательное значение и попадать в диапазон 0.1-0.2.

Методика определения качественных характеристик всего теста включает два основных критерия надёжность тестовых результатов и валидность теста.

Для оценки надежности тестовых результатов используется модель двухфакторного дисперсионного анализа со смешанными эффектами при n=1, то есть при одном наблюдении в ячейке, которая образуется при сочетании моделей с постоянными и случайными эффектами и описывает данные, накопленные в двухфакторном плане (таблица 1).

Таблица 1. Матрица тестовых результатов.

Задания ( уровни постоянного фактора А) Студенты 1. 2. 3. 4. 5. 6. 7. 8. 9.... J (случайный фактор В) Студент Студент...

I В качестве постоянного фактора, фактора столбца А, в эксперименте выступают конкретные "тестовые задания"; и поскольку используется систематический выбор J уровней фактора, результаты ANOVA могут быть распространены только на совокупность повторений эксперимента, в которой представлены конкретные уровни постоянного фактора, т.е. конкретные задания интересующего теста. В качестве случайного фактора В, фактора строки, в эксперименте рассматриваются "студенты", при этом учитывается, что интерес представляет распространение результатов анализа не только на конкретную выборку, представляющую I уровней случайного фактора, но на всю совокупность студентов. Двухфакторный план помимо двух групп основных эффектов - "задания" и "студенты" - имеет одну группу эффектов взаимодействия.

В ходе анализа удается разбить полную сумму квадратов на три составляющих: сумму квадратов для постоянного фактора А ("задания"), сумму квадратов для случайного фактора В ("студенты") и остаточную компоненту для комбинации факторов А и В. Другими словами, сумма квадратов SSAB = SSe является остатком от общего вклада при вычитании вкладов, зависящих от основных источников изменчивости.

Соответствующие расчеты проводятся по формулам табл.2. Определяются степени свободы и по формулам расчета средних квадратов из табл.2.

вычисляются MSА, MSB и MSAB.

Pages: | 1 | 2 | 3 |

Книги по разным темам