Разработка и апробация угольно-пастовых электродов на основе моторных масел

Дипломная работа - Химия

Другие дипломы по предмету Химия



ами любой точки (экспериментальные данные) являются ее проекции на новые оси. При решении задач классификации элементы одного класса располагаются в указанных координатах на плоскости главных компонент достаточно кучно, пространственно отделенные от других элементов. Этот метод дает хорошую визуализацию результатов классификации, однако следует помнить, что расстояния между точками на проекциях не имеют физического смысла, что затрудняет получение ответа на вопрос, чем обусловлена классификация объектов анализа. Преимущество метода - возможность обработки большого числа экспериментальных данных (токи, измеряемые через определенные промежутки времени на протяжении всей вольтамперометрической кривой), что позволяет классифицировать объект анализа с использованием минимального количества электродов (вплоть до регистрации только одной вольтамперограммы). Для повышения размерности сигнала-отклика применяют импульсные варианты ВА (нормальная и дифференциальная импульсная вольтамперометрия, квадратно-волновая и переменнотоковая вольтамперометрия и др.) или модулируют сигнал импульсами небольшой амплитуды.

Задачи классификации можно разделить на две большие группы. К первой относятся так называемые задачи без обучения (unsupervised). Они названы так, потому, что в них не используется обучающий набор и их можно рассматривать как разновидность исследовательского анализа. Задачи второй группы - классификация с обучением (supervised), называются также задачами дискриминации. В них применяется обучающий набор образцов, про которых имеется априорная информация о принадлежности к классам. Методы решения задач классификации без обучения основаны, главным образом, на МГК декомпозиции с последующим анализом расстояний между классами, построением дендрограмм, использованием нечетких множеств и т.п. Однако, в тех случаях, когда возможно проведение дискриминации, т.е. классификации с обучением, этим методам следует отдавать предпочтение. Обучающий набор образцов используется для построения модели классификации, т.е. набора правил, с помощью которых новый образец может быть отнесен к тому или другому классу. После того, как модель (или модели) построена, ее необходимо проверить, используя методы тест- или кросс-валидации, и определить насколько она точна. При успехе проверки, модель готова к практическому применению, т.е. к предсказанию принадлежности новых образцов. В аналитической химии классификация применяется к наборам мультиколлинеарных данных (спектры, хроматограммы), поэтому дискриминационная модель почти всегда многомерна и основана на соответствующих проекционных подходах - МГК, ПЛС.

Одним из самых популярных подходов является метод независимого моделирования аналогий классов SIMCA [16], разработанный С. Волдом. В основе метода SIMCA лежит предположение о том, что все объекты в одном классе имеют сходные свойства, но и обладают индивидуальными особенностями. При построении дискриминационной модели необходимо учитывать только сходство, отбрасывая особенности как шум. Для этого каждый класс из обучающего набора независимо моделируется методом главных компонент с разным числом главных компонент A. После этого вычисляются расстояния между классами, а также расстояния от каждого класса до нового объекта. В качестве таких метрик используются две величины. Расстояние d от объекта до класса вычисляется как среднеквадратичное значение остатков e, возникающих при проецировании объекта на класс

Эта величина сравнивается со среднеквадратичным остатком внутри класса

Вторая величина определяет расстояние от объекта до центра класса, и она вычисляется как размах (квадрат расстояния Махаланобиса).

Здесь ?a - это проекция нового образца (счет) на главную компоненту a, а ta - это вектор, содержащий счета всех обучающих образцов в классе

.2.2 Методы количественного анализа

Данные методы относятся к задачам регрессионного анализа в котором устанавливается взаимосвязь между зависимыми и независимыми переменными: используются два блока данных.

Первый блок X - это матрица аналитических сигналов (например, спектров, вольтамперограмм, хроматограмм, и т.п.). Второй блок Y - это матрица соответствующих химических показателей (например, концентраций). Число строк (I) в этих матрицах равно количеству образцов сравнения, число столбцов (J) в матрице X соответствует числу каналов (длин волн, или потенциалов в вольтамперометрии, или времени выхода из колонки в хроматографии), на которых записывается сигнал, и, наконец, число столбцов (K) в матрице Y равно числу химических показателей, т.е. откликов. Задача градуировки состоит в построении математической модели, связывающей блоки X и Y, с помощью которой можно в дальнейшем предсказывать значения показателей y по новой строке значений аналитического сигнала x [17].

Точность градуировки принято характеризовать величиной среднеквадратичного остатка градуировки (RMSEC). Ясно, что чем меньше RMSEC, тем точнее описываются обучающие данные. Кроме того, качество градуировки характеризуется еще и коэффициентом корреляции между предсказанными и известными величинами - чем он ближе к единице, тем лучше.

Из литературных данных следует, что наиболее часто для многомерного регрессионного анализа используется регрессия на главные компонента (РГК) [18]; и получивший более популярное распространение метод проекций на латентные структуры (ПЛС) [18], а также регрессия