Расчет квантово-химических параметров ФАВ и определение зависимости "структура-активность" на примере сульфаниламидов

Дипломная работа - Химия

Другие дипломы по предмету Химия



?странстве меньшей размерности. Этот недостаток вызывает затруднения при объяснении структуры данных. Его можно преодолеть с помощью других, нелинейных методов понижения размерности.

К ним относятся методы нелинейного отображения и многомерного скейлинга. Основная идея заключается в отыскании такой проекции в дву- или трехмерном пространстве, которая походила бы на исходное изображение. Можно использовать различные критерии сходства, однако чаще всего для этой цели используют расстояние. Обычно расстояние измеряют в евклидовой метрике, но в случае необходимости можно применить и другие метрики. Ошибка такого преобразования будет измеряться разностью расстояний в новом и старом представлениях.

Удобно описывать разность между новым и старым расстояниями с помощью такой функции критерия, которая была бы инвариантной по отношению к искажениям конфигурационных многогранников, а также к растяжениям векторов.

Помимо всего прочего многомерный скейлинг дает удобный метод визуального представления структуры данных. Это часто помогает подобрать наиболее подходящий к данному случаю метод классификации. Сфера применения методов скейлинга не ограничивается только предварительной обработкой. Если при нелинейном отображении не возникает существенных искажений исходных данных, классификация может быть проведена самим исследователем путем визуального анализа отображений на пространство низкой размерности.

Классификация

Представление о кластеризации объектов в пространстве информативных измерений является центральным в приложениях методов распознавания образов. Нахождение такого преобразования, с помощью которого можно кластеризовать исследуемую выборку и в результате получить классы объектов, обладающих заданным свойством, является общей целью процедур измерения, предварительной обработки и априорного отбора признаков. По существу, распознавание образов является методом выявления сходства между исследуемыми объектами. В результате классификации отыскиваются некоторые соотношения, характеризующие это сходство. Существует много различных методов классификации, однако в фармакологических приложениях преимущественно используются непараметрические методы. Для понимания основ непараметрических методов необходимо небольшое введение в теорию параметрических методов.

Параметрические методы классификации основаны на байесовской статистике. Эти методы формируют классификационное правило непосредственно из вероятностного распределения данных. Вид вероятностного распределения данных зависит от типа и числа датчиков, методов предварительной обработки и отбора признаков. Цель классификации заключается в максимальном увеличении доли правильных классификаций путем построения функции, определяющей границы между различными классами.

Классификатор может быть построен непосредственно из формулы Байеса

В этом соотношении X - вектор-образ, компоненты которого получены в результате работы различных датчиков. Численные значения этих компонент определяют распределение данных в N-мерном пространстве. Функция Р (Х) описывает распределение данных независимо от того, к какому классу они принадлежат. Р () вероятность наблюдения класса Wi. Р(W/X) - условная вероятность того, что вектор X принадлежит классу Wi. P(X/Wi) условная вероятность того, что из класса Wi будет выбран объект, описываемый вектором-образом X.

1.2.3 Методы кластеризации

Понятие о кластеризации - одно из наиболее привлекательных в классификационной задаче. Этот подход естественным образом возникает из геометрической интерпретации задачи. Смысл метода кластеризации ясен из приведенного выше примера, в котором мы искали границу, отделяющую кластер нормальных клеток от кластера аномальных клеток. Поскольку в этой задаче мы имели дело с системой низкой размерности, то достаточно было ограничиться визуальными методами построения разделяющей поверхности. Следовательно, необходимо разработать систематический подход, позволяющий дать более строгое определение кластера.

Есть несколько алгоритмов разделения множества исходных данных на кластеры. В большинстве из этих алгоритмов при выполнении кластеризации в качестве меры близости объектов используются различные способы определения расстояний. Использование расстояния в качестве меры близости является естественным, если учесть, что исследуемые объекты изображаются точками в евклидовом пространстве. Однако критерии, основанные на том или ином способе определения расстояния, являются только одним из возможных способов определения кластеров. Хартиган [18] указал шесть типов алгоритмов кластеризации, отличающихся друг от друга способами выделения кластеров.

1.Сортировка

Объекты разделяются на кластеры в соответствии со значениями, которые принимает какой-либо существенный признак, характеризующий объекты. Затем внутри выделенных таким образом кластеров проводится дальнейшая сортировка путем анализа значений другого признака и т. д.

2.Перегруппировка

Задается некоторое начальное распределение объектов по кластерам. Далее объекты перемещают из одного кластера в другой в соответствии с каким-либо критерием, например величиной стандартного отклонения для данного кластера. Алгоритмы перегруппировки отличаются высокой скоростью, однако конечный результат иногда зависит от вида начального распределения.

3. Объединение

Сначала каждый