Расчет квантово-химических параметров ФАВ и определение зависимости "структура-активность" на примере сульфаниламидов

Дипломная работа - Химия

Другие дипломы по предмету Химия



объект исходной выборки данных выделяется в отдельный кластер. Далее отыскивается пара кластеров с наименьшим межкластерным расстоянием и объединяется в один кластер большего размера. Этот процесс продолжают до тех пор, пока не будет выполняться некоторое условие оптимальности или все объекты не окажутся в одном кластере. Для больших выборок, включающих более 1000 элементов, этот алгоритм неэкономичен, и определение оптимальных условий требует привлечения некоторых аппроксимаций.

4. Разбиение

Алгоритмы разбиения полностью противоположны алгоритмам объединения. В этих алгоритмах исходная выборка данных последовательно разбивается на все более мелкие кластеры в соответствии с некоторыми правилами (минимальный или максимальный размер, стандартное отклонение и т. д.). Трудности, возникающие при реализации этих алгоритмов, обычно связаны с выбором формы функций разбиения.

5. Добавление

Эти алгоритмы работают путем добавления элементов выборки в уже существующие кластеры. Ограниченность этих алгоритмов очевидна.

6. Поиск

Алгоритмы поиска обычно применяются к тем системам, для которых в результате математического анализа исключены многие из возможных способов разбиения на кластеры. С помощью этих алгоритмов производится такая оптимальная кластеризация системы, которая приводит к минимуму функции ошибок.

Существует много различных алгоритмов, однако ни один из них не приспособлен для решения любой из возникающих задач. Некоторые алгоритмы, например алгоритм ISODATA Болла и Холла [19,20] может осуществлять процедуры добавления, поиска, объединения и разбиения. Такие алгоритмы имеют более широкую область применения, однако ни один из них не является универсальным. К тому же многие алгоритмы являются эвристическими по своей природе, и поэтому успех их реализации, в конечном счете, зависит от мастерства исследователя. И наконец, последний недостаток методов кластеризации заключается в том, что иногда возникают трудности с отнесением неизвестного объекта к одному из уже имеющихся классов.

Несмотря на недостатки, методы кластеризации могут оказаться полезными для упорядочения систем, которые на первый взгляд кажутся совершенно неупорядоченными. Отметим также, что методы кластеризации необязательно требуют предварительной группировки объектов исследуемой выборки на классы. Алгоритмы кластеризации могут использоваться для выделения классов в выборках, способ классификации которых неочевиден. Как показано выше, алгоритмы кластеризации, основанные на различных способах определения расстояния, могут использоваться для расчета критериев подобия, для выделения существенных признаков и для преобразования исходных данных к виду, более удобному для дискриминантного анализа.

1.2.4 Программа PASS C&T

Знание известных биологически активных соединений и аналитические возможности даже самого лучшего из химиков - ограничены, и поэтому помощь специальной компьютерной системы в получении оценок по возможным видам биологической активности для различных классов соединений была бы полезной. Идея создания компьютерной системы прогноза биологической активности, на первый взгляд, выглядит достаточно просто: нужно собрать всю известную информацию о биологически активных соединениях, создать на этой основе обучающую выборку, провести анализ связей "структура-активность" для веществ из обучающей выборки и построить соответствующие зависимости. "Подставив" в эти зависимости данные о структуре нового вещества, можно получить в результате оценку его биологической активности.

Правда, традиционные подходы к анализу количественных соотношений "структура-активность" (КССА) применимы к соединениям одного и того же химического класса и, как правило, оперируют с одним видом биологической активности. Можно ли разработать подобные методы для веществ, гетерогенных как по химической структуре, так и по проявляемому ими биологическому действию?

Предложение предсказывать подобным образом спектр биологической активности вещества было впервые высказано в начале 70-х годов к.х.н. В.В. Авидоном c сотрудниками, работавшими тогда в НИИ по биологическим испытаниям химических соединений. В.В. Авидоном, совместно с к.х.н. В.Г. Блиновой, к.м.н. Е.М. Михайловским, Р.К. Казарян, к.ф.-м.н. В.С. Ароловичем и др., были разработаны оригинальные языки описания химической структуры, Тезаурус (структурированный словник) по биологической активности химических соединений, математические методы установления зависимостей "структура-активность" и прогноза свойств новых веществ; создан банк данных по биологически активным соединениям (обучающая выборка). На этой основе были осуществлены первые эксперименты по прогнозированию спектра биологической активности по структурной формуле вещества.

За истекшее двадцатилетие методы, первоначально предложенные для прогноза спектра биологической активности, претерпели существенные изменения. Эти изменения базируются как на теоретическом анализе методики прогнозирования, так и на имеющемся опыте ее применения для поиска веществ с требуемыми свойствами.

Современная версия компьютерной системы предсказания спектра биологической активности PASS C&T (Prediction of Activity Spectra for Substances: Complex & Training) реализована в 1998 году. Она включает в себя обучающую выборку, содержащую более 30000 биологически активных веществ с известной биологической активностью, и охватывает более 400 фармакологических эффек