Разработка экспертной системы распознавания хроматограмм для классификации образцов
Дипломная работа - Химия
Другие дипломы по предмету Химия
я id уже внесенного в базу пика - это позволяет значительно сэкономить объем хранимых данных и упрощает работу механизма вывода. В конце полученный набор id и площадей пиков вносится в таблицу веществ (под соответствующим matter_id).
Внесение данных в таблицу groups отличается только тем, что в систему вводятся хроматограммы не одного и того же вещества, а веществ, относящихся к определенной группе. Например, для создания группы "черный чай" используются хроматограммы и китайского черного чая, и цейлонского - таким образом создается fingerprint, позволяющий отличить черный чай от зеленого, вне зависимости от его сорта. Кроме того, значение площади пика не усредняется, а записывается как минимум и максимум возможного для последующего определения попадания того или иного пика в этот диапазон.
Аналогично проводится уточнение данных для уже имеющихся в базе веществ: для вычисления уточненного среднего значения того или иного параметра используются данные из предложенной экспертом хроматограммы и данные из таблиц. Например, время выхода какого-либо пика , где - новое (уточненное) время выхода, - время выхода, записанное в таблице, - время выхода пика, при помощи которого производится уточнение и - количество экспериментов, проведенное для получения .
7. ОЦЕНКА БЫСТРОДЕЙСТВИЯ
Было проведено несколько тестов быстродействия данной системы. Исследования проводились на компьютере со следующими характеристиками: Intel Core 2 Duo T5300 1,73 GHz, 2 GB RAM, Microsoft Windows 7 Professional 32bit. Язык реализации системы - C# 3.0, СУБД - Microsoft SQL Server 2005 Express Edition.
Результаты, полученные при тестировании, представлены в таблицах 6.1 и 6.2. Результаты поиска по базе данных в большей степени определяются скоростью работы СУБД.
Таблица 6.1. Время, затраченное на выделение пиков на хроматограмме, вычисление их параметров и сохранение данных в формате XML.
Количество компонент в смесиСредний результат из 1000 экспериментов4175,46 мсек5176,2 мсек6178,31 мсек20221,12 мсек
Таблица 6.2. Время, затраченное на определение 6 пиков и вещества по базе данных.
Количество записей в базе данныхСредний результат из 1000 экспериментов1000 пиков и 100 веществ (по 3-15 компонент)150,23 мсек10000 пиков и 1000 веществ (по 3-15 компонент)192,64 мсек10000 пиков и 1000 веществ (по 10-30 компонент)218,67 мсек
ЗАКЛЮЧЕНИЕ
Следует отметить тот факт, что при составлении fingerprint не всегда известно, как называются обнаруженные компоненты, однако мы можем с точностью сказать, является ли предложенный образец тем, что мы предполагаем. Например, мы можем не знать, из каких веществ состоит зеленый чай, однако всегда сможем отличить его от черного чая или кофе.
Этот метод может найти применение во многих областях научной и практической деятельности, в том числе в медицине при диагностике заболеваний. К примеру, составив средние "отпечатки" образцов крови здорового человека и человека, имеющего какое-то определенное заболевание и сравнив их, мы можем выделить изменения в составе крови, характерные для этого заболевания. Далее, сделав хроматограмму неизвестного образца крови, можно с высокой долей вероятности утверждать, имеется ли данное заболевание у этого человека.
Однако простой покомпонентный анализ в связке с соответствующей базой данных для чистых веществ может найти не меньшее количество применений в реальной жизни, среди которых проверка состава лекарственных средств на предмет соответствия стандартам, поиск пестицидов или иных вредных веществ в продуктах питания, и т.д.
На текущий момент в мире существует достаточно много подобных программных систем, реализующих те или иные алгоритмы сравнения хроматограмм и поиска образцов в базе данных, среди которых ChemStation от компании Agilent, Empower от компании Waters, ChromQuest от компании Thermo Scientific и десятки других. К сожалению, все они имеют ряд существенных недостатков:
Идентификация веществ идет только по времени удерживания, что, с учетом возможного дрейфа пиков, дает значительную погрешность в результатах.
В редких случаях исследуются спектральных отношения, но не для идентификации пика, а лишь для проверки его чистоты.
Эти программы могут анализировать лишь данные, полученные на диодно-матричных хроматографах, тогда как многоволновые хроматограммы, записанные на хроматографах с одним детектором, требуют предварительного перехода к равномерной сетке.
Разделение пиков проводится лишь при помощи методов долин и перпендикуляров, что в некоторых случаях дает недостаточно точные результаты.
Процесс анализа не автоматизирован, окончательное решение должен принять оператор.
Некоторое исключение составляет программа "МультиХром" версии 1.5х-Е с дополнительным блоком "Спектр" [4], позволяющая производить поиск по базе данных на основе спектральных отношений, однако, все же, и в этой программе спектральные отношения для разделения пиков не применяются.
Таким образом, предложенное нами программное решение лишено большинства известных недостатков, имеет принципиальное отличие от используемых программ, а именно: для разделения пиков и для поиска наилучших кандидатов активно применяются спектральные отношения, возможна обработка многоволновых хроматограмм, полученных с хроматографов с одним детектором, процесс анализа может быть полностью автоматизирован (т.е. не требует присутствия оператора), и может найти практическое применение во многих областях прикладных наук.
СПИСОК ЛИТЕРАТУРЫ