Методы интеллектуального анализа данных и некоторые их приложения
Вид материала | Документы |
- 1. А. Т. Фоменко. Методы статистического анализа нарративных текстов и приложения, 141.9kb.
- Опыт применения методов интеллектуального анализа данных в компаративистских и типологических, 144.79kb.
- Лекция №4 Тема: «Программно-технические средства защиты информации», 212.1kb.
- Методы, модели и алгоритмы интеллектуального анализа данных при создании обучающих, 598.36kb.
- Статистические методы и анализ данных, 190.46kb.
- Программа дисциплины Статистические и демографические методы анализа для направления, 238.41kb.
- Методы анализа данных, 17.8kb.
- Программа дисциплины Методы анализа зависимостей в анализе данных (эконометрический, 343.12kb.
- Предисловие, 5033.35kb.
- Финансовая отчетность компании, 120.58kb.
Методы интеллектуального анализа данных и некоторые их приложения1
д.ф.м.н., профессор Игорь Машечкин
к.ф.м.н., доцент Михаил Петровский,
Московский Государственный Университет, факультет вычислительной математики и кибернетики, лаборатория «Технологий программирования»
E-mail: mash@cs.msu.su
С развитием и повсеместным внедрением информационных технологий увеличивается объем и сложность хранимой информации. Происходит так называемый эффект “Data Explosion”, т.е. возникает ситуация когда размер и сложная структура хранимых данных не позволяют эксперту извлекать из них полезную информацию с помощью традиционных инструментов анализа, основанных на теории информационного поиска и математической статистике. В связи с этим возникает необходимость в разработке программных средств автоматизированного анализа данных большого объема. Для этого используются системы интеллектуального анализа данных (ИАД, англ. Data Mining), задача которых заключается в выявлении скрытых, нетривиальных, содержательных закономерностей в больших объемах разнородных, сложно структурированных данных [1]. ИАД объединяет совокупность методов и технологий из различных областей знаний, включая статистический анализ, методы машинного обучения и искусственного интеллекта, информационный поиск, технологии построения и организации хранилищ и баз данных, а также методы визуализации информации и верификации моделей. Эти методы и технологии используются в системах ИАД для решения задач: классификации, прогнозирования, кластерного анализа, поиска исключений, выявления трендов и других.
В первой части доклада даётся краткий обзор ИАД, включая основные определения, термины и области практического применения, вводится понятие процесса ИАД и типовой архитектуры программной системы ИАД, обсуждаются задачи ИАД и методы их решения, делается попытка позиционировать системы ИАД среди множества существующих программных аналитических систем [1]. Вторая часть доклада посвящена практическим проектам, выполняемым в лаборатории «Технологий программирования» ВМиК МГУ, по разработке и реализации прикладных программных систем, основанных на технологии ИАД, в таких областях как:
- компьютерная безопасность [2-5]: использование методов ИАД для обнаружения внутренних и внешних вторжений, моделирование и анализ поведения пользователей компьютерных систем;
- электронный документооборот [6-8]: интеллектуальная фильтрация и рубрикация электронной почты, анализ и многотемная классификация HTTP трафика, автоматическое аннотирование и рубрикация электронных документов;
- анализ производственных и технологических процессов [9]: применение ИАД для выявления нештатных ситуаций, а также для прогнозирования и оценки качества;
- системы поддержки принятия решений: использование технологии ИАД в составе ПО ситуационных центров.
Литература
1. Han J., Kamber M. Data Mining: Concepts and Techniques // Morgan Kaufmann, 2000.
2. Петровский М.И. Алгоритмы выявления исключений в системах интеллектуального анализа данных //Журнал «Программирование», Москва, 2003, №4, сc. 66-80.
3. Mikhail Petrovskiy. Fuzzy Kernel-based Method for Real-time Network Intrusion Detection //Springer-Verlag, Lecture Notes in Computer Science, 2003, vol. 2887, pp. 189-200.
4. Машечкин И.В., Петровский М.И., Трошин С.В., Шестимеров А.А. Система мониторинга и анализа поведения пользователей компьютерной системы // САИТ-2007. Системный анализ и информационные технологии, Обнинск, 2007, сс. 183-187
5. Mikhail Petrovskiy. A Data Mining Approach to Learning Probabilistic User Behavior Models from Database Access Log. // Springer-Verlag, Software and Data Technologies (Selected Papers), 2008, vol. 10, pp. 323-332.
6. Igor Mashechkin, Mikhail Petrovskiy and Andrey Rozinkin. Enterprise Anti-spam Solution Based on Machine Learning Approach // Proceedings of 7th International Conference on Enterprise Information Systems, USA, Miami, 2005, Vol. 2, pp.188-193.
7. М.И. Петровский, В.В. Глазкова, Алгоритмы машинного обучения для задачи анализа и рубрикации электронных документов//Журнал "Вычислительные методы и программирование", 2007, Т.8, сс. 57-69.
8. Машечкин И.В., Петровский М.И., Глазкова В.В., Масляков В.А. Концепция построения систем анализа и фильтрации Интернет-трафика на основе методов интеллектуального анализа данных //Математические методы распознавания образов: 13-я Всероссийская конференция. М.: МАКС Пресс, 2007, сс. 494-496
9. Р.В. Курынин, И.В. Машечкин, М.И. Петровский. Применение модифицированного метода нечетких деревьев решений для анализа и прогнозирования качества продукции в производственном процессе.// Международная научная конференция «Проблемы кибернетики и информатики», Азербайджан, Баку, 2006, cc. 49-52.