Программа курса для направления 230200. 68 «Информационные системы. Программа Базы знаний»
Вид материала | Программа курса |
- Программа курса для направления 230200. 68 «Информационные системы. Программа Базы, 65.82kb.
- Программа курса для направления 230200. 68 «Информационные системы. Программа Базы, 99.08kb.
- Программа курса для направления 230200. 68 «Информационные системы. Программа Базы, 70.76kb.
- Программа курса для направления 230200. 68 «Информационные системы. Программа Базы, 119.9kb.
- Рабочая программа учебной дисциплины дн. Ф. 13 Операционные системы Для направления, 227.68kb.
- Программа курса для направления 230200. 68 «Информационные системы. Программа Базы, 84.53kb.
- Программа дисциплины «информационные сети» Индекс дисциплины по учебному плану: опд., 123.28kb.
- Рабочая программа учебной дисциплины сд. 03 Администрирование в ис для направления, 124.98kb.
- Рабочая программа учебной дисциплины ен. В. 01 Методы оптимизации Для направления 230200, 189.45kb.
- Рабочая программа дисциплины Теория информации рекомендована методическим Советом Урфу, 600.02kb.
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО образованию
АСТРАХАНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ФАКУЛЬТЕТ МАТЕМАТИКИ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
Кафедра информационных систем
ТЕХНОЛОГИИ АНАЛИЗА ДАННЫХ
Программа курса
для направления 230200.68
«Информационные системы. Программа Базы знаний»
Астрахань 2009
ПОЯСНИТЕЛЬНАЯ ЗАПИСКА
Данный курс является дисциплиной национально-регионального компонента направления 230200.68 «Информационные системы. Программа Базы знаний».
Цель дисциплины «Технологии анализа данных» заключается в предоставлении слушателям комплекса знаний, умений и навыков, необходимых для повышения эффективности профессиональной деятельности средствами современных информационных технологий в сфере бизнес-аналитики. Курс ориентирован на тех, кто интересуется вопросами построения хранилищ данных, оперативного анализа данных, интеллектуального анализа данных, методами автоматического поиска закономерностей в больших массивах информации.
В рамках курса «Технологии анализа данных» студенты знакомятся с вопросами разработки систем поддержки принятия решений, организацией хранилищ данных, а также с задачами анализа данных. Наиболее подробно в курсе представлен интеллектуальный анализ данных (Data Mining). Описания сопровождаются примерами применения.
Основную часть курса составляют практические задания для самостоятельной работы. Они должны быть реализованы с помощью средств Business Intelligence в Microsoft SQL Server / Oracle (хранилища данных, OLAP), а также RapidMiner (Data Mining).
В результате изучения дисциплины слушатели должны знать:
- типы задач, решаемых с помощью систем поддержки принятия решений;
- общее назначение, структуру и операции с хранилищем данных;
- назначение и архитектуру OLAP-систем, операции над OLAP-кубами;
- модели, методы и средства интеллектуального анализа данных.
Слушатели должны уметь:
- использовать инструменты для создания хранилищ данных и создания отчетов на их основе;
- создавать OLAP-кубы и работать с ними;
- использовать инструменты для интеллектуального анализа данных.
Курс рассчитан на слушателей, имеющих навыки работы с реляционными СУБД. Желательно наличие общего представления о методах математической статистики. Курс также связан с дисциплиной «Интеллектуальные информационные системы».
Изучение курса завершается итоговой экзаменационной оценкой в соответствии с суммой набранных баллов по системе текущего контроля студентов. В течение семестра студент выполняет лабораторные работы в среде Microsoft SQL Server / Oracle (хранилища данных, OLAP), а также RapidMiner (Data Mining), демонстрирует преподавателю результаты. Преподаватель может задать студенту дополнительные вопросы по выполненной работе для контроля усвоения темы.
РАСПРЕДЕЛЕНИЕ
ЧАСОВ ПО ТЕМАМ И ВИДАМ УЧЕБНЫХ ЗАНЯТИЙ
Наименование тем | Количество аудиторных часов | |||
Всего | в том числе по видам учебных занятий | |||
Лекции | Практические, семинарские занятия | Лабораторные занятия | ||
Тема 1. Хранилища данных | 4 | 2 | | 2 |
Тема 2. Оперативный анализ данных (OLAP) | 4 | 2 | | 2 |
Тема 3. Введение в Data Mining | 2 | 2 | | |
Тема 4. Алгоритмы Data Mining: классификация и прогнозирование | 6 | 2 | | 4 |
Тема 5. Алгоритмы Data Mining: поиск ассоциативных правил и кластеризация | 8 | 3 | | 5 |
Тема 6. Применение Data Mining и современные тенденции. Продвинутые техники Data Mining | 2 | 2 | | |
Итого аудиторных часов | 26 | 13 | | 13 |
Количество часов самостоятельной работы студентов | 54 | | | |
Всего часов | 80 | | | |
СОДЕРЖАНИЕ КУРСА
Тема 1. Хранилища данных
Системы поддержки принятия решений. Определение хранилища данных, их использование и современные тенденции. Сравнение понятий хранилища данных и базы данных. Архитектура хранилища данных. ETL-процессы (извлечение, преобразование и загрузка данных).
Конечные инструменты хранилищ данных. Комплексная агрегация и множественная гранулярность. Оптимизация и тестирование хранилища данных.
Тема 2. Оперативный анализ данных (OLAP)
OLAP: витрины данных, кубы данных, многомерная модель данных: схема звезда, схема снежинка, таблица фактов. Сравнительный анализ OLAP и OLTP. Способы реализации многомерной модели: MOLAP, ROLAP, HOLAP.
Развертывание OLAP-кубов. Операции над OLAP-кубами (срез, вращение, консолидация, детализация).
Тема 3. Введение в Data Mining
Определение Data Mining и область применения. Основы Data Mining, связанные понятия и техники. Обзор алгоритмов Data Mining. Цикл получения, предварительной обработки, анализа данных, интерпретации результатов и их использования.
Тема 4. Алгоритмы Data Mining: классификация и прогнозирование
Определение задач классификации и их применение. Методы классификации. Деревья решений. Наивный Байесовский метод. Метод ближайшего соседа. Метод опорных векторов (SVM). Задача прогнозирования. Прогнозирование временных рядов.
Тема 5. Алгоритмы Data Mining: поиск ассоциативных правил и кластеризация
Множества данных. Генерация множеств данных и правил. Корреляционный анализ. Алгоритм Apriori. Основные вопросы кластеризации. Дивизимные и иерархические методы кластеризации
Тема 6. Применение Data Mining и современные тенденции. Продвинутые техники.
Применение Data Mining. Приложения Business Intelligence. Программное обеспечение Data Mining. Основные сложности Data Mining. Направления Data Mining: Text Mining, Web Mining, Spatial Mining, Temporal Mining.
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- Барсегян, А.А., Куприянов, М.С., Степаненко, В.В., Холод, И.И., Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. – СПб.: БХВ-Петербург, 2007. – 384 с.
- Паклин, Н.Б., Орешков, В.И., Бизнес-аналитика: от данных к знаниям. – СПб.: Питер, 2009. – 624 с.
- Сегаран, Т., Программируем коллективный разум. – СПб.: Символ-Плюс, 2008. – 368 с.
- Han J., Kamber M., Data Mining: Concepts and Techniques (Second Edition), Morgan Kaufmann Publishers, 2006. – 800 p.
- Макленнен Д., Танг Ч., Криват Б.,Microsoft SQL Server 2008: Data Mining – интеллектуальный анализ данных. BHV, 2009
- Дюк, В. Data Mining : учебный курс / Дюк, В., Самойленко, А. - ; - СПб. : Питер, 2001. - 368 с. - (Учебный курс).
- Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP : Рек. УМО вузов по ун-тетскому политех. образованию в качестве учеб. пособ. по спец. "Информационные системы и технологии" направления "Информационные системы" / А.А. Барсегян, М.С. Куприянов и др. - 2-е изд. ; перераб. и доп. - СПб. : БХВ-Петербург, 2008. - 384 с.+ ! CD-ROM