Программа курса для направления 230200. 68 «Информационные системы. Программа Базы знаний»

Вид материалаПрограмма курса

Содержание


Часов по темам и видам учебных занятий
Содержание курса
Тема 2. Оперативный анализ данных (OLAP)
Тема 3. Введение в Data Mining
Тема 4. Алгоритмы Data Mining: классификация и прогнозирование
Тема 5. Алгоритмы Data Mining: поиск ассоциативных правил и кластеризация
Тема 6. Применение Data Mining и современные тенденции. Продвинутые техники.
Рекомендуемая литература
Подобный материал:
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО образованию

АСТРАХАНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ



ФАКУЛЬТЕТ МАТЕМАТИКИ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ

Кафедра информационных систем


ТЕХНОЛОГИИ АНАЛИЗА ДАННЫХ

Программа курса

для направления 230200.68

«Информационные системы. Программа Базы знаний»


Астрахань 2009


ПОЯСНИТЕЛЬНАЯ ЗАПИСКА


Данный курс является дисциплиной национально-регионального компонента направления 230200.68 «Информационные системы. Программа Базы знаний».

Цель дисциплины «Технологии анализа данных» заключается в предоставлении слушателям комплекса знаний, умений и навыков, необходимых для повышения эффективности профессиональной деятельности средствами современных информационных технологий в сфере бизнес-аналитики. Курс ориентирован на тех, кто интересуется вопросами построения хранилищ данных, оперативного анализа данных, интеллектуального анализа данных, методами автоматического поиска закономерностей в больших массивах информации.

В рамках курса «Технологии анализа данных» студенты знакомятся с вопросами разработки систем поддержки принятия решений, организацией хранилищ данных, а также с задачами анализа данных. Наиболее подробно в курсе представлен интеллектуальный анализ данных (Data Mining). Описания сопровождаются примерами применения.

Основную часть курса составляют практические задания для самостоятельной работы. Они должны быть реализованы с помощью средств Business Intelligence в Microsoft SQL Server / Oracle (хранилища данных, OLAP), а также RapidMiner (Data Mining).

В результате изучения дисциплины слушатели должны знать:

- типы задач, решаемых с помощью систем поддержки принятия решений;

- общее назначение, структуру и операции с хранилищем данных;

- назначение и архитектуру OLAP-систем, операции над OLAP-кубами;

- модели, методы и средства интеллектуального анализа данных.

Слушатели должны уметь:

- использовать инструменты для создания хранилищ данных и создания отчетов на их основе;

- создавать OLAP-кубы и работать с ними;

- использовать инструменты для интеллектуального анализа данных.


Курс рассчитан на слушателей, имеющих навыки работы с реляционными СУБД. Желательно наличие общего представления о методах математической статистики. Курс также связан с дисциплиной «Интеллектуальные информационные системы».

Изучение курса завершается итоговой экзаменационной оценкой в соответствии с суммой набранных баллов по системе текущего контроля студентов. В течение семестра студент выполняет лабораторные работы в среде Microsoft SQL Server / Oracle (хранилища данных, OLAP), а также RapidMiner (Data Mining), демонстрирует преподавателю результаты. Преподаватель может задать студенту дополнительные вопросы по выполненной работе для контроля усвоения темы.


РАСПРЕДЕЛЕНИЕ

ЧАСОВ ПО ТЕМАМ И ВИДАМ УЧЕБНЫХ ЗАНЯТИЙ


Наименование тем

Количество аудиторных часов

Всего

в том числе по видам учебных занятий

Лекции

Практические, семинарские занятия

Лабораторные

занятия

Тема 1. Хранилища данных

4

2




2

Тема 2. Оперативный анализ данных (OLAP)

4

2




2

Тема 3. Введение в Data Mining

2

2







Тема 4. Алгоритмы Data Mining: классификация и прогнозирование

6

2




4

Тема 5. Алгоритмы Data Mining: поиск ассоциативных правил и кластеризация

8

3




5

Тема 6. Применение Data Mining и современные тенденции. Продвинутые техники Data Mining

2

2







Итого аудиторных часов

26

13




13

Количество часов самостоятельной работы студентов

54










Всего часов

80









СОДЕРЖАНИЕ КУРСА



Тема 1. Хранилища данных

Системы поддержки принятия решений. Определение хранилища данных, их использование и современные тенденции. Сравнение понятий хранилища данных и базы данных. Архитектура хранилища данных. ETL-процессы (извлечение, преобразование и загрузка данных).

Конечные инструменты хранилищ данных. Комплексная агрегация и множественная гранулярность. Оптимизация и тестирование хранилища данных.

Тема 2. Оперативный анализ данных (OLAP)

OLAP: витрины данных, кубы данных, многомерная модель данных: схема звезда, схема снежинка, таблица фактов. Сравнительный анализ OLAP и OLTP. Способы реализации многомерной модели: MOLAP, ROLAP, HOLAP.

Развертывание OLAP-кубов. Операции над OLAP-кубами (срез, вращение, консолидация, детализация).


Тема 3. Введение в Data Mining

Определение Data Mining и область применения. Основы Data Mining, связанные понятия и техники. Обзор алгоритмов Data Mining. Цикл получения, предварительной обработки, анализа данных, интерпретации результатов и их использования.


Тема 4. Алгоритмы Data Mining: классификация и прогнозирование

Определение задач классификации и их применение. Методы классификации. Деревья решений. Наивный Байесовский метод. Метод ближайшего соседа. Метод опорных векторов (SVM). Задача прогнозирования. Прогнозирование временных рядов.


Тема 5. Алгоритмы Data Mining: поиск ассоциативных правил и кластеризация

Множества данных. Генерация множеств данных и правил. Корреляционный анализ. Алгоритм Apriori. Основные вопросы кластеризации. Дивизимные и иерархические методы кластеризации


Тема 6. Применение Data Mining и современные тенденции. Продвинутые техники.

Применение Data Mining. Приложения Business Intelligence. Программное обеспечение Data Mining. Основные сложности Data Mining. Направления Data Mining: Text Mining, Web Mining, Spatial Mining, Temporal Mining.

РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА

  1. Барсегян, А.А., Куприянов, М.С., Степаненко, В.В., Холод, И.И., Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. – СПб.: БХВ-Петербург, 2007. – 384 с.
  2. Паклин, Н.Б., Орешков, В.И., Бизнес-аналитика: от данных к знаниям. – СПб.: Питер, 2009. – 624 с.
  3. Сегаран, Т., Программируем коллективный разум. – СПб.: Символ-Плюс, 2008. – 368 с.
  4. Han J., Kamber M., Data Mining: Concepts and Techniques (Second Edition), Morgan Kaufmann Publishers, 2006. – 800 p.
  5. Макленнен Д., Танг Ч., Криват Б.,Microsoft SQL Server 2008: Data Mining – интеллектуальный анализ данных. BHV, 2009
  6. Дюк, В.   Data Mining : учебный курс / Дюк, В., Самойленко, А. - ; - СПб. : Питер, 2001. - 368 с. - (Учебный курс).
  7. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP : Рек. УМО вузов по ун-тетскому политех. образованию в качестве учеб. пособ. по спец. "Информационные системы и технологии" направления "Информационные системы" / А.А. Барсегян, М.С. Куприянов и др. - 2-е изд. ; перераб. и доп. - СПб. : БХВ-Петербург, 2008. - 384 с.+ ! CD-ROM