Методы Разработки и Визуализации Данных

Вид материалаДокументы
Подобный материал:

Методы Разработки и Визуализации Данных



Цель: Изучение современных методов анализа и визуализации данных, включая метод главных компонент, кластер-анализ, нейронные сети, генетические и эволюционные алгоритмы, их проверку и применение с использованием продвинутой вычислительной среды МатЛаб.


Оценка полученных знаний: Двухчасовой письменный экзамен и курсовой проект, вклады 80% и 20% соответственно.


Пре-реквизиты: начала теории множеств, графов, математического анализа, линейной алгебры и методов оптимизации.


Содержание:

  1. Что такое визуализация данных: Когнитивные структуры и копьютерная визуализация. Цели описания и предсказания данных с примерами.
  2. Визуализация распределений признаков: гистограммы, скаттер-плоты и бокс-плоты.
  3. Таблицы данных. Качественные и количественные признаки. Визуализация связи двух признаков: регрессия и корреляция (оба количественные), комбинационная таблица и сопряженность (оба качественные), регрессионная таблица и корреляционное отношение.
  4. Бутстрап, перекрестная валидация и другие схемы для проверки и выбора моделей. Задачи двумерного анализа с проверкой и выбором моделей.
  5. Многомерные данные: векторы, расстояние и скалярное произведение. Преобразование шкалы. Стандартизация данных. Визуализация данных путем аппроксимации. Метод главных сомпонент и сингулярное разложение матриц. Компоненты соответствий в таблицах сопряженности. Собственные Лица, Латентный Семантический Анализ и другие применения.
  6. Кластер-анализ: метод к-средних и его интеллегентные версии. Иерархический кластер-анализ. Нахождение отдельных кластеров. Использование разложения разброса данных на объясненную и необъясненную части для интерпретации и описания кластеров.
  7. Метод ближайшего соседа и Минимальное Покрывающее Дерево. Самоорганизующиеся карты Кохонена.
  8. Решающие правила: классификационное и регрессионное деревья; концептуальные кластеры. Критерии как меры сопряженности. Всеобъемлющее описание с преобразованием пространства описания.
  9. Линейные разделяющие функции и ядерные преобразования.
  10. Нейронные сети для машинного обучения: модели нейрона, перцептроны и их ограничения. Многоуровневые перцептроны как классифицирующие устройства. Обратный алгоритм адаптивного обучения и его ограничения. Применения многоуровневых перцептронов.
  11. Радиальные базисные функции, их использование для интерполяции и аппроксимации, сравнение с многоуровневыми перцептронами.
  12. Эволюционные алгоритмы (критерии и операторы), связь с классической оптимизацией.
  13. Генетические алгоритмы: хромосомы, мутации и кроссинговер. Примеры. Эволюционное программирование. Примеры. Много-агентные системы. Главные компоненты и самоорганизующиеся карты с помощью эволюционных вычислений.
  14. Моделирование неопределенности: вероятностные распределения, интервалы, размытые множества, грубые множества. Их использование в задачах прогнозирования и описания.


Литература

  1. B. Mirkin (2005), Clustering for Data Mining, Chapman & Hall/CRC, ISBN 1-58488-534-3.
  2. A.P. Engelbrecht (2002) Computational Intelligence, John Wiley & Sons, ISBN 0-470-84870-7.