Методы Разработки и Визуализации Данных
Вид материала | Документы |
- Методы визуализации информации – наукоемкое направление современных, 106.8kb.
- Методы визуализации акустических полей и их применение в диагностике, 313.37kb.
- Гис-технологии в экологии, 1013.18kb.
- Методы медико-биологических исследований. Средства и способы получения изображений, 20.79kb.
- Алгебраический подход к объектно-ориентированным базам данных 2006 г. Емельченков, 271.1kb.
- Обеспечивающей сегодня управление информацией, составляют базы данных (БД) и системы, 148.37kb.
- Опыт разработки специализированных систем научной визуализации, 503.23kb.
- Методы принятия разработки инвестиционных решений. (Гму, на примере!!! данных орг-ий)!!!, 69.13kb.
- Отчет о проведении Международной научной конференции-семинара «Современные методы психологии», 97.76kb.
- Курсовая работа по базам данных (6-й семестр) Возможна постановка задачи в области, 107.15kb.
Методы Разработки и Визуализации Данных
Цель: Изучение современных методов анализа и визуализации данных, включая метод главных компонент, кластер-анализ, нейронные сети, генетические и эволюционные алгоритмы, их проверку и применение с использованием продвинутой вычислительной среды МатЛаб.
Оценка полученных знаний: Двухчасовой письменный экзамен и курсовой проект, вклады 80% и 20% соответственно.
Пре-реквизиты: начала теории множеств, графов, математического анализа, линейной алгебры и методов оптимизации.
Содержание:
- Что такое визуализация данных: Когнитивные структуры и копьютерная визуализация. Цели описания и предсказания данных с примерами.
- Визуализация распределений признаков: гистограммы, скаттер-плоты и бокс-плоты.
- Таблицы данных. Качественные и количественные признаки. Визуализация связи двух признаков: регрессия и корреляция (оба количественные), комбинационная таблица и сопряженность (оба качественные), регрессионная таблица и корреляционное отношение.
- Бутстрап, перекрестная валидация и другие схемы для проверки и выбора моделей. Задачи двумерного анализа с проверкой и выбором моделей.
- Многомерные данные: векторы, расстояние и скалярное произведение. Преобразование шкалы. Стандартизация данных. Визуализация данных путем аппроксимации. Метод главных сомпонент и сингулярное разложение матриц. Компоненты соответствий в таблицах сопряженности. Собственные Лица, Латентный Семантический Анализ и другие применения.
- Кластер-анализ: метод к-средних и его интеллегентные версии. Иерархический кластер-анализ. Нахождение отдельных кластеров. Использование разложения разброса данных на объясненную и необъясненную части для интерпретации и описания кластеров.
- Метод ближайшего соседа и Минимальное Покрывающее Дерево. Самоорганизующиеся карты Кохонена.
- Решающие правила: классификационное и регрессионное деревья; концептуальные кластеры. Критерии как меры сопряженности. Всеобъемлющее описание с преобразованием пространства описания.
- Линейные разделяющие функции и ядерные преобразования.
- Нейронные сети для машинного обучения: модели нейрона, перцептроны и их ограничения. Многоуровневые перцептроны как классифицирующие устройства. Обратный алгоритм адаптивного обучения и его ограничения. Применения многоуровневых перцептронов.
- Радиальные базисные функции, их использование для интерполяции и аппроксимации, сравнение с многоуровневыми перцептронами.
- Эволюционные алгоритмы (критерии и операторы), связь с классической оптимизацией.
- Генетические алгоритмы: хромосомы, мутации и кроссинговер. Примеры. Эволюционное программирование. Примеры. Много-агентные системы. Главные компоненты и самоорганизующиеся карты с помощью эволюционных вычислений.
- Моделирование неопределенности: вероятностные распределения, интервалы, размытые множества, грубые множества. Их использование в задачах прогнозирования и описания.
Литература
- B. Mirkin (2005), Clustering for Data Mining, Chapman & Hall/CRC, ISBN 1-58488-534-3.
- A.P. Engelbrecht (2002) Computational Intelligence, John Wiley & Sons, ISBN 0-470-84870-7.