Date Редакция Категория edu Теги курсы

2016-2017, 2 семестр

Описание курса

Всё, что регистрирует человек и созданные им машины является данными. Фиксируя новое и переводя архивы в цифровую форму, мы с каждым днём производим всё больше данных. Для того чтобы извлечь из этих сырых данных какие-либо закономерности (знания) применяются методы анализа данных.

Интеллектуальный анализ данных занимается вопросами фильтрации и преобразования данных, открытием новых характеристик данных, задачами предсказания, классификации и кластеризации. Математическую основу анализа данных составляют методы математической статистики.

Благодарности

Выражаю свою признательность В.Л. Аббакумову, из курса которого позаимствован ряд примеров.

1. Знакомство с Data Mining и пакетом R. Описательные статистики

Чем занимается Data Mining (=интеллектуальный анализ данных). Почему стоит им заниматься. История науки о данных. Наш инструментарий: пакет R. Другие пакеты. Компоненты R. Литература, ссылки и видеокурсы. Предупреждение, без которого Data Mining не работает.

Генеральная совокупность и выборка. Типы переменных и как они реализованы в R. Построение графиков. Списки и татаблицы в R. Меры центральной тенденции: среднее, медиана. Меры разброса: дисперсия, стандартное отклонение и квантили.

2. Разведочная статистика

Ищем поддельные купюры в наборе данных Swiss Bank Notes. Загрузка данных. Знакомство с данными. Проверка на ошибки. Гистограмма - что это и зачем она нужна. Столбиковые диаграммы. Диаграммы Кливленда. Диаграмма рассеивания. Матрица диаграмм рассеивания. Ящик с усами - как строить и зачем нужен.

Примеры. Города (перепись 1959 г.). Какой город можно считать типичным?

3. Кластерный анализ. Иерархическая кластеризация

Терминология и постановка задачи. Где используется кластерный анализ. Идея метода. Расстояние между точками-объектами. Рассмтояние между кластерами. Алгоритм иерархического кластерного анализа. Построение дендрограммы. Где на дендрограмме кластеры? График "каменистая осыпь" ("локоть"). Выбор расстояния между кластерами разных видов. Участие аналитика в кластерном анализе. Стандартизация переменных.

Примеры: сегментация потребителей безалкогольных напитков, классификация претендентов на вакансию, потребление белков в Европе. Работа функции hclust. Построение графика "каменистая осыпь".

4. Кластерный анализ-2. Метод k-средних

Алгоритм k-средних. Визуализация пошаговой работы алгоритма. Выбор начального расположения центров кластеров. Определение числа кластеров k. Особенности метода k-средних.

Примеры: сегментация потребителей безалкогольных напитков, потребление белков в Европе. Многомерное шкалирование для визуализации кластеров.

5. Проверка статистических гипотез. Случай одной выборки

Алгоритм проверки статистических гипотез. Нулевая и альтернативная гипотезы. Распределение выборочных статистик. Уровень значимости. Статистика критерия. p-уровень. Односторонние и двусторонние критерии. Ошибки 1-го и 2-го рода, их связь с выбором уровня значимости.

6. Проверка статистических гипотез-2. Случай двух выборок. Исследование связи между переменными

Сравнение двух выборок выборок. Переход к сравнению центральных тенденций. Независимые и парные выборки.

Связь между двумя переменными. Связанность и причинная обусловленность, типичные ошибки при изучении связи между двумя явлениями. Проверка взаимосвязи номинальных данных. Критерий хи-квадрат. Связь между переменными, измеренными по интервальной шкале. Диаграмма рассеяния. Построение линии регрессии. Коэффициенты корреляции Пирсона и Спирмена. Проверка статистической значимости коэффициента корреляции Пирсона.

7. Линейный регрессионный анализ

Модель, интерпретация оценок коэффициентов, множественный коэффициент детерминации. Интерпретация множественного коэффициента детерминации, ограничения на область его применения. Квартет Анскомба. Выявление наиболее значимых предикторов и оценка вклада каждого предиктора. Алгоритмы корректировки построенных моделей. Коллинеарность.

Примеры: прогнозирование цен на жилую недвижимость в Альбукерке; цены на женские кольца с бриллиантами в Сингапуре.

8. Линейный регрессионный анализ: прогнозирование коротких временных рядов

Прогноз. Временной ряд. Прогнозирование на основе линейной регрессионной модели с сезонными индикаторными. Тренд, сезонные составляющие, смена характера ряда, выбросы. Логарифмирование — прием для преобразования мультипликативной сезонности в аддитивную. Ловушка индикаторных переменных и как с ней справляться.

Примеры: прогнозирование международных пассажирских авиаперевозок; продажи ликеров и красных вин в Австралии.

9. Прогнозирование временных рядов: линейная регрессия — анализ остатков

Теорема Гаусса-Маркова: ее условия, что она дает и последствия нарушения ее ограничений. Анализ остатков. Ошибка спецификации. Мультиколлинеарность, Tolerance и VIF. Проверка постоянства дисперсий остатков. Коррекция моделей при наличии отклонений распределения остатков от нормальности. Расстояние Кука и "рычаг". Статистика Дурбина-Ватсона.

10. Прогнозирование временных рядов: экспоненциальное сглаживание

Экспоненциальное сглаживание. Метод Холта-Уинтерса (Holt-Winters). Локальный тренд, локальная сезонность.

11. Классификация. Метод k-го ближайшего соседа

Метод k-го ближайшего соседа. Состоятельность метода. Lazy learning (ленивое обучение). Feature Selection. Кроссвалидация. k-fold кросс-валидация. Overfitting (Чрезмерная подгонка, переобучение). Обучающая и тестовая выборки. Определение числа ближайших соседей.

Примеры. Определение числа ближайших соседей. Таблица сопряженности для определения качества работы метода.

12. Классификация-2. Деревья классификации CART

Деревья классификации (и регрессии). Геометрическое представление. Представление в виде набора логических правил. Представление в виде дерева. Узлы, родители и потомки, конечные узлы. Пороговые значения. Библиотека rpart. Меры чистота узла (impurity measures). Методы измерения чистоты: Джини, энтропия, ошибки классификации. Правила останоки обучения дерева. Библиотека rpart.plot.

13. Приемы объединения классификаторов. Случайные леса. Gradient boosting machine

Приемы объединения классификаторов: Stacking, bagging и boosting.

Случайные леса. Bagging. Библиотека RandomForest. Ключевые параметры модели. Out-of-bag error. Информативность переменных (Importance). Анализ несбалансированных выборок. Определение числа деревьев.

Gradient boosting machine. Boosting. Библиотека gbm. gbm и TreeNet. Ключевые параметры модели.

14. Анализ главных компонент и факторный анализ

Анализ главных компонент и факторный анализ. Задачи, решаемые с помощью факторного анализа. Математические модели анализа главных компонент и факторного анализа. Факторные нагрузки, факторные метки, их интерпретация. Вращения факторов. Интерпретация факторов.

Задания



Комментарии

comments powered by Disqus