Методы Data Mining при использовании статистического пакета Statistica 12 и IBM SPSS 23

0
984
Word Cloud with Data Mining related tags

Информационной базой изучения практического применения методов Data Mining могут послужить следующие ресурсы:

— В.П.Боровиков. STATISTICA. Искусство анализа данных на компьютере: для профессионалов (2-е издание), СПб.: Питер, 2003. – 688 с.: ил.

— база примеров применения STATISTICA для решения различных задач по отраслям http://www.statsoft.ru/solutions/ExamplesBase/tasks/

— Академия Анализа Данных StatSoft : курсы лекций по статистическому анализу http://www.statsoft.ru/academy/lections.php

— Электронный учебник по статистике StatSoft http://www.statsoft.ru/home/textbook/default.htm

— IBM Knowledge Center Мастер моделей временных рядов http://www.ibm.com/support/knowledgecenter/

Процедура обобщенного кластерного анализа методом к-средних из модуля Data Mining Statistica 12

Стандартная процедура многомерного кластерного анализа методом к-средних в программе Statistica 12 (10) доступна во вкладке Statistics – Mult / Exploratory – Cluster – K-means Clustering.

C:\Users\ROMAN\Desktop\марк\1.jpg

Рис. 1. Вкладка кластерного анализа методом к-средних

Данная подпрограмма позволяет указать необходимые переменные и задать необходимое число кластеров, которое определяется пользователем самостоятельно.

Процедура обобщенного кластерного анализа размещена вор вкладке Data Mining – Cluster – K-means.

C:\Users\ROMAN\Desktop\марк\4.jpg

Рис. 2. Вкладка обобщенного кластерного анализа

Основное отличие данной процедуры от предыдущей заключается в автоматическом определении числа кластеров на основе итеративного алгоритма максимизации межгрупповой дисперсии между кластерами (для активации данной функции обязательно необходимо включение опции V-fold cross validation во вкладке Validation данного меню). Во всем остальном процедура является полностью автоматической.

Правила ассоциаций в программе Statistica 12

Анализ Data Mining – Association Rules основан на построении ассоциативных правил связи между наблюдаемыми явлениями.

Ассоциативные правила или правила связи позволяют находить закономерности между связанными событиями (причина обозначается как Body, следствие как Head).

Скажем, покупка домашнего кинотеатра (Body) в 84 % случаях происходит в кредит (Head). При этом покупателей кинотеатра (Head) в кредит (Body) было всего 40% от клиентов в таблице данных.

Здесь 84% – называются достоверностью (confidence) ассоциативного правила:

Body -> Head

«Покупка домашнего кинотеатра» -> «Кредит»,

А 40% — поддержкой (support) этого ассоциативного правила.

Также существует еще одна характеристика связи — корреляция. В некотором смысле, она является нормализованной величиной поддержки.

Процедура анализа ассоциативных правил доступна во вкладке Data Mining – Association Rules. Необходимая организация данных: категориальные переменные либо дихотомии (1, 0).

C:\Users\ROMAN\Desktop\марк\5.jpg

Рис. 3. Настройка параметров ассоциативных правил

В большинстве случаев параметры поддержки и достоверности можно не изменять (0,5) однако в некоторых случаях рекомендуется снизить значения поддержки до 0,4 (для поиска менее выраженных закономерностей).

C:\Users\ROMAN\Desktop\марк\6.jpg

Рис. 4. Табличное представление ассоциативных правил

Support (Body, Head) («совместная» поддержка) – показывает, для какой доли всех наблюдений верна и причина, и следствие.

Confidence (Body->Head) (достоверность) – показывает, какая доля всех наблюдений, для которых верна причина, верно и следствие.

C:\Users\ROMAN\Desktop\марк\7.jpg

Рис. 5. График правил ассоциаций

Из таблицы, например, можно понять, что люди в 81% случаях покупают холодильник в кредит. Клиенты магазина вместе с ЖК-телевизором покупают DVD-плеер (61%), вместе с компьютером приобретают принтер (85%).

Можно обнаружить и немного неожиданные связи, такие как покупка принтера при приобретении ЖК-телевизора (66%).

Графики правил ассоциации содержат ту же информацию, что и таблица результатов, однако позволяют визуально сравнивать между собой правила. Каждая линия, соединяющая круг из причины (Body) с кругом из следствия (Head), означает одно ассоциативное правило. Чем толще линия (и темнее) соединения, тем выше достоверность правила. Чем больше (и темнее) размер круга, тем выше уровень поддержки. При этом размер круга, соответствующего причине (Body) или следствию (Head), означает частоту встречаемости причины или следствия (см. выше комментарии к таблице Support (Body)). Величина совместной поддержки (Support (Body, Head)) отображается через размер (и цвет) круга посредине (Implies).

Правила ассоциаций позволяют установить причинно-следственные связи в больших наборах данных, отобрать наиболее значимые признаки, выявить предпочтения клиентов (особенно для анализа потенциальных кросс-продаж).

Прогнозирование данных в IBM SPSS 23

В программе SPSS данные временного ряда для прогнозирования должны быть предварительно организованы по временным интервалам через дополнительные переменные (как на рис. 6).

C:\Users\ROMAN\Desktop\марк\8.jpg

Рис. 6. Пример данных временного ряда

Дополнительные переменные временных интервалов создаются через вкладку Данные – Определить дату и время – Наблюдения это (Годы – месяцы, дни- часы, недели – дни).

Непосредственно процедура прогнозирования временных рядов доступна во вкладке Анализ – Прогнозирование – Создать традиционные модели.

C:\Users\ROMAN\Desktop\марк\9.jpg

Рис. 7. Мастер моделей временных рядов

Далее необходимо выбрать Метод: Эксперт построения моделей, Критерии – все модели, во вкладке «Выбросы» поставить флажок «Автоматически обнаруживать выбросы», отметить флажками все доступные типы выбросов.

Во вкладке Статистика задать дополнительные меры согласия: R-квадрат, средний абсолютный процент ошибки, максимальный абсолютный процент ошибки (возможно и ряд других, данные меры являются наиболее распространёнными), отметить флажок «Показать прогноз».

Во вкладке Графики отметить флажком Ряды – значения подгонки модели, доверительные интервалы для прогнозов.

Во вкладке Сохранение выбрать флажками сохранить предсказанные значения, нижние и верхние границы интервалов.

Во вкладке Параметры – Диапазон прогноза – От первого наблюдения после интервала оценки до даты (задать год, месяц). Доверительный интервал – 90 (95 %), нажать ОК.

Для примера были взяты данные ЖД-перевозок по месяцам за период 2013 – 2015 гг. Составим прогноз на 2016 год (по 12 месяц включительно). Мастером построения моделей на основе переборе выбрана Простая сезонная модель

C:\Users\ROMAN\Desktop\марк\10.jpg

Рис. 8. Прогноз ЖД-перевозок на 2016 год

По графику видно, что данные имеют сезонные особенности и хорошо подходят для построения сезонных временных моделей (в отличии от построения простых линейных трендов).

Таблица 1

Качество подгонки модели

C:\Users\ROMAN\Desktop\марк\11.jpg

Из табл. 1 видно, что прогноз является достаточно адекватным (при R квадрат 0,754) а также успешно проходит тест на Q – статистику Льюнга-Бокса на уровне значимости p = 0,027 (что свидетельствует об отбрасывании нулевой гипотезы H0 о случайности данных (белый шум) и принятии альтернативной гипотезы H1). То есть. Можно сделать вывод о статистической значимости прогноза и адекватности модели эмпирическим данным.

Электронное анкетирование (создание форм Google)

Для создания и редактирования форм Google необходимо иметь зарегистрированный почтовый аккаунт Google для доступа к сервису электронных документов.

При входе в аккаунт необходимо войти в сервис Google Диск, нажать на вкладку «Создать» — Еще – Google Формы.

C:\Users\ROMAN\Desktop\марк\12.jpg

Рис. 9. Создание новой формы

В каждом вопросе имеется возможность изменять тип (одиночного или множественного выбора, шкалы, даты), задавать обязательный признак вопроса, добавить вариант «Другое» для пользовательского ответа.

В дальнейшем форма доступна по ссылке и может рассылаться респондентам. Все ответы накапливаются во внутреннюю таблицу на основе которой формируется графическая сводка результатов.

C:\Users\ROMAN\Desktop\марк\13.jpg

C:\Users\ROMAN\Desktop\марк\14.jpg

C:\Users\ROMAN\Desktop\марк\15.jpg