пошаговый отбор методом исключения 1) Корреляционный анализ данных, включая проверку теста Фаррара-Глоубера на мультиколлинеарность факторов

В таблице 2 представлена матрица коэффициентов парной корреляции для всех переменных, участвующих в рассмотрении. Матрица получена с помощью инструмента Корреляция из пакета Анализ данных в Excel.

Таблица 2. Матрица коэффициентов парной корреляции

ВП ДЗ ДО ЗП КО ОА ОС ПП ЧП ВП                 ДЗ 0.703153371               ДО 0.619431723 0.71108883             ЗП 0.2070804 0.21370578 0.191246031           КО 0.871662071 0.76551489 0.760730624 0.26099803         ОА 0.627521351 0.90941562 0.687285976 0.21551821 0.686887605       ОС 0.885439784 0.6582235 0.632196987 0.11272433 0.760361993 0.559891192     ПП 0.937332888 0.62493307 0.626141923 0.11415721 0.795978755 0.538184606 0.84546545   ЧП 0.847732155 0.56665776 0.642293296 0.12581203 0.776315119 0.528740023 0.7231916 0.895976804

 

Визуальный анализ матрицы позволяет установить:

1) ЧП имеет довольно высокие парные корреляции со всеми переменными, кроме переменной ЗП (далее ее не будем рассматривать), что вполне объяснимо, так как предприятия отрасли «Связь» имеют специфическую продукцию;

2) большинство переменных анализа демонстрируют довольно высокие парные корреляции, что обуславливает необходимость проверки факторов на наличие между ними мультиколлинеарности. Тем более, что одним из условий классической регрессионной модели является предположение о независимости объясняющих переменных.

Для выявления мультиколлинеарности факторов выполним тест Фаррара-Глоубера по факторам ВП, ДЗ, ДО, КО, ОА, ОС, ПП.

Проверка теста Фаррара-Глоубера на мультиколлинеарность факторов включает несколько этапов, реализация которых представлена ниже.

1) Проверка наличия мультиколлинеарности всего массива переменных

· Построим матрицу межфакторных корреляций R (таблица 3) и найдем её определитель с помощью функции МОПРЕД.

Таблица 3. Матрица межфакторных корреляций R

Переменная ВП ДЗ ДО КО ОА ОС ПП ВП 1.00 0.70 0.62 0.87 0.63 0.89 0.94 ДЗ 0.70 1.00 0.71 0.77 0.91 0.66 0.62 ДО 0.62 0.71 1.00 0.76 0.69 0.63 0.63 КО 0.87 0.77 0.76 1.00 0.69 0.76 0.80 ОА 0.63 0.91 0.69 0.69 1.00 0.56 0.54 ОС 0.89 0.66 0.63 0.76 0.56 1.00 0.85 ПП 0.94 0.62 0.63 0.80 0.54 0.85 1.00

 

Определитель матрицы R стремится к нулю, что позволяет сделать предположение об общей мультиколлинеарности факторов. Подтвердим это предположение оценкой статистики Фаррара-Глоубера.

· Вычислим наблюдаемое значение статистики Фаррара – Глоубера по формуле:

,

где n = 109 – количество наблюдений (компаний); k = 7 – количество факторов (переменных анализа).

Фактическое значение этого критерия сравниваем с табличным значением критерия с степенью свободы и уровне значимости α=0,05. Табличное значение можно найти с помощью функции ХИ2ОБР [10]. ХИ2.ОБР.ПХ(0,05; 21).

Так как (953,87>32,67), то в массиве объясняющих переменных существует мультиколлинеарность.

2) Проверка наличия мультиколлинеарности каждой переменной с другими переменными.

· Вычислим обратную матрицу с помощью функции Excel МОБР (таблица 4).

Таблица 4. Обратная матрица

 

21.37 1.10 4.33 -7.73 -3.10 -5.52 -10.95 1.10 7.78 0.14 -1.86 -5.67 -1.30 -0.35 4.33 0.14 3.61 -2.85 -1.40 -1.39 -2.21 -7.73 -1.86 -2.85 7.49 1.28 1.63 2.16 -3.10 -5.67 -1.40 1.28 6.55 1.29 1.68 -5.52 -1.30 -1.39 1.63 1.29 5.42 0.28 -10.95 -0.35 -2.21 2.16 1.68 0.28 10.00

 

· Вычисление F-критериев , где – диагональные элементы матрицы (таблица 5).

 

Таблица 5. Значения F-критериев[11]

F1 (ВП) F2 (ДЗ) F3 (ДО) F4 (КО) F5 (ОА) F6 (ОС) F7 (ПП) 293.9661352 97.8124237 37.70943742 93.6206699 80.04703672 63.80765146 129.863357

· Фактические значения F-критериев сравниваются с табличным значением при n1= 7 и n2 = n - k – 1=109-7-1=101 степенях свободы и уровне значимости α=0.05, где k – количество факторов.

· Так как все значения F-критериев больше табличного, то все исследуемые независимые переменные мультиколлинеарны с другими. Больше других влияет на общую мультиколлинеарность факторов фактор ВП, меньше – фактор ДО.

 

3) Проверка наличия мультиколлинеарности каждой пары переменных

● Вычислим частные коэффициенты корреляции по формуле , где – элементы матрицы . Матрицу коэффициентов частной корреляции , можно получить с помощью программ VSTAT, SPSS (таблица 6).

Таблица 6. Матрица коэффициентов частных корреляций

Переменная ВП ДЗ ДО КО ОА ОС ПП ВП               ДЗ -0.09             ДО -0.49 -0.03           КО 0.61 0.24 0.55         ОА 0.26 0.79 0.29 -0.18       ОС 0.51 0.20 0.31 -0.26 -0.22     ПП 0.75 0.04 0.37 -0.25 -0.21 -0.04  

● Вычисление t-критериев по формуле (таблица 7).

Таблица 7. t-критерии для коэффициентов частной корреляции[12]

Переменная ВП ДЗ ДО КО ОА ОС ПП ВП               ДЗ -0.86             ДО -5.69 -0.26           КО 7.75 2.52 6.59         ОА 2.73 13.12 3.02 -1.87       ОС 6.01 2.05 3.32 -2.66 -2.24     ПП 11.35 0.40 3.97 -2.60 -2.14 -0.38  

 

Фактические значения t-критериев сравниваются с табличным значением при степенях свободы (n - k – 1)=109-7-1=101 и уровне значимости α=0,05.

Из таблиц 6 и 7 видно, что две пары факторов ОА и ДЗ, ПП и ВП имеют высокую статистически значимую частную корреляцию, то есть являются мультиколлинеарными. Для того, чтобы избавиться от мультиколлинеарности, можно исключить одну из переменных коллинеарной пары. В паре ПП и ВП оставляем ПП, так как у нее меньше связи с другими факторами; в паре ОА и ДЗ оставим ОА, во-первых, с экономической точки зрения, а, во-вторых, так как у нее меньше значение F-критерия и, значит, она меньше влияет на общую мультиколлинеарность факторов.

Таким образом, в результате проверки теста Фаррара-Глоубера остается пять факторов: ДО, КО, ОА, ОС, ПП.

Завершая процедуры корреляционного анализа, целесообразно посмотреть частные корреляции выбранных факторов с результатом ЧП. В последнем столбце таблицы 8 представлены значения t-критерия для столбца ЧП.

Таблица 8. Матрица коэффициентов частной корреляции с результатом ЧП

Переменная ДО КО ОА ОС ПП ЧП t-критерий ( ДО 1.00 0.34 0.34 0.12 -0.12 0.16 1.63 КО 0.34 1.00 0.28 0.17 0.15 0.17 1.75 ОА 0.34 0.28 1.00 0.07 -0.04 -0.02 -0.24 ОС 0.12 0.17 0.07 1.00 0.59 -0.24 -2.49 ПП -0.12 0.15 -0.04 0.59 1.00 0.71 10.27 ЧП 0.16 0.17 -0.02 -0.24 0.71 1.00  

 

Из таблицы 8 видно, что межфакторные частные корреляции слабые, а переменная ЧП имеет высокую и одновременно статистически значимую частную корреляцию только с фактором ПП.

Уточнение набора факторов, наиболее подходящих для регрессионного анализа, осуществим другими методами отбора.

 

2) Пошаговый отбор факторов методом исключения из модели статистически незначимых переменных

В соответствии с общим подходом, пошаговый отбор следует начинать с включения в модель всех имеющихся факторов, то есть в нашем случае с восьмифакторной регрессии. Но мы не будем включать в модель факторы из заранее известных коллинеарных пар (в связи с наличием коллинеарности ранее были исключены из рассмотрения ВП и ДЗ), а также фактор ЗП, имеющий слабую связь с ЧП. Таким образом, пошаговый отбор факторов начнем с пятифакторного уравнения. Фрагмент пятифакторного регрессионного анализа представлен на рисунке 2.

    tтабл(0.05;109-5-1=103)= 1.98326409 Коэффициенты Стандартная ошибка t-статистика Y-пересечение -2067.779334 16246.6282 -0.127274368 ОС -0.040553788 0.016198212 -2.503596652 ПП 0.649466697 0.062951463 10.31694366 ДО 0.033862469 0.02067002 1.638240731 КО 0.049965808 0.028431981 1.75738047 ОА -0.006074787 0.025402164 -0.239144461

 

Рисунок 2. Фрагмент пятифакторного регрессионного анализа

Статистически незначимыми ( ) оказались три фактора (на рисунке 1 они выделены жирным шрифтом). На следующем этапе пошагового отбора удаляем статистически незначимый фактор с наименьшим значением t-критерия, то есть фактор ОА (на рисунке 2 выделен цветом).

Аналогично поступаем до тех пор, пока не получим уравнение, в котором все факторы окажутся статистически значимыми. Этапы получения такого уравнения, то есть фрагменты соответствующих регрессионных анализов, представлены на рисунках 3, 4.

    t табл(0.05;109-4-1=104)= 1.983037471 Коэффициенты Стандартная ошибка t-статистика Y-пересечение -3255.832024 15398.16512 -0.211442857 ОС -0.040859333 0.016074384 -2.541891019 ПП 0.650673211 0.062463899 10.41678825 ДО 0.032173752 0.019338145 1.663745481 КО 0.048029464 0.027130844 1.770290058

Рисунок 3. Фрагмент четырехфакторного регрессионного анализа

 

    tтабл(0,05;109-3-1=105)= 1.982815217 Коэффициенты Стандартная ошибка t-статистика Y-пересечение -4456.711199 15510.19708 -0.28734072 ОС -0.037629315 0.016090498 -2.338604743 ПП 0.647303561 0.062954486 10.28208794 КО 0.071691944 0.023297943 3.07717916

Рисунок 4. Фрагмент трехфакторного регрессионного анализа

Из рисунка 3 видно, что уравнение с тремя факторами ОС, ПП и КО обладает статистически значимыми коэффициентами перед факторами (в нем незначим только свободный член), а, значит, и сами эти факторы статистически значимы.

Таким образом, в результате пошагового отбора получено трехфакторное уравнение регрессии, все коэффициенты которого (кроме свободного члена) значимы при 5%-ном уровне значимости, вида

,

где YЧП, – ОС, – ПП, – КО.

3) Проверка теста на «длинную» и «короткую» регрессии

По результатам пунктов 1) и 2) возникает необходимость выбора из двух регрессий: «длинной» – с тремя факторами (ОС, ПП и КО) и «короткой» – с одним фактором (ПП).

Воспользуемся тестом на «длинную» и «короткую» регрессии. Этот тест используется для отбора наиболее существенных объясняющих переменных. Иногда переход от большего числа исходных показателей анализируемой системы к меньшему числу наиболее информативных факторов может быть объяснен дублированием информации, из-за сильно взаимосвязанных факторов. Стремление к построению более простой модели приводит к идее уменьшения размерности модели без потери её качества. Для этого используют тест проверки «длинной» и «короткой» регрессий.

Рассмотрим две модели регрессии:

yi= β0 + β1 xi1 +…+ βk xik+ε i (длинную)

yi= β0 + β1 xi1 +…+ βk xik-q+εi (короткую)

Предположим, что модель не зависит от последних q объясняющих переменных и их можно исключить из модели. Это соответствует гипотезе

H0: βk-q+1 = βk-q+2…= βk =0,

т.е. последние q коэффициентов равны нулю.

Алгоритм проверки следующий:

o Построить по МНК длинную регрессию по всем факторам и найти для неё сумму квадратов остатков – .

o Построить по МНК короткую регрессию по первым факторам и найти для неё сумму квадратов остатков – .

o Вычислить F-статистику

o Если Fнабл>Fтабл (α, v1=q, v2=n-k-1), гипотеза отвергается (выбираем длинную регрессию), в противном случае – выбираем короткую регрессию.

На основании данных нашего примера сравним две модели: «длинную» (с факторами , , ) и «короткую» (только с фактором ).

1) Построим длинную регрессию по трем факторам , , и найдем для неё сумму квадратов остатков – (рисунок 5).

Дисперсионный анализ     df SS MS Регрессия 1.04794E+13 3.49313E+12 Остаток 2.25564E+12 Итого 1.2735E+13           Коэффициенты Стандартная ошибка t-статистика Y-пересечение -4456.711199 15510.19708 -0.28734072 ОС -0.037629315 0.016090498 -2.338604743 ПП 0.647303561 0.062954486 10.28208794 КО 0.071691944 0.023297943 3.07717916

Рисунок 5. Фрагмент регрессионного анализа для длинной (трехфакторной) регрессии

2) Построим короткую регрессию по одному фактору и найдем для неё сумму квадратов остатков – (рисунок 6).

 

Дисперсионный анализ     df SS MS Регрессия 1.02234E+13 1.02234E+13 Остаток 2.51168E+12 Итого 1.2735E+13           Коэффициенты Стандартная ошибка t-статистика Y-пересечение 1286.42961 15643.62168 0.08223349 ПП 0.658080318 0.031533476 20.86925995

 

Рисунок 6. Фрагмент регрессионного анализа для короткой (однофакторной) регрессии

3) Вычислим F-статистику

 

,

4) Так как , отдаем предпочтение длинной регрессии

 

.

 


Источник: http://life-prog.ru/1_52513_vibor-faktorov-dlya-regressionnogo-analiza.html



Рекомендуем посмотреть ещё:


Закрыть ... [X]

Пошаговый метод включения исключения факторной переменной в модель Правовой риск это риск связанный с

Пошаговый отбор методом исключения Пошаговый отбор методом исключения Пошаговый отбор методом исключения Пошаговый отбор методом исключения Пошаговый отбор методом исключения Пошаговый отбор методом исключения Пошаговый отбор методом исключения Пошаговый отбор методом исключения