Многомерная регрессия: мультиколлинеарность, фиктивные переменные и частная корреляция

Министерство Образований и Науки Республики Казахстан
Евразийский Институт Рынка
Реферат
На тему: «Различные аспекты многомерной регрессии»
Выполнил (а) : студентка 2 курса
Нуришева Г. Т.
Проверил (а) : Рысбаева А. К.
Алматы-2006
Введение
В данном реферате рассматриваются некоторые проблемы многомерных регрессионных моделей, часто возникающие при их практическом использовании.
На практике исследователю нередко приходится сталкиваться с ситуацией, когда полученная им регрессия является «плохой», т. е. t-статистики большинства оценок малы, что свидетельствует о незначимости соответствующих независимых переменных (регрессоров. В то же время F-статистика может быть достаточно большой, что говорит о значимости регрессии в целом. Одна из возможных причин такого явления носит названия мультиколлинеарности и возникает при наличии высокой корреляции между регрессорами. Проблеме мультиколлинеарности посвящено начало этого реферата.
Регрессионные модели являются достаточно гибким инструментом, позволяющим, в частности, оценивать влияние качественных признаков на изучаемую переменную. Это достигается введением в число регрессоров так называемых фиктивных переменных , принимающих, как правило, значения 1 и 0 в зависимости от наличия или отсутствия соответствующего признака в очередном наблюдении. С формальной точки зрения фиктивные переменные ничем не отличаются от других регрессоров. Наиболее сложный и интересный вопрос, возникающий при их использовании, -это правильная интерпретация получаемых оценок.
В этом реферате мы также рассмотрим задачу нахождения частной корреляции модели.
1. Мультиколлинеарность
Одним из условий классической регрессионной модели является предположение о линейной независимости объясняющих переменных, что означает линейную независимость столбцов матрицы регрессоров Х или (эквивалентно), что матрица (Х’Х) -1 имеет полный ранг к . При нарушении этого условия, т. е. когда один из столбцов матрицы Х есть линейная комбинация остальных столбцов, говорят, что имеет место полная коллинеарность. В этой ситуации нельзя построить МНК-оценку параметра β, что формально следует из сингулярности матрицы Х’Х и невозможности решить нормальное уравнение. Нетрудно также понять и содержательный смысл этого явления. Рассмотрим следующий простой пример регрессии (Green 1993) : С=β 1 +β 2 S+β 3 N+β 4 T+ε, где С - потребление, S - зарплата, N - доход, получаемый вне работы, T - полный доход. Поскольку выполнено равенство T=S+N, то для произвольного числа h исходную регрессию можно переписать в следующем виде: С=β 1 +β 2 ‘S+β 3 ‘N+β 4 ‘T+ε, где β 2 ’=β 2 +h, β 3 ‘=β 3 +h, β 4 ’=β 4 -h. Таким образом, одни и те же наблюдения могут быть объяснены различными наборами коэффициентов β. Эта ситуация тесно связана с проблемой идентифицируемости системы, о чем более подробно будет говориться позднее. Кроме того, если с учетом равенства T=S+N переписать исходную систему в виде.
С =β 1 +(β 2 +β 4 ) S+(β 3 +β 4 ) N+ε, то становится ясно, что оценить можно лишь три параметра β 1 , (β 2 +β 4 ) и ( β 3 +β 4 ), а не четыре исходных. В общем случае можно показать, что если rank (Х’Х) =l<k, то оценить можно только l линейных комбинаций исходных коэффициентов. Если есть полная коллинеарность, то можно выделить в матрице Х максимальную линейно независимую систему столбцов и, удалив остальные столбцы, провести новую регрессию.
На практике полная коллинеарность встречается исключительно редко. Гораздо чаще приходится сталкиваться с ситуацией, когда матрица Х имеет полный ранг, но между регрессорами имеется высокая степень корреляции, т. е. когда матрица Х’Х, говоря нестрого, близка к вырожденной. Тогда говорят о наличии мультиколлинеарности. В этом случае МНК-оценка формально существует, но обладает «плохими» свойствами. Это нетрудно объяснить, используя геометрическую интерпретацию метода наименьших квадратов. Как уже отмечалось R n вектора Y на векторы, образованные столбцами матрицы Х. Если между этими векторами существует приблизительная линейная зависимость, то операция проектирования становится неустойчивой: небольшому изменению в исходных данных может привести к существенному изменению оценок. Рисунок 1. 1 наглядно это демонстрирует. Векторы Y и Y’ мало отличаются друг от друга, но в силу того, что угол между регрессорами Х 1 и Х 2 отличаются значительно. У проекции вектора Y оба коэффициента разложения по Х 1 и Х 2 положительны и относительно невелики. У проекции вектора Y’ коэффициент при Х 1 принимает большое отрицательное значение. В сил этого обстоятельства интерпретация коэффициентов регрессии становится весьма проблематичной.
Y’ Y
Х 2
Х 1
Рис 1. 1
Мультиколлинеарность может возникать в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания. В частности, так может случиться, когда значения одной независимой переменной являются лагированными значениями другой.
Выделим некоторые наиболее характерные признаки мультиколлинеарности.
- Небольшое изменение исходных данных приводит к существенному изменению оценок коэффициентов модели.
- Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой.
- Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.
2. Фиктивные переменные
Как правило, независимые переменные в регрессионных моделях имеют «непрерывные» области изменения. Однако теория не накладывает никаких ограничений на характер регрессоров, в частности, некоторые переменные могут принимать всего два значения или, в более общей ситуации, дискретное множество значений. Необходимость рассматривать такие переменные возникает довольно часто в тех случаях, когда требуется принимать во внимание какой-либо качественный признак. Например, при исследовании зависимости зарплаты от различных факторов может возникнуть вопрос, влияет ли на ее размер и, если да, то в какой степени, наличие у работника высшего образования. Также можно задать вопрос, существует ли дискриминация в оплате труда между мужчинами и женщинами. В принципе можно оценивать соответствующие уравнения внутри каждой категории, а затем изучать различия между ними, но введение дискретных переменных позволяет оценивать одно уравнение сразу по всем категориям.
Покажем, как это можно сделать в примере с зарплатой. Пусть X=(X 1 , …, X k ) ’ - набор объясняющих (независимых) переменных, т. е. первоначальная модель описывается уравнениями
Y t =X t1 β 1 +…+X tk β k +ε t =X t ’β+ε t , t=1, …, n. (2. 1)
Где Y t - размер зарплаты t-го работника. Теперь мы хотим включить в рассмотрение такой фактор, как наличие или отсутствие высшего образования. Введем новую, бинарную, переменную d, полагая d t =1, если в t-м наблюдении индивидуум имеет высшее образование, и d t =0 в противном случае, и рассмотрим новую систему
Y t =X t1 β 1 +…+X tk β k +d t δ+ε t =Z t ’γ+ε t , t=1, …, n, (2. 2)
Где Z= (X 1, …, X k , d) ’=(X’, d) ’, γ=(β 1 , …, β k , δ) ’. Иными словами, принимая модель (2. 2), мы считаем, что средняя зарплата есть Х'β при отсутствии высшего образования и Х'β +δ - при его наличии. Таким образом, величина δ интерпретуется как среднее изменение зарплаты при переходе из одной категории в другую при неизменных значениях остальных параметров. К системе (2. 2) можно применить метод наименьших квадратов и получить оценки соответствующих коэффициентов. Легко понять, что, тестируя гипотезу δ=0, мы проверяем предположение о несущественном различии в зарплате между категориями.
... продолжение- Информатика
- Банковское дело
- Оценка бизнеса
- Бухгалтерское дело
- Валеология
- География
- Геология, Геофизика, Геодезия
- Религия
- Общая история
- Журналистика
- Таможенное дело
- История Казахстана
- Финансы
- Законодательство и Право, Криминалистика
- Маркетинг
- Культурология
- Медицина
- Менеджмент
- Нефть, Газ
- Искуство, музыка
- Педагогика
- Психология
- Страхование
- Налоги
- Политология
- Сертификация, стандартизация
- Социология, Демография
- Статистика
- Туризм
- Физика
- Философия
- Химия
- Делопроизводсто
- Экология, Охрана природы, Природопользование
- Экономика
- Литература
- Биология
- Мясо, молочно, вино-водочные продукты
- Земельный кадастр, Недвижимость
- Математика, Геометрия
- Государственное управление
- Архивное дело
- Полиграфия
- Горное дело
- Языковедение, Филология
- Исторические личности
- Автоматизация, Техника
- Экономическая география
- Международные отношения
- ОБЖ (Основы безопасности жизнедеятельности), Защита труда
