Многомерная регрессия: мультиколлинеарность, фиктивные переменные и частная корреляция


Тип работы:  Реферат
Бесплатно:  Антиплагиат
Объем: 7 страниц
В избранное:   

Министерство Образований и Науки Республики Казахстан

Евразийский Институт Рынка

Реферат

На тему: «Различные аспекты многомерной регрессии»

Выполнил (а) : студентка 2 курса

Нуришева Г. Т.

Проверил (а) : Рысбаева А. К.

Алматы-2006

Введение

В данном реферате рассматриваются некоторые проблемы многомерных регрессионных моделей, часто возникающие при их практическом использовании.

На практике исследователю нередко приходится сталкиваться с ситуацией, когда полученная им регрессия является «плохой», т. е. t-статистики большинства оценок малы, что свидетельствует о незначимости соответствующих независимых переменных (регрессоров. В то же время F-статистика может быть достаточно большой, что говорит о значимости регрессии в целом. Одна из возможных причин такого явления носит названия мультиколлинеарности и возникает при наличии высокой корреляции между регрессорами. Проблеме мультиколлинеарности посвящено начало этого реферата.

Регрессионные модели являются достаточно гибким инструментом, позволяющим, в частности, оценивать влияние качественных признаков на изучаемую переменную. Это достигается введением в число регрессоров так называемых фиктивных переменных , принимающих, как правило, значения 1 и 0 в зависимости от наличия или отсутствия соответствующего признака в очередном наблюдении. С формальной точки зрения фиктивные переменные ничем не отличаются от других регрессоров. Наиболее сложный и интересный вопрос, возникающий при их использовании, -это правильная интерпретация получаемых оценок.

В этом реферате мы также рассмотрим задачу нахождения частной корреляции модели.

1. Мультиколлинеарность

Одним из условий классической регрессионной модели является предположение о линейной независимости объясняющих переменных, что означает линейную независимость столбцов матрицы регрессоров Х или (эквивалентно), что матрица (Х’Х) -1 имеет полный ранг к . При нарушении этого условия, т. е. когда один из столбцов матрицы Х есть линейная комбинация остальных столбцов, говорят, что имеет место полная коллинеарность. В этой ситуации нельзя построить МНК-оценку параметра β, что формально следует из сингулярности матрицы Х’Х и невозможности решить нормальное уравнение. Нетрудно также понять и содержательный смысл этого явления. Рассмотрим следующий простой пример регрессии (Green 1993) : С=β 1 2 S+β 3 N+β 4 T+ε, где С - потребление, S - зарплата, N - доход, получаемый вне работы, T - полный доход. Поскольку выполнено равенство T=S+N, то для произвольного числа h исходную регрессию можно переписать в следующем виде: С=β 1 2 ‘S+β 3 ‘N+β 4 ‘T+ε, где β 2 ’=β 2 +h, β 3 ‘=β 3 +h, β 4 ’=β 4 -h. Таким образом, одни и те же наблюдения могут быть объяснены различными наборами коэффициентов β. Эта ситуация тесно связана с проблемой идентифицируемости системы, о чем более подробно будет говориться позднее. Кроме того, если с учетом равенства T=S+N переписать исходную систему в виде.

С 1 +(β 2 4 ) S+(β 3 4 ) N+ε, то становится ясно, что оценить можно лишь три параметра β 1 , (β 2 4 ) и ( β 3 4 ), а не четыре исходных. В общем случае можно показать, что если rank (Х’Х) =l<k, то оценить можно только l линейных комбинаций исходных коэффициентов. Если есть полная коллинеарность, то можно выделить в матрице Х максимальную линейно независимую систему столбцов и, удалив остальные столбцы, провести новую регрессию.

На практике полная коллинеарность встречается исключительно редко. Гораздо чаще приходится сталкиваться с ситуацией, когда матрица Х имеет полный ранг, но между регрессорами имеется высокая степень корреляции, т. е. когда матрица Х’Х, говоря нестрого, близка к вырожденной. Тогда говорят о наличии мультиколлинеарности. В этом случае МНК-оценка формально существует, но обладает «плохими» свойствами. Это нетрудно объяснить, используя геометрическую интерпретацию метода наименьших квадратов. Как уже отмечалось R n вектора Y на векторы, образованные столбцами матрицы Х. Если между этими векторами существует приблизительная линейная зависимость, то операция проектирования становится неустойчивой: небольшому изменению в исходных данных может привести к существенному изменению оценок. Рисунок 1. 1 наглядно это демонстрирует. Векторы Y и Y’ мало отличаются друг от друга, но в силу того, что угол между регрессорами Х 1 и Х 2 отличаются значительно. У проекции вектора Y оба коэффициента разложения по Х 1 и Х 2 положительны и относительно невелики. У проекции вектора Y’ коэффициент при Х 1 принимает большое отрицательное значение. В сил этого обстоятельства интерпретация коэффициентов регрессии становится весьма проблематичной.

Y’ Y

Х 2

Х 1

Рис 1. 1

Мультиколлинеарность может возникать в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания. В частности, так может случиться, когда значения одной независимой переменной являются лагированными значениями другой.

Выделим некоторые наиболее характерные признаки мультиколлинеарности.

  1. Небольшое изменение исходных данных приводит к существенному изменению оценок коэффициентов модели.
  2. Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой.
  3. Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.

2. Фиктивные переменные

Как правило, независимые переменные в регрессионных моделях имеют «непрерывные» области изменения. Однако теория не накладывает никаких ограничений на характер регрессоров, в частности, некоторые переменные могут принимать всего два значения или, в более общей ситуации, дискретное множество значений. Необходимость рассматривать такие переменные возникает довольно часто в тех случаях, когда требуется принимать во внимание какой-либо качественный признак. Например, при исследовании зависимости зарплаты от различных факторов может возникнуть вопрос, влияет ли на ее размер и, если да, то в какой степени, наличие у работника высшего образования. Также можно задать вопрос, существует ли дискриминация в оплате труда между мужчинами и женщинами. В принципе можно оценивать соответствующие уравнения внутри каждой категории, а затем изучать различия между ними, но введение дискретных переменных позволяет оценивать одно уравнение сразу по всем категориям.

Покажем, как это можно сделать в примере с зарплатой. Пусть X=(X 1 , …, X k ) ’ - набор объясняющих (независимых) переменных, т. е. первоначальная модель описывается уравнениями

Y t =X t1 β 1 +…+X tk β k t =X t ’β+ε t , t=1, …, n. (2. 1)

Где Y t - размер зарплаты t-го работника. Теперь мы хотим включить в рассмотрение такой фактор, как наличие или отсутствие высшего образования. Введем новую, бинарную, переменную d, полагая d t =1, если в t-м наблюдении индивидуум имеет высшее образование, и d t =0 в противном случае, и рассмотрим новую систему

Y t =X t1 β 1 +…+X tk β k +d t δ+ε t =Z t ’γ+ε t , t=1, …, n, (2. 2)

Где Z= (X 1, …, X k , d) ’=(X’, d) ’, γ=(β 1 , …, β k , δ) ’. Иными словами, принимая модель (2. 2), мы считаем, что средняя зарплата есть Х'β при отсутствии высшего образования и Х'β +δ - при его наличии. Таким образом, величина δ интерпретуется как среднее изменение зарплаты при переходе из одной категории в другую при неизменных значениях остальных параметров. К системе (2. 2) можно применить метод наименьших квадратов и получить оценки соответствующих коэффициентов. Легко понять, что, тестируя гипотезу δ=0, мы проверяем предположение о несущественном различии в зарплате между категориями.

... продолжение

Вы можете абсолютно на бесплатной основе полностью просмотреть эту работу через наше приложение.
Похожие работы
Многомерная линейная регрессия: метод наименьших квадратов, обобщённая модель и матричное представление
Нелинейная регрессия и корреляция: виды (параболическая, гиперболическая, экспоненциальная, степенная) и методы оценки
Мультиколлинеарность и автокорреляция в моделях линейной регрессии: причины, диагностика и методы коррекции
Множественная линейная регрессия цены акции по доходности капитала и уровню дивидендов
Линейная регрессия и метод наименьших квадратов: оценка параметров, статистическая значимость и адекватность модели
Методы оптимизации: многомерная оптимизация и метод симплекса
Постреляционная, многомерная и объектно-ориентированная модели баз данных
Линейная регрессия и дисперсионный анализ: методы, критерии и примеры применения в экономике и педагогике
Линейная регрессия экономических переменных: оценка МНК, свойства оценок и тестирование гипотез
Регрессионный анализ: общая модель, двулинейная регрессия, метод наименьших квадратов и проверка качества (теорема Гаусса-Маркова, коэффициент детерминации)
Дисциплины



Реферат Курсовая работа Дипломная работа Материал Диссертация Практика - - - 1‑10 стр. 11‑20 стр. 21‑30 стр. 31‑60 стр. 61+ стр. Основное Кол‑во стр. Доп. Поиск Ничего не найдено :( Недавно просмотренные работы Просмотренные работы не найдены Заказ Антиплагиат Просмотренные работы ru ru/