Алгоритм обобщенной множественной линейной регрессии и его реализация

Регрессионный анализ

используется с целью нахождения статистически значимой связи между наборами переменных. Он используется для поиска тенденций в этих наборах данных. Множественный регрессионный анализ аналогичен парной линейной регрессии. Единственным отличием между парной линейной регрессией и множественной регрессией является количество предикторов (переменных), используемых в регрессии [2].

Парный регрессионный анализ использует одну переменную X для каждой зависимой переменной Y. Например: ( ).

Множественная регрессия использует несколько переменных для каждой независимой переменной [3].

Пусть i-е наблюдение объясняющих переменных а — зависимой переменной. Вследствие этого модель множественной линейной регрессии представляется в виде:

(1.1)

где – случайная составляющая модели [18].

Переменные и являются реализациями случайных величин и . Единственным источником неопределенности (случайности) в уравнении (1.1) становится случайная составляющая модели . Переменная (для всех ) называется вспомогательной переменной для свободного члена. Эту переменную вводят для удобства записи множественной линейной регрессии. Коэффициент регрессии является свободным членом и называется параметром сдвига.

Данная модель множественной линейной регрессии будет являться обобщением модели парной линейной регрессии на многомерный случай [21].

В том случае, когда в модель регрессии вводятся новые переменные – модель усложняется, а вместе с ней и получаемые формулы. Таким образом, рациональнее использовать матричные обозначения. Теоретические концепции анализа и необходимые процедуры расчета можно облегчить матричным описанием регрессии [10].

Пусть — матрица-столбец, или вектор, значений зависимой переменной размера ;

  • матрица значений пояснительных переменных или матрица плана размера
  • матрица-столбец или вектор, параметры измерения
  • матрица-столбец или вектор, возмущения размера n.

Тогда в матричной форме модель (1.1) принимает вид:

(1.2)

Оценка этой модели – уравнение

(1.2′)

где

Об изменениях величины зависимой переменной , при увеличении объясняющей переменной можно судить по коэффициенту регрессии [20].

Для того чтобы оценить параметры модели, изучить свойства и определить качество построенной модели необходимо определить предпосылки регрессионной модели:

1. Независимые переменные не случайны и измеряются без ошибок (матрица Х – детерминированная).

15 стр., 7045 слов

Анализ регрессии в изучении экономических проблем

... именно функция f связывает исследуемую переменную Y с вектором независимых переменных X. Рассмотрим самую употребляемую и наиболее простую из моделей множественной регрессии – модель множественной линейной регрессии. Теоретическое линейное уравнение регрессии имеет вид: Y = β0 ...

2. Математическое ожидание возмущения или зависимой переменной равно нулю:

3. Дисперсия возмущения или зависимой переменной одинакова для любого :

Данное свойство означает, что возмущения или зависимая переменная гомоскедастичны.

4. Возмущения и (или переменные и ) некоррелированы (независимы) для различных наблюдений:

5. Случайная составляющая и объясняющие переменные некоррелированы. Для классической регрессионной модели данная предпосылка будет выполняться всегда, т.к. первая предпосылка говорит о детерминированности объясняющих переменных.

6. Коэффициенты регрессии являются постоянными величинами.

7. Регрессоры (объясняющие переменные) не коллинеарны. Данная предпосылка говорит о существования и единственности решения задачи оценивания параметров модели по МНК.

8. Возмущение (или зависимая переменная ) является нормально распределенной случайной величиной.

9. Количество наблюдений больше количества оцениваемых параметров.

Итак, в том случае, когда зависимая переменная , возмущения и объясняющие переменные . удовлетворяют вышеприведенным предпосылкам регрессионного анализа линейная модель множественной регрессии (ЛММР) будет называться классической нормальной моделью [11].

1.2 Базовый анализ классической модели множественной регрессии

Метод наименьших квадратов применяется для оценки вектора неизвестных параметров β [17].

Запишем условие минимизации для остаточной суммы квадратов в виде:

(1.3)

Рисунок 1 – Минимизация остаточной суммы

После раскрытия скобок получаем:

Учитывая, что , т.к. величины в правой и левой части – скаляры, условие минимизации (1.3) примет вид:

(1.4)

Функция представляет собой квадратичную форму относительно вектора оценок b. Найдем его экстремум, приравнивая к нулю частные производные функции относительно этих переменных. Запишем вектор частных производных в матричной форме:

Для определения вектора b получим систему нормальных уравнений в матричной форме:

(1.5)

Представим данную систему в развернутом виде:

(1.6)

=

Матрица — вектор произведений n наблюдений объяснительных и зависимых переменных:

(1.7)

Умножая матрицы и векторы в выражениях (1.6) и (1.7) в частном случае для одной объясняющей переменной (p = 1), получим систему нормальных уравнений:

(1.8)

Матричное уравнение (1.5) принимает вид:

из которого следует система нормальных уравнений (1.8).

Из предпосылки 5 множественного регрессионного анализа следует, что определитель матрицы равен нулю. Из этого следует, что ранг матрицы равен его порядку, т. е. . Известно, что

следовательно, , т. е. ранг матрицы плана равен числу его столбцов. Принимая во внимание приведенные выше объяснения, запишем предпосылку 5 регрессионного анализа следующим образом:

5. Для векторов значений объясняющих переменных должно выполняться свойство нелинейности, т. е. ранг матрицы является максимальным ( ).

Для того чтобы получить достоверные статистические выводы количество доступных наблюдений (значений) каждой из объясняющих и зависимых переменных должно превышать ранг матрицы , т. е. или .

N-мерным аналогом среднего отклонения от математического ожидания одной переменной является ковариационная матрица вектора возмущений

5 стр., 2403 слов

Множественная регрессия и корреляция

... уравнений: Связь коэффициентов множественной регрессии со стандартизированными коэффициентами описывается соотношением Параметр определяется как ., Средние коэффициенты эластичности для линейной регрессии рассчитываются по ... на второй — на основе матрицы показателей корреляции определяют t-статистики для параметров регрессии. Уравнения множественной регрессии могут включать в качестве независимых ...

Как описано выше в п. 1.1, при выполнении предпосылок 1-9 модель называется классической нормальной моделью (КНЛММР).

Если же предпосылка 8 о нормальном законе распределения вектора возмущений не выполняется, то модель носит название просто классической модели (КЛММР).

Решением уравнения (1.5) является вектор

(1.9)

Теорема Гаусса-Маркова.

Если регрессионная модель удовлетворяет предпосылкам 1-4, то оценки модели имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.

Оценка метода наименьших квадратов окажется наиболее эффективной в случае выполнения предпосылок множественного регрессионного анализа.

Для того чтобы правильно оценить влияние объясняющих переменных на зависимую, необходимо чтобы они были приведены к единым единицам измерения [7].

Для этого используются стандартизованные коэффициенты регрессии и коэффициенты эластичности

; (1.11)

  • (1.12)

Точность уравнения множественной регрессии определяется по изменениям оценок параметров. В множественном регрессионном анализе используется аналог дисперсии одной переменной — ковариационная матрицу вектора оценки

где элементы — ковариация оценок параметров и .

Таким образом:

(1.14)

Ковариация – величина, показывающая совместное изменение двух величин. Это похоже на дисперсию, но в то время как дисперсия показывает изменение одной величины, ковариация показывает как изменяются переменные вместе [19].

Оценки , которые были получены применением метода наименьших квадратов, будут несмещенными оценками параметров , т. е. , выражение (1.13) принимает вид:

(1.15)

Учитывая, (1.12), преобразуем это выражение:

=

(1.16) элементы матрицы X не являются случайными величинами.

Матрица — ковариационная матрица вектора возмущения:

где элементы, лежащие на главной диагонали равны дисперсии :

, а все остальные элементы равны нулю, т.к. возмущения некоррелированы между собой.

Следовательно, матрица

, где — единичная матрица n-го порядка. Поэтому, в силу (1.16) ковариационная матрица оценок параметров:

  • (1.17)

Дисперсию и ковариацию, а также вектор b оценок параметров можно определить с помощью обратной матрицы . 2 ОБОБЩЕННАЯ ЛИНЕЙНАЯ МОДЕЛЬ МНОЖЕСТВЕННОЙ

РЕГРЕССИИ

2.1 Обобщенная линейная модель множественной регрессии при

известной ковариационной матрице регрессионных остатков

В эмпирических социально-экономических исследованиях зачастую условия классической линейной модели нарушаются. Например, двоичные ответы (да/нет или 0/1) не имеют одинаковой дисперсии между классами. Кроме того, сумма членов в линейной модели обычно может иметь очень большие диапазоны, охватывающие отрицательные и положительные значения [8].

Для примера бинарного ответа мы хотели бы, чтобы ответ был вероятностью в диапазоне [0,1]. Обобщенные линейные модели учитывают реакции, нарушающие допущения линейной модели, с помощью двух механизмов: функции связи и функции дисперсии. Функция связи преобразует целевой диапазон в потенциально бесконечность до бесконечности, чтобы можно было поддерживать простую форму линейных моделей. Функция дисперсии выражает дисперсию как функцию предсказанного ответа, тем самым приспосабливая ответы с непостоянными дисперсиями (такими как двоичные ответы).

7 стр., 3411 слов

Метод наименьших квадратов

... модель множественной регрессии (2.1) Классический подход к оцениванию параметров линейной модели множественной регрессии основан на методе наименьших квадратов (МНК). МНК позволяет получить такие оценки ... лежит в простанстве столбцов матрицы , так как есть линейная комбинация столбцов этой матрицы с коэффициентами . Отыскание решения по методу наименьших квадратов эквивалентно задаче отыскания ...

В таких случаях классическая модель будет служить базой при построении так называемых обобщенных моделей [12].

Для оценивания параметров в этих моделях применяются методы, которые являются модификациями обычного метода наименьших квадратов. Метод наименьших квадратов (МНК, OLS, Ordinary Least Squares) — базовый метод регрессионного анализа, который помогает оценить неизвестные параметры модели, составленной по выборочным данным [5].

Перечислим возможные модификации МНК, построенные таким образом, чтобы соответствующие оценки оставались состоятельными и несмещенными.

1. Метод инструментальных переменных. Используется для построения несмещенных и состоятельных оценок для модели при нарушении предпосылки о том что, независимые переменные не случайны и измеряются без ошибок (матрица Х – детерминированная).

Нарушение данной предпосылки может привести к смещенности оценок метода наименьших квадратов. Это произойдет, если хотя бы один регрессор (независимая переменная) и случайная составляющая модели коррелированы (зависимы) между собой. Идея метода состоит в подборе новых независимых переменных (стохастических, случайных) таким образом, чтобы эти переменные были сильно коррелированы с регрессорами модели, но были не коррелированы с ее возмущениями. 2. Метод введения «фиктивных» переменных. Данный метод позволяет учесть все структурные изменения в случае, когда коэффициенты регрессии являются непостоянными величинами [23].

Значения коэффициентов одинаковы для всех элементов наблюдаемой пространственной или временной выборки. Однако, в одной и той же выборке могут содержаться данные о неоднородных объектах. В этом случае модель классической регрессии будет неадекватной, т.к. не будет соответствовать наблюдаемым данным. 3. При нарушении предпосылки о неколлинеарности регрессоров (объясняющих переменных), которая говорит о существовании и единственности решения задачи оценивания параметров модели по МНК, появляется проблема мультиколлинеарности регрессоров. Это приводит к таким проблемам как – увеличение дисперсий оценок коэффициентов, неидентифицируемость модели и неустойчивость оценок, увеличение доверительных интервалов. Существует подход по устранению коллинеарности – изменение спецификации модели, посредством удаления из нее регрессора, который сильно коррелирует с другими. Но при отбрасывании существенной переменной может произойти нарушение предпосылки о правильной спецификации. Поэтому при удалении независимой переменной следует учитывать экономический смысл переменных и степень их влияния на зависимую переменную.

4. При невыполнении предпосылок 3 и 4 модель регрессии принято называть обобщенной линейной моделью множественной регрессии (ОЛММР).

Рассмотрим подробно данную модель.

Допустим, что переменные и параметры удовлетворяют следующим условиям: 1. — случайный вектор возмущений; — детерминированная матрица; 2. 3. — положительно определенная матрица; 4. p – число объясняющих переменных; n – число наблюдений.

5 стр., 2165 слов

Возможности и особенности использования модели дисконтированных ...

... осуществляется корректировка и проверка полученных результатов [2, c.274]. Оценка предприятия методом дисконтирования денежных потоков (DCF) состоит из следующих этапов: Выбор модели денежного потока; Определение длительности прогнозного периода; Ретроспективный анализ и прогноз валовой ...

Тогда ОЛММР можно записать в виде:

(2.1)

Обобщенные линейные модели (GLMRM) представляют собой широкий класс моделей, которые включают линейную регрессию, дисперсионный анализ, регрессию Пуассона, лог-нормальная модели и т. д. В таблице ниже представлены модели и их краткая характеристика:

Таблица 1 – обобщенные линейные модели

Систематическая Модель Распределение Функция связи

составляющая Линейная

Нормальное Линейная Непрерывная регрессия Дисперсионный

Нормальное Линейная Категориальная анализ Ковариационный

Нормальное Линейная Смешанная анализ Логистическая

Биномиальное Логарифмическая Смешанная регрессия Логарифмическая

Пуассоновское Логарифмическая Категориальная регрессия Регрессия

Пуассоновское Логарифмическая Смешанная Пуассона Множественная Обобщенная

Полиномиальное Смешанная регрессия логарифмическая

Распределение – распределение зависимой переменной, например нормальное распределение для Y в линейной регрессии или биномиальное распределение в парной логистической регрессии. Также называют случайной составляющей модели. Функция связи – описывает связь между случайными и систематическими компонентами. Показывает вид связи зависимой и объясняющих переменных, например, η = g(E(Yi)) = E(Yi) – линейная, η = logit (π)- логистическая. Систематическая составляющая – определяет объясняющие переменные

в модели, а точнее их линейную комбинацию при создании так называемого линейного предиктора. Модели GLM генерируют следующую статистику коэффициентов:

  • оценка линейных коэффициентов;
  • стандартная погрешность оценки коэффициента;
  • t — значение оценки коэффициента;
  • вероятность t-значения;
  • коэффициент вариации;
  • стандартизированная оценка коэффициента;
  • нижняя и верхняя доверительные границы коэффициента.

Однако оценки коэффициентов для обычных наименьших квадратов зависят от независимости переменных. Когда переменные коррелируют и столбцы матрицы имеют приближенную линейную зависимость, матрица становится близкой к сингулярной и в результате оценка наименьших квадратов становится очень чувствительной к случайным ошибкам в наблюдаемом ответе, производя большую дисперсию. Такая ситуация мультиколлинеарности может возникнуть, например, при сборе данных без экспериментальной разработки. Таким образом, видно, что ковариационные матрицы обобщенной и классической моделей будут различны: для классической – , для обобщенной – . Если применить к данной модели обычный метод наименьших квадратов (МНК) это приведет к следующим последствиям: –Оценки коэффициентов модели не будут эффективными. –МНК-оценка дисперсии случайной составляющей в обобщенной модели является смещенной; – МНК-оценка ковариационной матрицы вектора оценок коэффициентов является смещенной оценкой истинной ковариационной матицы обобщенной модели; Для обобщенной модели получим

2.2

А учитывая (1.17) для классической модели было:

2.3

Математическое ожидание остаточной суммы квадратов равно . Для обобщенной модели:

2.4 т. е. в соответствии с несмещенной оценкой , которая определяется как

20 стр., 9545 слов

Стохастические модели общего равновесия оценивание динамических ...

... эссе. Динамические стохастические модели общего равновесия Последнее десятилетие принесло большие изменения в эмпирической практике макроэкономических исследований. Произошел качественный сдвиг от использования векторных авторегрессионных моделей (VAR) к массовому использованию динамических стохастических моделей ...

2.5

математическое ожидание можно выразить в виде:

, 2.6

где tr – след соответствующей матрицы.

В формуле (2.3) заменим оценку ковариационной матрицы на и получим:

2.7

Рассчитанное данным образом математическое ожидание в общем случае не будет совпадать с ковариационной матрицей, описанной выше, что говорит о смещенности полученной оценки. Оценка b, будет состоятельной, но не будет оптимальной. Чтобы получить наиболее эффективную оценку необходимо воспользоваться обобщенным методом наименьших квадратов. Теорема Айткена. Оценка вектора

2.8

обобщенной регрессионной модели в классе линейных несмещенных оценок имеет наименьшую ковариационную матрицу.

Наиболее эффективной оценкой, по теореме Гаусса-Маркова, является оценка (1.9), т. е.

  • 2.14

Возвращаясь к исходным наблюдениям X и Y и учитывая (7.9), получим

, т. е. выражение (2.7), что и требовалось доказать.

Итак, получается, что оценка, которая получена обобщенным методом наименьших квадратов , равна оценке «обычного» метода b.

Метод максимального правдоподобия позволяет получить состоятельную оценку , в случае, когда известна матрица Ω, и выполняется предпосылка о нормальном законе распределения ε.

Оценка — точка минимума по b остаточной суммы квадратов, в соответствии с (1.3):

Посмотрим на исходные наблюдения,

2.15

т. е. видно, что оценку обобщенного метода наименьших квадратов можно определить как точку минимума обобщенного критерия (2.14).

Для того чтобы коэффициент детерминации являлся состоятельной оценкой качества регрессионной модели вычислим его по формуле:

т.е.

2.16

Качество обобщенной модели показывает коэффициент детерминации . Но данная характеристика является лишь приближенной из-за того что наличие свободного члена в исходной модели не всегда гарантирует его присутствие в полученной модели (2.11).

Обычно, значение данного коэффициента выходит даже за пределы интервала [0;1]. Однако, добавление или удаление объясняющих переменных не всегда приводит к увеличению или уменьшению .

Для того чтобы применить обобщенный метод наименьших квадратов необходимо знать ковариационную матрицу вектора возмущений Ω. Данный случай на практике встречается крайне редко.

Если же считать все элементов симметричной ковариационной матрицы Ω неизвестными параметрами обобщенной модели, то общее число параметров превышает число наблюдений n, тем самым делает оценку этих параметров неразрешимой задачей. Следовательно, для практической реализации обобщенного МНК необходимо введение дополнительных условий на структуру матрицы Ω.

2.2 Обобщенная линейная модель множественной регрессии при

неизвестной ковариационной матрице регрессионных остатков

В большинстве случаев на практике матрица Ω является неизвестной и, как было отмечено в п. 2.1, оценить ее параметров по наблюдениям является невозможным. Пусть задана структура Ω, т. е. форма ее функциональной зависимости от относительно небольшого числа параметров т. е. матрица . Например, в модели с автокоррелированными остатками структура матрицы

двумя параметрами и , матрица выглядит следующим образом:

  • неизвестный параметр, который необходимо оценить.

Для оценки матрицы необходимо по исходным наблюдениям найти состоятельные оценки параметров )’. Затем получить оценку параметра . Учитывая (2.5) такую оценку для классической модели можно найти разделив минимальную остаточную сумму квадратов на число степеней свободы . Применимо к обобщенной модели это будет выглядеть следующим образом:

7 стр., 3140 слов

Модели и методы оценки активов

... данной курсовой работы связана с рациональным применением моделей оценки финансовых активов (САРМ и АРТ) на российском финансовом рынке, ... - среднее квадратичное отклонение курса акции (корень из суммы квадратов отклонений), r - безрисковая процентная ставка, е - основа ... в среднем r-rf = p(rm - rf ). Рассмотрим четыре основных принципа выбора портфелей . эффективными портфелями. Если вы хотите знать ...

2.17

При помощи известной , вычислим матрицу .

Доказано, что если использовать полученные оценки вместо неизвестных истинных значений и , то также получим состоятельные оценки параметра β ковариационной матрицы Такой метод носит название доступного (или практически реализуемого) обобщенного метода наименьших квадратов.

Оценка доступного обобщенного МНК β:

2.18

При применении метода максимального правдоподобия для оценки нормальной обобщенной линейной модели регрессии оценки максимального правдоподобия находем из системы уравнений правдоподобия:

2.19

2.20

2.21

Проанализировав систему (2.19) — (2.21) можно заметить, что оценки и метода максимального правдоподобия будут совпадать с оценками и обобщенного метода наименьших квадратов.

Решить систему (2.19) — (2.21) можно с помощью итерационной процедуры, например, двухшаговой.

1-й шаг. На первом шаге необходимо найти оценку метода максимального правдоподобия .

Вычислим остатки и решим полученную систему (2.19) — (2.21) при заданных остатках.

Находем вектор и матрицу .

2-й шаг. Находим оценку вектора по формуле (2,18):

Вычисленные этим методом оценки при большом n будут совпадать с оценками рассчитанными методом максимального правдоподобия, следовательно, будут эффективными.

3 ВЫЧИСЛИТЕЛЬНЫЙ ЭКСПЕРИМЕНТ

3.1 Реализация классической линейной модели множественной

регрессии

Выполним построение классической регрессионной модели на примере набора Модели номинального ВВП , учитывающая влияние темпов роста индекса потребительских цен (CPI), реальной заработной платы (WR) и денежной массы (MS) [6].

Загрузим данные при помощи следующей функции: load Data_NelsonPlosser Данные показаны на рисунке 2.

Рисунок 2 – Данные

Предполагая, что все предпосылки регрессионного анализа выполняются, построим регрессионную модель методом наименьших квадратов. Mdl_OLS = fitlm(dLogTbl);

  • Fitlm – функция, которая выполняет построение линейной модели множественной регрессии обычным методом наименьших квадратов для переменных из таблицы или массива данных (ОМНК) [24].

Результат работы данной функции представлен на рисунке 3.

Рисунок 3 – Построение модели ОМНК

Проанализируем полученные данные.

Estimate – коэффициенты регрессионной модели, полученные методом наименьших квадратов, показывают силу и тип связи объясняющих переменных с зависимой. Т.к. модель линейная, мы получили оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака от теоретических минимальна. В общем случае коэффициент регрессии показывает, как в среднем изменится результативный признак , если факторный признак увеличится на единицу.

В данном случае при росте индекса потребительских цен (CPI) на 1 ед. объем номинального ВВП вырастет на 0,9037 ед., аналогично при росте реальной заработной платы (WR) и денежной массы (MS) объем ВВП вырастет на 0,9036 и 0,4285 ед. соответственно.

28 стр., 13643 слов

Регрессионный анализ в экономических исследованиях

... регрессионного анализа и применение его в эконометрике. Для достижения поставленной цели были решены следующие задачи: изучение основных положений регрессионного анализа рассмотрение оценки параметров парной регрессионной модели изучение интервальной оценки функции регрессии ... из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между ...

Intercept – (y-пересечение) – коэффициент, который показывает каким будет Y в случае, если все используемые в модели факторы будет равны, подразумевается, что это зависимость от других, неописанных в модели факторов.

R-squared – коэффициент детерминации ( ), равный 0,764. Показывает, что на 76,4% расчетные параметры модели, т.е. сама модель, объясняют зависимость и изменения изучаемого параметра – Y от исследуемых факторов X. Можно сказать, что это показатель качества модели, и чем он выше, тем лучше. Очевидно, что коэффициент детерминации не может быть больше 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость, т.е. данные наиболее соответствуют модели. Модели с коэффициентов более 80% можно признать достаточно хорошими, но если коэффициент менее 50%, то такую модель можно смело ставить под сомнение. Равенство данного коэффициента единице показывает, что зависимая переменная в точности описывается полученной моделью.

Adjusted R-squared – скорректированный . С его помощью можно сравнивать модели с разным числом признаков так, чтобы их число не влияло на статистику . Для моделей с одинаковой зависимой переменной и одинаковым объемом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии или стандартной ошибки модели.

F-статистика, называемая также критерием Фишера, используется для оценки значимости линейной зависимости, опровергая или подтверждая гипотезу о ее существовании. Значение t-статистики (критерий Стьюдента) помогает оценивать значимость коэффициента при неизвестной либо свободного члена линейной зависимости. Если значение t-критерия > tкр, то гипотеза о незначимости свободного члена линейного уравнения отвергается.

Проверим значимость полученного уравнения регрессии. Фактическое значение критерия F = 61,4 больше табличного определенного на уровне значимости α=0,05, при ,

степенях свободы, т. е. уравнение регрессии значимо, следовательно, исследуемая зависимая переменная достаточно хорошо описывается включенными в регрессионную модель переменными

3.2 Реализация обобщенной линейной модели множественной регрессии

На графике видно, что данные достаточно неоднородны, что приведет к различной дисперсии ошибок, т.е. нарушению предпосылки 3 регрессионного анализа о гомоскедастичности. Гетероскедастичность является частным случаем нарушения этой предпосылки. Следовательно, оценки метода наименьших квадратов окажутся неэффективными, а формулы для вычисления дисперсий коэффициентов и статистик, которые используются для проверки гипотез – неверными. Устранить данную проблему можно двумя способами: применив доступный обобщенный метод наименьших квадратов или перейти от значений переменных, например к их первым производным, взятым от логарифма переменной.

Рисунок 4 – Автокорреляция

Воспользуемся вторым способом: прологарифмируем и затем продифференцируем значения всех переменных, чтобы получить однородные данные. dLogTbl = array2table(diff(log(Tbl{:,:})),… ‘VariableNames’,strcat(Tbl.Properties.VariableNames,’Rate’));

12 стр., 5517 слов

Модели экономического роста: сравнительный анализ. Экономическая теория

... с ростом производства, а также неэффективной экономической политикой правительства. Теории экономического роста. Кейнсианские модели экономического роста. Рассмотрим основные современные модели экономического роста. Как и любая модель, модель роста является абстрактным, упрощенным выражением реального экономического процесса в форме уравнений или ...

  • Выполним построение обобщенной регрессионной модели на примере данных, приведенных в предыдущем пункте, с помощью функции fgls. [coeff,se,EstCoeffCov] = fgls(dLogTbl,’innovMdl’,’HC0′,’display’,’final’);
  • Fgls – функция, которая рассчитывает точечные оценки коэффициентов обобщенного линейного уравнения регрессии b доступным обобщенным методом наименьших квадратов (ДОМНК) [25].

Полученные результаты представлены на рисунке 5.

Рисунок 5 – Модель ДОМНК

Модель будет выглядеть следующим образом:

В данном случае при росте индекса потребительских цен (CPI) на 1 ед. объем номинального ВВП вырастет на 1.1227 ед., аналогично при росте реальной заработной платы (WR) и денежной массы (MS) объем ВВП вырастет на 0.5768 и 0.45041 ед. соответственно.

R-squared – коэффициент детерминации ( ), равный 0,82. Таким образом, видно, что данная модель на 82% объясняет зависимость и изменения изучаемого параметра – Y от исследуемых факторов X.

Проверим значимость полученного уравнения регрессии. Фактическое значение критерия F = 50,3 больше табличного определенного на уровне значимости α=0,05, при ,

степенях свободы, т. е. уравнение регрессии значимо, следовательно, исследуемая зависимая переменная достаточно хорошо описывается включенными в регрессионную модель переменными

3.3 Сравнительный анализ классического и обобщенного метода

наименьших квадратов

Построенные уравнения регрессии редко удовлетворяют необходимым характеристикам. Поэтому необходимо оценить результаты моделирования.

О корректности модели могут сказать следующие характеристики:

1. Стандартная ошибка уравнения регрессии;

2. Общее качество уравнения регрессии;

3. Стандартная ошибка параметров уравнения;

4. Выполнимость предпосылок МНК:

  • оценка автокорреляции остатка;
  • оценка мультиколлинеарности переменных;

5. корректность модели в целом [9].

Стандартная ошибка с правильной степенью свободы может быть рассчитана следующим образом:

Ошибка рассчитанная данным образом будет характеризовать абсолютную величину разброса случайной составляющей регрессионного уравнения [14].

В программном пакете часто используется одна процедура для того чтобы обхватить все вышеперечисленные модели.

Но есть некоторые ограничения GLM, например, линейная функция может иметь только линейный предиктор в систематической компоненте, оценки должны быть независимыми.

Чтобы определить практическую значимость уравнения множественной регрессии необходимо вычислить показатель корреляции и детерминации. Показатель корреляции показывает насколько тесно связаны зависимая и объясняющая переменные, а также – совместное влияние факторов на результат.

Коэффициент корреляции имеет несколько преимуществ по сравнению с ковариацией для определения сильных сторон отношений:

Ковариация может принимать практически любое число, в то

время как корреляция ограничена: от -1 до +1.

Из-за его числовых ограничений корреляция более полезна для

определения того, насколько сильная взаимосвязь между этими

двумя переменными.

Корреляция не имеет единиц. Ковариация всегда имеет единицы

На корреляцию не влияют изменения в центре (т. Е. Среднее

значение) или масштаб переменных.

Дисперсионный анализ (ANOVA) — это инструмент анализа, используемый в статистике, который разбивает совокупную изменчивость, найденную внутри набора данных, на две части: систематические факторы и случайные факторы. Систематические факторы оказывают статистическое влияние на данный набор данных, а случайные — нет. Аналитики используют анализ дисперсионного теста для определения результата, который независимые переменные имеют на зависимой переменной на фоне регрессионного исследования [22].

Анализ теста на отклонения является начальным этапом анализа факторов, которые влияют на данный набор данных. Как только анализ теста на отклонение завершен, аналитик проводит дополнительное тестирование на методические факторы, которые в значительной степени способствуют несогласованности набора данных. Аналитик использует анализ результатов теста дисперсии в f-тесте для генерации дополнительных данных, которые согласуются с предлагаемыми регрессионными моделями [26].

Тест позволяет одновременно сравнивать более двух групп, чтобы определить, существует ли между ними взаимосвязь. Тест анализирует несколько групп для определения типов между образцами и внутри них. Например, исследователь может опробовать студентов из нескольких колледжей, чтобы убедиться, что студенты из одного из колледжей превзошли других. Кроме того, исследователь R & D может протестировать два разных процесса создания продукта, чтобы убедиться, что один процесс лучше, чем другой, с точки зрения эффективности затрат [27].

Тип запуска ANOVA зависит от ряда факторов. Он применяется, когда данные должны быть экспериментальными. Анализ дисперсии используется, если нет доступа к статистическому программному обеспечению, что приводит к вычислению ANOVA вручную. Он прост в использовании и наилучшим образом подходит для небольших образцов. Со многими экспериментальными проектами размеры выборки должны быть одинаковыми для разных комбинаций факторов.

Анализ дисперсий полезен для тестирования трех или более переменных. Это похоже на множественные t-тесты с двумя образцами. Однако это приводит к меньшему количеству ошибок типа I и подходит для решения ряда проблем. ANOVA группирует различия, сравнивая средства каждой группы и включает распространение дисперсии на различные источники. Он используется с предметами, группами тестирования, между группами и внутри групп.

Существует два типа дисперсионного анализа: односторонний (или однонаправленный) и двухсторонний. Односторонний или двусторонний относится к числу независимых переменных в вашем тесте Analysis of Variance. Односторонний ANOVA оценивает влияние единственного фактора на единственную переменную ответа. Он определяет, все ли образцы одинаковы. Односторонний ANOVA используется для определения наличия статистически значимых различий между средствами трех или более независимых (несвязанных) групп [15].

Двухсторонний ANOVA является расширением одностороннего ANOVA. В одностороннем порядке у вас есть одна независимая переменная, влияющая на зависимую переменную. С двухсторонним ANOVA существует два независимых. Например, двухсторонний ANOVA позволяет компании сравнивать производительность труда на основе двух независимых переменных, например, оклада и набор навыков. Он используется для наблюдения за взаимодействием между двумя факторами. Он одновременно проверяет влияние двух факторов [13].

Т- и z-тесты, разработанные в 20-м веке, использовались до 1918 года, когда Рональд Фишер создал анализ дисперсии. ANOVA также называют дисперсионным анализом Фишера и является расширением t- и z-тестов. Этот термин стал известен в 1925 году, появившись в книге Фишера «Статистические методы для исследователей». Он использовался в экспериментальной психологии, а затем расширился до более сложных предметов [16].

Формула для F, используемая в ANOVA, равна F = между оценкой групповой дисперсии (MSB), деленной на оценку групповой дисперсии (MSW), где F = MSB / MSW. Каждая оценка дисперсии состоит из двух частей: суммы квадратов и обода (SSB и SSW) и степеней свободы (df).

ЗАКЛЮЧЕНИЕ

В данной выпускной квалификационной работе были поставлены следующие задачи:

1. Проанализировать алгоритм классической линейной модели множественной регрессии.

2. Проанализировать регрессионную модель в условиях нарушения классических предпосылок.

3. Осуществить анализ реализаций линейной множественной регрессионной модели.

В процессе работы были реализованы и проаналиированы классическая и обобщенная регрессионные модели.

СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ