Линейная регрессия

Математические модели широко используются в экономике, в финансах, в общественных науках. Обычно модели строятся и верифицируются на основе имеющихся наблюдений изучаемого показателя и, так называемых, объясняющих факторов. Язык экономики все больше становится математическим, а саму экономику все чаще упоминают как одну из наиболее математизированных наук. В течение 2 последних десятилетий математические и, в частности, статистические методы в экономике стремительно развиваются. Свидетельством признания эконометрики является присуждение за наиболее выдающиеся работы в этой области Нобелевских премий по экономике: Р. Фришу и Я. Тинбергу (1969) за разработку математических методов анализа экономических процессов, Л. Клейну (1980) за создание эконометрических моделей и их применение к анализу экономических колебаний и экономической политике, Т. Хаавельмо (1989) за работы в области вероятностных основ эконометрики и анализ одновременных экономических структур, Дж. Хекману и Д. Макфаддену (2000) за развитие методов анализа селективных выборок и моделей дискретного выбора. Вряд ли возможно в настоящее время дать единое общепринятое определение эконометрики. Термин «эконометрика» был предложен в 1926 г. норвежским ученым Р. Фришем и дословно означает «эконометрические измерения». Более узкое значение этого термина подразумевает набор математико-статистических методов, используемых в приложениях математики в экономике. Ниже приводятся несколько определений известных ученых — экономистов, математиков, позволяющих получить представление о содержании эконометрики. «Эконометрика — это раздел математики, занимающийся разработкой и применением статистических методов для измерений взаимосвязей между экономическими переменными» (С. Фишер).

«Основная задача эконометрики — наполнить эмпирическим содержанием априорные экономические рассуждения» (Л. Клейн).

«Цель эконометрики — эмпирический вывод экономических законов» (Э. Маленво).

«Эконометрика есть единство трех составляющих — статистики, экономической теории и математики» (Р. Фриш).

Не будет преувеличением сказать, что эконометрика объединяет совокупность методов и моделей, позволяющих на базе экономической теории, экономической статистики и математико-статистического инструментария придавать количественные выражения качественным зависимостям. Успешное освоение и применение эконометрических методов анализа экономических явлений требует знания основных разделов теории вероятностей и, в особенности, математической статистики (см., например, вопросы для самопроверки №№1-9).

4 стр., 1865 слов

Применение математических методов в экономике

... помощью математических и статистических методов и моделей. Современное определение предмета эконометрики было выработано в уставе Эконометрического общества, которое главными целями назвало использование статистики и математики для развития экономической теории. Теоретическая эконометрика ...

Часто говорят, что современное экономическое образование основывается на макроэкономике, микроэкономике и эконометрике. Можно указать следующие взаимосвязи между этими элементами:

  • Основные результаты экономической теории носят качественный характер, а эконометрика вносит в них эмпирическое содержание; 3
  • Математическая экономика выражает экономические законы в виде математических соотношений, а эконометрика осуществляет опытную проверку этих законов;

— Экономическая статистика дает информационное обеспечение исследуемых явлений в виде исходных статистических данных и экономических показателей, а эконометрика проводит анализ количественных взаимосвязей между этими показателями. Несмотря на то, что многие эконометрические результаты являются, по сути и форме, математическими (имеют, например, вид теорем), именно экономическая теория определяет постановку задач и исходные предпосылки, а полученные результаты представляют интерес лишь тогда, когда удается их экономическая интерпретация.

1.1 Основные элементы эконометрической модели

В рамках эконометрического анализа обычно ставится задача определения некоторой величины (показателя), значение которой формируется под воздействием некоторых факторов. Так, цена на подержанный автомобиль может зависеть от года выпуска, пробега, мощности двигателя и т.п. Такие показатели, как например цена, обычно называют зависимыми (объясняемыми) переменными, а факторы, от которых они зависят — объясняющими переменными (факторами).

Нас обычно интересует среднее или ожидаемое значение зависимой переменной при заданных значениях объясняющих переменных. Конкретное значение зависимой переменной (наблюдаемое значение) обычно зависит и от случайных явлений. В примере с автомобилем случайным может быть состоянием рынка, характер продавца и т.д. Для экономики типична такая форма связи между переменными величинами, когда каждому значению одной переменной соответствует не какое-то определенное значение другой переменной, а множество возможных значений (более точно — некоторое условное распределение) другой переменной. Такая зависимость называется статистической (стохастической, вероятностной).

Стохастическая форма связи обуславливается тем, что зависимая переменная подвержена влиянию ряда неконтролируемых или неучтенных факторов, а также тем, что измерение значений переменных обычно сопровождается некоторыми случайными ошибками. Таким образом, зависимая переменная является случайной величиной, имеющей при заданных значениях факторов некоторое распределение. В любой эконометрической модели зависимая переменная обычно разбивается на две части: объясненную и случайную. В общем виде задача эконометрического моделирования состоит в следующем: 4 На основании экспериментальных данных определить (оценить) объясненную часть зависимой переменной и, рассматривая случайную составляющую как случайную величину, получить оценки параметров ее распределения. Обозначим зависимую переменную через y, ее объясненную часть, зависящую от значений объясняющих переменных 1 2 (,,, ) k X = x x x K через f ( ) X (т.е. объясненная часть представляет собой функцию от значений факторов), а случайную составляющую (называемую также возмущением или ошибкой) — через e. Тогда в общем виде эконометрическая модель имеет вид: y f = + ( ) X e. (1.2.1) В качестве объясненной части f ( ) X случайной величины y естественно выбрать ее среднее (ожидаемое) значение при заданных значениях X — иными словами, условное математическое ожидание E y( ) X, полученное при данном значении объясняющих переменных 1 2 (,,, ) k X = x x x K: E ( y f ) = ( ) X X.

6 стр., 2823 слов

Эконометрическая модель

... объясняемые переменные. Прогноз, построенный на базовой методологии эконометрической модели, если не исключает, то, по крайней мере, уменьшает ошибочные значения результирующих параметров математической модели. Цель данной работы определить значение ... выделяет тенденцию. Экономическая теория формирует качественные гипотезы. Эконометрика же имеет дело с конкретными экономическими данными ...

(1.2.2) Это уравнение (зависимость) называется теоретическим уравнением регрессии, функция f ( ) X — теоретической функцией регрессии, а уравнение y = + E y( ) e X, (1.2.3) уравнением регрессионной модели. В силу своего определения регрессионная модель обладает особыми свойствами. Так, взяв от обеих частей равенства математическое ожидание при заданном наборе значений объясняющих переменных, получаем, что EX (e ) 0 =, а значит, что и E(e ) 0 = — т.е. в регрессионной модели среднее значений случайной ошибки равно нулю. Это свойство оказывается весьма существенным условием, влияющим на статистические свойства получаемых результатов. Исходной точкой любого эконометрического исследования является выборка наблюдений зависимой переменной y и объясняющих переменных, 1, j x j k = K. Такие выборки представляют собой наборы значений 1 2 (,,,, ) i i ik i x x K x y, где i n =1,, K — номер наблюдения, k — количество объясняющих переменных (факторов).

Обычно выделяются два типа выборочных данных:

  • Пространственная выборка (cross-sectional data) — набор экономических показателей, полученных в некоторый момент времени (или в относительно небольшом промежутке времени), т.е. набор независимых выборочных данных из некоторой генеральной совокупности (так как практически независимость 5 случайных величин проверить трудно, то обычно за независимые принимаются величины, не связанные причинно);
  • Временной (динамический) ряд (time-series data) — выборка, в которой важны не только сами наблюдаемые значения, но и порядок их следования друг за другом. Чаще всего данные представляют собой наблюдения одной и той же величины в последовательные моменты времени. Необходимо, однако, заметить, что такое разделение во многом условно и определяется целью и содержанием исследования. После того, как определен набор объясняющих переменных, получены эмпирические (выборочные) данные, для точного описания уравнения регрессии необходимо найти объясненную часть зависимой переменной y, обозначенную нами через f ( ) X (как указывалось выше, представляющую собой условное математическое ожидание).

    Однако на практике точное ее определение, как правило, невозможно, поэтому можно говорить только об оценке (приближенном выражении, аппроксимации) теоретической функции регрессии по выборке. Стандартная процедура оценивания состоит в следующем: Шаг 1. Выбирается вид функции f ( ) X (точнее — параметрическое семейство, к которому принадлежит искомая функция, рассматриваемая как функция от значений объясняющих переменных X);

  • Шаг 2. С помощью методов математической статистики находятся оценки параметров этой функции. Важно иметь в виду, что в общем случае не существует формальных способов выбора наилучшего семейства функций f ( ) X на шаге 1. Очень часто выбирается семейство линейных функций. Выбор линейной модели, кроме вполне очевидного преимущества — простоты, имеет ряд существенных математических оснований, оправдывающих этот выбор. В целом формулировку исходных предпосылок и ограничений, выбор структуры уравнения модели, представление в математической форме обнаруженных взаимосвязей и соотношений, установление состава объясняющих переменных называют спецификацией модели. От того, насколько удачно решена проблема спецификации, в значительной степени зависит успех всего процесса эконометрического моделирования. Оценку теоретической функции регрессии, построенную по эмпирическим данным, обозначим через y ).
    5 стр., 2403 слов

    Множественная регрессия и корреляция

    ... Для построения уравнения множественной регрессии чаще используются следующие функции 2 : линейная – степенная – экспонента – гипербола - . Можно использовать и другие функции, приводимые к линейному виду. Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов ...

    Уравнение y f = (X B, ) ) ), (1.2.4) полученное по выборке, где y ) — оценка условной средней переменной y при значениях переменных 1 2 (,,, ) k X = x x x K, B — вектор параметров функции f ) (которая является аппроксимацией функции f ), 6 называется выборочным (эмпирическим) уравнением регрессии (модельной функцией регрессии).

    Итак, можно выделить несколько основных этапов эконометрического моделирования и анализа: Этап 1. Постановочный — формируется цель исследования (анализ экономического объекта, прогноз его показателей, имитация развития, выработка управленческих решений), теоретическое обоснование выбора переменных;

  • Этап 2.Априорный — анализ сущности изучаемого объекта, формирование и формализация имеющейся информации;
  • Этап 3.Параметризация — выбор вида модели (вида функции f ( ) X ), анализ взаимосвязей и спецификация модели;
  • Этап 4.Информационный — сбор необходимой статистической информации — наблюдаемых значений переменных;
  • Этап 5.Идентификация модели — статистический анализ модели и оценка ее параметров;
  • Этап 6.Верификация модели — проверка адекватности, статистической значимости модели.

1.2 Спецификация модели парной линейной регрессии

В случае парной регрессии рассматривается один объясняющий фактор: через y обозначим изучаемый эконометрический показатель; через x — объясняющий фактор. Эконометрическая модель, приводящая к парной регрессии, имеет следующий вид y = + f x( ) e, (1.3.1) где f x( ) — неизвестная функциональная зависимость (теоретическая регрессия); e — возмущение, случайное слагаемое, представляющее собой совокупное действие не включенных в модель факторов, погрешностей.

Основная задача эконометрического моделирования — построение по выборке эмпирической модели, выборочной парной регрессии f x( ) ), являющейся оценкой теоретической регрессии (функции f x( ) ): y = f x( ) ) ), (1.3.2) здесь f x( ) ) — эмпирическая (выборочная) регрессия, описывающая усредненную по x зависимость между изучаемым показателем и объясняющим фактором. После построения выборочной регрессии обычно производится верификация модели — проверка статистической значимости и адекватности построенной парной регрессии имеющимся эмпирическим данным. 7 Экспериментальная основа построения парной эмпирической регрессии — двумерная выборка: 1 1 (, ),,(, ) n n x y K x y, где n — объем выборки (объем массива экспериментальных данных).

Основная задача спецификации модели — выбор вида функциональной зависимости. В случае парной регрессии обычно рассматриваются функциональные зависимости следующего вида f ( ) x x = + a b — линейная; (1.3.3) 2 1 2 f ( ) x =a + + b b x x — параболическая; (1.3.4) f x( ) x b = + a — гиперболическая; (1.3.5) ( ) e x f x b =a — показательная; (1.3.6) f ( ) x xb =a — степенная, (1.3.7) а так же некоторые другие. Заметим, что функциональные зависимости 1.3.3, 1.3.4 и 1.3.5 линейны по своим параметрам a и b. Основные методы выбора функциональной зависимости f x( ): 1) Геометрический; 2) Эмпирический; 3) Аналитический. Геометрический метод выбора функциональной зависимости сводится к следующему. На координатной плоскости Oxy наносятся точки (, ), 1,,, i i x y i n = K, соответствующие выборке. Полученное графическое изображение называется полем корреляции (диаграммой рассеяния).

10 стр., 4595 слов

Основы регрессионного анализа. Парная линейная регрессия

... анализа. Парная линейная регрессия. Цель: ознакомиться с основными положениями, понятиями и методами анализа линейной модели парной регрессии. По результатам ... Вычислить оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Дать содержательную ... наша модель объясняет исходные данные о наличии зависимости количества выпитого пива от температуры на 82% ...

Исходя из получившейся конфигурации точек, выбирается наиболее подходящий вид параметрической функциональной зависимости f x( ).

На рисунке 1.3.1 приведен пример поля корреляции для некоторой выборки объемом 11 наблюдений (каждому наблюдению со0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8 9 10 11 12 X Y Рис. 1.3.1 8 ответствует одна точка) с графиками двух функциональных зависимостей — линейной функции и параболы. Эмпирический метод состоит в следующем. Выбирается некоторая параметрическая функциональная зависимость f x( ) (см., например, 1.3.3-1.3.7).

Для построения по выборке оценки f x( ) ) этой зависимости чаще всего используется метод наименьших квадратов (МНК).

Согласно методу наименьших квадратов значения параметров функции f x( ) ) (будем обозначать их через a, b) выбираются таким образом, чтобы сумма квадратов отклонений выборочных значений i y от значений ( )i f x ) была минимальной ( ) 2, 1 ( ) min n i i a b i y f x = е ѕѕ® ), (1.3.8) минимум ищется по параметрам a b, которые входят в зависимость f x( ) ).

Найденные значения параметров, которые минимизируют указанную сумму квадратов разностей, называются оценками неизвестных параметров регрессии по методу наименьших квадратов (оценками МНК).

Выборочная регрессия y = f x( ) ) ) (или ( ), 1,, i i y = = f x i n ) ) K ), в которую подставлены найденные значения, уже не содержит неизвестных параметров и является оценкой теоретической регрессии. Именно эту зависимость f x( ) ) будем рассматривать как эмпирическую усредненную зависимость изучаемого показателя от объясняющего фактора. После нахождения эмпирического уравнения регрессии вычисляются значения ( ) i i y = f x ) ) и остатки i i i eyy = ), i n =1,. По величине остаточной суммы квадратов 2 1 ( ) n i i i y y = е ) можно судить о качестве соответствия эмпирической функции f x( ) ) имеющимся в наличии статистическим наблюдениям. Перебирая разные функциональные зависимости и, каждый раз, действуя подобным образом можно практически подобрать наиболее подходящую функцию для описания имеющихся данных. Аналитический метод сводится к попытке выяснения содержательного смысла зависимости изучаемого показателя от объясняющего фактора и последующего выбора на этой основе соответствующей функциональной зависимости. Так, если y — расходы фирмы, x — объем выпущенной продукции за месяц, то нетрудно получить следующую модель зависимости расходов от объема выпущенной продукции: 9 y x = a + + b e, где a — условно-постоянные расходы, b x — условно-переменные расходы. В практике эконометрического анализа часто используют линейную парную регрессию. В модели парной линейной регрессии зависимость 1.3.1 между переменными представляется в виде y x =a + + b e, (1.3.9) т.е. теоретическая регрессия имеет вид 1.3.3. На основе выборочных наблюдений оценка теоретической регрессии — выборочная (эмпирическая) регрессия y ) строится в виде: y = + a bx ), (1.3.10) где a, b являются оценками параметров a, b теоретической регрессии.

9 стр., 4419 слов

Алгоритм обобщенной множественной линейной регрессии и его реализация

... b оценок параметров можно определить с помощью обратной матрицы . 2 ОБОБЩЕННАЯ ЛИНЕЙНАЯ МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ 2.1 Обобщенная линейная модель множественной регрессии при известной ковариационной матрице регрессионных остатков В эмпирических социально-экономических ...

1.3 Оценка параметров. Метод наименьших квадратов

Экономическая интерпретация Рассматривается модель парной линейной регрессии, 1, i i i y =a + b e x + =i n. На основе эмпирических наблюдений построим оценку теоретической регрессии — найдем выборочное уравнение регрессии, 1, i i y = a + = bx i n ).

Оценки a, b параметров a, b определяются по методу наименьших квадратов из соотношения: ( ) 2 2, 1 1 ( ) ( ) min n n i i i i a b i i y y y a bx = = е е = + ѕѕ® ), (1.4.1) т.е. a, b выбираются таким образом, чтобы минимизировать сумму квадратов отклонений выборочных (эмпирических) значений показателя i y от расчетных i y ).

Вычисляя производные по параметрам a, b и приравнивая их к нулю, приходим к следующей системе из двух уравнений (т.н. система нормальных уравнений): 1 1 2 1 1 1 n n i i i i n n n i i i i i i i an b x y a x b x x y = = = = = м + = п п н п + = по е е е е е. (1.4.2) Решение этой системы уравнений называется оценкой неизвестных параметров по методу наименьших квадратов, его можно найти по формулам: 2 2,, xy xy b a y bx x x = = (1.4.3) где 10 1 1 n i i y y n = = е, 1 1 n i i x x n = = е, 1 1 n i i i xy x y n = = е, 2 2 1 1 n i i x x n = = е. Таким образом, парная эмпирическая линейная регрессия имеет вид: y = a + bx = y + b( ) x x ), (1.4.4) где коэффициенты a и b определяются по формуле 1.4.3. Коэффициенту b при объясняющем факторе x в парной линейной регрессии можно дать естественную экономическую интерпретацию. Коэффициент b показывает, на какую величину изменяется в среднем изучаемый эконометрический показатель при увеличении объясняющего фактора на одну единицу. Нетрудно найти значения показателя, рассчитанные по выборочной линейной регрессии для тех значений объясняющего фактора, которые содержатся в выборке: ( ) i i i y = a + bx = y + b x x ), i n =1,, K. (1.4.5) Особое значение для проверки статистической значимости парной линейной регрессии имеют остатки (разности между истинными значениями показателя и значениями, вычисленными по уравнению линейной регрессии): i i i eyy = ), i n =1,, K. (1.4.6)

1.4 Основные предположения регрессионного анализа

Основные предположения регрессионного анализа относятся к случайной компоненте e и имеют решающее значение для правильного и обоснованного применения регрессионного анализа в эконометрических исследованиях. В классической модели регрессионного анализа предполагаются выполненными следующие предположения (условия Гаусса-Маркова): Условие 1.5.1. Величины i e являются случайными. Условие 1.5.2. Математическое ожидание возмущений равно нулю: ( ) 0 E i e =. Условие 1.5.3. Возмущения i e и j e некоррелированы: ( ) 0 E i j e e =, i j №. Условие 1.5.4. Дисперсия возмущения i e постоянна для каждого i: 2 ( ) D i e s=. Это условие называется условием гомоскедастичности. Нарушение этого условия называется гетероскедастичностью. Условие 1.5.5. Величины i e взаимно независимы со значениями объясняющих переменных. Здесь, во всех условиях i n =1,2,, K. 11 Эти предположения образуют первую группу предположений, необходимых для проведения регрессионного анализа в рамках классической модели. Вторая группа предположений дает достаточные условия для обоснованного проведения проверки статистической значимости эмпирических регрессий: Условие 1.5.6. Совместное распределение случайных величин 1,, n e e K является нормальным. При выполнении предположений первой и второй групп случайные величины 1,, n e e K оказываются взаимно независимыми, одинаково распределенными случайными величинами, подчиняющимися нормальному распределению с нулевым математическим ожиданием и дисперсией 2 s.

15 стр., 7045 слов

Анализ регрессии в изучении экономических проблем

... коэффициентов регрессии, напомним о желательности выполнимости ряда предпосылок МНК, которые позволят проводить анализ в рамках классической линейной ... степеней свободы. Нетрудно заметить, что если число степеней свободы невелико, ... самую употребляемую и наиболее простую из моделей множественной регрессии – модель множественной линейной регрессии. Теоретическое линейное уравнение регрессии имеет вид: ...

1.5 Статистические свойства оценок

Теорема ГауссаМаркова При выполнении предположений первой группы справедлива Теорема 1.6.1. (Гаусса-Маркова) Если регрессионная модель y x =a + + b e удовлетворяет условиям 1.5.1-1.5.5, то оценки МНК a и b (1.4.3) имеют наименьшую дисперсию в классе всех линейных несмещенных оценок. Заметим, что после построения уравнения выборочной регрессии, наблюдаемые значения i y можно представить в виде, 1, i i i y = y + = e i n ), (1.6.1) где, 1, i i y = a + = bx i n ), коэффициенты a, b определяются по формуле 1.4.3. Остатки i e являются, в отличие от возмущений i e, наблюдаемыми величинами, с помощью которых можно оценить воздействие неучтенных факторов и ошибок наблюдений. Говорят, что i e является выборочной оценкой возмущения i e. Можно показать, что статистика (выборочная остаточная дисперсия), определяемая с помощью остатков i e (см. 1.4.6): 2 2 1 1 ( ) 2 2 n n i i i i i ост y y e S n n = = = = е е ) (1.6.2) является несмещенной оценкой дисперсии 2 s — дисперсии возмущений (теоретической остаточной дисперсии).

При выполнении условий Гаусса-Маркова первой и второй групп (1.5.1-1.5.6) справедливы утверждения: 12 Утверждение 1.6.1. Статистика a a m -a распределена по закону Стьюдента с n 2 степенями свободы, здесь 2 1 n i i a ост x x m S s n = = е, (1.6.3) представляет собой стандартную ошибку коэффициента a, 2 2 1 1 ( ) n x i i s x x n = = е — выборочная дисперсия x. Утверждение 1.6.2. Статистика b b m b распределена по закону Стьюдента с n 2 степенями свободы, здесь ост b x S m s n =, (1.6.4) представляет собой стандартную ошибку коэффициента b, 2 2 1 1 ( ) n x i i s x x n = = е — выборочная дисперсия x. Утверждение 1.6.3. Если y и x некоррелированы, то статистика 2 2 1 xy r xy r t n r = (1.6.5) распределена по закону Стьюдента с n 2 степенями свободы. Здесь r( y x, ) — теоретический коэффициент парной корреляции, xy r — выборочный коэффициент парной корреляции: 1 1 ( )( ) n i i i xy x y y y x x n r s s = = е, (1.6.6) где 2 2 1 1 ( ) n x i i s x x n = = е, 2 2 1 1 ( ) n y i i s y y n = = е — выборочные дисперсии x и y, соответственно.

1.6 Показатели качества регрессии

Коэффициент детерминации. Коэффициент парной корреляции Коэффициент детерминации является одной из наиболее эффективных оценок адекватности регрессионной модели, т.е. мерой качества уравнения регрессии (соответствия регрессионной модели эмпирическим данным).

После построения выборочного уравнения регрессии, как уже указывалось выше в 1.6.1, значение зависимой переменной y в каждом наблюдении можно разложить на две составляющие: 13, 1, i i i y = y + = e i n ), здесь остаток i e представляет собой ту часть зависимой переменной y, которую невозможно «объяснить» с помощью выборочной регрессии. Можно показать, что дисперсия y может быть представлена в виде суммы: D( y) = + D( y) D e( ) ), (1.7.1) в которой первое слагаемое представляет собой часть, «объясненную» регрессионным уравнением (или обусловленную регрессией), а второе — «необъясненную» часть, характеризующую влияние неучтенных факторов и т.п. Необходимо заметить, что такое разложение справедливо только в том случае, когда в уравнение регрессии включена константа a. Разложение 1.7.1 часто записываю в следующем виде: 2 2 2 1 1 1 ( ) ( ) ( ) n n n i i i i i i i y y y y y y = = = е =е е + ) ), (1.7.2) где 2 1 ( ) n i i y y = е представляет собой общую сумму квадратов отклонений зависимой переменной от средней, 2 1 ( ) n i i y y = е ) есть сумма квадратов отклонений, обусловленная регрессией, а 2 1 ( ) n i i i y y = е ) — остаточная сумма квадратов. Коэффициент детерминации определяется по формуле: 2 2 2 1 1 2 2 1 1 ( ) ( ) 1 ( ) ( ) n n i i i i i n n i i i i y y y y R y y y y = = = = = = е е е е ) ).

6 стр., 2714 слов

Частная корреляция. Процедура пошагового отбора переменных

... Например, r(y,x1/x2) коэффициент частной корреляции первого порядка. Коэффициенты частной более высоких порядков можно определить через коэффициенты частной корреляции более низких порядков по рекуррентной формуле: . В эконометрике частные коэффициенты корреляции обычно не имеют самостоятельного значения. В основном их ...

(1.7.3) Величина 2 R, как видно из формул 1.7.2 и 1.7.3, представляет собой часть (долю) вариации (разброса, дисперсии) зависимой переменной обусловленную («объясненную») уравнением регрессии (иногда говорят — обусловленную вариацией объясняющей переменной).

Свойства коэффициента детерминации: Свойство 1.7.1 2 0 1 Ј Ј R ; Свойство 1.7.2. Чем ближе 2 R к единице, тем лучше регрессия аппроксимирует эмпирические данные, т.е. эмпирические наблюдения ближе к линии выборочной регрессии. Если 2 R =1, то между y и x есть линейная функциональная зависимость, в этом случае все эмпирические точки наблюдений лежат на прямой регрессии; 14 Свойство 1.7.3. Если 2 R = 0, то в этом случае вариация зависимой переменной полностью обусловлена случайными воздействиями и линия выборочной регрессии параллельна оси Ox. Заметим, что коэффициент детерминации 2 R имеет смысл рассматривать только при наличии свободного члена в уравнении регрессии, так как лишь в этом случае справедливо равенство 1.7.2. Оценка качества соответствия выборочного равнения регрессии наблюдаемым данным может производиться и с помощью средней ошибки аппроксимации регрессии по формуле: 1 1 100% n i i i i y y A n y = = е ).

(1.7.4) Как указывают некоторые авторы, в практических исследованиях значение этой ошибки в пределах 5-7% свидетельствует о хорошем соответствии модели эмпирическим данным. Коэффициент регрессии b, как уже отмечалось выше, показывает, на сколько единиц в среднем изменяется значение показателя y, когда фактор x увеличивается на одну единицу — поэтому он также может служить мерой тесноты связи между y и x. Однако b зависит от единиц измерения переменных. Именно поэтому удобно использовать некоторую «стандартную» систему единиц измерения тесноты связи, в которой различные данные были бы сравнимы между собой. В качестве единиц измерения такой системы используется среднее квадратическое отклонение переменных, а показателем тесноты связи служит коэффициент корреляции. Действительно, используя понятия выборочных дисперсий, ковариации и корреляции, оценки МНК можно записать специальным образом: y xy x s a y r x s = -, y xy x s b r s =, (1.7.5) где 1 1 n i i y y n = = е, 1 1 n i i x x n = = е — выборочные средние, 2 2 1 1 ( ) n y i i s y y n = = е, 2 2 1 1 ( ) n x i i s x x n = = е — выборочные дисперсии, xy r — выборочный коэффициент корреляции (см. 1.6.5).

4 стр., 1869 слов

Нелинейная регрессия

... нелинейной регрессии, сочетающие непосредственную оптимизацию, использующую нахождение градиента, с разложением в функциональный ряд (ряд Тейлора) для последующей оценки линейной регрессии. ... различного рода связей между оцениваемыми коэффициентами регрессии, что также предполагает необходимость использования ... и отклонение модельного значения, рассчитанного по ошибочным данным. Для того, чтобы ...

Следовательно, парная эмпирическая линейная регрессия может быть записана в виде: ( ) y xy x s y a bx y r x x s = + = + ).

(1.7.6) Таким образом, величина x xy y s r b s = (1.7.7) 15 показывает, на сколько величин y s изменится (в среднем) y, если x увеличится на одно x s, поэтому выборочный коэффициент корреляции xy r также является показателем тесноты связи (более точно — характеризует тесноту линейной зависимости) между переменными. Выборочный коэффициент корреляции является безразмерной величиной и обладает следующими свойствами: Свойство 1.7.4. 1 1 xy Ј Ј r ; Свойство 1.7.5. При 1 xy r = ± корреляционная зависимость представляет собой линейную функциональную зависимость (все наблюдаемые значения располагаются на прямой линии регрессии); Свойство 1.7.6. При 0 xy r = линейная корреляционная связь отсутствует (линия регрессии параллельна оси Ox ).

Заметим, что выборочный коэффициент корреляции xy r полностью оценивает тесноту связи только в случае совместного нормального распределения случайных величин y и x, в других случаях выборочный коэффициент корреляции является оценкой меры только линейной зависимости. Практически наиболее удобна следующая формула вычисления xy r (которая непосредственно может быть получена из определения): 1 1 1 2 2 2 2 1 1 1 1 n n n i i i i i i i xy n n n n i i i i i i i i n x y x y r n x x n y y = = = = = = = = ж ц ж ц Ч з ч з ч и ш и ш е е е е е е е. (1.7.8) В случае парной линейной регрессии между коэффициентом детерминации 2 R и коэффициентом корреляции xy r существует следующая связь: 2 2 R r = xy. (1.7.9)

1.7 Проверка статистической значимости в парной линейной регрессии

Проверка значимости (статистической) уравнения регрессии означает проверку соответствия модели, выражающей зависимость между переменными, экспериментальным данным, а также проверку достаточности включенных в уравнение объясняющих переменных для описания зависимой переменной. Правило проверки статистической значимости оценок a и b основывается на статистических свойствах оценок МНК (§ 1.6) и проверке статистических гипотез 0 1 H H:a a = № 0,: 0 и 0 1 H H: b b = № 0,: 0. Невозможность отклонения какой-либо из гипотез означает статистиче16 скую незначимость соответствующего коэффициента и наоборот, отклонение какой-либо из гипотез означает, что соответствующий коэффициент статистически значим. Как всегда, проверка статистических гипотез осуществляется при некотором уровне значимости. В практических эконометрических исследованиях наиболее часто используются 5% и 1% уровни значимости. Выбор того или иного уровня значимости определяется исследователем. Напомним, что если нулевая гипотеза отклоняется при 1%-ном уровне значимости, то она автоматически отклоняется и при 5%-ном уровне. Если нулевая гипотеза принимается при 5%-ном уровне значимости, то она принимается и при 1%-ном уровне. Если же при 5%-ном уровне значимости нулевая гипотеза отклоняется, то необходимо проверить ее при 1%-ном уровне и, если при этом уровне она принимается, то результаты проверки гипотезы приводятся для двух уровней значимости. 1.8.1. Правило проверки значимости коэффициента b: Статистика b b b t m = при выполнении гипотезы 0 H: 0 b = распределена по закону Стьюдента с n 2 степенями свободы. Из таблицы распределения Стьюдента с n 2 степенями свободы по заданному уровню значимости выбирается значение табл t как критическая точка, соответствующая двусторонней области. Тогда: 1) Если b табл t t і, то гипотезу 0 H: 0 b = следует отклонить и, следовательно, признать коэффициент b статистически значимым, 2) Если b табл t t <, то гипотезу 0 H: 0 b = следует принять и, следовательно, признать коэффициент b статистически незначимым. 1.8.2. Правило проверки значимости коэффициента a: Статистика a a a t m = при выполнении гипотезы 0 H: 0 a = распределена по закону Стьюдента с n 2 степенями свободы. Из таблицы распределения Стьюдента с n 2 степенями свободы по заданному уровню значимости выбирается значение табл t как критическая точка, соответствующая двусторонней области. Тогда: 1) Если a табл t t і, то гипотезу 0 H: 0 a = следует отклонить и, следовательно, признать коэффициент a статистически значимым, 2) Если a табл t t <, то гипотезу 0 H: 0 a = следует принять и, следовательно, признать коэффициент a статистически незначимым. 17 1.8.3. Правило проверки значимости коэффициента корреляции xy r: Статистика 2 2 1 xy r xy r t n r = при выполнении гипотезы 0: 0 H ryx = (т.е. при отсутствии корреляционной связи, здесь r — генеральный коэффициент корреляции) распределена по закону Стьюдента с n 2 степенями свободы. Из таблицы распределения Стьюдента с n 2 степенями свободы по заданному уровню значимости выбирается значение табл t как критическая точка, соответствующая двусторонней области. Тогда: 1) Если r табл t t і, то гипотезу 0: 0 H ryx = следует отклонить и, следовательно, признать коэффициент xy r статистически значимым, 2) Если r табл t t <, то гипотезу 0: 0 H ryx = следует принять и, следовательно, признать коэффициент xy r статистически незначимым. Проверка значимости коэффициента b одновременно является проверкой значимости парной линейной регрессии в целом. Еще один способ проверки значимости парной линейной регрессии основан на коэффициенте детерминации 2 R и статистике, распределенной по закону Фишера с числом степеней свободы числителя равном 1 и числом степеней свободы знаменателя равном n 2. 1.8.4. Правило проверки значимости линейной регрессии в целом (гипотезы 0 H: 0 b = ) с использованием F статистики: Если выполнены предположения регрессионного анализа, то при выполнении гипотезы 0 H: 0 b = (что означает отсутствие взаимосвязи между x и y, а так же статистическую незначимость построенной парной регрессии) статистика 2 2 ( 2) 1 R F n R = распределена по закону Фишера с числом степеней свободы числителя равном 1 и числом степеней свободы знаменателя равном n 2. По таблице распределения Фишера-Снедекора при заданном уровне значимости определяется значение Fтабл как критическая точка при числе степеней свободы числителя равном 1 и числе степеней свободы знаменателя равном n 2. Тогда: 1) Если F F і табл, то гипотезу 0 H: 0 b = следует отклонить и, следовательно, признать построенное уравнение линейной регрессии статистически значимым, 2) Если F F < табл, то гипотезу 0 H: 0 b = следует принять и, следовательно, признать построенное уравнение статистически незначимым. 18 1.8.5. Взаимосвязь критериев В случае парного регрессионного анализа оба способа проверки статистической значимости (использование t -критерия проверки значимости коэффициента b и F -критерия проверки значимости уравнения в целом) равносильны, так как можно показать, что соответствующие статистики связаны между собой следующим образом 2 2 b r t = = t F. Кроме того, критическое значение Fтабл равно квадрату табл t.

1.8 Доверительные интервалы

1.9.1. Доверительные интервалы для параметров регрессии Учитывая статистические свойства оценок МНК, можно построить доверительные интервалы для параметров a и b с заданным уровнем доверия, в качестве которого на практике обычно выбирают вероятность 0,95 (соответствующую уровню значимости 5%).

По таблицам распределения Стьюдента с n 2 степенями свободы определяется табл t — критическое значение для заданного уровня значимости и числа степеней свободы n 2, тогда ( ;

  • a табл a табл a + m t a m t (1.9.1) есть доверительный интервал для a с заданным уровнем доверия, здесь 2 1 n i i a ост x x m S s n = = е — стандартная ошибка коэффициента a (см. 1.6.2).

    Аналогично для коэффициента b: ( ;

  • b табл b табл b + m t b m t (1.9.2) есть доверительный интервал для b с заданным уровнем доверия, здесь ост b x S m s n = — стандартная ошибка коэффициента b (см. 1.6.3).

    1.9.2. Доверительный интервал прогноза для парной линейной регрессии Точечный прогноз p y значения показателя y согласно линейной парной регрессии для p x x = вычисляется по формуле ( ) y p p xy p x s y a bx y r x x s = + = + -. (1.9.3) Интервальный прогноз (доверительный интервал прогноза) для p x x = вычисляется аналогично доверительному интервалу для параметров регрессии. 19 По таблицам распределения Стьюдента с n 2 степенями свободы определяется табл t — критическое значение для заданного уровня значимости и числа степеней свободы n 2, тогда ( ;

— p y табл p y табл y + m t y m t (1.9.4) есть доверительный интервал прогноза индивидуального значения показателя p y в точке p x x = с заданным уровнем доверия, где стандартная ошибка индивидуального прогноза определяется следующим образом: 2 2 1 1 ( ) 1 ( ) p y ост n i i x x m S n x x = = + + е -. (1.9.5) Нетрудно видеть, что чем дальше p x от x, тем шире доверительный интервал прогноза, или, другими словами, тем выше погрешность прогноза.

Заключение

Эконометрика — это наука, в рамках которой на базе реальных статистических данных строятся, анализируются и совершенствуются математические модели экономических явлений. Эконометрика позволяет найти количественное подтверждение либо опровержение экономического закона, либо гипотезы. Одним из важнейших направлений эконометрики является построение прогнозов по различным экономическим показателям.

— Модель парной линейной регрессии является наиболее распространенным (и простым) уравнением зависимости между экономическими переменными. Метод наименьших квадратов дает наилучшие (в определенном смысле) оценки параметров регрессии. Решающее значение для правильного и обоснованного применения регрессионного анализа в эконометрических исследованиях имеет выполнение условий Гаусса-Маркова.

— Необходимым элементом эконометрического анализа является проверка статистической значимости полученных оценок коэффициентов, а также всего уравнения регрессии в целом. В качестве показателя качества регрессии может использоваться коэффициент детерминации.

— При использовании парной линейной регрессии для построения прогнозов необходимо учитывать доверительные интервалы прогноза и параметров регрессии.

Список Литературы

1. Валентинов, В.А. Эконометрика: учебник. 2-е изд. М.: Дашков и Ко, 2010. 448 с.

2. Герасимов, А.Н. Эконометрика: теория и практика [Электронный ресурс]: электронный учебник для вузов / А.Н. Герасимов, А.В. Гладилин, Е.И. Громов. Электрон. дан. и прог. М.: КНОРУС, 2011. 1 электрон. опт. диск (CD-ROM): зв., цв.

3. Кремер, Н.Ш. Эконометрика: учебник для вузов / Н.Ш. Кремер, Б.А. Путко; под ред. Н.Ш. Кремера. 3-е изд., перераб. и доп. М.: ЮНИТИ-ДАНА, 2010. 328 с.: ил. Библиогр.: с. 306-307. (Золотой фонд российских учебников).

[Гриф МО]

4. Новиков, А.И. Эконометрика: учебное пособие / А.И. Новиков. М.: Издательско-торговая корпорация «Дашков и Ко», 2013. 224 с. [Электронный ресурс] // http://ibooks.ru/reading.php?productid=28880.

5. Эконометрика: учебник / под ред. В.С. Мхитаряна. М.: Проспект, 2009. 380 с.: ил. Библиогр.: с. 376-377. [Гриф УМО].