Основы регрессионного анализа. Парная линейная регрессия

Министерство образования и науки Российской Федерации Лабораторная работа по эконометрике на тему «Основы регрессионного анализа. Парная линейная регрессия»

Новосибирск 2010

Ситуация № 1 . «Робинзон на охоте». Каждый раз, идя на охоту на уток, Робинзон берет с собой связку бумерангов и флягу с пивом собственного приготовления, поскольку в жарких условиях субтропиков ему необходимо утолять жажду. При этом он отмечает, какая была средняя температура в день охоты (в градусах Цельсия, Х3), какое количество уток он убил (в штуках, Х2) и сколько при этом выпил пива (в процентах от объема фляги, Х1).

Задание. Основы регрессионного анализа. Парная линейная регрессия.

Цель: ознакомиться с основными положениями, понятиями и методами анализа линейной модели парной регрессии.

По результатам корреляционного анализа выбираем показатель Х 1 -колличество выпитого пива и показатель Х3 -температура в день охоты, потому что они связаны между собой наиболее тесно, так как. Обозначим X3 как Х, а X1 как Y.

X

Y

Задание 1: Вычислить оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Дать содержательную интерпретацию результатов и выбрать для дальнейшего анализа одно из уравнений.

Для построения уравнения регрессии необходимо определить, какая из переменных является входной, а какая выходной. В данном случае очевидно, что количество выпитого пива зависит от средней температуры в день охоты, то есть экзогенной переменной является количество выпитого пива. Таким образом, получаем следующее уравнение парной регрессии:

Где x i — средняя температура в день охоты,

y i — количество выпитого пива,

i — случайная компонента,

0 , 1 — неизвестные параметры.

С помощью МНК получаем следующую систему нормальных уравнений:

Найдем МНК-оценку параметра 1 по формуле:

:

1 =7,452

Рассчитаем МНК-оценку параметра 0 , используя формулу:

:

0 = — 198,88

Дадим интер претацию полученным результатам : 1 =7,452

Положительное значение оценки параметра 1 свидетельствует о том, что связь между переменными прямая. Кроме того, если средняя температура увеличивается на 1 °C, количество выпитого Робинзоном пива возрастает в среднем на 1 =7,452% от объема фляги.

0 = — 198,88

Так как значение оценки параметра 0 отрицательно, то это позволяет сделать вывод о том, что изменение средней температуры в день охоты происходит быстрее изменения количества выпитого пива.

Задание 2: Проверить значимость всех параметров модели по критерию Стьюдента. Для значимых коэффициентов построить доверительные интервалы. Сформулировать выводы.

Проверим значимость всех параметров модели по критерию Стьюдента.

1) Проверим на значимость параметр :

Необходимо проверить гипотезу:

Вычислим t-статистику Стьюдента по формуле:

; t кр (0,05; 23) =2,069

Оценка дисперсии оценки вычисляется по формуле

;

S 2 = = 146,078

= 25,239

= — 7,88

|t|кр (0,05; 23) Так как статистика по абсолютному значению превышает критическое значение, то гипотеза H 0 отвергается на 95% -ном уровне значимости, то есть параметр 0 в данном уравнении регрессии является значимым.

2) Проверим на значимость параметр :

Необходимо проверить гипотезу:

Вычислим t-статистику Стьюдента по формуле:

t кр (0,05; 23) =2,069

;

S 2 = = 146,078

= 0,779

= 9,947

|t|кр (0,05; 23) Так как статистика по абсолютному значению превышает критическое значение, то гипотеза H 0 отвергается на 95% -ном уровне значимости, то есть параметр 1 в данном уравнении регрессии также является значимым.

Построим для данных параметров 95% -ные доверительные интервалы.

Для параметра 0 доверительный интервал будет выглядеть следующим образом:

  • [-198,88−2,069*25,239;
  • — 198,88+2,069*25,239]

[-251,099; — 146,661]

Для параметра 1 доверительный интервал будет выглядеть следующим образом:

  • [7,452−2,069*0,779;
  • 7,452+2,069*0,779]

[5,84; 9,06]

Таким образом, параметры составленного уравнения парной регрессии являются значимыми. То есть взаимосвязь между количеством выпитого пива и средней температурой в день охоты можно описать уравнением линейной регрессии, а незначительные отклонения возможных значений параметров от их МНК-оценок позволяют принять данные оценки в качестве хороших приближений к реальным параметрам.

Задание 3: Проверить значимость модели (уравнение регрессии) в целом с помощью критерия Фишера. Сформулировать выводы.

Для начала найдём коэффициент детерминации:

Где TSS = — полная сумма квадратов,

  • общая сумма квадратов;

RSS = — сумма квадратов, обусловленная регрессией,

  • объясненная сумма квадратов (сумма квадратов регрессии).

ESS = — остаточная сумма квадратов.

  • остаточная сумма квадратов (сумма квадратов остатков)

= 15 504,60+3457,033=18 862,64

Так как RSS>>ESS, то остатки регрессии невелики.

Можно сделать предварительный вывод о том, что разброс значений относительно линии регрессии также невелик, и уравнение достаточно точно описывает наблюдаемые данные.

Коэффициент детерминации показывает, насколько модель объясняет исходные данные, следовательно, исходя из полученного коэффициента, можно отметить, что наша модель объясняет исходные данные о наличии зависимости количества выпитого пива от температуры на 82% [8, https:// ].

В данном случае нельзя точно утверждать, что такое значение коэффициента детерминации означает достаточную пригодность уравнения регрессии, поэтому проверим его на значимость по критерию Фишера на 5% -ном уровне значимости.

Проверим значимость модели в целом по F — критерию:

Чтобы проверить значимость модели, необходимо проверить гипотезу:

Найдем F-статистику по формуле:

Из таблицы находим значение:

Если, то гипотеза отвергается с вероятностью 0,95.

В нашем случае 102,495 > 4,28, значит, гипотеза отвергается с вероятностью 95%.

Из проведенного анализа можно сделать вывод, что наша модель значима, и связь между количеством выпитого пива и температурой воздуха можно описать уравнением:

Y= — 193,558+7,495x

Задание. Построить таблицу дисперсионного анализа.

Источник дисперсии

Число степеней свободы

Сумма квадратов

F-факт.

F-табл.

Значимость

Средняя

сумма квадратов

Объясненная дисперсия

15 405,60

102,495

4,279 344

Да

15 405,60

Остаточная дисперсия

3457,033

;

;

;

150,305

Общая дисперсия

18 862,64

;

;

;

785,94

Задание 5: Выбрать прогнозную точку X п в стороне от основного массива исходных данных. Используя уравнение регрессии, выполнить точечный и интервальный прогнозы величины Y в точке X п . Проанализировать полученные результаты.

Выберем в качестве прогнозной точки значение x п =42°С. Тогда прогнозируемое значение количества выпитого Робинзоном пива будет равно:

y п = — 193,558+7,495 *42= 121,23.

Это значит, что при температуре 42 0 С Робинзон должен выпить 121,23% от объема фляги. Выполним интервальный прогноз.

Для оценки точности прогноза необходимо вычислить стандартную ошибку прогноза по формуле:

  • = 7,462;
  • t кр (0,05;
  • 23) =2,069

Границы доверительного интервала найдем по формуле:

  • Получим [121,23−2,069*7,462;
  • 121,23+2,069*7,462].

доверительный интервал для Y: [105,79; 136,67]

То есть при температуре 42 0 С количество выпитого пива с вероятностью 95% колеблется в пределах от 105,79% до 136,67%.

Точечное прогнозирование показывает, что если температура будет равна 42 градусам, то Робинзону может быть недостаточно одной целой фляги пива для утоления жажды, т.к. объём выпитого пива выходит за рамки 100%.

Задание: Построить 95% -ный доверительный интервал для уравнения регрессии на всем диапазоне исходных данных.

i

x i

— 6,182 905 484

6,56 203 037

— 18,71 318 957

6,3 473 786

16,30 221 704

4,12 461 405

7,768 390 566

24,83 604 351

16,30 221 704

4,12 461 405

7,768 390 566

24,83 604 351

23,79 725 788

3,55 664 372

16,43 856 202

31,15 595 373

23,79 725 788

3,55 664 372

16,43 856 202

31,15 595 373

31,29 229 872

3,63 192 858

24,95 455 269

37,63 004 474

31,29 229 872

3,63 192 858

24,95 455 269

37,63 004 474

38,78 733 956

2,685 656 131

33,23 071 702

44,34 396 209

38,78 733 956

2,685 656 131

33,23 071 702

44,34 396 209

38,78 733 956

2,685 656 131

33,23 071 702

44,34 396 209

46,2 823 804

2,477 601 595

41,1 562 227

51,4 085 381

46,2 823 804

2,477 601 595

41,1 562 227

51,4 085 381

46,2 823 804

2,477 601 595

41,1 562 227

51,4 085 381

53,77 742 124

2,48 202 194

48,64 211 784

58,91 272 463

53,77 742 124

2,48 202 194

48,64 211 784

58,91 272 463

61,27 246 208

2,697 872 977

55,69 056 289

66,85 436 127

61,27 246 208

2,697 872 977

55,69 056 289

66,85 436 127

61,27 246 208

2,697 872 977

55,69 056 289

66,85 436 127

68,76 750 292

3,81 033 386

62,39 284 484

75,14 216 099

68,76 750 292

3,81 033 386

62,39 284 484

75,14 216 099

76,26 254 376

3,578 152 777

68,85 934 566

83,66 574 185

83,7 575 846

4,148 463 607

75,17 441 339

92,3 407 558

83,7 575 846

4,148 463 607

75,17 441 339

92,3 407 558

91,25 262 544

4,765 761 822

81,39 226 423

101,1 129 866

91,25 262 544

4,765 761 822

81,39 226 423

101,1 129 866

Задание: Изобразить в одной системе координат исходные данные, линию регрессии, 95% -ный доверительный интервал.

Задание: Сделать общие выводы, касающиеся проделанной работы и эконометрической интерпретации полученных результатов.

По результатам корреляционного анализа мы выбрали наиболее тесно связанные показатели Y (количество выпитого пива) и Х (температура).

Полагая, что связь между ними может быть описана линейной функцией, составили уравнение парной регрессии, используя для оценивания неизвестных параметров МНК, получили, что Y = — 193,558+7,495x.

С изменением регрессора (температуры) на 1 единицу, отклик (кол-во выпитого пива) в среднем изменяется на 7,495% от объема фляги).

Проведя анализ значимости параметров и самой модели, можно сделать вывод, что оба параметра (и 0 и и1 ) значимы, и модель в целом также значима, то есть, верна. Следовательно, эту модель мы можем использовать для дальнейшего прогнозирования.

Нанеся на координатную плоскость исходные данные, линию регрессии, 95% -ный доверительный интервал, мы видим, что большинство значений исходных данных попадает или находится в непосредственной близи от доверительного интервала, что также подтверждает наше предположение о наличии тесной линейной связи между количеством выпитого пива и температурой воздуха в день охоты. Также, исходя из графика, можно заметить, что, чем ближе значение температуры к среднему, тем выше степень точности наших прогнозов.

Следовательно, чтобы расходовать меньше пива и брать его с собой меньше, Робинзону лучше выходить на охоту, когда температура относительно невысока.