Министерство образования и науки Российской Федерации Лабораторная работа по эконометрике на тему «Основы регрессионного анализа. Парная линейная регрессия»
Новосибирск 2010
Ситуация № 1 . «Робинзон на охоте». Каждый раз, идя на охоту на уток, Робинзон берет с собой связку бумерангов и флягу с пивом собственного приготовления, поскольку в жарких условиях субтропиков ему необходимо утолять жажду. При этом он отмечает, какая была средняя температура в день охоты (в градусах Цельсия, Х3), какое количество уток он убил (в штуках, Х2) и сколько при этом выпил пива (в процентах от объема фляги, Х1).
Задание. Основы регрессионного анализа. Парная линейная регрессия.
Цель: ознакомиться с основными положениями, понятиями и методами анализа линейной модели парной регрессии.
По результатам корреляционного анализа выбираем показатель Х 1 -колличество выпитого пива и показатель Х3 -температура в день охоты, потому что они связаны между собой наиболее тесно, так как. Обозначим X3 как Х, а X1 как Y.
X |
|||||||||||||
Y |
|||||||||||||
Задание 1: Вычислить оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Дать содержательную интерпретацию результатов и выбрать для дальнейшего анализа одно из уравнений.
Для построения уравнения регрессии необходимо определить, какая из переменных является входной, а какая выходной. В данном случае очевидно, что количество выпитого пива зависит от средней температуры в день охоты, то есть экзогенной переменной является количество выпитого пива. Таким образом, получаем следующее уравнение парной регрессии:
Где x i — средняя температура в день охоты,
y i — количество выпитого пива,
i — случайная компонента,
0 , 1 — неизвестные параметры.
С помощью МНК получаем следующую систему нормальных уравнений:
Найдем МНК-оценку параметра 1 по формуле:
:
1 =7,452
Рассчитаем МНК-оценку параметра 0 , используя формулу:
:
0 = — 198,88
Дадим интер претацию полученным результатам : 1 =7,452
Положительное значение оценки параметра 1 свидетельствует о том, что связь между переменными прямая. Кроме того, если средняя температура увеличивается на 1 °C, количество выпитого Робинзоном пива возрастает в среднем на 1 =7,452% от объема фляги.
0 = — 198,88
Так как значение оценки параметра 0 отрицательно, то это позволяет сделать вывод о том, что изменение средней температуры в день охоты происходит быстрее изменения количества выпитого пива.
Задание 2: Проверить значимость всех параметров модели по критерию Стьюдента. Для значимых коэффициентов построить доверительные интервалы. Сформулировать выводы.
Проверим значимость всех параметров модели по критерию Стьюдента.
1) Проверим на значимость параметр :
Необходимо проверить гипотезу:
Вычислим t-статистику Стьюдента по формуле:
; t кр (0,05; 23) =2,069
Оценка дисперсии оценки вычисляется по формуле
;
S 2 = = 146,078
= 25,239
= — 7,88
|t|кр (0,05; 23) Так как статистика по абсолютному значению превышает критическое значение, то гипотеза H 0 отвергается на 95% -ном уровне значимости, то есть параметр 0 в данном уравнении регрессии является значимым.
2) Проверим на значимость параметр :
Необходимо проверить гипотезу:
Вычислим t-статистику Стьюдента по формуле:
t кр (0,05; 23) =2,069
;
S 2 = = 146,078
= 0,779
= 9,947
|t|кр (0,05; 23) Так как статистика по абсолютному значению превышает критическое значение, то гипотеза H 0 отвергается на 95% -ном уровне значимости, то есть параметр 1 в данном уравнении регрессии также является значимым.
Построим для данных параметров 95% -ные доверительные интервалы.
Для параметра 0 доверительный интервал будет выглядеть следующим образом:
- [-198,88−2,069*25,239;
- — 198,88+2,069*25,239]
[-251,099; — 146,661]
Для параметра 1 доверительный интервал будет выглядеть следующим образом:
- [7,452−2,069*0,779;
- 7,452+2,069*0,779]
[5,84; 9,06]
Таким образом, параметры составленного уравнения парной регрессии являются значимыми. То есть взаимосвязь между количеством выпитого пива и средней температурой в день охоты можно описать уравнением линейной регрессии, а незначительные отклонения возможных значений параметров от их МНК-оценок позволяют принять данные оценки в качестве хороших приближений к реальным параметрам.
Задание 3: Проверить значимость модели (уравнение регрессии) в целом с помощью критерия Фишера. Сформулировать выводы.
Для начала найдём коэффициент детерминации:
Где TSS = — полная сумма квадратов,
- общая сумма квадратов;
RSS = — сумма квадратов, обусловленная регрессией,
- объясненная сумма квадратов (сумма квадратов регрессии).
ESS = — остаточная сумма квадратов.
- остаточная сумма квадратов (сумма квадратов остатков)
= 15 504,60+3457,033=18 862,64
Так как RSS>>ESS, то остатки регрессии невелики.
Можно сделать предварительный вывод о том, что разброс значений относительно линии регрессии также невелик, и уравнение достаточно точно описывает наблюдаемые данные.
Коэффициент детерминации показывает, насколько модель объясняет исходные данные, следовательно, исходя из полученного коэффициента, можно отметить, что наша модель объясняет исходные данные о наличии зависимости количества выпитого пива от температуры на 82% [8, https:// ].
В данном случае нельзя точно утверждать, что такое значение коэффициента детерминации означает достаточную пригодность уравнения регрессии, поэтому проверим его на значимость по критерию Фишера на 5% -ном уровне значимости.
Проверим значимость модели в целом по F — критерию:
Чтобы проверить значимость модели, необходимо проверить гипотезу:
Найдем F-статистику по формуле:
Из таблицы находим значение:
Если, то гипотеза отвергается с вероятностью 0,95.
В нашем случае 102,495 > 4,28, значит, гипотеза отвергается с вероятностью 95%.
Из проведенного анализа можно сделать вывод, что наша модель значима, и связь между количеством выпитого пива и температурой воздуха можно описать уравнением:
Y= — 193,558+7,495x
Задание. Построить таблицу дисперсионного анализа.
Источник дисперсии |
Число степеней свободы |
Сумма квадратов |
F-факт. |
F-табл. |
Значимость |
Средняя сумма квадратов |
|
Объясненная дисперсия |
15 405,60 |
102,495 |
4,279 344 |
Да |
15 405,60 |
||
Остаточная дисперсия |
3457,033 |
; |
; |
; |
150,305 |
||
Общая дисперсия |
18 862,64 |
; |
; |
; |
785,94 |
||
Задание 5: Выбрать прогнозную точку X п в стороне от основного массива исходных данных. Используя уравнение регрессии, выполнить точечный и интервальный прогнозы величины Y в точке X п . Проанализировать полученные результаты.
Выберем в качестве прогнозной точки значение x п =42°С. Тогда прогнозируемое значение количества выпитого Робинзоном пива будет равно:
y п = — 193,558+7,495 *42= 121,23.
Это значит, что при температуре 42 0 С Робинзон должен выпить 121,23% от объема фляги. Выполним интервальный прогноз.
Для оценки точности прогноза необходимо вычислить стандартную ошибку прогноза по формуле:
- = 7,462;
- t кр (0,05;
- 23) =2,069
Границы доверительного интервала найдем по формуле:
- Получим [121,23−2,069*7,462;
- 121,23+2,069*7,462].
доверительный интервал для Y: [105,79; 136,67]
То есть при температуре 42 0 С количество выпитого пива с вероятностью 95% колеблется в пределах от 105,79% до 136,67%.
Точечное прогнозирование показывает, что если температура будет равна 42 градусам, то Робинзону может быть недостаточно одной целой фляги пива для утоления жажды, т.к. объём выпитого пива выходит за рамки 100%.
Задание: Построить 95% -ный доверительный интервал для уравнения регрессии на всем диапазоне исходных данных.
i |
x i |
|||||
— 6,182 905 484 |
6,56 203 037 |
— 18,71 318 957 |
6,3 473 786 |
|||
16,30 221 704 |
4,12 461 405 |
7,768 390 566 |
24,83 604 351 |
|||
16,30 221 704 |
4,12 461 405 |
7,768 390 566 |
24,83 604 351 |
|||
23,79 725 788 |
3,55 664 372 |
16,43 856 202 |
31,15 595 373 |
|||
23,79 725 788 |
3,55 664 372 |
16,43 856 202 |
31,15 595 373 |
|||
31,29 229 872 |
3,63 192 858 |
24,95 455 269 |
37,63 004 474 |
|||
31,29 229 872 |
3,63 192 858 |
24,95 455 269 |
37,63 004 474 |
|||
38,78 733 956 |
2,685 656 131 |
33,23 071 702 |
44,34 396 209 |
|||
38,78 733 956 |
2,685 656 131 |
33,23 071 702 |
44,34 396 209 |
|||
38,78 733 956 |
2,685 656 131 |
33,23 071 702 |
44,34 396 209 |
|||
46,2 823 804 |
2,477 601 595 |
41,1 562 227 |
51,4 085 381 |
|||
46,2 823 804 |
2,477 601 595 |
41,1 562 227 |
51,4 085 381 |
|||
46,2 823 804 |
2,477 601 595 |
41,1 562 227 |
51,4 085 381 |
|||
53,77 742 124 |
2,48 202 194 |
48,64 211 784 |
58,91 272 463 |
|||
53,77 742 124 |
2,48 202 194 |
48,64 211 784 |
58,91 272 463 |
|||
61,27 246 208 |
2,697 872 977 |
55,69 056 289 |
66,85 436 127 |
|||
61,27 246 208 |
2,697 872 977 |
55,69 056 289 |
66,85 436 127 |
|||
61,27 246 208 |
2,697 872 977 |
55,69 056 289 |
66,85 436 127 |
|||
68,76 750 292 |
3,81 033 386 |
62,39 284 484 |
75,14 216 099 |
|||
68,76 750 292 |
3,81 033 386 |
62,39 284 484 |
75,14 216 099 |
|||
76,26 254 376 |
3,578 152 777 |
68,85 934 566 |
83,66 574 185 |
|||
83,7 575 846 |
4,148 463 607 |
75,17 441 339 |
92,3 407 558 |
|||
83,7 575 846 |
4,148 463 607 |
75,17 441 339 |
92,3 407 558 |
|||
91,25 262 544 |
4,765 761 822 |
81,39 226 423 |
101,1 129 866 |
|||
91,25 262 544 |
4,765 761 822 |
81,39 226 423 |
101,1 129 866 |
|||
Задание: Изобразить в одной системе координат исходные данные, линию регрессии, 95% -ный доверительный интервал.
Задание: Сделать общие выводы, касающиеся проделанной работы и эконометрической интерпретации полученных результатов.
По результатам корреляционного анализа мы выбрали наиболее тесно связанные показатели Y (количество выпитого пива) и Х (температура).
Полагая, что связь между ними может быть описана линейной функцией, составили уравнение парной регрессии, используя для оценивания неизвестных параметров МНК, получили, что Y = — 193,558+7,495x.
С изменением регрессора (температуры) на 1 единицу, отклик (кол-во выпитого пива) в среднем изменяется на 7,495% от объема фляги).
Проведя анализ значимости параметров и самой модели, можно сделать вывод, что оба параметра (и 0 и и1 ) значимы, и модель в целом также значима, то есть, верна. Следовательно, эту модель мы можем использовать для дальнейшего прогнозирования.
Нанеся на координатную плоскость исходные данные, линию регрессии, 95% -ный доверительный интервал, мы видим, что большинство значений исходных данных попадает или находится в непосредственной близи от доверительного интервала, что также подтверждает наше предположение о наличии тесной линейной связи между количеством выпитого пива и температурой воздуха в день охоты. Также, исходя из графика, можно заметить, что, чем ближе значение температуры к среднему, тем выше степень точности наших прогнозов.
Следовательно, чтобы расходовать меньше пива и брать его с собой меньше, Робинзону лучше выходить на охоту, когда температура относительно невысока.