Экономико-математическое моделирование : Основы регрессионного анализа. Парная линейная регрессия
Основы регрессионного анализа. Парная линейная регрессия
12 Министерство образования и науки Российской Федерации Лабораторная работа по эконометрике на тему "Основы регрессионного анализа. Парная линейная регрессия" Новосибирск 2010 Ситуация №1. "Робинзон на охоте". Каждый раз, идя на охоту на уток, Робинзон берет с собой связку бумерангов и флягу с пивом собственного приготовления, поскольку в жарких условиях субтропиков ему необходимо утолять жажду. При этом он отмечает, какая была средняя температура в день охоты (в градусах Цельсия, Х3), какое количество уток он убил (в штуках, Х2) и сколько при этом выпил пива (в процентах от объема фляги, Х1). Задание. Основы регрессионного анализа. Парная линейная регрессия. Цель: ознакомиться с основными положениями, понятиями и методами анализа линейной модели парной регрессии. По результатам корреляционного анализа выбираем показатель Х1-колличество выпитого пива и показатель Х3-температура в день охоты, потому что они связаны между собой наиболее тесно, так как . Обозначим X3 как Х, а X1 как Y. |
X | 30 | 31 | 27 | 29 | 36 | 31 | 31 | 27 | 37 | 28 | 36 | 31 | | Y | 31 | 43 | 0 | 4 | 78 | 45 | 41 | 20 | 70 | 33 | 96 | 38 | | 35 | 37 | 32 | 36 | 29 | 29 | 36 | 34 | 34 | 30 | 33 | 34 | 33 | | 94 | 73 | 41 | 69 | 38 | 24 | 89 | 70 | 84 | 20 | 65 | 62 | 48 | | |
Задание 1: Вычислить оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Дать содержательную интерпретацию результатов и выбрать для дальнейшего анализа одно из уравнений. Для построения уравнения регрессии необходимо определить, какая из переменных является входной, а какая выходной. В данном случае очевидно, что количество выпитого пива зависит от средней температуры в день охоты, то есть экзогенной переменной является количество выпитого пива. Таким образом, получаем следующее уравнение парной регрессии: Где xi - средняя температура в день охоты, yi - количество выпитого пива, i - случайная компонента, 0, 1 - неизвестные параметры. С помощью МНК получаем следующую систему нормальных уравнений: Найдем МНК-оценку параметра 1 по формуле: : 1=7,452 Рассчитаем МНК-оценку параметра 0, используя формулу: : 0= - 198,88 Дадим интерпретацию полученным результатам: 1=7,452 Положительное значение оценки параметра 1 свидетельствует о том, что связь между переменными прямая. Кроме того, если средняя температура увеличивается на 1°С, количество выпитого Робинзоном пива возрастает в среднем на 1=7,452% от объема фляги. 0= - 198,88 Так как значение оценки параметра 0 отрицательно, то это позволяет сделать вывод о том, что изменение средней температуры в день охоты происходит быстрее изменения количества выпитого пива. Задание 2: Проверить значимость всех параметров модели по критерию Стьюдента. Для значимых коэффициентов построить доверительные интервалы. Сформулировать выводы. Проверим значимость всех параметров модели по критерию Стьюдента. 1) Проверим на значимость параметр : Необходимо проверить гипотезу: Вычислим t-статистику Стьюдента по формуле: ; tкр (0,05; 23) =2,069 Оценка дисперсии оценки вычисляется по формуле ; S2 = = 146,078 = 25,239 = - 7,88 |t|<tкр (0,05; 23) Так как статистика по абсолютному значению превышает критическое значение, то гипотеза H0 отвергается на 95% -ном уровне значимости, то есть параметр 0 в данном уравнении регрессии является значимым. 2) Проверим на значимость параметр : Необходимо проверить гипотезу: Вычислим t-статистику Стьюдента по формуле: tкр (0,05; 23) =2,069 ; S2 = = 146,078 = 0,779 = 9,947 |t|<tкр (0,05; 23) Так как статистика по абсолютному значению превышает критическое значение, то гипотеза H0 отвергается на 95% -ном уровне значимости, то есть параметр 1 в данном уравнении регрессии также является значимым. Построим для данных параметров 95% -ные доверительные интервалы. Для параметра 0 доверительный интервал будет выглядеть следующим образом:
[-198,88-2,069*25,239; - 198,88+2,069*25,239] [-251,099; - 146,661] Для параметра 1 доверительный интервал будет выглядеть следующим образом: [7,452-2,069*0,779; 7,452+2,069*0,779] [5,84; 9,06] Таким образом, параметры составленного уравнения парной регрессии являются значимыми. То есть взаимосвязь между количеством выпитого пива и средней температурой в день охоты можно описать уравнением линейной регрессии, а незначительные отклонения возможных значений параметров от их МНК-оценок позволяют принять данные оценки в качестве хороших приближений к реальным параметрам. Задание 3: Проверить значимость модели (уравнение регрессии) в целом с помощью критерия Фишера. Сформулировать выводы. Для начала найдём коэффициент детерминации: , Где TSS = - полная сумма квадратов, -общая сумма квадратов; RSS = - сумма квадратов, обусловленная регрессией, -объясненная сумма квадратов (сумма квадратов регрессии). ESS = - остаточная сумма квадратов. -остаточная сумма квадратов (сумма квадратов остатков) = 15504,60+3457,033=18862,64 Так как RSS>>ESS, то остатки регрессии невелики. Можно сделать предварительный вывод о том, что разброс значений относительно линии регрессии также невелик, и уравнение достаточно точно описывает наблюдаемые данные. Коэффициент детерминации показывает, насколько модель объясняет исходные данные, следовательно, исходя из полученного коэффициента, можно отметить, что наша модель объясняет исходные данные о наличии зависимости количества выпитого пива от температуры на 82%. В данном случае нельзя точно утверждать, что такое значение коэффициента детерминации означает достаточную пригодность уравнения регрессии, поэтому проверим его на значимость по критерию Фишера на 5% -ном уровне значимости. Проверим значимость модели в целом по F - критерию: Чтобы проверить значимость модели, необходимо проверить гипотезу:
Найдем F-статистику по формуле: Из таблицы находим значение: Если , то гипотеза отвергается с вероятностью 0,95. В нашем случае 102,495 > 4,28, значит, гипотеза отвергается с вероятностью 95%. Из проведенного анализа можно сделать вывод, что наша модель значима, и связь между количеством выпитого пива и температурой воздуха можно описать уравнением: Y= - 193,558+7,495x Задание. Построить таблицу дисперсионного анализа. |
Источник дисперсии | Число степеней свободы | Сумма квадратов | F-факт. | F-табл. | Значимость | Средняя сумма квадратов | | Объясненная дисперсия | 1 | 15405,60 | 102,495 | 4,279344 | Да | 15405,60 | | Остаточная дисперсия | 23 | 3457,033 | - | - | - | 150,305 | | Общая дисперсия | 24 | 18862,64 | - | - | - | 785,94 | | |
Задание 5: Выбрать прогнозную точку Xп в стороне от основного массива исходных данных. Используя уравнение регрессии, выполнить точечный и интервальный прогнозы величины Y в точке Xп. Проанализировать полученные результаты. Выберем в качестве прогнозной точки значение xп=42°С. Тогда прогнозируемое значение количества выпитого Робинзоном пива будет равно: yп = - 193,558+7,495 *42= 121,23. Это значит, что при температуре 420С Робинзон должен выпить 121,23% от объема фляги. Выполним интервальный прогноз. Для оценки точности прогноза необходимо вычислить стандартную ошибку прогноза по формуле: = 7,462; tкр (0,05; 23) =2,069 Границы доверительного интервала найдем по формуле: Получим [121,23-2,069*7,462; 121,23+2,069*7,462]. доверительный интервал для Y: [105,79; 136,67] То есть при температуре 420С количество выпитого пива с вероятностью 95% колеблется в пределах от 105,79% до 136,67%. Точечное прогнозирование показывает, что если температура будет равна 42 градусам, то Робинзону может быть недостаточно одной целой фляги пива для утоления жажды, т.к. объём выпитого пива выходит за рамки 100%. Задание: Построить 95% -ный доверительный интервал для уравнения регрессии на всем диапазоне исходных данных. |
i | xi | | | | | | 1 | 25 | -6,182905484 | 6,056203037 | -18,71318957 | 6,3473786 | | 2 | 28 | 16,30221704 | 4,12461405 | 7,768390566 | 24,83604351 | | 3 | 28 | 16,30221704 | 4,12461405 | 7,768390566 | 24,83604351 | | 4 | 29 | 23,79725788 | 3,55664372 | 16,43856202 | 31,15595373 | | 5 | 29 | 23,79725788 | 3,55664372 | 16,43856202 | 31,15595373 | | 6 | 30 | 31,29229872 | 3,063192858 | 24,95455269 | 37,63004474 | | 7 | 30 | 31,29229872 | 3,063192858 | 24,95455269 | 37,63004474 | | 8 | 31 | 38,78733956 | 2,685656131 | 33,23071702 | 44,34396209 | | 9 | 31 | 38,78733956 | 2,685656131 | 33,23071702 | 44,34396209 | | 10 | 31 | 38,78733956 | 2,685656131 | 33,23071702 | 44,34396209 | | 11 | 32 | 46,2823804 | 2,477601595 | 41,1562227 | 51,4085381 | | 12 | 32 | 46,2823804 | 2,477601595 | 41,1562227 | 51,4085381 | | 13 | 32 | 46,2823804 | 2,477601595 | 41,1562227 | 51,4085381 | | 14 | 33 | 53,77742124 | 2,48202194 | 48,64211784 | 58,91272463 | | 15 | 33 | 53,77742124 | 2,48202194 | 48,64211784 | 58,91272463 | | 16 | 34 | 61,27246208 | 2,697872977 | 55,69056289 | 66,85436127 | | 17 | 34 | 61,27246208 | 2,697872977 | 55,69056289 | 66,85436127 | | 18 | 34 | 61,27246208 | 2,697872977 | 55,69056289 | 66,85436127 | | 19 | 35 | 68,76750292 | 3,081033386 | 62,39284484 | 75,14216099 | | 20 | 35 | 68,76750292 | 3,081033386 | 62,39284484 | 75,14216099 | | 21 | 36 | 76,26254376 | 3,578152777 | 68,85934566 | 83,66574185 | | 22 | 37 | 83,7575846 | 4,148463607 | 75,17441339 | 92,3407558 | | 23 | 37 | 83,7575846 | 4,148463607 | 75,17441339 | 92,3407558 | | 24 | 38 | 91,25262544 | 4,765761822 | 81,39226423 | 101,1129866 | | 25 | 38 | 91,25262544 | 4,765761822 | 81,39226423 | 101,1129866 | | |
Задание: Изобразить в одной системе координат исходные данные, линию регрессии, 95% -ный доверительный интервал. 12 Задание: Сделать общие выводы, касающиеся проделанной работы и эконометрической интерпретации полученных результатов. По результатам корреляционного анализа мы выбрали наиболее тесно связанные показатели Y (количество выпитого пива) и Х (температура). Полагая, что связь между ними может быть описана линейной функцией, составили уравнение парной регрессии, используя для оценивания неизвестных параметров МНК, получили, что Y = - 193,558+7,495x. С изменением регрессора (температуры) на 1 единицу, отклик (кол-во выпитого пива) в среднем изменяется на 7,495 % от объема фляги). Проведя анализ значимости параметров и самой модели, можно сделать вывод, что оба параметра (и0 и и1) значимы, и модель в целом также значима, то есть, верна. Следовательно, эту модель мы можем использовать для дальнейшего прогнозирования. Нанеся на координатную плоскость исходные данные, линию регрессии, 95% -ный доверительный интервал, мы видим, что большинство значений исходных данных попадает или находится в непосредственной близи от доверительного интервала, что также подтверждает наше предположение о наличии тесной линейной связи между количеством выпитого пива и температурой воздуха в день охоты. Также, исходя из графика, можно заметить, что, чем ближе значение температуры к среднему, тем выше степень точности наших прогнозов. Следовательно, чтобы расходовать меньше пива и брать его с собой меньше, Робинзону лучше выходить на охоту, когда температура относительно невысока.
|