Парная и множественная регрессия и корреляция

1. Парная линейная регрессия и корреляция

Цель работы - овладеть навыками определения параметров линейной регрессии и корреляции с использованием формул и табличного процессора MS Excel.

1.1 Решение задач с использованием формул

1.1.1 Параметры a и b линейной регрессии

рассчитываются с помощью метода наименьших квадратов. Для этого составим систему нормальных уравнений (1).

По исходным данным определим , , , , в расчетной таблице 1.

Таблица 1 Расчет показателей парной линейной регрессии и корреляции

2

2

19.810.299.9696.04104.049.8470.0350.125-1.575
211.310.1114.13127.69102.0110.0880.0010.00011.300
311.510.1116.15132.25102.0110.120-0.0020.00011.500
411.39.2103.96127.6984.6410.088-0.0960.78811.300
510.910.7116.63118.81114.4910.0230.0630.45810.900
611.49102.6129.968110.104-0.1231.21811.400
712.610.4131.04158.76108.1610.2970.0100.01112.409
812.211.1135.42148.84123.2110.2320.0780.75312.164
Итого9180.8919.891040.04819.5680.797-0.0343.35379.397
Среднее11.37510.1114.986130.005102.44510.100-0.004´´

Система нормальных уравнений составит:

Решив систему, получим: a = 8,2717; b = 0,1607.

Уравнение линейной регрессии имеет вид:

.

Параметры уравнения можно определить и по следующим формулам:

= 10,1 – 0,1608. 11,375= 8,2709

Величина коэффициента регрессии b = 0,1607 означает, что с ростом среднедушевых доходов на 1 тыс. руб. общий коэффициент рождаемости увеличится в среднем на 0,1607 раз.

1.1.2 Средний коэффициент эластичности для линейной регрессии находится по формуле:

0,181

При увеличении величины среднедушевого дохода на 1%, общий коэффициент рождаемости в среднем увеличится на 0,181%.


1.1.3 Линейный коэффициент парной корреляции (r) определяется по формуле:

,

где средние квадратические отклонения:

тогда , значит связь между среднедушевым доходом и рождаемостью очень слабая.

1.1.4 Определим коэффициент детерминации:

Таким образом, вариация величины рождаемости на 3,6% зависит от вариации уровня среднедушевых доходов населения, а на остальные (100%-3,6%) 96,4% − от вариации факторов, не включенных в модель.

Подставляя в уравнение регрессии фактические значения x, определим теоретические (расчетные) значения (таблица 1) и найдем величину средней ошибки аппроксимации ():

==0,425


Так как допустимый предел значений не более 8-10%, качество модели по данному показателю удовлетворительное. Однако средняя ошибка аппроксимации не является главным критерием оценки значимости модели.

С помощью F−критерия Фишера оценим статистическую надежность результатов регрессионного моделирования:

Fфакт==.

Fтабл = 5,99 при .

Так как Fфакт < Fтабл, уравнение регрессии не значимо, статистически не надежно.

1.2 Решение задачи с помощью MS Excel

1.2.1 Параметры линейной регрессии

можно определить с помощью встроенной статистической функции ЛИНЕЙН MS Excel. Порядок вычисления следующий:

1) ввожу исходные данные (рисунок 1).

2) выделяю область пустых ячеек 5´2 (5 строк, 2 столбца) с целью вывода результатов регрессионной статистики или область 1´2 – для получения только оценок коэффициентов регрессии;

3) активизирую Мастер функций любым из способов:

а) в главном меню выбираю Вставка / Функция;

б) на панели инструментов Стандартная щелкаю по кнопке Вставка функции;

Рисунок 1 Ввод данных для корреляционно-регрессионного анализа

4) в окне «Категория» выбераю Статистические, в окне «Функция» – ЛИНЕЙН. Щелкаю по кнопке ОК (рисунок 2);

Рисунок 2 Диалоговое окно Мастер функций

5) заполняю аргументы функции (рисунок 3):


Рисунок 3 Диалоговое окно Аргументы функции

Щелкаю по кнопке ОК;

6) в левой верхней ячейке выделенной области появился первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажимаю на клавишу , а затем – на комбинацию клавиш + + .

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:

Значение коэффициента bЗначение коэффициента a
Среднеквадратическое отклонение bСреднеквадратическое отклонение a
Коэффициент детерминации R2Среднеквадратическое отклонение y
F – статистикаЧисло степеней свободы
Регрессионная сумма квадратовОстаточная сумма квадратов

Результаты вычислений функции ЛИНЕЙН представлены на рисунке 4.

Рисунок 4 Результаты вычислений функции ЛИНЕЙН

1.2.2 С помощью инструмента анализа данных Регрессия, помимо результатов регрессионной статистики, дисперсионного анализа и доверительных интервалов, можно получить остатки и графики подбора линии регрессии, остатков и нормальной вероятности. Порядок действий следующий:

1) проверяю доступ к пакету анализа. В главном меню последовательно выбераю Сервис / Настройки. Устанавливаю флажок Пакет анализа;

2) в главном меню выбираю Сервис / Анализ данных / Регрессия. Щелкаю по кнопке ОК;

3) после вызова режима Регрессия на экране появляется диалоговое окно (рисунок 5), в котором задаются следующие параметры:

Рисунок 5 Диалоговое окно режима Регрессия

Результаты регрессионного анализа для исходных данных представлены на рисунке 6.


Вывод итогов

Регрессионная статистика
Множественный R0,19101862
R-квадрат0,03648811
Нормированный R-квадрат-0,1240972
Стандартная ошибка0,74755394
Наблюдения8

Дисперсионный анализ

dfSSMSFЗначимость F
Регрессия10,126978640,1269786370,22721950,6504571
Остаток63,353021360,558836894
Итого73,48
КоэффициентыСтандартная ошибкаt-статистикаP-ЗначениеНижние 95%Верхние 95%
Y-пересечение8,2716683623,8446853412,1514552240,074955561,13593774417,67927447
Переменная X 10,1607324520,3371947270,4766754610,65045710,6643533190,985818223

Вывод остатка

НаблюдениеПредсказанное YОстаткиСтандартные остатки
19,8468463890,3531536110,510263509
210,087945070,0120549340,017417896
310,12009156-0,020091556-0,029029827
410,08794507-0,887945066-1,28297135
510,023652090,6763479150,977239505
610,10401831-1,104018311-1,595170599
710,296897250,1031027470,148970781
810,232604270,8673957271,253280084

2. Нелинейные модели регрессии и их линеаризация

Цель работы: ознакомиться с методикой расчета показателей парной нелинейной регрессии и корреляции, овладеть приемами построения нелинейных регрессионных моделей с помощью MS Exсel.

РЕШЕНИЕ:

2.1.1 Регрессия в виде степенной функции имеет вид:

.

Для оценки параметров модели линеаризую (привожу к линейному виду) модель путем логарифмирования: .

Обозначаю lny =Y, lna =A, lnx =X.

Тогда получаю: Y=A+bX.

Для расчетов составляю с помощью MS Excel вспомогательную таблицу, в которой рассчитаю натуральные логарифмы с помощью математической функции LN (рисунок 7).

Рисунок 7 Расчет натуральных логарифмов

Далее с помощью инструмента Регрессия рассчитываю параметры уравнения (рисунки 8, 9).


Рисунок 8 Диалоговое окно Регрессия

Рисунок 9 Результаты расчета параметров степенной функции

Таким образом, уравнение регрессии имеет вид:

.

Выполнив потенцирование, получим:


.

Параметр b=0,151 означает коэффициент эластичности, который показывает, что с ростом величины среднедушевых доходов населения на 1% общий коэффициент рождаемости увеличится в среднем на 0,151%.

2.1.2 Регрессия в виде экспоненты имеет вид:

. (13)

Для оценки ее параметров необходимо привести уравнение к линейному виду:

.

Для расчета параметров экспоненциальной прямой можно воспользоваться статистической функцией ЛГРФПРИБЛ MS Excel. Результаты вычислений представлены на рисунке 10.


Рисунок 10 Результаты вычислений параметров экспоненциальной функции

Таким образом, уравнение регрессии в виде экспоненты имеет вид:

.

2.1.3 Регрессия в виде равносторонней гиперболы имеет вид:

,

чтобы оценить параметры a и b, привожу модель к линейному виду, заменив

.

Тогда

.

Результаты замены представлены на рисунке 11.


Рисунок 11 Вспомогательная таблица для расчета параметров гиперболы

Далее с помощью инструмента Регрессия рассчитываю параметры уравнения. Результаты расчета представлены на рисунке 12.

Рисунок 12 Результаты вычислений параметров гиперболической функции

Выберем наилучшую модель, для чего объединим результаты построения парных регрессий в одной таблице 3.

Все уравнения регрессии достаточно хорошо описывают исходные данные.

Таблица 3 Результаты корреляционно-регрессионного анализа

Уравнение регрессииКоэффициент корреляцииКоэффициент детерминацииF-критерий Фишера

0,6590,0360,227

0,1610,0260,159

0,1790,0320,201

0,1520,0230,143

Предпочтение можно отдать линейной функции, для которой значения коэффициентов корреляции и детерминации и F-критериев Фишера наибольшие.


3. Множественная регрессия

Цель работы – овладеть методикой построения линейных моделей множественной регрессии, оценки их существенности и значимости, расчетом показателей множественной регрессии и корреляции.

Постановка задачи. По данным изучаемых регионов (таблица 1) изучить зависимость общего коэффициента рождаемости () от уровня бедности, % () и среднедушевого дохода, тыс. руб. ().

Таблица 1 Исходные данные для корреляционно-регрессионного анализа

Регионx1x2y
1Орловская область7,219,99,6
2 Рязанская область8,117,19,4
3 Смоленская область8,417,49,6
4 Тамбовская область8,613,58,9
5 Тверская область8,614,810,2
6 Тульская область8,414,28,4
7 Ярославская область9,915,19,9
8 Республика Каре
Актуально: