Статистические методы для анализа закономерностей в эмпирических данных

СТАТИСТИЧЕСКИЕ МЕТОДЫ ДЛЯ АНАЛИЗА ЗАКОНОМЕРНОСТЕЙ В ЭМПИРИЧЕСКИХ ДАННЫХ

Введение

ЗАДАНИЕ:

Анализ продуктов питания

Лаборатория производит анализ продуктов, которые обрабатываются при определенной температуре X 1 (t, °С), и в которые добавляются для увеличения срока годности определенные консерванты Х 2 (мг). В готовом продукте может содержаться некоторое количество нежелательных веществ Y (в долях к общей массе). Х 1 и Х 2 даны в относительных единицах (абсолютные значения t О (60; 80); консервант Х 2 О (0,5; 1)), Y - в абсолютных

Необходимо определить зависимость Y = f(Х 1 ,Х 2 ) и установить значения Х 1 и Х 2 , которые обеспечивают номинал Y ном. =0,009; 0,010; 0,011; 0,01 г. Определить ошибку e , которая соответствует установленному номиналу Y ном

Исходные данные, соответствующие конкретному варианту:

№	X 1i	Х 2i	Y i
1.	3	6	0,016
2.	3	6	0,015
3.	3	6	0,014
4.	6	4	0,014
5.	4	7	0,013
6.	4	7	0,013
7.	9	1	0,011
8.	9	1	0,012
9.	1	10	0,012
10.	1	10	0,017
11.	1	10	0,015
12.	9	2	0,009
13.	9	2	0,010
14.	2	9	0,014
15.	2	9	0,018

Описание задачи статистического анализа .

выборочное среднее:

выборочная дисперсия:

среднеквадратичное отклонение:

мат. ожидание произведения для вычисления коэф. ковариации:

Оценка параметров регрессии fr(x)=a+b*x

Уравнение линейной регрессии:

коэффициент корреляции:

отклонения фактических значений от теоретических (ошибка):

Расчетная часть

Вычисленные характеристики заданных факторов:

Фактор	N	Mxy	Mx	Dx	s x	a	b, 10 -4	rxy
X1	15	0.054	4.4	9.307	3.051	0.016	-6.032	-0.761
X2	15	0.086	6	10.267	3.204	0.01	5.13	0.68

Выявление линейной связи Y от X1 и Y от Х2 Фактор Х1:

Фактор Х2:

Вывод: вариационный ряд случайной ошибки: видно, что нормальный закон распределения искажен, что свидетельствует о неадекватности выявленной зависимости

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитаем t-критерии Стьюдента и доверительный интервал каждого из показателей. Оценка значимости коэффициентов регрессии и корреляции с помощью критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:

tb=b/mb; ta=a/ma; trxy=rxy/mrxy; где mb,ma,mrxy - величины случайной ошибки

Выдвигаем гипотезу H0 о статистически незначимом отличии параметров линейной регрессии от нуля: a=b=rxy = 0.

Определяем tтабл - это квантиль уровня 1-a/2 распределения Стьюдента с параметром n-m-1, где m - число параметров функции регресии при x

Определяем случайные ошибки

Фактичекие t-статистики

Фактор	Soct, 10 -3	Ma, 10 -4	mb, 10 -4	Mrxy	ta	tb	trxy	rxy 2
Х1	1.686	7.64	1.427	0.18	21.189	4.227	4.227	0.579
Х2	1.906	1.04	1.536	0.203	10.01	3.341	3.341	0.462

Коэффициент детерминации: rxy 2

Так как фактические t-статистики превосходят tтабл = 2.16 , то гипотеза H0 отклоняется, т.е. a,b,rxy неслучайно отличаются от нуля и статистически значимы на уровне a =0.05

( фактор Х1)

В среднем расчетные значения функции регрессии отклоняются от фактических на 9.6%. Качество построенной модели оценивается как хорошее(менее 10%)

(фактор Х2)

В среднем расчетные значения функции регрессии отклоняются от фактических на 11.5%. Качество построенной модели оценивается как плохое(более 8%)

Проверим гипотезу о статистической незначимости уравнения регрессии показателя тесноты связи (критерий Фишера).

Выдвигаем гипотезу H0 о статистической незначимости уравнения регрессии показателя тесноты связи

Критериальная статистика: Ffakt=(n-m-1)*((rxy)2/(1-(rxy)2)

Критическая область: Ftabl

Фактор	Ffakt	Ftabl
Х1	17.869	4.667
Х2	11.16	4.667

Вывод: так как < , то это указывает на необходимость отклонить принятие гипотезы H0 о случайной природе выявленной зависимости и статистической незначимости при a=0.05 уравнения регрессии и показателя тесноты связи

Расчет доверительного интервала для a,b. Для этого определим предельную ошибку для каждого параметра функции регрессии.

Доверительные интервалы параметров функции регрессии

Фактор	D a,10 -3	D b,10 -3	amin(amax)	bmin(bmax) 10 -4
Х1	1.65	3.083	0.015(0.018)	-9.114(-2.949)
Х2	2.256	3.317	0.0082(0.013)	1.812(8.447)

Анализ верхней и нижней границ доверительных интервалов приводят к выводу о том, что с вероятностью P = 1-a =0.95 параметры ,находясь в указанных границах, не принимают нулевых значений, т.е. не является статистически незначимыми и существенно отличаются от нуля

Фактор Х1 Фактор Х2

Полученные оценки уравнения регрессии позволяют использовать его для прогноза

прогнозное значение фактора

прогнозное значение результата

Ошибка прогноза составит:

Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:

Доверительный интервал прогноза:

Выборка	xp	yp	myp, 10 -3	D yp, 10 -3	ypmin(ypmax), 10 -3
Х1	4.62	0.013	1.741	3.762	9.638(17)
Х2	6.3	0.014	1.969	4.253	9.434(18)

Анализ полученных результатов.

По полученным данным можно сделать вывод, что две величины X1,X2 влияют на Y, т.к. на данном уровне значимости коэффициенты корреляции не равны нулю, что подтверждает гипотеза о параметрах a,b,rxy. Про зависимость Y от Х1 можно сказать, что Y зависит от X1 линейно. Этот факт подтверждается значениями признаков: приемлемой ошибкой аппроксимации , близким к нулю значением коэффициента при х в функции регрессии и отношением величины этого коэффициента к величины его доверительного интервала. Этот же вывод можно сделать по графическим представлениям зависимостей. Что касается зависимости Y от Х2, то можно сказать, что Y зависит от X2 линейно. Этот факт подтверждается значениями тех же признаков, что и для описанных выше зависимостей

Из-за допущенной отрицательной ошибки D нет значений X1 и X2, которые удовлетворяют заданному номиналу 0.009