Статистические методы для анализа закономерностей в эмпирических данных
СТАТИСТИЧЕСКИЕ МЕТОДЫ ДЛЯ АНАЛИЗА ЗАКОНОМЕРНОСТЕЙ В ЭМПИРИЧЕСКИХ ДАННЫХ
Введение
ЗАДАНИЕ:
Анализ продуктов питания
Лаборатория производит анализ продуктов, которые обрабатываются при определенной температуре X 1 (t, °С), и в которые добавляются для увеличения срока годности определенные консерванты Х 2 (мг). В готовом продукте может содержаться некоторое количество нежелательных веществ Y (в долях к общей массе). Х 1 и Х 2 даны в относительных единицах (абсолютные значения t О (60; 80); консервант Х 2 О (0,5; 1)), Y - в абсолютных
Необходимо определить зависимость Y = f(Х 1 ,Х 2 ) и установить значения Х 1 и Х 2 , которые обеспечивают номинал Y ном. =0,009; 0,010; 0,011; 0,01 г. Определить ошибку e , которая соответствует установленному номиналу Y ном
Исходные данные, соответствующие конкретному варианту:
№ | X 1i | Х 2i | Y i |
1. | 3 | 6 | 0,016 |
2. | 3 | 6 | 0,015 |
3. | 3 | 6 | 0,014 |
4. | 6 | 4 | 0,014 |
5. | 4 | 7 | 0,013 |
6. | 4 | 7 | 0,013 |
7. | 9 | 1 | 0,011 |
8. | 9 | 1 | 0,012 |
9. | 1 | 10 | 0,012 |
10. | 1 | 10 | 0,017 |
11. | 1 | 10 | 0,015 |
12. | 9 | 2 | 0,009 |
13. | 9 | 2 | 0,010 |
14. | 2 | 9 | 0,014 |
15. | 2 | 9 | 0,018 |
Описание задачи статистического анализа .
выборочное среднее:
выборочная дисперсия:
среднеквадратичное отклонение:
мат. ожидание произведения для вычисления коэф. ковариации:
Оценка параметров регрессии fr(x)=a+b*x
Уравнение линейной регрессии:
коэффициент корреляции:
отклонения фактических значений от теоретических (ошибка):
Расчетная часть
Вычисленные характеристики заданных факторов:
Фактор | N | Mxy | Mx | Dx | s x | a | b, 10 -4 | rxy |
X1 | 15 | 0.054 | 4.4 | 9.307 | 3.051 | 0.016 | -6.032 | -0.761 |
X2 | 15 | 0.086 | 6 | 10.267 | 3.204 | 0.01 | 5.13 | 0.68 |
Выявление линейной связи Y от X1 и Y от Х2 Фактор Х1:
Фактор Х2:
Вывод: вариационный ряд случайной ошибки: видно, что нормальный закон распределения искажен, что свидетельствует о неадекватности выявленной зависимости
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитаем t-критерии Стьюдента и доверительный интервал каждого из показателей. Оценка значимости коэффициентов регрессии и корреляции с помощью критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
tb=b/mb; ta=a/ma; trxy=rxy/mrxy; где mb,ma,mrxy - величины случайной ошибки
Выдвигаем гипотезу H0 о статистически незначимом отличии параметров линейной регрессии от нуля: a=b=rxy = 0.
Определяем tтабл - это квантиль уровня 1-a/2 распределения Стьюдента с параметром n-m-1, где m - число параметров функции регресии при x
Определяем случайные ошибки
Фактичекие t-статистики
Фактор | Soct, 10 -3 | Ma, 10 -4 | mb, 10 -4 | Mrxy | ta | tb | trxy | rxy 2 |
Х1 | 1.686 | 7.64 | 1.427 | 0.18 | 21.189 | 4.227 | 4.227 | 0.579 |
Х2 | 1.906 | 1.04 | 1.536 | 0.203 | 10.01 | 3.341 | 3.341 | 0.462 |
Коэффициент детерминации: rxy 2
Так как фактические t-статистики превосходят tтабл = 2.16 , то гипотеза H0 отклоняется, т.е. a,b,rxy неслучайно отличаются от нуля и статистически значимы на уровне a =0.05
( фактор Х1)
В среднем расчетные значения функции регрессии отклоняются от фактических на 9.6%. Качество построенной модели оценивается как хорошее(менее 10%)
(фактор Х2)
В среднем расчетные значения функции регрессии отклоняются от фактических на 11.5%. Качество построенной модели оценивается как плохое(более 8%)
Проверим гипотезу о статистической незначимости уравнения регрессии показателя тесноты связи (критерий Фишера).
Выдвигаем гипотезу H0 о статистической незначимости уравнения регрессии показателя тесноты связи
Критериальная статистика: Ffakt=(n-m-1)*((rxy)2/(1-(rxy)2)
Критическая область: Ftabl Фактор Ffakt Ftabl Х1 17.869 4.667 Х2 11.16 4.667 Вывод: так как < , то это указывает на необходимость отклонить принятие гипотезы H0 о случайной природе выявленной зависимости и статистической незначимости при a=0.05 уравнения регрессии и показателя тесноты связи Расчет доверительного интервала для a,b. Для этого определим предельную ошибку для каждого параметра функции регрессии. Доверительные интервалы параметров функции регрессии Фактор D a,10 -3 D b,10 -3 amin(amax) bmin(bmax) 10 -4 Х1 1.65 3.083 0.015(0.018) -9.114(-2.949) Х2 2.256 3.317 0.0082(0.013) 1.812(8.447) Анализ верхней и нижней границ доверительных интервалов приводят к выводу о том, что с вероятностью P = 1-a =0.95 параметры ,находясь в указанных границах, не принимают нулевых значений, т.е. не является статистически незначимыми и существенно отличаются от нуля Фактор Х1 Фактор Х2 Полученные оценки уравнения регрессии позволяют использовать его для прогноза прогнозное значение фактора прогнозное значение результата Ошибка прогноза составит: Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит: Доверительный интервал прогноза: Выборка xp yp myp, 10 -3 D yp, 10 -3 ypmin(ypmax), 10 -3 Х1 4.62 0.013 1.741 3.762 9.638(17) Х2 6.3 0.014 1.969 4.253 9.434(18) Анализ полученных результатов. По полученным данным можно сделать вывод, что две величины X1,X2 влияют на Y, т.к. на данном уровне значимости коэффициенты корреляции не равны нулю, что подтверждает гипотеза о параметрах a,b,rxy. Про зависимость Y от Х1 можно сказать, что Y зависит от X1 линейно. Этот факт подтверждается значениями признаков: приемлемой ошибкой аппроксимации , близким к нулю значением коэффициента при х в функции регрессии и отношением величины этого коэффициента к величины его доверительного интервала. Этот же вывод можно сделать по графическим представлениям зависимостей. Что касается зависимости Y от Х2, то можно сказать, что Y зависит от X2 линейно. Этот факт подтверждается значениями тех же признаков, что и для описанных выше зависимостей Из-за допущенной отрицательной ошибки D нет значений X1 и X2, которые удовлетворяют заданному номиналу 0.009