拟合优度检验法:
可以用来检测抽样结果与特定分布函数的吻合程度,也可以用来测试离散的二维变量的独立程度。
实例演示:某家啤酒厂生产三种类型的啤酒分别是淡啤酒、普通啤酒和黑啤酒。在一次对三种啤酒的市场份额的分析中,公司市场研究小组提出了一个问题:男性与女性饮酒者对于三种啤酒的偏好是否存在差异?请对下表的调查数据,进行分析后回答问题。
性别  | 淡啤酒  | 普通啤酒  | 黑啤酒  | 合计  | 
男性  | 20  | 40  | 20  | 80  | 
女性  | 30  | 30  | 10  | 70  | 
合计  | 50  | 70  | 30  | 150  | 
步骤1:提出假设:性别与啤酒偏好相互独立,即,其中i代表性别(1:男,2:女),j代表啤酒偏好(1:淡啤酒,2:普通啤酒,3:黑啤酒),,,为实际对应的i行j列的抽样数据,r为抽样的总数在此为150。
步骤2:计算实际统计量与假设的理论值差量,运用公式,其中为实测频数为假设的理论频数,针对此题的假设公式可以变形为,通过计算可以得到以下数据:
性别  | 实际频数()  | 期望频数()  | ||
男性  | 淡啤酒  | 20  | 26.67  | 1.67  | 
普通啤酒  | 40  | 37.33  | 0.19  | |
黑啤酒  | 20  | 16  | 1.00  | |
女性  | 淡啤酒  | 30  | 23.33  | 1.91  | 
普通啤酒  | 30  | 32.67  | 0.22  | |
黑啤酒  | 10  | 14  | 1.14  | |
合计  | 150  | 150  | ||
步骤3:确定自由度和显著水平并进行最终决策。自由度的选择是当假设的理论分布F(X)中有r个未知参数时,则自由度应为(k-r-1),此题的假设理论分布为二维分布且无未知参数,故自由度=(n-1)(m-1)。通常取定显著水平,进而通过查表得知临界值,对和进行比较若假设成立,反之则假设不成立,另外还可视为相关性,其值越大则说明相关性越高。此题存在=6.13>5.99 ,因此假设不成立并得出结论性别和啤酒偏好之间存在依赖关系。
常用参数的分布表如下:
n  | 0.1  | 0.05 ![]()  | 0.02  | 0.01  | 
1  | 2.70554  | 3.84146  | 5.41189  | 6.63490  | 
2  | 4.60517  | 5.99146  | 7.82405  | 9.21034  | 
3  | 6.25139  | 7.81473  | 9.83741  | 11.34487  | 
4  | 7.77944  | 9.48773  | 11.66784  | 13.27670  | 
5  | 9.23636  | 11.07050  | 13.38822  | 15.08627  | 
6  | 10.64464  | 12.59159  | 15.03321  | 16.81189  | 
7  | 12.01704  | 14.06714  | 16.62242  | 18.47531  | 
爱华网




