卡方独立性检验
独立性检验或许是高中数学的最后一节课,但是她却没有一个很好的”被表述”,这无疑是很大的遗憾,为什么会有$\chi^2$与$\alpha$的关系,为什么检验用$\chi^2$表示都是问题
参考资料:《普林斯顿概率论读本》
卡方分布
直接引入卡方分布是不负责的行为,至少我们现在并不知道卡方分布与独立性检验有和关系,但并不妨碍引入卡方分布作为前提知识
卡方分布:如果随机变量 X 服从自由度为$\nu\geq0$的卡方分布, 那么 X 的概率密度函数为
$$f(x)=\begin{cases} \frac{1}{2^{\nu/2}\Gamma(\nu/2)}x^{(\nu/2-1)}e^{-x/2} & \text{若 } x\geq 0\\ 0&\text{其他} \end{cases}$$
我们将其记作$X\thicksim\chi^2(\nu)$.
证明卡方分布是概率分布
$$\begin{aligned}
\int_{0}^{\infty}{\frac{1}{2^{\nu/2}\Gamma(\nu/2)}}x^{\nu/2-1}\mathrm{e}^{-x/2}\mathrm{d}x& =\frac{1}{2^{\nu/2}\Gamma(\nu/2)}\int_{0}^{\infty}\mathrm{e}^{-t}(2t)^{\nu/2-1}2\mathrm{d}t \\
&=\frac{2^{\nu/2}}{2^{\nu/2}\Gamma(\nu/2)}\int_{0}^{\infty}\mathrm{e}^{-t}t^{\nu/2-1}\mathrm{d}t \\
&=\frac{2^{\nu/2}\Gamma(\nu/2)}{2^{\nu/2}\Gamma(\nu/2)}=1
\end{aligned}$$
每选择一个$\nu>0$, 我们都会得到一个不同的分布. 下面可以看到, ν 取正整数时的情形是最重要的.
我们需要引用这个参数, 约定的做法是把 ν 称为 (卡方分布的)自由度.
卡方分布的自由度是非常重要的,因为它极大地改变了分布的形状
下面是$\nu\in{1,2,3}$时的概率密度函数(使用mathics库)
蓝色为$\nu=1$,红色为$\nu=2$,棕黄为$\nu=3$
$\nu=1$时的概率密度函数对于我们十分重要
一般来说,如果有k种可能,其误差遵循$\chi^2(k-1)$的分布
对于$2\times2$的列联表,有2种可能,遵循$\chi^2(1)$的分布
而对于大于临界值$\chi_\alpha$的发生的概率$\alpha$的定义为$1-\int_{0}^{\chi_\alpha}{\frac{1}{2^{\nu/2}\Gamma(\nu/2)}}x^{\nu/2-1}\mathrm{e}^{-x/2}\mathrm{d}x$
令$\nu=1$即为$2\times2$的列联表的关系