適合度の検定と独立性の検定

wiki抜粋:

http://ja.wikipedia.org/wiki/%E3%82%AB%E3%82%A4%E4%BA%8C%E4%B9%97%E6%A4%9C%E5%AE%9A

これによると、

独立性の検定:2つの変数に対する2つの観察が互いに独立かどうかを検定する。カイ二乗の計算値は、確率分布が二項分布あるいは正規分布に従う集団に関しては正確にカイ二乗分布に従う。一般の頻度分布でもカイ二乗は近似的にはカイ二乗分布に従うので、解二乗検定の適用が可能。期待値Eが小さい(標本数が小さい、または観測数が少ない)場合は、二項分布を正規分布ではうまく近似できないため、尤度比検定の1つであるG検定を用いるのがより適切。前標本数が小さい場合には、二項検定、さらに2x2分割表で表される場合にはフィッシャーの正確確率検定を用いる必要がある。

適合度検定:観測された頻度分布が理論分布と同じかどうかを検定する。観測値と理論値を比較する。

#############################

フィッシャーの正確検定:標本数が少ない場合に、2つのカテゴリーに分類されたデータの分析に用いられる統計学的検定法。カイ二乗検定は標本数が小さい(分割表のセルの期待値に10未満のものがある)場合や、表中の数値の偏りが大きい場合にはこの近似は不正確である。観測されたテーブルが得られる確率は超幾何分布に従う。検定時には、観測されたテーブルよりも極端な場合も含めて確率を計算し、総和をとってp値を求める。

#############################

統計学の基礎」(日本教育研究センター) p.119より抜粋:2×2分割表を利用する上での注意点:期待度数が10以下のセルがある場合は、カイ二乗確率が低めに出るとの批判から、Yates連続補正によって求めたカイ二乗値が利用されることもある。さらに、期待度数が5以下であるカイ二乗検定では、より確率が低めに計算されるので、後述するFisherの直接確率計算法を用いる。