R 検定の知識整理(1) 独立多群間の比較1

「xx検定」という言葉がゼミでも職場でも飛び交っているが、断片的に統計を勉強してきた自分にとっては知識の劣化があるので、ブログに書いて知識を正確に深化させていきたい。

まずは、直近ゼミでも登場している分散分析周りについておさらい。個々は各回で深堀することにする。

大分類

まず、独立に与えられた多群間で数値を比較する場合には、大きく分けて次の2つがある。

2群ずつを比較する場合
多群を一括して同時に比較する場合

1. 2群ずつを比較する場合

多群が互いに独立で、群間に関連性(順序関係)や系統がない場合は2群ずつを検定に総当たり $\frac {k(k-1)}{2}$ 通りの検定をする。

2. 多群を一括して同時に比較する場合

群間に何等かの順序等の関係がある場合は、全群を一括して検定する必要がある。この中には2パターンがあり、

2-1. 各群が正規分布に従っており、かつ母分散が均一と見なせる場合　⇒　一元配置分散分析(one-way ANOVA)

2-2. そうでない場合　⇒　Kruskal-Wallisの検定法

と考える。

2-1. 一元配置分散分析(one-way ANOVA)

各群が同じ母集団から抽出されたものであれば、(各群の分散は同程度なので)各群の平均の散らばりと各群内の散らばりは同程度であろう、つまり、

$F = \frac {S_{between}}{S_{within}}$

が1に近いと考え、F検定で判断する。 $S_{between}$ は群間分散、 $S_{within}$ は群内分散。

なお、前提となっている各群の分散の均一性は Bartlett検定 によって行う。

2-2. Kruskal-Wallisの検定法

$k$ 個の群間でデータに偏りがあるかを、検定統計量 $H$ で検定する。

$H = \frac {12}{N(N+1)} \sum_{i=1}^{k} \frac {R_{i}^{2}}{n_i} - 3(N+1)$

ただし、 $R_{i}$ は各群の順位和（全データに対して数値の大きい順(または小さい順)に順位を付し、群毎に順位を合計したもの）を表し、 $N$ はデータの個数、 $n_{i}$ はi番目の群のデータの個数を表す。 $\sum_{i=1}^{k} \frac {R_{i}^{2}}{n_i}$ は、群間の偏りを表し、その他の部分は $\chi ^{2}$ 分布に近似させるための補正項だという。

次回はRでそれぞれの検定の実行法、結果の解釈について確認していく。