大学院博士前期課程:計算生物学演習(2009年度後期)

Go back to the top page
第5回:χ二乗分布と検定


サンプルの平均値(標本平均値)の分布はわかったが...
 母集団の全データがわかっている場合には、その平均値(μ)と分散(σ2)が計算できる。前回はそのデータを使って、サンプリングをコンピュータシミュレーションした。、サンプルの平均値(標本平均値)とサンプルの分散(標本分散値)を用いて母集団の分散を推定した。サンプルの分散(s2)と母集団の分散(σ2)には以下の関係があることは前回記した。

100回シミュレーションを実行し、毎回信頼水準95%の信頼区間を求めてプロットしてみると、5回程度は真の平均値が信頼区間から外れていること確かめることができた。このサンプリングを実際に行ってみると、各サンプルの分散がずいぶん異なる値を取ることに気がつく。標本平均値が母平均に対して、どのように振る舞うかは母集団の分散と標本の個数を用いて記すことができた。ところが母集団の分散が前もってわかっていることはないので、母集団の分散は標本分散から推定した。そうすると、標本分散(s2)がどの程度ふれるのかが気になってくる。

 各ステップでサンプルをn個取ってきたとすると、分散は以下のように計算した。

   ただし  
先の計算でこの値のn/n-1が母集団の分散と推定できることを示しており、このことはこの値のn/n-1が分散の期待値(平均値)であることを意味する。サンプルが正規分布していることを仮定すると(xkが正規分布しているとすると)、上式の各項はN(0,s2)で正規分布する変数と見なせる(サンプリングをするたびに、xkの値は変わるので)。N(0,s1)の正規分布をする変数の二乗をk個足した変数の分布を自由度kのχ2分布(カイじじょうぶんぷ)とよび、s2は自由度nのχ2分布にしたがう。
   ただし  

 χ2分布の式と母集団の分散を標本分散から推定する式をよく見比べて、細かいことに目をつぶると、以下の式が導出できる。

一番右の項で標本分散と母分散の割り算をしている。この部分は推定された母分散と本当の母分散の割り算にしないと、議論がすっきりしない。そこで、s2の定義式にあらわれるnをn-1に置き換えて、s2が推定母分散であることにする。そうすると上の式は、
になる。n個の標本値(サンプル)から推定された母分散s2と本当の母分散とは、自由度n-1のχ2分布で統計的に関係していることがわかった。

 いつものシミュレーションデータを調べてみると、母集団の平均は0.042559、母集団の分散は0.100406である。この中から10個のサンプルを取り、標本分散から母分散を推定するときに、推定された母分散が0.2を越えることがどの程度あるだろうか?このことは、上記の式を使うと導き出すことができる。s2が0.2以上になる確率なので、χ2 の値が (10-1) x 0.2 / 0.100406(自由度は10-1=9)よりも大きくなる確率を求める(数表で調べる)ことをすればよい。計算をしてみると、P(χ2 > 17.927) = 0.03602なので、推定母分散が0.2を越えることは、サンプル10個のサンプリングを100回実行すると、3回から4回程度は発生する事象であることがわかる。

 χ2分布を利用すると、測定した値が期待される値に適合しているかどうかを検定することができる。測定は常に誤差が含まれており、その誤差は真の値のまわりに正規分布することがわかっている。よって、測定値から期待値(母集団の平均値)を引いて標準偏差で割った値の二乗和は、変数分の自由度のχ2分布にしたがうはずである。もしもχ2分布にしたがわないのであれば、それはモデル(期待値を得るために作った仮定)が間違っていることを意味する。それでは具体的にはどのように計算すればよいのだろうか。

 メンデルの法則によると、1遺伝子座位で形質が決まっている場合には(例えば、しわのある豆とつるつるの豆)、優性形体が3/4発生し、劣勢形体が1/4発生する。任意に選んだ176個の豆(サンプル数176個)を調べたところ、130個の豆にしわがあり、46個の豆はつるつるだった。この時にこの形質はメンデルの法則に適合しているのだろうか?法則に従っているならば(理論的な母集団に一致しているならば)、しわのある豆は132個(176個の3/4)、つるつるの豆は44個(176個の1/4)になるはずである。わずかにずれているわけだが、これは誤差の範囲か、それとも理論的な母集団から逸脱している結果なのか?この疑問を解決するためには、

を計算し、数表を見ればよい。Oiは事象iを観測した回数、nは全事象数、piは事象iが起こる理論的確率である。先のχ2分布と比較すると、分子は同じ形をしているが、分母が一見標準偏差とは異なる値のようにみえる。ところがこの式を展開すると、分母が標準偏差になっていることがわかる。先の数値を代入すると、χ2 = 0.1212になる。自由度1のχ2にしたがうはずなので、P(χ2 >0.1212) = 0.727737である。これは、このようなサンプリングを100回程度行ったときに、72〜73回程度はχ2がこれ以上の値になることを意味している。理論的な母集団の中から頻繁に得られる分布と見なすことができ、先の観測はメンデルの法則に従っていないとは言えないことを意味する。自由度1の場合は、χ2 >3.84で5%に、χ2 >7.88で1%の確率になる。観測事象が多くなる場合でも、自由度を大きくすることのみで、χ2適合性検定が実行できる。


Go back to the top page