サンプルの平均値(標本平均値)の分布はわかったが...
母集団の全データがわかっている場合には、その平均値(μ)と分散(σ2)が計算できる。前回はそのデータを使って、サンプリングをコンピュータシミュレーションした。、サンプルの平均値(標本平均値)とサンプルの分散(標本分散値)を用いて母集団の分散を推定した。サンプルの分散(s2)と母集団の分散(σ2)には以下の関係があることは前回記した。
各ステップでサンプルをn個取ってきたとすると、分散は以下のように計算した。
χ2分布の式と母集団の分散を標本分散から推定する式をよく見比べて、細かいことに目をつぶると、以下の式が導出できる。
いつものシミュレーションデータを調べてみると、母集団の平均は0.042559、母集団の分散は0.100406である。この中から10個のサンプルを取り、標本分散から母分散を推定するときに、推定された母分散が0.2を越えることがどの程度あるだろうか?このことは、上記の式を使うと導き出すことができる。s2が0.2以上になる確率なので、χ2 の値が (10-1) x 0.2 / 0.100406(自由度は10-1=9)よりも大きくなる確率を求める(数表で調べる)ことをすればよい。計算をしてみると、P(χ2 > 17.927) = 0.03602なので、推定母分散が0.2を越えることは、サンプル10個のサンプリングを100回実行すると、3回から4回程度は発生する事象であることがわかる。
χ2分布を利用すると、測定した値が期待される値に適合しているかどうかを検定することができる。測定は常に誤差が含まれており、その誤差は真の値のまわりに正規分布することがわかっている。よって、測定値から期待値(母集団の平均値)を引いて標準偏差で割った値の二乗和は、変数分の自由度のχ2分布にしたがうはずである。もしもχ2分布にしたがわないのであれば、それはモデル(期待値を得るために作った仮定)が間違っていることを意味する。それでは具体的にはどのように計算すればよいのだろうか。
メンデルの法則によると、1遺伝子座位で形質が決まっている場合には(例えば、しわのある豆とつるつるの豆)、優性形体が3/4発生し、劣勢形体が1/4発生する。任意に選んだ176個の豆(サンプル数176個)を調べたところ、130個の豆にしわがあり、46個の豆はつるつるだった。この時にこの形質はメンデルの法則に適合しているのだろうか?法則に従っているならば(理論的な母集団に一致しているならば)、しわのある豆は132個(176個の3/4)、つるつるの豆は44個(176個の1/4)になるはずである。わずかにずれているわけだが、これは誤差の範囲か、それとも理論的な母集団から逸脱している結果なのか?この疑問を解決するためには、