大学院博士前期課程:計算生物学演習(2009年度後期)

Go back to the top page
第6回:t分布と検定


2種類のデータを取ったつもりではいるが、本当に「2種類」と言っていいのかわからない...
 ある酵素の活性がpHにどの程度依存するのかを調べるために、pHが6.0の時のターンオーバーを6回、pHが6.5の時のターンオーバーを7回測定したとしよう。pH6.0の時はターンオーバーの平均値が2.56×104/sであり、pH6.5の時は2.74×104/sであった。それぞれのターンオーバーの平均値がずいぶん違っているようにも見えるが、そんなに違っていないのかもしれない。どのようにして違っているか同じなのかを主張すればよいのだろうか?

 測定値には必ず誤差が含まれており、そのために標本平均値は母平均値のまわりをN(μ,(σ/√n)2)の正規分布にしたがって分布することは以前に説明した。つまり、

N(0,1)にしたがう。よって、pH6.0の時の標本平均値とpH6.5の時の標本平均値も同様な正規分布をするはずである。この正規分布が別々の分布なのか、同一の分布なのかを測定すれば、上記の疑問を解くことができる。母集団の分散は、標本分散から推定することができることも以前に説明した(n/(n-1)倍)。ところがここで問題が生じる。推定された母集団の分散(s2)を用いると、
はもはやN(0,1)にはしたがわないことがわかっている。どのような分布をするのかをウィリアム・ゴセットが丹念に調べ、この値は自由度がn-1のt分布にしたがうことが見いだされた。上式を変形すると分子は正規分布、分母は自由度n-1のχ2分布になっていることがわかる(詳細はこちら)。nが小さいときには、t分布は正規分布よりも裾野が広くなる。またはnが大きくなれば、 t分布は正規分布に近づく。

 それでは、先のpHによるターンオーバーの違いの問題、つまり、2つの平均値は異なっていると見るべきか、たまたまの違いであると見なすべきかは、t分布を使うことで、どのように判断すればよいのだろうか?このような場合は、2つ平均値の差がt分布にしたがっているかどうかを調べればよい。帰無仮説はpH6.0とpH6.5のそれぞれの標本平均値は同一の母集団由来である、つまり両標本平均の差はゼロであるとなる。pH以外は同一の条件で測定しているので、両標本の分布つまり分散は同一であると考える(未知の母分散に由来する)。

 n個のデータとm個のデータからそれぞれの平均値を得ている場合に、「両平均値が同一の分布由来である」という帰無仮説が成立するならば、

 ただし、 
が自由度n+m-2のt分布にしたがうはずである。上式の値を実際のデータで計算し、t分布の数表と見比べて、その値がどの程度の確率で得られるかを調べればよい。確率が設定された閾値よりも小さければ、帰無仮説は棄却されて、両平均値が同一の分布由来であるとは言えなくなる。

 先の測定の生データは以下の通りであった;

pH=6.0pH=6.5
1回目2.642.73
2回目2.692.71
3回目2.522.73
4回目2.542.91
5回目2.482.66
6回目2.462.69
7回目  2.75
平均値2.562.74
2つの平均値がどのように異なる可能性があるのか(どちらが大きいか)に関しては何の情報もないので、両側検定をすることになる。有意水準を1%にする。このデータよりsは0.086になり、t = |2.56-2.74| / (0.086 √(1/6+1/7)) = 3.886になる。自由度は(6-1)+(7-1) =11である。t分布において、自由度11で両側1%の値を数表で調べると、3.106である。実データから得られたtの値(3.886)は、3.106よりも大きいので、このデータから得られた平均値の差はt分布にしたがっているとは言えない、つまり帰無仮説は棄却されることになる。よって、pH 6.0とpH 6.5の際に測定したターンオーバーは有意に異なっていると言え、この酵素はpH 6.0とpH 6.5では異なるターンオーバーで機能していることが示された。

上記の問題では、2つの分布の分散が等しいことが仮定できた。もしも、2つの分布の分散が異なっていたらどうするのか?

 自由度は にもっとも近い整数
tの計算方法は、分散が同一であることを仮定できた場合とほぼ同じである。自由度の求め方が非常に複雑になっている。分散が等しいと仮定できない場合には、t分布を求めることはできない。しかし上記の近似法(ウェルチの近似法)を用いて、近似的にt分布を求めることで、t検定を実行するのが常である。

2つのデータ群に関連があって、データがセットになっているときはどうすればよいのか?遺伝子の発現量をpH 6.0のときとpH 6.5のときで比較する場合には、ひとつの遺伝子に対してそれぞれのpHにおける発現量が測定される。つまり、ひとつの遺伝子に対して2つの数値が組で割りあたられる。たくさんの遺伝子で発現量を測定すると、組になった数値がたくさん得られることになる。pH 6.0から6.5に変化した際に遺伝子全般の発現量に変化があるかどうかを知りたい場合に、データがセットになっている際の検定を実行することになる。この場合にもt検定を実行することができる。それぞれの遺伝子の発現量ペアの差が統計的にゼロと一致するかどうかを検定することで、発現量が変化したかを調べることができる。

 ただし、   


Go back to the top page