2種類のデータを取ったつもりではいるが、本当に「2種類」と言っていいのかわからない...
ある酵素の活性がpHにどの程度依存するのかを調べるために、pHが6.0の時のターンオーバーを6回、pHが6.5の時のターンオーバーを7回測定したとしよう。pH6.0の時はターンオーバーの平均値が2.56×104/sであり、pH6.5の時は2.74×104/sであった。それぞれのターンオーバーの平均値がずいぶん違っているようにも見えるが、そんなに違っていないのかもしれない。どのようにして違っているか同じなのかを主張すればよいのだろうか?
測定値には必ず誤差が含まれており、そのために標本平均値は母平均値のまわりをN(μ,(σ/√n)2)の正規分布にしたがって分布することは以前に説明した。つまり、
それでは、先のpHによるターンオーバーの違いの問題、つまり、2つの平均値は異なっていると見るべきか、たまたまの違いであると見なすべきかは、t分布を使うことで、どのように判断すればよいのだろうか?このような場合は、2つ平均値の差がt分布にしたがっているかどうかを調べればよい。帰無仮説はpH6.0とpH6.5のそれぞれの標本平均値は同一の母集団由来である、つまり両標本平均の差はゼロであるとなる。pH以外は同一の条件で測定しているので、両標本の分布つまり分散は同一であると考える(未知の母分散に由来する)。
n個のデータとm個のデータからそれぞれの平均値を得ている場合に、「両平均値が同一の分布由来である」という帰無仮説が成立するならば、
先の測定の生データは以下の通りであった;
pH=6.0 | pH=6.5 | |
1回目 | 2.64 | 2.73 |
2回目 | 2.69 | 2.71 |
3回目 | 2.52 | 2.73 |
4回目 | 2.54 | 2.91 |
5回目 | 2.48 | 2.66 |
6回目 | 2.46 | 2.69 |
7回目 | 2.75 | |
平均値 | 2.56 | 2.74 |
上記の問題では、2つの分布の分散が等しいことが仮定できた。もしも、2つの分布の分散が異なっていたらどうするのか?
2つのデータ群に関連があって、データがセットになっているときはどうすればよいのか?遺伝子の発現量をpH 6.0のときとpH 6.5のときで比較する場合には、ひとつの遺伝子に対してそれぞれのpHにおける発現量が測定される。つまり、ひとつの遺伝子に対して2つの数値が組で割りあたられる。たくさんの遺伝子で発現量を測定すると、組になった数値がたくさん得られることになる。pH 6.0から6.5に変化した際に遺伝子全般の発現量に変化があるかどうかを知りたい場合に、データがセットになっている際の検定を実行することになる。この場合にもt検定を実行することができる。それぞれの遺伝子の発現量ペアの差が統計的にゼロと一致するかどうかを検定することで、発現量が変化したかを調べることができる。