データの平均と分散(標準偏差)を求めてはみたが...
測定結果は常に誤差を含んだ値である。求めたい真の値は、でたらめに発生する偶然誤差の中に埋まっている。測定値から真の値を求めるためには測定を何回も行い、たくさんの測定値から真の値を推定する必要がある。このことは測定を常日頃行っている方にとっては当たり前のことであろうが、たくさんの測定値があれば、なぜ真の値が求まるのだろうか?また高い精度で真の値を求めるためには、何回測定をすればよいのだろうか?このあたりのことをきっちり考えようとすると、頭が痛くなってくるかもしれない。
たくさんの測定値から真の値が、ある精度で求められることの基礎には「中心極限定理」が横たわっている。中心極限定理とは、「平均値がμで分散がσ2のある分布の数値群を考える。この中からn個のデータ(標本)を取ってきて平均値(標本平均値)を求める。この手続きを何回も行う。nが無限に大きい時には、標本平均値の分布は平均値がμで分散が(σ/√n)2の正規分布の近づく」である。この定理の意味を一歩ずつ考えていきたい。
「平均値がμで分散がσ2のある分布の数値群を考える。...
平均値と分散の意味は、第3回の講義で説明ずみである。無限に多くの厳密な測定結果が手元にあるとする(実際には不可能だが)。その測定結果群(数値群)がどのような分布をしているのかはわからなくても、その測定結果の平均値(μ)と分散(σ2)を計算することはできる。無限に多くの厳密測定の結果なので、この平均値(μ)こそが真の値である。測定誤差は「でたらめに発生」するので、無限に多くの厳密な測定の平均値では、「でたらめに発生」した誤差がお互いに相殺されているはずである。しかし無限に多くの測定はできないので、どうすればよいのかを現在検討しているわけである。
... この中からn個のデータ(標本)を取ってきて平均値(標本平均値)を求める。 ...
実際に測定をするときにn回(有限回)の測定ならば可能である。n回の測定とは先の無限回の測定結果の中からn個のデータ(数値)を取り出すことと同値である。よって無限の測定値からn個のデータ(数値=標本)を標本採取(サンプリング)することが、n回の測定をすることを意味する。n回の測定をして、その平均値(標本平均値)を求めることは容易にできる。
... この手続きを何回も行う。...
この文書の意味は少々わかりにくいかもしれない。n個のデータをサンプリングし標本平均値を求める行為を、何回も行うことを意味している。n個のデータを取る時のnと、手続きの回数を混同してはいけない。1回の手続きで1個の標本平均値を得ることができる。手続きを何回も実行することで、標本平均値がたくさん得られる。手続きをM回実行すれば、M個の標本平均値が得られる。毎回あつかう標本が異なっているので、M個の標本平均値はお互いに異なった値であろう。要するに標本平均値の分布が得られることになる。この文章までが、中心極限定理の準備である。次の文章が中心極限定理の主張である。
... nが無限に大きい時には、標本平均値の分布は平均値がμで分散が(σ/√n)2の正規分布の近づく」
中心極限定理は以下のことを述べている:『標本平均値の分布は、「平均値がμで分散が(σ/√n)2の正規分布」である』(ただし、nが無限に大きいとき)。
この証明をするにあたって、まずはおおもとの分布(無限に多くの厳密な測定によるデータ群(母集団))が正規分布をしていると仮定する。この前提をおくと、証明すべきことは、「N(μ,σ2)に従うデータからn個のデータを取ってきて平均値を求める。nが無限に大きい時には、標本平均値の分布はN(μ,(σ/√n)2)に近づく」となる。これは正規分布の性質そのものである。平均値がμ、分散がσ2の正規分布は、以下の式に従う分布である。
いちいち上記の式を書くのは大変なので、平均値がμで分散がσ2の正規分布をN(μ,σ2)と書くことが多い。
この分布は誤差の分布の様子を表しており、その研究をしたガウスにちなんでガウス分布とも呼ばれる。この式は、標本平均値がxの値を取る確率を表している。例えば標本平均値がμとははるかに異なる値を取る確率は、(x-μ)が無限大だと見なせば、f(x)は限りなくゼロに近くなる。つまりそんなことが起こる確率はほとんどゼロであることを意味する。このように事象の確率を表す関数のことを確率密度関数とよぶ。f(x)をマイナス無限大からプラス無限大まで積分すれば1になる(自分で計算してみてください)。
正規分布のグラフを描いてみると、平均値μに対して線対称な上に凸のクリスマスベルのような形をしている。
つま平均値μが起こる確率が一番高く、平均値μから離れるにしたがって確率は単調に減少する。平均値μから±1.96σの範囲でf(x)が表す確率の約95%をしめる。平均値μから±2.58σの範囲でf(x)が表す確率の約99%をしめる。式で表すと以下のようになる。
つまり、標本平均値を何回も測定してデータを集めた場合に、その中に平均値μから±1.96σ以上離れている値が存在する確率は5%程度、平均値μから±2.58σ以上離れている値が存在する確率は1%程度であることを意味する。これぐらいの頻度で発生する事象は「まれな」事象(めったに起こらないこと)と解釈するのが一般的である(ただし近年急激に発達してきた大規模データ測定技術は、1回の測定で一万個程度のデータをすぐに取ってしまう。この場合は、1%程度のデータ=100個程度のデータとなり、「まれな」事象とはとても言えない。大規模データの統計解析には注意が必要である)。
以下の数値を覚えておくと、正規分布を用いた概算を行うときに便利である。正規分布の値を求めることは容易ではないために、数表や数学ライブラリーとして与えられている。これらで与えてくれるのはN(0,1)の値である。実際にはN(μ,σ2)の値が必要であるため、数値を変換する必要がある。Xの値を以下の式にしたがって変換すればN(0,1)の数表を用いて、N(μ,σ2)の値を求めることができる。μ±1σ内に全体の68.27%がおさまっている
μ±2σ内に全体の95.45%がおさまっている
μ±3σ内に全体の99.97%がおさまっている
μ±4σ内に全体の99.99%がおさまっている
中心極限定理をもとにデータ測定を考える
中心極限定理によれば、母集団の平均値(限りなく真の値に近い値)と、データをn個取ってきて(サンプリングして)得られる標本平均値が、統計的に一致することを意味する。ただしその信頼性(分布)は分散(σ/√n)2の正規分布をしている。分母に√nがあることより、たくさんデータを取ってくれば、標本平均値の分布が母集団の平均値のすぐそばになっていくことがわかる。ただしnではなく√nに依存することが注意すべき点である。このことが大数の法則とよばれる法則の基本である。ここで気がつくことはσ2である。これは母集団の分散であり、標本集団の分散ではない。標本集団からどのようにして求めればよいのだろうか?
標本集団(サンプル)の分散と母数団(全体)の分散の関係
N(μ,σ2)に従うデータからサンプリングをして標本平均値を求める行為を何回も実行することで、標本平均値の分布を求めることができた。標本平均値の分布の平均値が、母集団の分布の平均値と一致し、分散は(σ/√n)2となる。それでは標本平均値の分布の分散(標本の分散)の平均値はどうなるのか?標本の分散をs2とすると、母集団の分散であるσ2とは、
結局どの程度の測定をすればよいのか?
n回の測定をして標本平均値aと標本分散s2、推定母分散σ2(=n/(n-1)×s2)を得ることができた。この値は真の値(母平均μ)とどのような関係にあるのか?aはN(μ,(σ/√n)2)にしたがう分布をするので、標本平均値を1回得た場合には、このaが正規分布の真ん中の方(95%領域内)にあるためには、