信頼区間の意味について

95%信頼区間について調べていて、よくわからなかったこと。まだわからないまま。誰か助けて。

 

疑問点

95%信頼区間の意味について、

『信頼区間の中に95%の確率で母平均がある』

ではなくて

『サンプリングを例えば100回繰り返したときに95回は信頼区間の中に母平均が入る割合』

であると注意書がよく書かれているが、この注意書が意図していることがいまいちわからない。

 

2つの文の違いはわかるのだけども、結果起こることは同じような気がして、この意味を間違えると具体的にどんな不都合が生じるのかがわからない。どんな不都合を想定してこの注意喚起をしているかわからないので、自分が理解できているのか理解できていないのかわからない状態になってしまっている。

 

 

結果として信頼区間の中に母平均がある確率は95%じゃないのか?

100回中95回信頼区間の中に母平均がある場合、逆に一回のサンプリングで算出された信頼区間の中に母平均がある確率は95%になるんじゃないのか?だってそうじゃないと100回やって95回という話にはならないでしょ?と思ってしまうので、結果的には同じことを言っているように感じる。100回中95回信頼区間の中に母平均があるのに、信頼区間の中に母平均がある確率は90%ですなんてことはないはずだけど。(何か思い違いしているのかな?反例はある?)

 

 

確率分布を仮定して計算してるんじゃないの?

母サンプルからサンプルを抜き出して標本平均を求めることを繰り返した場合、その標本平均の分布は中心極限定理から求まる。nが大きければNμ, σ2/n)の正規分布で分布するはずだ。(μ:母平均、σ2:母分散、n:サンプリング数)この分布から標本平均が95%の確率で入る区間 μ ± 1.96×σ/√が求まる。

信頼区間の幅はこれを使っているはずだ。区間の幅はそのままで中心を標本平均Xbarにして、Xbar ± 1.96×σ/√nが95%信頼区間となる。

確率分布を仮定して区間の幅を計算しているので、出てきた結果もこの区間の中に真値がこのくらいの確率であるんじゃないかと推測しているという話ではないのか?

 

 

標本平均から母平均までの距離の分布

n回目のサンプリングの標本平均をXbar nとした場合その標本平均から母平均までの距離LnLn = μ - Xbar nとなる。これは母平均からの標本平均までの距離 ln = Xbar n - μと符号を反対にしただけだ。lnの分布はNμσ2/n)の正規分布になるので、符号が逆なだけのLnも同じNμσ2/n)の分布になるはずだ。標本平均から母平均までの距離がわかるということは母平均の位置がわかるということと同じなので、Lnの分布から母平均がどの位置にあるか確率的に推測できるということだ。そしてその確率密度を累積して95%になる区間を95%信頼区間としているのではないのか?つまり、95%信頼区間は確率を表しているように思えるのだ。

 

この文章を書いていて、母平均の分布という表現はできないなと思った。母平均は1つしかないはずなので、分布するようなものではない。だからここでは標本平均から母平均までの距離という表現にしたのだ。

つまり、よく書かれている注意書きはこのことを言いたいのか?

(そうだとして、この表現だとしっくりくるのに、元の注意書きだといまいち理解できた気がしないのはなぜだろう。言っていることはあまり変わらないような気がするのだが)