単回帰出力結果の読み方

密度関数のグラフ

 確率的に起こることには、離散的なものと連続的なものがあります。

  • サイコロの目や宝くじの賞金のように、いくつかの結果ががそれぞれ決まった確率で起こり、半端な目や半端な賞金が出ることはない。
  • ある子供の1年後の身長は、確率的にしか予測できない。目盛りはミリ刻みなのでミリまでしか測定できないが、やろうと思えばいくらでも細かい桁まで測ることができる。例えば148〜152センチである確率なら現在の身長や年齢などから予測値が出せるとしても、厳密にピッタリ150センチになる確率はゼロとみなせる。

 これらが「離散的なもの」と「連続的なもの」の例です。

 離散的なものに関する予測を、当たっているかどうかは別として、書き表すのは簡単です。

  • 1が出る確率 1/6
  • 2が出る確率 1/6(以下略)  と、「起こること・その確率」の一覧表を書けばいいのです。では、連続的なものに関する予測を書き表すには、どうしたらいいでしょうか。

 「起こること×その確率」をあるだけ足して、合計が1になるようなものであればよいのですが、「起こること」が半端な値も取るので、一覧表にできません。

 そこで、グラフから下の面積が1になるような関数を考えます。ある「ありそうな値」に近い値が出やすそうなら、上のような釣鐘型の関数になるはずです。逆に「ある値からある値までの間の、まったくランダムな値が出る」(一様分布)のであれば、下のようにグラフは直線になるはずです。

hgosa02.jpg

 このような関数を確率密度関数、あるいは密度関数といいます。

正規分布

 平均を中心にした、左右対称の釣鐘型の密度関数を持っている(と考えてもデータと矛盾しない)天然現象はたくさんあります。ところがこれらに共通のパターンがあって、平均と分散は違うけれども、それ以外は同じ密度関数なのではないか、と昔の天才数学者が考えました。どうしてだかはわからないけれども、その密度関数と矛盾しないデータが「よくある」のです。

 このパターンを正規分布といいます。丹羽時彦さんの放課後の数学入門チョコっと正規分布というページがあって、真ん中あたりに正規分布の平均と分散をいろいろ変えたグラフを描いてくれるスクリプトがありますから、試してみるといいでしょう。

標本と母集団

 さて、密度関数というのはパターンです。私たちが関心を持つ統計データは、そのパターンに従って(たぶん)起こったことを観察して得た「標本」です。たまたま出たサイコロの目が思いっきり偏っていることはありますよね。例えばある農地でたまたま不作な年が続けば、そのデータから農地の生産力を推定すると、実力より低く見積もってしまうかもしれません。

 現代の統計学は推測統計学といって、あるパターンに従って出てくるデータをいくつか集めて、そこからパターンを推測するもので、ありったけのデータ(母集団)を観測しつくすことは原理的に無理です。しかしここでは古い言い方に従って、パターンがもともと持っている平均を「母平均」、分散を「母分散」などと書くことにします。

t分布と標準誤差

 標本平均が5のとき、母集団平均はいくらだと推定するのがいいでしょう? もちろん母集団平均は本当は4かもしれませんし、6かもしれません。しかし「いくら?」とただひとつの数字で答える(点推定)ことを求められたら、「5」と答える以上のことはできません。標本分散が3のとき、母分散は3より少し大きいと推定するのが妥当です。ここではこの問題に深く立ち入りませんから、知りたい人は「不偏分散」について調べてください。

 しかしたいていの場合、統計データを活用するために問題なのは、例えば「母平均が4なのに、偏った標本のせいで5以上の標本平均が出てしまう確率」です。この確率が十分に低ければ、「平均がいくらかは本当はわからないが、まあ4以下ってことはないよね」と言えます。

 この確率は、次のような性質を持っているはずです。

  • 標本が多ければ低くなる。
  • 母分散の推定値が(つまり標本分散が)大きいほど高くなる。
  • 母平均に標本平均から離れた値を仮定するほど、この確率は低くなる(ありそうもないことになる)。

 t分布は、hgosa03.jpgの分布です。Zは正規分布に従い、Wはhgosa04.jpg分布に従います。hgosa04.jpg分布は、正規分布する数の分散が従う分布です。nは分布の自由度で、別ページで解説予定です。

 標準誤差は、上の式の分母にあたるものです。Wは分散ですから、標準偏差(分散の平方根)をnの平方根で割ると標準誤差になります。

なぜ標準誤差は変数の数だけあるのか

 統計パッケージで重回帰分析を行うと、自動的に有意性検定も行います。これは「ある変数の係数がゼロだとすると、データが示す係数はどれくらいありそうもない数字か」を算出しているのです。例えば

hgosa05.jpg

 で「hgosa08.jpgは本当にyと関係があるか」を確かめたいとします。もし関係がなければ

hgosa06.jpg

 であるはず。つまりhgosa07.jpgかどうか、t検定をすることになります。

 このとき、hgosa09.jpgには実際の値を代入して、データのバラツキはすべてhgosa08.jpgのせいだと仮定して標準誤差を計算します。だから変数の数だけ標準誤差が必要になるのです。


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2008-12-11 (木) 22:19:29 (5693d)