計量経済学のためのR環境

時系列分析独特の問題

 多重共線性以外にも、時系列データを使った回帰分析でよく起こる問題が、いくつかあります。仮想データを使ってもいいのですが、やはり雰囲気は大事ですから、本物のデータを使ってみましょう。Rサンプル8のデータを見てください。

 地価公示というのは、都市計画の立案や固定資産税・相続税の計算に使うため(厳密に言うと税額の決定は、この調査をもとに作られた、少し異なるデータによります)、国土交通省が発表するものです。全国にたくさんある特定の土地物件(標準地)が仮に売買されたらどれくらいになるか、周囲の取引実績などから推定して公表するものです。標準地の中には何十年も前から選ばれているものもあり、「同じ土地の価格を時系列的に追う」数少ないデータのひとつです。ただし、取引を伴わない推定値ですから、業者たちの実感と一致するわけではありません。

 しかし実際、1991年をピークとして浦和の地価は急に上がって急に下がり、千葉市など東京周辺部でも似た動きのあったことが知られています。詳しくは、岡本登「近年における地価上昇とバブル現象について」をご覧ください。 http://www.mof.go.jp/f-review/r28/r_28_156_188.pdf

 ここでは景気を示す最も大雑把な指標としてGDPをとり、GDPの動きが埼玉大学周辺の住宅地地価の動きをどれだけ説明するか、試してみることにしましょう。

 まず、Rサンプル8を実行してみます。

Residuals:
    Min      1Q  Median      3Q     Max 
-155789 -105949  -87378  121697  272020 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.181e+05  2.005e+05   1.088    0.291
GDP         4.695e-01  4.478e-01   1.048    0.308

Residual standard error: 158300 on 18 degrees of freedom
Multiple R-Squared: 0.05755,    Adjusted R-squared: 0.005193 
F-statistic: 1.099 on 1 and 18 DF,  p-value: 0.3083 

 サンプルが多いので、もう残差をひとつずつ示すのではなく、最大・最小・中央の残差の大きさと、上下25%点(1st quarterが1Q)の残差が示してあります。

 説明力はまるでありませんね。自由度修正済み決定係数は0.005。F検定ですら推定式の意味を否定するP値を示しています。「上がって下がる」地価を「ほぼ上がりっ放し」なGDPで回帰したのですから当然です。

tser01.jpg

 残差をグラフにしたものが最後に出てきます。横棒は残差0を示す線です。「プラスの残差が続く」時期と、「マイナスの残差が続く」時期がありますね。言い換えれば、連続するデータの残差に正の相関があるということ。

 決定係数が高かろうが低かろうが、これはこれでマズいのです。連続するデータの残差に正か負の相関があることを「系列相関がある」と言いますが、時系列データではよく系列相関が生じます。

 今まで、それぞれの説明変数が本当に被説明変数と関係があるか、t検定で判断して来ました。t検定は、single01.jpgのεが平均ゼロの正規分布に従うことを前提にしています。εがはっきりと別のパターンを持つことがわかっているとしたら、t検定には意味がないことになり、係数の有意性を判断できなくなってしまうのです。統計パッケージに数字を食わせると何か結果を出してきますが、その結果に意味が「あるかもしれないしないかもしれない」のでは困ります。

 ここから先は、追加パッケージlmtestを使います。起動時に「パッケージ」から「パッケージの読み込み」をしていない人は、lmtestを読み込んでください。

 Rサンプル8を実行したすぐ後に、R Consoleから

dwtest(eq2)

 と打ち込んでください。

        Durbin-Watson test

data:  eq2 
DW = 0.3299, p-value = 3.197e-08
alternative hypothesis: true autocorrelation is greater than 0 

 と出るでしょうか。Durbin-Watson testは、系列相関があるかどうかを調べる、代表的なテストです。DWはダービン・ワトソン比といって、0から4の値をとります。0に近いほど、正の系列相関が疑われます。2に近いと、系列相関はありません。4に近いのは、負の系列相関があるとき。つまり、実際の値が回帰直線の上、下、上、下と規則正しくジグザグに並んだときです。経済変数では、あまりそういうことは起きません。

 ダービン・ワトソン比を解釈するための表が計量経済学の教科書にはよく載っています。これもRが勝手に調べて、P値で結果を示してくれます。

3.197e-08

 というのは、統計パッケージの出力で時々出てくる表現です。これはtser02.jpg、つまり0.00000003197ということです。系列相関がないなどということはとてもとてもありそうにない、と言っているのです。

不均一分散

「13800円」という1957年のヒット曲があります。13800円というのは当時の大卒平均初任給でした。現在と当時で同じ人数の大卒初任給データを集めたら、平均が大きく異なっているだけでなく、分散も今のほうがずっと大きいはずです。

 非常に長い期間の時系列データを使った場合、最初のほうと最後のほうで分散の大きさがはっきり違っていることがあります。この場合も系列分散と同様に、t検定の基礎が崩れてしまうので、係数の有意性判断が怪しくなります。lmtestパッケージにbptest(Breusch-Pagan test)、tseriesパッケージにwhite.testが入っていますが、テストするまでもなく何か工夫が必要と感じることが多いでしょう。

 物価水準が違うことで不均一分散が生じている場合、GDPデフレータや消費者物価指数で関係する変数を割り「実質化」することで、結果的に分散の大きさも揃ってくると期待できます。


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2008-12-11 (木) 22:19:28 (5693d)