パネルデータとは、「47都道府県3年分」「GM・フォード・クライスラーの10年前と今年」のように、いくつかの時点で、区別できる(入れ替わらない)個人・組織のデータが揃っているような形式のデータを言います。
「47都道府県3年分」のデータを、141個のばらばらなデータとみなして処理することも、よく行われます。3年のあいだ、説明変数の値があまり変化しないのであれば、それでもかまいません。しかし変数の値が大きく変化したのであれば、「地価に県民所得が与える影響」と、「東京独自の地価の高さ」を区別して分析できると、本当に知りたいこと(地価と県民所得の関係)がより明確に分かります。こうしたときに、パネルデータ分析の手法を用います。
パネルデータ分析に最も適したRパッケージはおそらく2008年11月時点ではplmです。必要ならパッケージを追加して、起動前に「読み込み」してください。''plmはR-2.8.0以降のバージョンでないと動作しません。''
単なる事実には著作権はありませんが、一定の意図で配列されたコンピュータ用の統計数字にはデータベース著作権があります。誰でもダウンロードできる官公庁などのデータでも、再配布するとなると許諾手続きが必要です。ここではplmの働きを見るため、形式だけ整った意味不明のデータを用意しました。
意味はないがとにかく動くRのサンプルスクリプト用データ(ダウンロード用)
#ref(psample.csv)
意味はないがとにかく動くRのサンプルスクリプト用データ(中身はこうなっています)
#ref(psamplecsv.TXT)
意味はないがとにかく動くRのサンプルスクリプト
#ref(psample.txt)
実行結果のログ
#ref(psamplelog.txt)
このデータはx2、x2、yという3つのデータが47都道府県について2006年、2007年の2年分あるという体裁です。
変数同士の計算などは先に済ませて、必要なデータは先にひとつのファイルにまとめておいてください。ファイルを読み込んでから別の変数を定義して加えたりすると、どうもうまく動かないようです。以下、psample.txtに沿って説明します。
dset <- read.csv("psample.csv", header=TRUE)
dset <- plm.data(dset,index = c("pref","year"))
psample.csvが作業用ディレクトリにあることを確認してください。何のことかわからない人は[[作業用ディレクトリの指定と変更(R)]]参照。
panel.fe <- plm(y ~ x1 + x2,data = dset, model = "within")
summary(panel.fe)
&ref(panel01.png);という重回帰式をもとにしてパネルデータ分析をする場合、固定効果モデルならこのように指示します。固定効果モデルは、この場合&ref(panel02.png);という式であらわされます。iは都道府県に振った番号です。例えば東京都のデータは、県民所得などの変数で推定した市街地平均地価より(どの年度の推定値も)10万円高い。北海道は5万円安い…といった、固定的なyの差がある、と仮定するのです。
summary(fixef(panel.fe))
固定効果の大きさが出力されます。例えば市街地地価指数が従属変数だったら、東京の固定効果は大きなプラスの値をとるでしょう。実行結果のログには、ダミー変数としてのP値が星で表されています。
panel.re <- plm(y ~ x1 + x2,data = dset, model = "random")
summary(panel.re)
ランダム効果モデルは、都道府県の差が定数の「下駄」に出るのではなく、ばらつきの違いに出る、という仮説に立ちます。&ref(panel01.png);という式に期待値ゼロの攪乱項がふたつついていて、片方が全国共通の分散、もう片方がその都道府県データ間でだけ共通する分散を持つと仮定します。
例えば都道府県データなら、47都道府県プラス全国共通で、48種類の分散を推定しないといけませんね。これらの分散はデータから推定します。そしてGLS([[一般化最小二乗法>一般化最小二乗法と識別問題]])と呼ばれる手順で、&ref(panel01.png);のaやbを求めます。
固定効果モデル、ランダム効果モデルのどちらを選ぶのが良いでしょうか。その判断によく使われるのがHausman統計量です。誤差項と説明変数に相関がないときランダム効果モデルは比較的優れた推定方法となり、相関があると固定効果モデルが比較的良い方法になることが知られています。「誤差項と説明変数に相関がない」という仮説を検定するのがHausmanテストです。
phtest(panel.fe,panel.re)
を実行させると、こんな答えが返ってきました。
Hausman Test
data: y ~ x1 + x2
chisq = 0.0445, df = 2, p-value = 0.978
alternative hypothesis: one model is inconsistent
P値が0.978。つまり、「誤差項と説明変数に相関がないと考えて、全然問題ない」ということ。これを「仮説が受容された」といいます。この場合、Hausmanテストは固定効果モデルよりランダム効果モデルを支持しました。
パネルデータ分析は、ソフトが出してきたデータをそのままレポートなどに書くだけではなくて、年度ごとのクロスセクション分析で出したパラメータの値と比べるなど、いろいろ比較してみることが大切です。固定効果は他の説明変数と相関を持つと考えるのが自然ですから、それ自体が多重共線性を持ち込みます。