[[work]] ***クロス集計について [#z1cc2571] 宇都宮市が「餃子のまち」を称して宣伝に乗り出したのは、家計調査でひとりあたり餃子購入額が日本一多いことに、職員が気づいたことから。ただしこの調査は県庁所在地のみ。「うちのほうが多い」と浜松市が名乗りを上げて話題になっています。 宇都宮市が「餃子のまち」を称して宣伝に乗り出したのは、家計調査でひとりあたり餃子購入額が日本一多いことに、職員が気づいたことから。ただしこの調査は県庁所在地と政令指定都市のみ。「うちのほうが多い」と浜松市が名乗りを上げて話題になっています。 http://www.stat.go.jp/data/kakei/5.htm http://www.chiiki-dukuri-hyakka.or.jp/book/monthly/9801/html/t05.htm http://www.j-cast.com/2007/02/20005649.html ともあれ、このような事実は、様々な条件に合う標本だけを集計して並べた「クロス集計表」が出発点。例えば学生さんの個人データを、学年別・男女別に分けて集計すれば、クロス集計表になるはず。例えばこれも一種のクロス集計表です。(平成18年家計調査) http://www.stat.go.jp/data/soutan/2006n/zuhyou/s11.xls ***散布図について [#ua4675dc] 例えば支出額そのものが大きい都市なら、餃子もたくさん食べそうです。宇都宮はこのパターンからどれくらい外れているのでしょう。 上のデータ(H18年家計調査年次データ)から、縦軸に餃子購入額、横軸に家計支出額を取ったグラフを描いてみます。ブラウザによっては対応していない可能性がありますが、下のグラフをクリックしてみてください。 一番上に跳びぬけているのが宇都宮市。ただし二番目に高いのは静岡市ですから、浜松の主張も分からないでもありません。 逆に「支出の割に餃子をあまり食べない」都市のひとつが川崎市。横浜の隣だからシューマイを食べているのかな、と思ったら、横浜は川崎の倍近く餃子を食べています。 このように、ひとつの標本についてのふたつの数字を縦横の軸に取ったグラフを散布図と言います。散布図は「異常なことを見つける」手がかりをよく示してくれます。 #ref(gyoza.xls)