データが運ぶウソ

データが運ぶウソ †

データの偏り †

「たまたま手に入ったデータ」が「知りたい調査対象」の一部で、偏っていることがよくあります。例えば「主婦」にアンケートをしようと、あるスーパーの前に午後4時から午後5時まで張り込んで片端から声をかけ、「職についていない既婚女性」と答えた人だけにアンケートに応じてもらったとします。週にどれだけパート・アルバイトをしていたら「職についていない」ことになるのでしょう。そのスーパーの価格帯はどうでしょう。周囲の住宅街は高級住宅街でしょうか。

「主婦」の平均像をつかむのはよほど大規模な調査でないと無理です。自分が手に入れた(手に入れられる)データが実際には何を調べたデータであるのか、自覚して使いましょう。

↑

回答者の利害関係 †

　回答者は、データが税務署に漏れて脱税操作に使われる可能性、商品販売や詐欺の手がかりにされる可能性などから、回答を拒否することがあります。例えば高収入の回答者ほど所得について答えようとしないとしたら、私たちは母集団の平均所得を過小に推定してしまうでしょう。

　回答者は、調べるのが面倒くさいことを、調べもせずに当てずっぽうで答えることがあります。例えば皆さんは親の税込み年収を正確に言えますか? あるいはあなたがサラリーマンなら、あなたの昨年の税込み年収を、源泉徴収票や給与明細を見ないで言えますか?

　回答者は、ウソをつくことがあります。例えばあなたが保育園といった、自分がお金を出すわけでもない公共物の必要性についてアンケートを受けたら、あなたは自分がそれを必要としていようといまいと「必要だ」と答えませんか? それを本当に必要としていそうな知り合いを思い浮かべて。

↑

似て非なるデータ †

　たいていの場合、データは本当に欲しいデータではなく、それに似た何か(代理変数)です。例えば「失業率」といっても、正社員の労働市場とパート市場は違いますし、求職活動をあきらめた人はデータから抜け落ちてしまいます。地域の状況が知りたいのに、それがわからないこともあります。

↑

幻を求める †

　私たちの考え自体が「あいまい」で、求めようとしたデータが調べる目的に合っていないこともあります。例えば「埼玉の就職事情」を調べようと、埼玉のハローワークの有効求人倍率を取ったとします。よく考えると、埼玉の求職者は東京の職も探すでしょう。時期によっては、東京の求人事情だけが隣接県よりはっきり良い、などということもあるのですが、どんな数字を使うのが一番良いのでしょうか。これはデータの正確さの問題ではなく、私たちが知りたいことをどう定義するか、という問題なのです。

↑

データの打ち間違い †

　データそのものは正確でも、コンピュータへの入力にミスがあるかもしれません。　データを入力したら、グラフにしたり、平均・分散などの基本統計量を出力させたりしてみましょう。異常な平均、ひとつだけ飛び離れたデータなどに気をつけてください。

↑

統計学で取り扱える標本の偏り †

　こうした配慮を抜きにしても、母集団から一部だけを抜き出すと、その一部だけの平均や分散(標本平均、標本分散)は母集団の平均や分散と異なったものになります。標本の採り方自体がランダムなら、標本平均は母集団平均に一致するでしょうし、標本分散から母集団分散を推定するための公式があります。しかし多くの偏りが、データの集め方そのものに潜んでいることに注意してください。

母集団と標本抽出に関する詳しい説明

http://aoki2.si.gunma-u.ac.jp/lecture/SampleSurvey/population-sample.html

最新の20件