2
「ビッグデータ」から有効な結論を引き出すには?
「ビッグデータ」はメディアのいたるところにあります。「ビッグデータ」は2012年の大きなものだと誰もが言います。たとえば、KDNuggetsは2012年のホットなトピックについて投票します。しかし、私はここで深い懸念を持っています。ビッグデータでは、誰もが何かを手に入れるだけで幸せに思えます。しかし、仮説検定や代表的なサンプリングなど、古典的な統計原則すべてに違反しているのではないでしょうか? 同じデータセットについてのみ予測を行う限り、これは問題ないはずです。したがって、Twitterユーザーの行動を予測するためにTwitterデータを使用する場合、おそらく大丈夫です。ただし、たとえば選挙を予測するためにTwitterデータを使用すると、Twitterユーザーが全人口の代表的なサンプルではないという事実は完全に無視されます。さらに、ほとんどの方法では実際に「草の根」の雰囲気とキャンペーンを区別できません。そしてツイッターはキャンペーンでいっぱいです。そのため、Twitterを分析するとき、すぐにキャンペーンとボットを測定することになります。(たとえば、「Yahooはアメリカの政治的勝者を予測する」を参照してください)これは世論調査のバッシングと「感情分析がはるかに優れている」でいっぱいです。彼らは、「ロムニーはノミネートに勝ち、サウスカロライナのプライマリーに勝つ可能性が90%以上ある」と予測した(彼は28%、ギンリッチはこのプライマリーに40%いた)。 他のそのようなビッグデータが失敗することを知っていますか?ある科学者は、あなたが150以上の友情を維持できないと予測したことを大まかに覚えています。彼は実際にフレンドスターの上限を発見しただけでした... twitterデータ、または実際にWebから収集された「ビッグデータ」については、データを収集する方法によって人々がさらにバイアスをかけることさえあると思います。ツイッターのすべてを持つ人はほとんどいません。彼らはスパイダーした特定のサブセットを持ちますが、これはデータセットのさらに別のバイアスです。 データをテストセットに分割したり、相互検証を実行したりすることは、あまり役に立ちません。他のセットには同じバイアスがあります。また、ビッグデータの場合、情報を「圧縮」する必要があるため、過剰に圧縮されることはほとんどありません。 最近、このジョークを聞いたことがあります。ビッグデータの科学者は、世界には約6種類の性別があることを発見しました...そして、これはまさに想像できます。 それでは、特に「ビッグデータ」データセット以外の何かを予測しようとする場合、分析に統計的妥当性を戻すためにどのような方法が必要ですか?