「ビッグデータ」から有効な結論を引き出すには?


40

「ビッグデータ」はメディアのいたるところにあります。「ビッグデータ」は2012年の大きなものだと誰もが言います。たとえば、KDNuggetsは2012年のホットなトピックについて投票します。しかし、私はここで深い懸念を持っています。ビッグデータでは、誰もが何かを手に入れるだけで幸せに思えます。しかし、仮説検定や代表的なサンプリングなど、古典的な統計原則すべてに違反しているのではないでしょうか?

同じデータセットについてのみ予測を行う限り、これは問題ないはずです。したがって、Twitterユーザーの行動を予測するためにTwitterデータを使用する場合、おそらく大丈夫です。ただし、たとえば選挙を予測するためにTwitterデータを使用すると、Twitterユーザーが全人口の代表的なサンプルではないという事実は完全に無視されます。さらに、ほとんどの方法では実際に「草の根」の雰囲気とキャンペーンを区別できません。そしてツイッターはキャンペーンでいっぱいです。そのため、Twitterを分析するとき、すぐにキャンペーンとボットを測定することになります。(たとえば、「Yahooはアメリカの政治的勝者を予測する」を参照してください)これは世論調査のバッシングと「感情分析がはるかに優れている」でいっぱいです。彼らは、「ロムニーはノミネートに勝ち、サウスカロライナのプライマリーに勝つ可能性が90%以上ある」と予測した(彼は28%、ギンリッチはこのプライマリーに40%いた)。

他のそのようなビッグデータが失敗することを知っていますか?ある科学者は、あなたが150以上の友情を維持できないと予測したことを大まかに覚えています。彼は実際にフレンドスターの上限を発見しただけでした...

twitterデータ、または実際にWebから収集された「ビッグデータ」については、データを収集する方法によって人々がさらにバイアスをかけることさえあると思います。ツイッターのすべてを持つ人はほとんどいません。彼らはスパイダーした特定のサブセットを持ちますが、これはデータセットのさらに別のバイアスです。

データをテストセットに分割したり、相互検証を実行したりすることは、あまり役に立ちません。他のセットには同じバイアスがあります。また、ビッグデータの場合、情報を「圧縮」する必要があるため、過剰に圧縮されることはほとんどありません。

最近、このジョークを聞いたことがあります。ビッグデータの科学者は、世界には約6種類の性別があることを発見しました...そして、これはまさに想像できます。

それでは、特に「ビッグデータ」データセット以外の何かを予測しようとする場合、分析に統計的妥当性を戻すためにどのような方法が必要ですか?

回答:


31

あなたの恐怖は十分に根拠があり、知覚力があります。ヤフーとおそらく他のいくつかの企業は、ユーザーに対してランダム化された実験を行っており、うまくやっています。しかし、観測データには困難が伴います。サンプルサイズが大きくなると問題は小さくなるという一般的な誤解です。これは分散には当てはまりますが、nが増加してもバイアスは一定です。バイアスが大きい場合、非常に小さな真にランダムなサンプルまたはランダム化された研究は、100,000,000回の観測よりも価値があります。


8
ビッグデータは、おそらくバイアス分散分解が役に立たない1つの領域です。データ品質とデータ管理がより重要です。我々は、すべてのデータ点、あるいは特殊なケースを知ることを望むことができないためです-それらのあまりに多く
probabilityislogic

24

実験の設計と分析には、偏りを減らすのに役立つ多くの手法がありますが、これも常に同じことです。つまり、自分が何をしているかを知る必要があります。ビッグデータ分析には、他のデータ分析と同じ問題があります。それは仮説の欠如に苦しんでいます。

明確な例は、段階的な変数選択による多重回帰です。非常に良いことですが、100個の変数を測定すると、それぞれの係数がゼロと大きく異なるかどうかを調べることによって評価したときに、統計法則のいくつかが有意な関係示すこと示されます。したがって、データセット内の変数が多いほど、何らかの(意味のない)関係を示す2つを見つける可能性が高くなります。また、データセットが大きいほど、たとえば交絡効果が小さいために、意味のないモデルになる可能性が高くなります。多くのモデルをテストする場合(そして、多くのモデルになり得る10個の変数のみを使用する場合)、少なくとも1つの重要なモデルを見つける可能性が非常に高くなります。それは何かを意味しますか?いや

それでは何をすべきでしょうか?脳を使う:

  • データを収集する前に仮説を策定し、その仮説をテストします。それがあなたの統計が実際に物語を伝えることを確実にする唯一の方法です。
  • いくつかのテストを行う前に、共変量を使用してサンプリングを層別化します。愚かな例:データセットに1000人の男性と100人の女性がいる場合、平均人口について話したい場合は、それぞれ50人をランダムに選択します。それは、実際にはビッグデータが役立つ場所です。サンプリングするのに十分以上のものがあります。
  • テスト母集団を完全に説明してください。したがって、どの母集団に対して結論が定式化されているかが明確になります。
  • あなたが探索的目的のためにあなたの大きなデータセットを使用する場合は、上のこの探査中にあなたが思い付くの仮説を検証新しい異なるデータセット、あなたが収集するもののないサブセットだけ。そして、必要なすべての予防措置を使用して再度テストします。

これらはすべて明白で有名です。ヘック、すでに1984年にローゼンバウムとルービンは、傾向調査でバイアスを減らすために傾向スコアを使用する方法を説明しました、そして、それは最も大きなデータセットが何であるかです:観測データ。Fengらの最近の研究では、マハラノビス距離の使用も提唱されています。そして実際、私の統計上の英雄の一人であるコクランは、1973年にその問題に関するレビューをすでに書いています!あるいは、1979年にすでに多変量一致サンプリングと回帰補正を導入したRubinについてはどうでしょうか。古い出版物は、統計のような分野では確かに過小評価され、無視されることが多すぎます。

これらの手法にはすべて長所と短所があり、バイアスを減らすことはバイアスをなくすことと同じではないことを理解する必要があります。しかし、あなたが知っている場合:

  • テストしたいもの、そして
  • どうやってやってるの

ビッグデータは、偽の結果をもたらす言い訳ではありません。


私が指摘した@DWの(正しい)発言の後に編集された私は、間違った文脈で「過適合」という用語を使用しました。


12
「データセットが大きいほど、意味のない過剰適合の可能性が高くなります」-実際、それは逆です。可能なモデルのセットが大きいほど、過剰適合の可能性が高くなります(他のすべてが等しい)。データセットが大きいほど、オーバーフィットの可能性は小さくなります(他のすべてが等しい)。
DW

@DWどうして?実際、シミュレーションに絶対的な独立性がある場合、大小のデータセットを持つ重要なモデルに同じくらいの可能性があります(単純なシミュレーションはそれを示します)。残念ながら、独立性が完璧なデータセットにはまだ出会っていません。たとえば、非常に小さな交絡効果がある場合、大きなデータセットは小さなデータセットよりも意味のない重要な結果を与える可能性が高くなります。
ジョリスメイズ

良い答え-重要な効果を見つけることについてのあなたのコメントは、モデル選択の「インまたはアウト」方法に対する収縮方法の良い理論的根拠を提供します。
確率論的

10
@DWはオーバーフィッティングに関するステートメントを作成しており、特にデータセットが大きいほど、データのサブセットで相互検証が行われる可能性が高くなるため、正しいようです。Joris Meysは統計的有意性について声明を発表しています。それも正しいです。しかし、大規模なデータセットでは、統計的有意性は重要ではありません。ほとんどすべてが「統計的に有意」であるため、重要なのは効果の大きさです。
-zbicyclist

1
@zbicyclist非常に正しい観察。私はDWを誤って解釈し、間違った文脈で過剰適合という用語を使用したことを認めます。私は訂正します。
ジョリスメイズ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.