サンプリングは「ビッグデータ」の時期に関連していますか?


54

それとももっと「そうなる」のでしょうか?ビッグデータは統計と関連知識をさらに重要にしますが、サンプリング理論を過小評価しているようです。

私は「ビッグデータ」の周りでこの誇大広告を見てきましたが、「なぜ」すべてを分析したいのか不思議に思わないでしょうか?「サンプリング理論」を設計/実装/発明/発見する理由はありませんでしたか?データセットの「母集団」全体を分析する意味がありません。できるからといって、やるべきだというわけではありません(愚かさは特権ですが、悪用すべきではありません:)

だから私の質問はこれです:データセット全体を分析することは統計的に関連していますか?できることは、サンプリングを行った場合のエラーを最小限にすることです。しかし、そのエラーを最小化するコストは本当に価値がありますか?「情報の価値」は、超並列コンピューターでのビッグデータの分析に費やされる労力、時間コストなどの価値が本当にあるのでしょうか?

母集団全体を分析しても、結果はせいぜい推測であり、正しい確率が高くなります。おそらくサンプリングよりも少し高いでしょうか(それとももっと多いでしょうか?)、母集団の分析とサンプルの分析から得られる洞察は大きく異なりますか?

それとも、「時代が変わった」と認めるべきでしょうか?十分な計算能力があれば、アクティビティとしてのサンプリングはそれほど重要ではなくなる可能性があります:)

注:私は議論を始めようとはしていませんが、ビッグデータが何をするのか(つまり、すべてを分析する)を理解し、サンプリングの理論を無視する(またはそうしない?)答えを探しています


1
stats.stackexchange.com/q/22502/7828-ビッグデータから有効な結論を引き出す方法も参照してください。
アノニムース

2
(+1昔)私はいつもあなたの洞察に満ちた質問を読むのを楽しんでいます。彼らはこのサイトの本当の資産です。
枢機

1
@cardinal-コメントを心から感謝します。あなたからたくさん来ることを意味します。
PhD

回答:


29

一言で言えば、はい。「ビッグデータ」の世界の内外でサンプリングが適切であるという明確な状況はまだあると思いますが、ビッグデータの性質によりサンプリングへのアプローチが確実に変わり、基になるデータのほぼ完全な表現であるより多くのデータセットを使用します人口。

サンプリングについて:状況によっては、サンプリングが適切なことであるかどうかはほとんど常に明確です。サンプリングは本質的に有益な活動ではありません。データ収集を実装するコストとトレードオフをとる必要があるため、これはまさに私たちが行うことです。人口を特徴付けようとしていますが、人口に関するデータを収集および分析するための適切な方法を選択する必要があります。サンプリングは、データ収集またはデータ処理の方法の限界費用が高い場合に意味があります。その場合、人口の100%に到達しようとすることはリソースの適切な使用ではありません。ランダムサンプリングエラーをわずかに改善するよりも、非応答バイアスなどに対処する方がよい場合が多いためです。

ビッグデータはどのように違いますか?「ビッグデータ」は私たちが長年抱えてきた同じ質問の多くに対処しますが、「新しい」ことは、データ収集が既存のコンピューター媒介プロセスで行われることであり、データ収集の限界費用は本質的にゼロです。これにより、サンプリングの必要性が劇的に減少します。

いつサンプリングを使用しますか?「ビッグデータ」母集団が問題に適切な母集団である場合、サンプリングを使用するのは、いくつかの場合のみです:個別の実験グループを実行する必要がある場合、または大量のデータがキャプチャおよび処理するには大きすぎる場合(多くの場合数百万行のデータを簡単に処理できるようになったため、ここでの境界はますます大きくなっています)。私があなたの質問を却下しているように思える場合、それはおそらく、データの量が収集段階または処理段階のいずれかで懸念される状況に遭遇したことがほとんどないためです。

私にとって難しいと思われる状況は、「ビッグデータ」の母集団がターゲットの母集団を完全に表していない場合です。そのため、トレードオフはより多くのリンゴからオレンジになります。あなたが地域の輸送計画者であり、GoogleがAndroid GPSナビゲーションログへのアクセスを提供して提供しているとします。データセットを使用することは間違いなく興味深いでしょうが、人口はおそらく低所得者、公共交通機関のユーザー、および高齢者に対して体系的に偏っています。このような状況では、ランダムな世帯サンプルに送信される従来の旅行日記は、より高価で数は少ないものの、データ収集の優れた方法である可能性があります。しかし、これは単に「サンプリングvsビッグデータ」の問題ではなく、


22

モバイルデバイスなどによって大量のビッグデータが生成されることはありますが、使用可能なデータはほとんどありません。foursquareを使用して都市の移動パターンを予測したい場合は、推定流量が1桁ずれる可能性があります。さらに悪いことに、これらのフローを過大評価しているか、過小評価しているかはわかりません。狂気のfoursquareユーザーの都市旅行パターンの非常に正確な画像を取得できますが、誰もが必要な場合を除き、(1)正常に機能するスマートフォンを保持する、(2)foursquareアプリを常に実行する、(3)に登録する10分以上滞在する場所(つまり、電子センサスを取得し、リバタリアンがあなたについてのすべてを知っているGoogleとFacebookに不平を言うようにします)、あなたのデータは未知のバイアスを含み、あなたの電子デューイは本物の言葉を打ち負かし続けますトルーマン(クリック可能):


(ソース:whatisasurvey.info

どちらかといえば、この歴史の一部が繰り返され、ビッグデータから生成されるいくつかの大きな「ビール+おむつ」予測は、より厳密なサンプリング手法を使用する研究者によって覆されると予想されます。確率に基づく調査が、回答率の低下にもかかわらず正確なままであることは驚くべきことです。


1
(+1)しかし、ステレオタイプのfoursquareユーザーは偏執病のアンチテーゼではありません。;-)
枢機

1
うん...おそらく悪い言葉。それをマニアカルに変えましょう!
StasK

2
ビッグデータは犯人ではありません。それがどのように使用されるかです。情報があり、適切に適用されると、非常に役立ちます。データマイニングがすべて悪いわけではありません。
マイケルチャーニック

交通情報にビッグデータを使用することの大きなポイント。GoogleやAppleのような企業はすでにこれを行っているので、これは(現在利用可能な)ビッグデータが一部の聴衆にとって足りない場所の良い例だと思います。
ジョナサン

@マイケル、もちろんあなたは正しい。データは安価ですが、有用な情報を取得するためにより多くのデータをふるいにかけなければならないので、使用可能な情報を取得する方法は低下しません。
StasK

21

統計的推論の手法を適用するときはいつでも、結論を出すことを目指している集団について明確にすることが重要です。収集されたデータが非常に大きい場合でも、人口のごく一部にしか関係せず、全体をあまり代表していない可能性があります。

たとえば、特定の業界で営業している会社が、特定の国の顧客に関する「ビッグデータ」を収集したとします。そのデータを使用して、その国の既存の顧客に関する結論を導きたい場合、サンプリングはあまり適切ではありません。しかし、より大きな人口-潜在的および既存の顧客、または別の国の顧客-について結論を導きたい場合、データが収集された顧客がどの程度の代表者であるか(おそらく収入、年齢)を考慮することが不可欠になります。 、性別、教育など-より大きな人口の。

時間ディメンションも考慮する必要があります。統計的推論を使用して予測をサポートすることを目的とする場合、人口が将来に及ぶことを理解する必要があります。そうである場合、データセットがどれほど大きくても、将来取得する可能性のあるものを代表する状況で取得されたかどうかを検討することが再び不可欠になります。


私たちのサイト、アダムへようこそ!(定期的にチェックインすると、幾何学数論に興味を持つ機会が見つかることさえあります。:-)
whuber

人口を考慮する必要性についての素晴らしいポイント!それは、人々がビッグデータについて怠ける大きな方法の一つです。
ジョナサン

「収集されたデータが非常に大きい場合でも、人口のごく一部のみに関連している可能性があり、全体をあまり代表していない可能性があります。」この文だけで多くの質問に答えられると思います。
ベミペフェ

13

ビッグデータ/ MLの流行について私が見たものから、サンプリングとサンプルを抽出する母集団について考えることはこれまでと同じくらい重要ですが、それよりもさらに少ないことを考えました。

私はスタンフォードMLクラスを「監査」しており、これまでのところ、回帰とニューラルネットワークについては、母集団の推論についてはほとんど言及していませんでした。このクラスは6桁の価値のある人々によって取られているので、サンプルの概念をまったく意識せずにデータを近似する方法を知っている非常に多くの人々がいます。


3
同意します。機械学習(実践者とプログラマーのほとんど)、ビッグデータ、および「データサイエンス」に関する現在の流行を観察すると、人々がサンプリング、推論、統計的推論の理解と意味を完全に無視し、何でも盲目的に適用するためにそれを犠牲にすることはばかげて一般的ですアルゴリズムはその上にヒップです。クロスバリデーションに関する質問といくつかの回答でそれを見ることができます。だからこそ、それはすぐに時代遅れになるか、統計的認識論を借りて、統計の枝になると誇大宣伝であると信じています(とにかくそういうものだと思います)。
モモ

2
そのMLクラスが前に監査したクラスと似ている場合、トレーニングデータは母集団からの完全にランダムなサンプルであるというHoeffdingの不等式の直前に技術的な仮定が入りました。残念ながら、少なくとも私の経験では、そしてコース全体でのテクニックの適用例では、これはほとんどありません。「ビッグデータ」を使用する場合は、まだそうではありません。
ダグラスザーレ

12

はい、サンプリングは適切であり、引き続き重要です。要するに、統計的推定の精度は一般にサンプルサイズの関数であり、一般化する母集団ではありません。したがって、1,000人の回答者のサンプルから計算された平均または平均の割合は、母集団のサイズ(または「大きさ」ビッグデータ」は次のとおりです。

それを言った:関連し、言及する必要がある特定の問題と課題があります。

  1. 適切な確率のサンプルを取得することは必ずしも容易ではありません。理論的には、一般化する(推定を行う)集団内のすべての個人は、選択される既知の確率を持っている必要があります。理想的には、その確率は同じである必要があります(等確率サンプルまたはEPSEM –選択の等確率)。これは重要な考慮事項であり、サンプリングプロセスが一般化する母集団のメンバーに選択確率を割り当てる方法を明確に理解する必要があります。たとえば、Twitterフィードから、Twitterアカウントを持たない個人を含む、全体の人口全体の感情の正確な推定値を導き出すことができますか?
  2. ビッグデータには、非常に複雑な詳細と情報が含まれる場合があります。別の言い方をすれば、問題はサンプリングではなく、(ミクロ)セグメンテーションであり、関連する観測の小さなサブセットの適切な詳細を引き出します。ここでの課題はサンプリングではなく、ビッグデータの特定の層別化とセグメンテーションを特定して、価値ある洞察に変換できる最も正確で実用的な情報を生み出すことです。
  3. 意見測定のもう1つの一般的なルールは、非サンプリングエラーとバイアスは通常、サンプリングエラーとバイアスよりもはるかに大きいということです。意見を表明する回答者の100億件のレコードを処理するからといって、特に1000人のサブサンプルのデータしかない場合、特にそれぞれの調査の質問が適切に記述されておらず、バイアスを引き起こしている場合、結果はより有用ではありません。
  4. サンプリングが必要な場合があります。たとえば、すべてのデータから予測モデルを作成する場合、どのように検証しますか?異なるモデルの精度をどのように比較しますか?「ビッグデータ」(非常に大きなデータリポジトリ)がある場合、異なるサンプルの複数のモデルとモデリングシナリオを構築し、他の独立したサンプルでそれらを検証(試用)できます。すべてのデータに対して1つのモデルを作成する場合、どのように検証しますか?

「ビッグデータ革命」はこちらでご覧いただけます。


1
Kyraのサイトへようこそ!
whuberの

3

多くのビッグデータメソッドは、実際にはサンプリングを中心に設計されています。

質問は次のようにすべきです:

ビッグデータでも体系的なサンプリングを使用すべきではありませんか?

多くの「ビッグデータ」はまだ新鮮で、時には素朴です。たとえば、K-meansは簡単に並列化できるため、「ビッグデータ」に対して機能します(結果については説明しませんが、あまり意味がありません。おそらく、サンプルで得られた結果と大差はありません!)。私の知る限り、これがMahoutのk-means実装の機能です。

ただし、研究は単純な並列化(まだ大量の反復を必要とする可能性がある)を超えており、一定の反復回数でK-meansを実行しようとします。この例:

  • MapReduceを使用した高速クラスタリング
    Ene、A. and Im、S. and Moseley、B.
    Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining、2011

そして、彼らのアプローチはサンプリングに大きく基づいています。

次の例:意思決定の森。基本的には、データセットの複数のサンプルについて、それぞれ決定ツリーを構築します。簡単に並列化できます。各サンプルを別々のマシンに配置します。また、サンプリングベースのアプローチです。

したがって、サンプリングはビッグデータアプローチの重要な要素の1つです!

そして、これには何の問題もありません。


2

クロス検証は、ML /ビッグデータで非常に重要なサブサンプリングの具体例です。ここで他の人が言及したように、より一般的には、ビッグデータは通常、人口のサンプルです。

しかし、OPは、制御された実験に適用されるサンプリングと、観測データに具体的に言及しているのではないかと思います。通常、ビッグデータは後者と見なされますが、少なくとも私には例外があります。「ビッグデータ設定でのサンプリング」の例として、eコマースおよびソーシャルネットワーク設定での無作為化試験、A / Bテスト、および多腕バンディットを考えます。


1

ビッグデータが人気を博している分野:Amazon、Netflixなどの検索、広告、レコメンダーシステムでは、データセット全体を探索する非常に大きなインセンティブがあります。

これらのシステムの目的は、人口のすべてのメンバーに推奨/提案を調整することです。また、調査中の属性の数は膨大です。平均的なウェブ分析システムは、クリックスルー率、ページ内の「ホットエリア」の「熱追跡」、社会的相互作用などを測定し、これらを所定の目標の大きなセットと比較検討します。

さらに重要なことは、ビッグデータが現在どこにでもある場所のほとんどが「オンライン」データストリームである、つまりデータが常に追加/更新されているということです。固有のバイアスなしでこれらすべての属性をカバーし、なおかつ有望な結果を提供する(より良いマージンを読む)サンプリングスキームを考案することは課題です。

サンプリングは、依然として調査、医療試験、A / Bテスト、品質保証に非常に関連しています。

簡単に言うと、調査対象の母集団が非常に大きく、母集団の巨視的な特性に関心がある場合、サンプリングは非常に便利です。システムの微視的特性を活用するには、100%チェック(ビッグデータ)が必要です。

お役に立てれば :)


それで、あなたが持っているデータを超えて、まだ持っていないデータに一般化したくないというあなたのポイントはありますか?または、サンプルが非常に大きいと考えているため、それらの問題を心配する必要はありませんか?または、基礎となるパラメーターが時間とともに変化することになるので、新しいデータが流入するにつれてそれらが更新し続ける限り問題ではありませんか?
グング-モニカの復職

@gungの問題は、サンプルのサイズではなく、膨大な数の属性を持つデータセットに対して公平なサンプルを生成する問題です。そして一般化は通常、データセットの一部でトレーニングされた機械学習アルゴリズムによって行われます。オンラインデータストリームが絶えず受信されるため、バッチ更新を使用してパラメータを変更できるため、サンプリングの問題が二次的に発生します。
-rrampage
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.