それとももっと「そうなる」のでしょうか?ビッグデータは統計と関連知識をさらに重要にしますが、サンプリング理論を過小評価しているようです。
私は「ビッグデータ」の周りでこの誇大広告を見てきましたが、「なぜ」すべてを分析したいのか不思議に思わないでしょうか?「サンプリング理論」を設計/実装/発明/発見する理由はありませんでしたか?データセットの「母集団」全体を分析する意味がありません。できるからといって、やるべきだというわけではありません(愚かさは特権ですが、悪用すべきではありません:)
だから私の質問はこれです:データセット全体を分析することは統計的に関連していますか?できることは、サンプリングを行った場合のエラーを最小限にすることです。しかし、そのエラーを最小化するコストは本当に価値がありますか?「情報の価値」は、超並列コンピューターでのビッグデータの分析に費やされる労力、時間コストなどの価値が本当にあるのでしょうか?
母集団全体を分析しても、結果はせいぜい推測であり、正しい確率が高くなります。おそらくサンプリングよりも少し高いでしょうか(それとももっと多いでしょうか?)、母集団の分析とサンプルの分析から得られる洞察は大きく異なりますか?
それとも、「時代が変わった」と認めるべきでしょうか?十分な計算能力があれば、アクティビティとしてのサンプリングはそれほど重要ではなくなる可能性があります:)
注:私は議論を始めようとはしていませんが、ビッグデータが何をするのか(つまり、すべてを分析する)を理解し、サンプリングの理論を無視する(またはそうしない?)答えを探しています