回答:
データセット全体を解析したくない場合は、おそらく層別サンプリングを使用できないため、大規模で単純なランダムサンプルを取得することをお勧めします。ランダムなサンプルを取得することにより、サンプルが平均してデータセット全体を表すことを確認し、標準誤差や信頼区間などの精度の標準的な統計的測定により、サンプルの推定値が母集団の値からどれだけ離れている可能性が高いかがわかります。つまり、実際にランダムにサンプリングされた懸念がない限り、サンプルが母集団の代表であることを検証する必要はありません。
単純な無作為標本の大きさは?まあ、サンプルが大きければ大きいほど、あなたの推定はより正確になります。すでにデータがあるので、従来のサンプルサイズの計算は実際には適用できません。データセットをコンピューティングに実用的な範囲で使用することもできます。計算時間を問題とするいくつかの複雑な分析を行うことを計画していない限り、単純なアプローチは、ページングにつながることなく、PCで分析できる最大のランダムサンプルを作成することです。
その場合、各観測に対して変数がいくつあるか、各変数が何バイトを占めるかを考慮して、サンプリングできる観測をいくつ計算するかは簡単な算術の問題です。
最初の2番目の質問では、「データはどのように入力されたのですか?」データが比較的恣意的な方法で入力されたと考える場合(つまり、データを使用した最終的な分析に影響を与える可能性のある観察の観察可能なまたは観察不可能な特性とは無関係)、最初の500万を検討することができます。完全なサンプルの代表として、操作に慣れている多くのサンプルをこのグループからランダムに選択して、操作できるサンプルを作成します。
2つの経験的分布を比較するには、qq-plotsと2標本のKolmogorov–Smirnovノンパラメトリック検定を使用して、分布の違いを調べることができます(たとえば、http://en.wikipedia.org/wiki/Kolmogorov%E2を参照)。 %80%93Smirnov_test)。この場合、サンプル内の各変数の分布を、「完全な」データセット内のその変数の分布に対してテストします(ここでも、完全なサンプルからの観測は500万にすぎません)。KSテストは低消費電力に悩まされる可能性があります(つまり、グループ間に差がないという帰無仮説を棄却することは困難です)が、その多くの観察結果で、大丈夫です。