私の質問は、特に雑誌の出版物については、「ビッグデータを使用してサンプリングエラーを評価する方法」と言い換えることができます。課題を説明するための例を次に示します。
非常に大規模なデータセット(100を超える病院の100,000を超える一意の患者と処方薬)から、特定の薬を服用している患者の割合を推定することに興味がありました。この比率を取得するのは簡単です。nは非常に大きいため、その信頼区間(パラメトリックまたはブートストラップなど)は非常にタイト/ナローです。サンプルサイズが大きいことは幸運ですが、エラー確率のいくつかの形式を評価、提示、および/または視覚化する方法を探しています。信頼区間(例:95%CI:.65878-.65881)を入力/視覚化することは(誤解を招くものではないにしても)役に立たないように見えますが、不確実性に関するいくつかの陳述を避けることも不可能と思われます。
ご意見をお聞かせください。このトピックに関する文献をいただければ幸いです。サンプルサイズが大きい場合でも、データの過剰な信頼を回避する方法。