ランダムなサンプルを取り、それが明らかに最近の質問のように代表ではないことがわかる場合はどうでしょう。たとえば、人口分布が0を中心に対称であると仮定し、ランダムに描画するサンプルに不均衡な正と負の観測値があり、不均衡が統計的に有意である場合、どうなりますか?バイアスされたサンプルに基づいて、母集団についてどのような合理的な説明をすることができますか?そのような状況での合理的な行動方針は何ですか?私たちの研究でこの不均衡に気づいたとき、それは重要ですか?
ランダムなサンプルを取り、それが明らかに最近の質問のように代表ではないことがわかる場合はどうでしょう。たとえば、人口分布が0を中心に対称であると仮定し、ランダムに描画するサンプルに不均衡な正と負の観測値があり、不均衡が統計的に有意である場合、どうなりますか?バイアスされたサンプルに基づいて、母集団についてどのような合理的な説明をすることができますか?そのような状況での合理的な行動方針は何ですか?私たちの研究でこの不均衡に気づいたとき、それは重要ですか?
回答:
MLSによって与えられた解答(使用の重要性サンプリングは)のみ、あなたのディストリビューションについて行うことができます仮定として良いようです。有限母集団サンプリングパラダイムの主な長所は、有限母集団パラメーターで(有効な)推論を行うためのデータの分布に関する仮定を行わないため、ノンパラメトリックであることです。
サンプルの不均衡を修正するアプローチは、後層化と呼ばれます。サンプルを重複しないクラス(階層後)に分割し、既知の母集団の数値に従ってこれらのクラスを再重み付けする必要があります。母集団の中央値が0であることがわかっている場合、正と負の観測値を再重み付けして、それらの加重比率が50-50になるようにすることができます。負のものは15/10の重み= 1.5、正のものは15/20 = 0.75です。
より微妙な形式のサンプルキャリブレーションが存在します。これにより、連続変数の平均が特定の値に等しくなるなど、より一般的な制約を満たすようにサンプルをキャリブレーションできます。対称性の制約を使用するのはかなり困難ですが、それも実行可能かもしれません。Jean Opsomerはこれについて何かを持っているかもしれません。彼は調査データのために多くのカーネル推定作業を行ってきました。
私はここのジュニアメンバーですが、サンプルが非常に代表的でないことがわかっていて、そもそも非代表的なサンプリングがどのように発生したかを知っているなら、破棄してやり直すことが常に最良の答えだと思います可能であれば2回目に回避する方法。
もしあなたがおそらく同じ船に乗ってしまうなら、2回目のサンプリングをすることは何をするでしょうか?
データ収集を再度行うことが意味をなさないか、法外にコストがかかる場合は、層別化、代入、手の込んだモデリングなどを介して非代表性を補おうとして、所有しているものを処理する必要があります。このようにして報酬を支払ったこと、なぜそれが必要だと思うのか、なぜそれが機能したと思うのかを明確に注意する必要があります。それから、あなたの補償を通してあなたの分析を通してずっと生じた不確実性を働かせてください。(それはあなたの結論をより不確実にするでしょう?)
それができない場合は、プロジェクトを完全に削除する必要があります。