残差のサイズによってデータセットを階層化し、2サンプルの比較を行うことはまったく防御可能ですか?
これは一種のアドホックな方法として行われていると見られており、私には非常に怪しいように見えますが、おそらく何かが欠けています。私はこれを多重回帰で見ましたが、単純にしておきましょう: yi=β0+β1xi+εiyi=β0+β1xi+εi y_{i} = \beta_{0} + \beta_{1} x_{i} + \varepsilon_{i} 次に、近似モデルから残差を取得します ei=yi−(β^0+β^1xi)ei=yi−(β^0+β^1xi) e_{i} = y_{i} - \left( \hat{\beta}_{0} + \hat{\beta}_{1} x_{i} \right) 残差のサイズに基づいてサンプルを階層化します。たとえば、最初のサンプルが残差の下部90%であり、2番目のサンプルが上部10%である場合、2つのサンプル比較を実行します-これはモデルの予測子で行われ、モデルにない変数。使用される非公式のロジックは、おそらく、モデルの下で予想される値をはるかに超える値を持つポイント(つまり、大きな残差)が何らかの方法で異なり、その違いがこの方法で調査されることです。xxx このテーマに関する私の考えは次のとおりです。 モデルの予測変数に2サンプルの差がある場合、現在の状態ではモデルによって考慮されていない予測変数の効果(つまり、非線形効果)があります。 モデルにない変数に2サンプルの差がある場合は、最初にモデルにあるはずです。 私は(シミュレーションで)経験的に発見したことの一つは、モデルで予測値の平均値を比較している場合、つまりし、2つのサンプル手段を生成するために、このように階層化、¯ X 1及び¯ X 2、それらは互いに正の相関。両方のサンプルが依存するので、これは理にかなって¯のY、¯ X、σ X、σ Y及びρ X 、Yxxxx¯¯¯1x¯1\overline{x}_{1}x¯¯¯2x¯2\overline{x}_{2}y¯¯¯,x¯¯¯,σ^x,σ^yy¯,x¯,σ^x,σ^y\overline{y}, \overline{x}, \hat{\sigma}_{x}, \hat{\sigma}_{y}ρ^xyρ^xy\hat{\rho}_{xy}。その相関は、カットオフを下げると増加します(つまり、サンプルの分割に使用する%)。したがって、少なくとも、2サンプルの比較を行う場合、統計の分母の標準誤差を調整して、相関を考慮に入れる必要があります(ただし、共分散)。ttt とにかく、私の基本的な質問は次のとおりです。これを行う理由はありますか?もしそうなら、これはどのような状況でこれを行うのに役立つでしょうか?明らかに私は存在するとは思わないが、正しい方法で考えていないことがあるかもしれない。