タイトル「変数のエラー」と質問の内容は、条件付き応答をモデル化するときにの変動を考慮に入れない理由、つまり回帰パラメーターの推論について質問するため、異なるようです。これら2つの関心事は私には直角に思えるので、ここで内容に応じます。X
以前に同様の質問に回答しました。リグレッサの条件付けと修正済みとして扱うことの違いは何ですか?、ここで私はそこに私の答えの一部をコピーします:
私はリグレッサをもう少し形式的に条件付けるための議論を具体化しようとするでしょう。ましょうランダムベクトルであり、そして関心が回帰であるに回帰は条件付き期待値を意味するものと解釈される、上の。線形関数になりますが、私たちの引数はそれに依存していません多正規仮定の下で。通常の方法でジョイント密度を因数分解することから始めます
しかし、これらの関数は不明であるため、パラメーター化されたモデル
ここで、は条件付き分布とパラメーター化します(Y,X)YXYXf(y,x)=f(y∣x)f(x)
f(y,x;θ,ψ)=fθ(y∣x)fψ(x)
θψの周辺分布。通常の線形モデルでは、を使用できますが、これは想定されていません。の完全なパラメーター空間は、デカルト積であるであり、2つのパラメーターには共通点はありません。Xθ=(β,σ2)(θ,ψ)Θ×Ψ
これは、統計実験(またはデータ生成プロセス、DGP)の因数分解として解釈できます。最初のはに従って生成され、2番目のステップとして、条件付き密度に従ってが生成されます。。最初のステップでは、2番目のステップでのみ入力されるに関する知識を使用しないことに注意してください。統計は補助です。https://en.wikipedia.org/wiki/Ancillary_statisticを参照してください。Xfψ(x)Yfθ(y∣X=x)θXθ
ただし、最初のステップの結果によっては、2番目のステップでについて多少の情報が得られる場合があります。たとえば、によって与えられる分布の分散が非常に低い場合、観測されたは小さな領域に集中するため、を推定することはより困難になります。したがって、この2段階の実験の最初の部分は、を推定できる精度を決定します。したがって、回帰パラメーターについての推論では、を条件とするのが自然です。これは条件付きの議論であり、上記の概要はその仮定を明らかにしています。θfψ(x)xθθX=x
設計された実験では、その仮定はほとんど保持されますが、多くの場合観測データでは保持されません。問題のいくつかの例は次のとおりです。予測子として遅れた応答を使用した回帰。この場合の予測子の条件付けは、応答の条件付けも行います。(さらに例を追加します)。
この問題を非常に詳細に説明している本の1つは、情報と指数ファミリです。O。E Barndorff-Nielsenによる統計理論では。参照してください。特に第4章は、著者は言う。このような状況で分離ロジックは、しかし、ほとんどexplicatedされていないが、次の参照を与える:RAフィッシャー(1956)統計的方法と科学的推論 とSverdrup(1966)決定理論の現状とネイマン・ピアソン理論。§4.3
ここで使用される因数分解は、その精神において、十分な統計の因数分解定理に多少似ています。焦点は、回帰パラメータである場合は、との分布依存しない、その後、どのようにできた(または変動中)の分布について含まれる情報? θXθXθ
この分離の引数は、それが使用できない場合、たとえば予測が遅れた応答を伴う回帰を指すためにも役立ちます。