「Xのエラー」モデルがより広く使用されないのはなぜですか?


11

回帰係数の標準誤差を計算するとき、計画行列ランダム性は考慮しません。たとえばOLSでは、をとして計算しますXvar(β^)var((XTX)1XTY)=σ2(XTX)1

がランダムであると見なされる場合、総分散の法則は、ある意味で、の分散の追加の寄与も要求します。すなわちXX

var(β^)=var(E(β^|X))+E(var(β^|X)).

これは、OLS推定量が本当に不偏である場合、期待値が一定であるため、最初の項が消えます。2番目の項は実際には次のようになります:。σ2cov(X)1

  1. パラメトリックモデルがわかっている場合は、を実際の共分散推定値に置き換えてみませんか。たとえば、が無作為化された治療の割り当てである場合、二項分散より効率的な推定値にする必要がありますか?XXTXXE(X)(1E(X))

  2. 柔軟なノンパラメトリックモデルを使用して、OLS推定でのバイアスの考えられる原因を推定し、最初の合計の法則分散項設計への感度(つまりの分布)を適切に考慮しないのはなぜですか?Xvar(E(β^|X))


2
数学の法則がなぜ「要求」するのですか?モデルを使用して、特定の目的に対処するためにデータで推論します。それらが観測値または測定値基づいて条件付き応答を理解または予測する場合、の変動は実質的な質問とはほとんど関係がありません(実際、この変動を手順に組み込むと思われます)。完全に間違っている、誤解を招く、または無意味でさえある。したがって、質問に答えることは、さまざまな種類の統計的問題が発生する頻度を評価することに帰着するようです。XX,X
whuber

1
@whuber私の焦点は推論です。総分散の法則は、研究結果の頻繁な解釈とより一致しているようです。私たちはしばしば「研究が再現された場合」について話します...研究が再現された場合にの分布が異なる場合があるという事実を考慮せずに。性別のバランスは、1つのサンプルでは40%、別のサンプルでは60%になる可能性があります。これは、単に研究がどのように得られたかのラン​​ダムな結果です。皮肉なことに、ブートストラップはこれを反映しますが、共変量の特定の組み合わせの結果に変動をもたらしませX
AdamO

2
まず、多くの研究ではを実験的な制御下に置いているため、ランダムではありません。第2に、観察研究(がランダム)は、の条件付き分布についての推論のみに関心があることが多いため、推論に焦点を合わせても、1つの状況が他の状況と区別されません。完全な(結合)分布に関心がある場合は、多くの人々が相関分析やさまざまな多変量手順の形式に頼っています。この状況では、リサンプリングの方法はモデルだけでなく目的にも依存するため、「the」ブートストラップなどはありません。X Y XXY.
whuber

1
@whuber実験制御、研究のエントリの時点でランダムに割り当てられます。すでに述べたように、これは説得力のあるケースです。ランダム化はベルヌーイであるとしましょう。なぜ経験的推定を使用するのですか?最尤法を使用: ?ブートストラップについては正解です。私は、データの「行」が置き換えによってサンプリングされるノンパラメトリック(無条件)ブートストラップを参照していました。cov X = E X 1 E X cov(X)=XTXcov(X)=E(X)(1E(X))
AdamO

2
特に異常な場合を、がランダムであるかどうかは実際には問題ではなく、測定エラーがあるかどうかが重要です。もしそうなら、OLSの方法は偏った&より低い推定につながるでしょう。その場合、変数メソッドのエラーを使用する必要があります。X 1 β 1X1X1β1
gung-モニカの

回答:


8

あなたの質問(およびコメント内の追加の解説)は、研究者がいくつかの無作為化設計に基づいて1つ以上の説明変数を無作為に割り当てた無作為化比較試験がある場合に主に関心があるようです。このコンテキストでは、説明変数をランダム化によって課されたサンプリング分布からのランダム変数として扱うのではなく、既知の定数として扱うモデルを使用する理由を知りたいと考えています。(あなたの質問はこれよりも広いですが、これは解説の主な関心事の場合のようですので、これが私が対処するものです。)

この文脈で説明変数に条件を付ける理由は、RCTの回帰問題では、予測子が与えられた応答変数の条件付き分布に依然として関心があるためです。実際、RCTでは、説明変数が応答変数に及ぼす因果関係を決定することに関心があります。これは、条件付き分布についての推論によって決定します(交絡を防ぐためにいくつかのプロトコルに従う必要があります)。ランダム化は、説明変数と交絡となる可能性のある変数(つまり、バックドアアソシエーションを防ぐ)の間の依存関係を壊すために課されます。XYX ただし、問題の推論の対象は、説明変数が与えられた場合の応答変数の条件付き分布です。したがって、それはまだ推測のための優れた特性を有する推定方法を使用して、この条件付き分布のパラメータを推定するために理にかなっている条件付き分布を

これは、回帰手法を使用したRCTに適用される通常のケースです。もちろん、他の関心事がある状況もあり、実際に説明変数に関する不確実性を組み込む必要があるかもしれません。説明変数に不確実性を組み込むことは、一般的に次の2つの場合に起こります。

  • 我々は回帰分析を越えて多変量解析に入る場合(1)我々は、その後に興味がある関節なく前者所与後者のちょうど条件付き分布より説明および応答変数の分布、。これが私たちの関心事であるアプリケーションがある可能性があるため、回帰分析を超えて、説明変数の分布に関する情報を組み込みます。

  • (2)一部の回帰アプリケーションでは、観測された説明変数がエラー( "errors-in-variables")の影響を受けやすいと想定して、基になる未観測の説明変数を条件とした応答変数の条件付き分布に関心があります。この場合、「変数のエラー」を介して不確実性を組み込みます。この理由は、これらのケースに対する私たちの関心は、観測されていない基礎変数を条件とする条件付き分布にあるためです

これらのケースはどちらも、回帰分析より数学的に複雑であるため、回帰分析を使用して問題を回避できる場合は、一般にそれが望ましいことに注意してください。いずれの場合でも、回帰分析のほとんどのアプリケーションでは、観測可能な説明変数を前提として、応答の条件付き分布について推論することが目標であるため、これらの一般化は不要になります。


ランダム化は、交絡変数からランダム化変数への因果効果を切り分けますが、ランダム化変数から交絡変数へ、そして応答への因果効果を切断しないことに注意してください。これは、因果分析ですべてのバックドアアソシエーションを完全に切断するために、他のプロトコル(プラセボ、ブラインドなど)が必要になる可能性があることを意味します。


2
いい答え。変数ガウスエラーと応答ガウスエラーがある場合、通常の回帰法が機能し、a)エラーのない観測された応答b)異なる応答分布がある場合にのみ問題になる場合は、AFAIKを追加します
Martinモドラック

2

タイトル「変数のエラー」と質問の内容は、条件付き応答をモデル化するときにの変動を考慮に入れない理由、つまり回帰パラメーターの推論について質問するため、異なるようです。これら2つの関心事は私には直角に思えるので、ここで内容に応じます。X

以前に同様の質問に回答しました。リグレッサの条件付けと修正済みとして扱うことの違いは何ですか?、ここで私はそこに私の答えの一部をコピーします:

私はリグレッサをもう少し形式的に条件付けるための議論を具体化しようとするでしょう。ましょうランダムベクトルであり、そして関心が回帰であるに回帰は条件付き期待値を意味するものと解釈される、上の。線形関数になりますが、私たちの引数はそれに依存していません多正規仮定の下で。通常の方法でジョイント密度を因数分解することから始めます しかし、これらの関数は不明であるため、パラメーター化されたモデル ここで、は条件付き分布とパラメーター化します(Y,X)YXYX

f(y,x)=f(yx)f(x)
f(y,x;θ,ψ)=fθ(yx)fψ(x)
θψの周辺分布。通常の線形モデルでは、を使用できますが、これは想定されていません。の完全なパラメーター空間は、デカルト積であるであり、2つのパラメーターには共通点はありません。Xθ=(β,σ2)(θ,ψ)Θ×Ψ

これは、統計実験(またはデータ生成プロセス、DGP)の因数分解として解釈できます。最初のはに従って生成され、2番目のステップとして、条件付き密度に従ってが生成されます。。最初のステップでは、2番目のステップでのみ入力されるに関する知識を使用しないことに注意してください。統計は補助です。https://en.wikipedia.org/wiki/Ancillary_statisticを参照してくださいXfψ(x)Yfθ(yX=x)θXθ

ただし、最初のステップの結果によっては、2番目のステップでについて多少の情報が得られる場合があります。たとえば、によって与えられる分布の分散が非常に低い場合、観測されたは小さな領域に集中するため、を推定することはより困難になります。したがって、この2段階の実験の最初の部分は、を推定できる精度を決定します。したがって、回帰パラメーターについての推論では、を条件とするのが自然です。これは条件付きの議論であり、上記の概要はその仮定を明らかにしています。θfψ(x)xθθX=x

設計された実験では、その仮定はほとんど保持されますが、多くの場合観測データでは保持されません。問題のいくつかの例は次のとおりです。予測子として遅れた応答を使用した回帰。この場合の予測子の条件付けは、応答の条件付けも行います。(さらに例を追加します)。

この問題を非常に詳細に説明している本の1つは、情報と指数ファミリです。O。E Barndorff-Nielsenによる統計理論では。参照してください。特に第4章は、著者は言う。このような状況で分離ロジックは、しかし、ほとんどexplicatedされていないが、次の参照を与える:RAフィッシャー(1956)統計的方法と科学的推論 とSverdrup(1966)決定理論の現状とネイマン・ピアソン理論§4.3


ここで使用される因数分解は、その精神において、十分な統計の因数分解定理に多少似ています。焦点は、回帰パラメータである場合は、との分布依存しない、その後、どのようにできた(または変動中)の分布について含まれる情報? θXθXθ

この分離の引数は、それが使用できない場合、たとえば予測が遅れた応答を伴う回帰を指すためにも役立ちます。


1
OLSに焦点を当てた質問に感謝しますが、あなたの答えの意味を確実に理解するために、これが部分最小二乗回帰でどのように機能するのか疑問に思いましたか?のデータ削減は部分的に依存しているので、これはとに共通のパラメーターがあることを意味しますか?Y θ ψXYθψ
ReneBt

PLSについては知りませんが、考えてみます
kjetil b halvorsen

1
いい答えです!...
Richard Hardy
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.