独立変数=ランダム変数?


25

私は少し混乱している場合は、独立変数の統計モデルに(も予測因子や機能と呼ばれる)、例えば線形回帰で、確率変数がありますか?XY=β0+β1X


12
線形モデルは条件としているため、ランダムであるかどうかは問題ではありません。X
西安

4
これを確認してください。いい質問ですね。
アントニ・パレラダ

@ Xi'an、固定設計では、線形モデルの仮定はに条件付けられていません。私の答えをご覧ください。だから、それは非常に重要です。これは、実験は観察研究の結果よりも解釈がそんなに簡単にしている理由であるX
Aksakal

回答:


19

線形回帰には2つの一般的な定式化があります。 概念に焦点を当てるために、それらをいくらか抽象化します。数学的記述は英語の記述よりも少し複雑なので、後者から始めましょう。

線形回帰は、応答がランダムであると想定されるモデルで、線形マップを介してリグレッサーによって決定される分布で、場合によっては他のパラメーターによって決定されます。YXβ(X)θ

ほとんどの場合、可能な分布のセットはパラメータおよびを持つロケーションファミリであり、はパラメータを提供します。典型的な例は、通常の回帰であり、分布のセットは正規族あり、はリグレッサの線形関数です。αθβ(X)αN(μ,σ)μ=β(X)

私はまだこれを数学的に説明していないので、、、、どのような数学オブジェクトを指すのかは未解決の問題であり、それがこのスレッドの主な問題だと思います。さまざまな(同等の)選択を行うことができますが、ほとんどは以下の説明と同等、または特別な場合です。XYβθ


  1. リグレッサーを修正しました。説明変数は、実際のベクトルとして表される。応答はランダムな変数である(シグマ・フィールドと確率が付与されています)。モデルは、関数である(または、必要であれば、関数の集合によってパラメータ)。 は、確率分布の空間の次元の有限次元トポロジ(通常は2次微分可能)部分多様体(または境界を持つ部分多様体)です。 XRpY:ΩRΩf:R×ΘMdRMdΘMddf通常、連続的(または十分に微分可能)であると見なされます。 は「迷惑パラメータ」です。いくつかの未知のデュアルベクトル(「回帰係数」)および未知の、の分布はであると想定されてい。この書くことができますΘRd1Yf(β(X),θ)βRpθΘ

    Yf(β(X),θ).

  2. ランダム回帰。回帰変数と応答は、次元のベクトル値のランダム変数です。モデルは以前と同じ種類のオブジェクトですが、今では条件付き確率与えp+1Z=(X,Y):ΩRp×Rf

    Y|Xf(β(X),θ).

数学的な記述は、データへの適用方法を示す何らかの処方箋がなければ役に立たない。固定のリグレッサーの場合、は実験者によって指定されていると考えます。したがって、を積シグマ代数が与えられた積として表示すると役立つ場合があります。実験者がを決定し、性質が(いくつかの未知の抽象的な)ます。ランダム回帰の場合、自然は決定し、ランダム変数のコンポーネントが決定しますXΩRp×ΩXωΩωΩXπX(Z(ω))X(これは「観察」されます)、順序付きのペア固定リグレッサーの場合とまったく同じです。(X(ω),ω))Ω


多重線形回帰の典型的な例(より一般的なものではなく、オブジェクトの標準表記を使用して表現します)は、いくつかの定数。以下のようにを通して変化、その画像がdifferentiably一次元サブセット描く- 曲線の正規分布の二次元マニホールド--inを。

f(β(X),σ)=N(β(x),σ)
σΘ=R+xRp

場合- whatsoever--任意の方法でように推定される及びなどの値であり、予測値をに関連付け --whether実験者によって制御される(ケース1)か、観察されるだけです(ケース2)。値を設定する(ケース1)か、実現(ケース2)を観察する場合、その関連付けられた応答は、分布が 、不明ですが、ββ^σσ^β^(x)YxxxX YXN(β(x),σ)と推定されます。N(β^(x),σ^)


これは素晴らしい答えです(ただし、おそらくすべての人に当てはまるわけではありません)。
l7ll7

2
PSこれらの基本的な質問があなたがここでやったように正確に説明されている本を知っていますか?数学者として、私が見つけたすべての本は、ここでの他の答えを反映しており、数学的な観点からははるかに正確ではありません。(これはもちろん、それらを悪くするわけではありませんが、それらの本は私のためではありません。この答えのように、より正確な本が
欲しい

最後の段落の最初の文では、ないβX の予測値Y(確率変数の実現Y、しないの予測値)?または、私はあなたの言語を誤解し、「予測値」は「がセット(観測)値である場合の予測値」を意味しますか?β^(x)yYxxxX
チャド

1
@Chadあいまいな言語を指摘していただきありがとうございます。その文を編集して意味を明確にしましたが、これはあなたの理解と一致しています。
whuber

7

まず第一に、@ whuberが優れた答えを出しました。テキストへの参照も含めて、ある意味でもっと簡単に、別のテイクを与えます。

動機

はランダムにすることも、回帰式で固定することもできます。これはあなたの問題に依存します。いわゆる観察研究ではランダムでなければならず、実験では通常固定されます。X

例1。私は、金属部品の硬度に対する電子放射への曝露の影響を研究しています。そこで、金属部品のサンプルをいくつか採取し、さまざまなレベルの放射線にさらします。露出レベルはXであり、選択したレベルに設定されているため、固定されています。私は実験の条件を完全に制御するか、少なくとも試みます。温度や湿度など、他のパラメーターでも同じことができます。

例2。あなたは、クレジットカードアプリケーションでの詐欺の発生頻度に対する経済の影響を研究しています。したがって、GDPに基づいて詐欺イベントを回帰します。あなたはGDPを制御していません、あなたは所望のレベルに設定することはできません。さらに、おそらく多変量回帰を見たいと思うので、失業率などの他の変数があり、Xの値の組み合わせがありますが、これは観察します、制御しません。この場合、Xはランダムです。

例3。現場、つまり実験室の条件ではなく、実際の実験農場で新しい農薬の有効性を研究しています。この場合、何かを制御できます。たとえば、農薬の量を制御できます。ただし、天候や土壌の状態など、すべてを管理するわけではありません。土壌をある程度制御できますが、完全には制御できません。これは中間のケースで、いくつかの条件が観察され、いくつかの条件が制御されます。実験デザインと呼ばれるこの研究分野全体が、農業研究がその最大の応用の1つであるこの3番目のケースに本当に焦点を当てています。

数学

これが答えの数学的部分です。ガウス-マルコフ条件と呼ばれる線形回帰を研究する際に通常提示される一連の仮定があります。彼らは非常に理論的であり、実用的な設定を保持することを誰も気にしません。ただし、これらは通常の最小二乗(OLS)メソッドの制限を理解するのに非常に役立ちます。

そのため、ランダムなXと固定Xでは仮定のセットが異なります。これは、観察研究と実験研究にほぼ対応しています。おおまかに言って、3番目の例で示したように、時には両極端の中間にいることがあります。SalkindのEncyclopedia of Research Designの「Gauss-Markov」定理セクションは、開始するのに適した場所であり、Googleブックスで入手できます

通常の回帰モデルのために次のように固定されたデザインの異なる仮定は、Y=Xβ+ε

  • E[ε]=0
  • 等分散性、E[ε2]=σ2
  • ノー系列相関、E[εi,εj]=0

ランダム設計での同じ仮定:

  • E[ε|X]=0
  • 等分散性、E[ε2|X]=σ2
  • ノー系列相関、E[εi,εj|X]=0

ご覧のとおり、違いはランダム設計の設計マトリックスの仮定を調整することです。コンディショニングは、これらの強い仮定を作ります。たとえば、固定設計のように、エラーの平均がゼロであると言っているだけではありません。ランダム設計では、X、共変量に依存していないとも言います。


2

統計では、ランダム変数は何らかの方法でランダムに変化する量です。この優れたCVスレッドで、「ランダム変数」とはどういう意味ですか?

回帰モデルでは、予測変数(X変数、説明変数、共変量など)は固定され、既知であると想定されます。それらはランダムであるとは想定されていません。モデルのすべてのランダム性は誤差項にあると想定されます。標準的処方として、単純な線形回帰モデルを考える:
誤差項、 εは、ランダム変数であり、モデル内の乱数の発生源です。エラー項の結果として、 Yもランダム変数です。ただし、 Xはランダム変数とは見なされません。(もちろん、実際にはランダム変数かもしれませんが、それはモデルに仮定されたり反映されたりしません。)

Y=β0+β1X+εwhere εN(0,σ2)
εYX

つまり、は定数ですか?εはランダム変数であり、加算は2つのランダム変数間でのみ定義され、「他の何か」+ランダム変数ではないため、数学的な観点からXを理解する唯一の他の方法だからです。2つのランダム変数の1つは定数である可能性がありますが、これは私が言及しているケースです。XXε
l7ll7

PS 上記のリンクからのすべての説明を見て、非常に明快なものはありませんでした:なぜですか?確率論者がそれを理解するのと、統計学者がそれを理解する方法では、ランダム変数間の接続を確立するものはないからです。そのため、一部の回答では、標準の正確な確率理論の定義を説明していますが、その他の回答では、あいまいな統計定義を説明しています(私には不明瞭です)。しかし、これら2つの概念間の関係を実際に説明するものはありません。(唯一の例外は、長いチケットインボックスモデルの回答であり、多少の約束を示すかもしれませんが、そうであっても[...]
l7ll7

違いははっきりと明確にされていなかったので、驚くほど明るくなりました。この具体的な答えを瞑想して、価値があるかどうかを確認する必要があります)
l7ll7

X

いいえ、それについての非ランダム変数の考え方は機能しません。2つの理由があります。1つは、上記のコメントで議論したように、数学には「変数」というものはありません。 、その場合の追加は、上記のコメントで議論したように定義されていません。
l7ll7

1

私が質問を理解しているかどうかはわかりませんが、「独立変数は常にランダム変数でなければなりません」と尋ねているだけなら、答えはノーです。

独立変数は、従属変数と相関があると仮定される変数です。次に、モデリング(おそらく回帰分析)により、これが当てはまるかどうかをテストします。

ここには多くの複雑さと「if、buts、maybes」がありますので、回帰分析とそれを徹底的に読む基本的な計量経済学または統計の本のコピーを入手するか、基本的な統計/計量経済学からクラスノートを取得することをお勧めします可能であればオンラインコース。


XXYXYX

xxxxX

あなたは私よりも数学の理解がはるかに大きいように聞こえます。標準的な大学学部の計量経済学/統計学の答えを提供しています。少なくとも実際の分析の観点から、あなたはそれを少し考え直しているのではないかと思います。その本からの引用に関して、それの私の解釈は、彼が参照している特定のxとyはランダムであるということです-しかし、それはxまたはyがランダムであることを意味しません。
Statsanalyst

たとえば、英国の政治における投票傾向のモデルの従属変数は、各選挙区で保守派候補者が受け取った票数(カナダ人、地区からアメリカ人)であり、独立変数は平均住宅価格(英国の富/所得)。私が理解しているように、これらのどちらも「ランダム」変数ではありませんが、これはモデル化するのに完全に合理的なものです。
Statsanalyst

はい、それは私が期待できる/計量経済学/統計学部門の標準である答えを知るのは良いことです、そしてそのフィードバックをとても感謝しています(私は再び賛成しますが、すでにやったのでできません)。数学の問題は「一度黒くなれば二度と戻らない」ということです。数年間の数学的精度の訓練は、明確になるまで何かがはっきりしていなければ不安感を引き起こします[...]
l7ll7
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.