回答:
線形回帰には2つの一般的な定式化があります。 概念に焦点を当てるために、それらをいくらか抽象化します。数学的記述は英語の記述よりも少し複雑なので、後者から始めましょう。
線形回帰は、応答がランダムであると想定されるモデルで、線形マップを介してリグレッサーによって決定される分布で、場合によっては他のパラメーターによって決定されます。
ほとんどの場合、可能な分布のセットはパラメータおよびを持つロケーションファミリであり、はパラメータを提供します。典型的な例は、通常の回帰であり、分布のセットは正規族あり、はリグレッサの線形関数です。
私はまだこれを数学的に説明していないので、、、、どのような数学オブジェクトを指すのかは未解決の問題であり、それがこのスレッドの主な問題だと思います。さまざまな(同等の)選択を行うことができますが、ほとんどは以下の説明と同等、または特別な場合です。
リグレッサーを修正しました。説明変数は、実際のベクトルとして表される。応答はランダムな変数である(シグマ・フィールドと確率が付与されています)。モデルは、関数である(または、必要であれば、関数の集合によってパラメータ)。 は、確率分布の空間の次元の有限次元トポロジ(通常は2次微分可能)部分多様体(または境界を持つ部分多様体)です。 通常、連続的(または十分に微分可能)であると見なされます。 は「迷惑パラメータ」です。いくつかの未知のデュアルベクトル(「回帰係数」)および未知の、の分布はであると想定されてい。この書くことができます
ランダム回帰。回帰変数と応答は、次元のベクトル値のランダム変数です。モデルは以前と同じ種類のオブジェクトですが、今では条件付き確率与え
数学的な記述は、データへの適用方法を示す何らかの処方箋がなければ役に立たない。固定のリグレッサーの場合、は実験者によって指定されていると考えます。したがって、を積シグマ代数が与えられた積として表示すると役立つ場合があります。実験者がを決定し、性質が(いくつかの未知の抽象的な)ます。ランダム回帰の場合、自然は決定し、ランダム変数のコンポーネントが決定します(これは「観察」されます)、順序付きのペア固定リグレッサーの場合とまったく同じです。
多重線形回帰の典型的な例(より一般的なものではなく、オブジェクトの標準表記を使用して表現します)は、いくつかの定数。以下のようにを通して変化、その画像がdifferentiably一次元サブセット描く- 曲線の正規分布の二次元マニホールド--inを。
場合- whatsoever--任意の方法でように推定される及びなどの値であり、予測値をに関連付け --whether実験者によって制御される(ケース1)か、観察されるだけです(ケース2)。値を設定する(ケース1)か、実現(ケース2)を観察する場合、その関連付けられた応答は、分布が 、不明ですが、 と推定されます。
まず第一に、@ whuberが優れた答えを出しました。テキストへの参照も含めて、ある意味でもっと簡単に、別のテイクを与えます。
はランダムにすることも、回帰式で固定することもできます。これはあなたの問題に依存します。いわゆる観察研究ではランダムでなければならず、実験では通常固定されます。
例1。私は、金属部品の硬度に対する電子放射への曝露の影響を研究しています。そこで、金属部品のサンプルをいくつか採取し、さまざまなレベルの放射線にさらします。露出レベルはXであり、選択したレベルに設定されているため、固定されています。私は実験の条件を完全に制御するか、少なくとも試みます。温度や湿度など、他のパラメーターでも同じことができます。
例2。あなたは、クレジットカードアプリケーションでの詐欺の発生頻度に対する経済の影響を研究しています。したがって、GDPに基づいて詐欺イベントを回帰します。あなたはGDPを制御していません、あなたは所望のレベルに設定することはできません。さらに、おそらく多変量回帰を見たいと思うので、失業率などの他の変数があり、Xの値の組み合わせがありますが、これは観察しますが、制御しません。この場合、Xはランダムです。
例3。現場、つまり実験室の条件ではなく、実際の実験農場で新しい農薬の有効性を研究しています。この場合、何かを制御できます。たとえば、農薬の量を制御できます。ただし、天候や土壌の状態など、すべてを管理するわけではありません。土壌をある程度制御できますが、完全には制御できません。これは中間のケースで、いくつかの条件が観察され、いくつかの条件が制御されます。実験デザインと呼ばれるこの研究分野全体が、農業研究がその最大の応用の1つであるこの3番目のケースに本当に焦点を当てています。
これが答えの数学的部分です。ガウス-マルコフ条件と呼ばれる線形回帰を研究する際に通常提示される一連の仮定があります。彼らは非常に理論的であり、実用的な設定を保持することを誰も気にしません。ただし、これらは通常の最小二乗(OLS)メソッドの制限を理解するのに非常に役立ちます。
そのため、ランダムなXと固定Xでは仮定のセットが異なります。これは、観察研究と実験研究にほぼ対応しています。おおまかに言って、3番目の例で示したように、時には両極端の中間にいることがあります。SalkindのEncyclopedia of Research Designの「Gauss-Markov」定理セクションは、開始するのに適した場所であり、Googleブックスで入手できます。
通常の回帰モデルのために次のように固定されたデザインの異なる仮定は、:
ランダム設計での同じ仮定:
ご覧のとおり、違いはランダム設計の設計マトリックスの仮定を調整することです。コンディショニングは、これらの強い仮定を作ります。たとえば、固定設計のように、エラーの平均がゼロであると言っているだけではありません。ランダム設計では、X、共変量に依存していないとも言います。
統計では、ランダム変数は何らかの方法でランダムに変化する量です。この優れたCVスレッドで、「ランダム変数」とはどういう意味ですか?
回帰モデルでは、予測変数(X変数、説明変数、共変量など)は固定され、既知であると想定されます。それらはランダムであるとは想定されていません。モデルのすべてのランダム性は誤差項にあると想定されます。標準的処方として、単純な線形回帰モデルを考える:
誤差項、 εは、ランダム変数であり、モデル内の乱数の発生源です。エラー項の結果として、 Yもランダム変数です。ただし、 Xはランダム変数とは見なされません。(もちろん、実際にはランダム変数かもしれませんが、それはモデルに仮定されたり反映されたりしません。)
私が質問を理解しているかどうかはわかりませんが、「独立変数は常にランダム変数でなければなりません」と尋ねているだけなら、答えはノーです。
独立変数は、従属変数と相関があると仮定される変数です。次に、モデリング(おそらく回帰分析)により、これが当てはまるかどうかをテストします。
ここには多くの複雑さと「if、buts、maybes」がありますので、回帰分析とそれを徹底的に読む基本的な計量経済学または統計の本のコピーを入手するか、基本的な統計/計量経済学からクラスノートを取得することをお勧めします可能であればオンラインコース。