線形回帰モデルの確率リグレッサと固定リグレッサの違いは何ですか?


7

確率的リグレッサがある場合、固定されているが未知の確率分布から、いわゆるランダムサンプルである束に対してランダムペアを描画します。理論的には、ランダムサンプルを使用すると、分布いくつかのパラメーターについて学習または推定できます。(yix(yバツyバツ

理論的に言えば、固定回帰子がある場合、 条件付き分布に関する特定のパラメーター、つまり、各が確率変数ではない、または固定されているのみを推測できます。より具体的には、確率リグレッサでは分布全体の一部のパラメータを推定できますが、固定リグレッサでは条件付き分布特定のパラメータのみを推定できます。ky|バツ=12kバツyバツyバツ|バツ

その結果、固定リグレッサをディストリビューション全体に一般化することはできません。たとえば、サンプルに固定リグレッサとしてしかない場合またはについては推論できませんが、確率リグレッサは推論できます。バツ=129910099.9

多くの教科書は数学的導出の違いについてのみ述べているが、理論的に一般化できる程度の違いについては議論しないので、これは実際にはかなりあいまいな質問です。私は統計学の教授に助けを求めましたが、彼は答えを知りません。


実際の質問は何ですか?
Jake Westfall、2016年

@JakeWestfall確認を求めています。私にこの権利があるかどうかわからない
Kun

このドキュメントはあなたの考えを裏付けていると思います。web.pdx.edu/~newsomj/mlrclass/ho_randfixd.pdf
Cagdas Ozgenc

回答:


3

私の提案は、「固定された」リグレッサを「決定論的」と呼ぶ習慣を取ることです。これは2つのことを実現します。1つ目は、「固定」が「不変」を意味するというまれではない誤解を解消することです。第二に、それは明らかに「確率的」と対照的であり、リグレッサが決定されることを私たちに伝えます(したがって、リグレッサが決定論的であるフィールドに由来する「設計マトリックス」の用語です...)。

リグレッサが決定論的である場合、それらには分布がないため、期待値などの瞬間はありません。サンプル内の唯一の確率論的要素は、誤差項(および従属変数)にあります。

これには、1つでも変動する決定論的リグレッサを含むサンプルが、まったく同じように分散されたサンプルではなくなるという基本的な意味があります

Ey=bEバツ+EあなたEy=bバツ

そして、決定論的なは変化するので、従属変数はすべてのに対して同じ期待値を持たないということになります。つまり、分布は1つではなく、各は独自の分布があります(おそらく同じファミリーに属していますが、パラメーターが異なります)。バツy

つまり、条件付きの瞬間ではなく、決定論的リグレッサの影響が無条件の瞬間に関係していることがわかります。たとえば、ここで従属変数を平均しても、サンプルの記述統計を除いて、意味のあるものは何もありません。

これを逆にして、意味を確認しますが同一の確率変数の母集団から得られたものである場合、どのような意味で、どのような有効性でそれらを決定論的なリグレッサにリンクするのでしょうか。他の数値の行列で一連の数値を常に回帰できます。通常の最小二乗法を使用する場合、関連する直交投影を推定します。しかし、これには統計的な意味がありません。y

も注意してください。これは、がから「平均非依存」であることを意味しますか?いいえ、これはが確率的であった場合の解釈です。ここでは、決定論的リグレッサが関与する場合、無条件の瞬間と条件付きの瞬間との間に区別がないことを示しています。E(yixi)=E(yi)yixixi

私たちは確かに決定論的なリグレッサで予測できます。すべてのの共通の特性であり、決定論的リグレッサを使用して回復できます。次に、サンプル外の値を持つリグレッサを取得し、対応する値を予測します。b yiy


@cowboyTrader確率的リグレッサーと決定論的リグレッサーの本質的な違いをできるだけ明確にしたかったからだと思います。決定論的リグレッサに「分布」を割り当てることにより、たとえそれがディラックデルタであっても、数学的に傾けて満足させることができますが、それほど混乱しないかもしれません。
アレコスパパドプロス

1

修正された回帰を正しく説明しているとは思いません。fixedあなたはあなたが決める任意のレベルを選ぶことができ、この文脈手段インチ

Webサーバーの停止と負荷の関数として、Webサイトの停止を調査しているとします。2つの異なるアプローチを検討してください。

  • a。あなたはあなたの会社の負荷試験室でそれを行います(in vitro)
  • b。ライブプロダクションサーバーで実行します(in vivo)

A.負荷テストラボでは、Webサーバーの任意のレベルの負荷および必要なパラメーターを設定できます。1,000の同時クライアントとワーカープールサイズ100、メモリ100GBでロードできます。または、10個の同時クライアント、10個のスレッド、1 GBなどを使用することもできます。

この場合、fixed設計行列には4つの列(切片と3つの変数)があります。変数レベルにはランダムなものがないため、修正されています。あなたは各変数の正確な値を知っていて、chose望んだとおりにそれらを使います。

B.稼働中の本番サーバーでは、おそらく一部のパラメータしか制御できず、負荷を制御することはできません。クライアントは思い通りに行き来します。したがって、少なくとも負荷は確率的です。パラメータも完全に固定されているわけではありません。結局のところ、サーバーをテストしている間もサーバーを実行してクライアントにサービスを提供したいのです。たぶんあなたはいくつかの範囲でメモリとスレッドプールの設定で遊ぶことができます。したがって、最良のケースでは、3つの正規のリグレッサのうち2つの変数しか設定できません。

この場合、ランダムな設計行列があります。ここではリグレッサである負荷のみを監視できます。これは確率変数です。

言うまでもありませんが、固定された設計行列を使用すると、分析がはるかに簡単で堅牢になります。


0

まず、回帰とは何ですか?回帰モデルの定義と区切りを参照してください。 この非常に広範な概念については意見の相違がありますが、ほとんどの場合、条件付き分布(またはその一部)のモデリングに関するものです。Y いくつかの予測因子が与えられた バツ

したがって、条件付けを行うとすると、バツ、なぜそれがまったく重要なのか バツ最初はランダムまたは確定的でしたか?同様の質問を参照してください。リグレッサの条件付けと修正済みとして扱うことの違いは何ですか?

このランダムなリグレッサーのことは、実際には多頭のモンスター(社会主義のように、1つの頭を切り、他の誰かが成長する)であるため、混乱しているように思われます。ランダムとしてリグレッサ。私は短いリストを試してみましたが、確かに完全ではありません:

  1. リグレッサの測定エラー バツ。これは、決定論的リグレッサを使用した設計された実験でも発生する可能性があるため、別の問題に思えます。タグを見る または

  2. 誤差項と相関するリグレッサ、相関する誤差項をもつ個別の回帰、およびその他の多くの問題など、推論の問題を引き起こすデータ収集の問題 そして 、これは決定論的リグレッサではモデル化できません。

  3. 予測子として応答の遅れた値を持つモデル。これはしばしば、決定論的として扱われるリグレッサで行われますが、これは私には奇妙に見えます。その後Y モデルの一部ではランダムとして扱われ、別の部分では確定的として扱われます...

この多くのケースは、ランダムなリグレッサとしての非常に広いラベルの下ではなく、それ自体で扱うのが最善のようです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.