線形モデルを近似した後、近似した残差をバイアスと分散に分解することは可能ですか?


9

データポイントを、より複雑なモデルが必要か、より複雑なモデルが不要かで分類したいと思います。私の現在の考えは、すべてのデータを単純な線形モデルに当てはめ、残差のサイズを観察してこの分類を行うことです。次に、エラーへのバイアスと分散の寄与についていくつかの読み取りを行い、バイアスを直接計算できれば、合計エラー(残差または標準化残差)を処理するよりも適切な測定になる可能性があることに気付きました。

線形モデルでバイアスを直接推定することは可能ですか?テストデータの有無は?ここで相互検証は役立ちますか?

そうでない場合は、線形モデルの平均ブートストラップアンサンブル(バギングと呼ばれると思います)を使用してバイアスを概算できますか?


1
たぶん、分散が一定であるため、これらは等価です(残差vsバイアス)?
kmace

1
あなたの投稿の最初の声明であなたが何を意味しているのかを明確にしていただけませんか?その中で、「データポイント」(個々の観測?)を「より複雑なモデルが必要か、より複雑なモデルが必要ない」のいずれかに分類する必要があります。これが何を意味するのか(外れ値の検出や他の適合度の問題のように聞こえますが)、またはバイアスの推定に関する後の質問とどのように関連するのかは、はっきりしません。
Ryan Simmons

f(x)f1(x)=3x1+2x2f2(x)=3x1+2x2+x1x2f2

2
ライアンがすでに指摘したように、質問はあまり明確に述べられていません。あなたのコメントは「適合度」の方向を指しています。しかし、これを好転させることは不可能です。あなたは誤解を招くような事前概念を念頭に置いているようです。モデルといくつかのデータを組み合わせてモデルパラメータを決定すると、多くのことを計算できます。しかし、常に統計的に制限されたデータセットから始めることを考えると、より深くまたはより多くのシャベルで掘り下げることによって明らかにできる真実はありません。あなたが適用する方法は真実を生み出しませんが、それはあなたがどれほど間違っているかを示しているかもしれません。
ケルビム2017年

回答:


12

bias(f^(x))=E[f^(x)f(x)],f(x)

f^(x),

θ^

bias^B=θ^()θ^,

θ^()B θ^

f1(x)=3x1+2x2f2(x)=3x1+2x2+x1x2


8

分解の推定を取得できる状況の1つは、ポイントを複製した場合(つまり、予測子のさまざまな組み合わせに対して複数の応答がある場合)です。

これは主に、独立変数を制御できる状況(実験など)またはそれらがすべて離散している状況(xの組み合わせが多すぎず、xの値の組み合わせよりも十分に大きいサンプルを取得できる場合)に限定されます。複数のポイントを取得します)。

複製された点は、条件付き平均を推定するモデルなしの方法を提供します。このような状況では、残差二乗和が純粋なエラーとフィットの欠如に分解される可能性がありますが、複数の応答があるx値の各組み合わせでのバイアスの直接の(必ずしもノイズが多い)推定値もあります。


これでうまくいくとは思いません。モデルから重要な説明変数を省略した場合を考えます。この説明変数が他のすべての説明変数と直交している場合、その影響(または欠如)は、この方法または他の回答で提案されている他の方法では検出できないと思います。
Cagdas Ozgenc 2017年

2
@Cagdasすべての状況で機能するわけではありません。予測子が必ずしも欠落しているわけではなく、指定されたモデル形式からのバイアスを検出します
Glen_b -Reinstate Monica '31

1

やや複雑なカルマンフィルター領域では、残差(観測された測定値から予測された測定値を引いたもの)をテストして、モデルの変更や障害状態を探すことがあります。理論的には、モデルが完全で、ノイズがガウスである場合、残差も平均がゼロのガウスであり、予測される共分散行列とも一致している必要があります。人々は、逐次確率比検定(SPRT)のような逐次検定で非ゼロ平均を検定できます。新しいデータの安定したストリームではなく、データの固定されたバッチがあるため、状況は異なります。しかし、残差の標本分布を見るという基本的な考え方はまだ当てはまるかもしれません。

モデリングしているプロセスが時々変更される可能性があることを示しています。次に、データをさらに活用するために、おそらくその変化を引き起こしている他の要因を特定する必要があります。2つの可能性を検討してください。(1)たとえば、一部の動作領域にのみ非線形性があるため、1つのグローバルモデルではなくローカルモデルが必要か、(2)おそらくプロセスが時間とともに変化します。

これが物理的なシステムであり、サンプルが大きな時間間隔で分離されていない場合、これらのプロセスの変更がかなりの期間にわたって持続する可能性があります。つまり、真のモデルパラメータが時々変更され、一定期間存続する場合があります。データにタイムスタンプが付けられている場合は、時間の経過に伴う残差を確認できます。たとえば、すべてのデータを使用してy = Ax + bを近似し、Aとbを見つけたとします。次に戻って、残差シーケンスr [k] = y [k]-Ax [k]-bをテストします。ここで、kは、時間順に対応するインデックスです。時間の経過に伴うパターンを探します。たとえば、|| r [k] ||のような要約統計がある期間 しばらくの間、通常よりも高いままです。逐次テストは、個々のベクトルインデックスのSPRTやCUSUMのような、持続的なバイアスの種類のエラーの検出に最も敏感です。


1

答えは「いいえ」です。バイアスと分散はモデルパラメーターの属性であり、それらを推定するために使用されるデータではないためです。予測子空間全体で変化するバイアス(ha!)に関連するそのステートメントには、部分的な例外があります。詳しくは以下をご覧ください。これは、予測変数と応答変数に関連する「真の」関数を知ることとはまったく関係がないことに注意してください。

ββ^=(XTX)1XTYXN×Pβ^P×1YN×1NPβ^NiterNNiterβ^NP

β^bestPβ^bestjβ^jj1Niter

バイアスと分散をデータ自体に関連付ける対応する方法がありますが、それらは少し複雑です。ご覧のとおり、線形モデルのバイアスと分散を推定できますが、かなりのホールドアウトデータが必要になります。さらに油断のならない問題は、固定データセットでの作業を開始すると、分析が個人的な差異によって汚染され、分岐路の庭をさまよい始めており、その方法を知る方法がないという事実です。サンプル外で複製します(単一のモデルを思いついてこの分析を実行し、その後それをそのままにすることを約束した場合を除きます)。

YY^、より複雑なモデルが必要です(関連するすべての予測子を正しく識別できたとしても、できません)。「エラー」の哲学的性質についての退屈な論文に触れずに、肝心なことは、モデルがそのマークを逃す原因となっていることが起こっていたということです。問題は、複雑さを追加すると分散が増加するため、他のデータポイントのマークを見逃す可能性が高いことです。したがって、個々のデータポイントレベルでのエラー属性について心配することは、実りある努力とはなりません。例外(最初の段落で説明)は、バイアスと分散が実際には予測子自体の関数であるため、予測子空間の一部に大きなバイアスがあり、別の部分に小さなバイアスがある(分散も同じ)場合があります。を計算してこれを評価できますYY^Y^=Xβ^β^ YX

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.