制限されたターゲット変数をモデル化する方法は?


17

5つの変数があり、0〜70の範囲内にある必要があるターゲット変数を予測しようとしています。

この情報を使用してターゲットをよりよくモデル化するにはどうすればよいですか?

回答:


22

必ずしも何もする必要はありません。予測子が正常に機能する可能性があります。偶数予測子(ある、使用可能性の範囲を予測クランプ範囲外の値を外挿し、もしの代わりにハット{Y}は\)尽くします上手。モデルを相互検証して、これが機能するかどうかを確認します。max(0,min(70,y^))y^

ただし、制限された範囲は、従属変数(y)と独立変数(xi)の間の非線形関係の可能性を高めます。これのいくつかの追加の指標は次のとおりです。

  • 範囲の両端の残差の変動と比較して、y^がその範囲の中央にある場合の残差値の変動が大きくなります。

  • 特定の非線形関係の理論的理由。

  • モデルの仕様の誤りの証拠(通常の方法で取得)。

  • x_iの2次または高次の項の重要性xi

これらの条件のいずれかが当てはまる場合、yの非線形再表現を検討してくださいy

yを再表現yしてx_iとの線形関係を作成する方法は多数ありますxi。たとえば、間隔[0,70]で定義された増加関数fは、y \ to f(y)-f(70-y)を介して対称増加関数を作成するために「折り畳む」ことができます。場合fは任意の大きさと負になる引数が近づくにつれて0を、の折り返しバージョンfがマップされます[0,70]すべての実数に。そのような関数の例には、対数と負のべき乗が含まれます。対数の使用は、@ user603が推奨する「logitリンク」と同等です。別の方法は、G[0,70]yf(y)f(70y)f0f[0,70]G任意の確率分布の逆CDFであり、f(y)= G(y / 70)を定義しますf(y)=G(y/70)。正規分布を使用すると、「プロビット」変換が行われます。

変換の家族を活用する一つの方法は、実験にある:、可能性の高い変換を試みる変換の迅速な回帰を実行反対残差、およびテスト:彼らはの予測値に依存しないように表示されます(等分散と相関しません) 。これらは、独立変数との線形関係の兆候です。逆変換された予測値の残差が小さくなる傾向がある場合にも役立ちます。これは、変換により適合が改善されたことを示します。外れ値の影響に抵抗するには、反復的に再重み付けされた最小二乗法などの堅牢な回帰方法を使用します。yxiy


1
+1すばらしい回答です!「範囲の両端の残差の変動と比較して、y_hatがその範囲の中央にあるときの残差値の変動が大きい」が非線形性を示している理由を推定または引用できますか?
アンディマッケンジー

1
@Andy理論的には、このような不均一分散は非線形性とは直接関係がありませんが、実際には、分散安定化変換は関係を線形化する傾向があることがよく観察されます。最小値(0など)から最大値(70など)に連続的に上昇する曲線には、その範囲の中央のどこかに最大勾配があり、多くの場合、残差分散も大きくなります。そのため、残差は中央でより大きく、端でより少ない分散を示すと予想されます。そうでない場合は、変換されていない変数との線形関係を期待できます。
whuber

6

値が0〜70の範囲にある理由を考慮することが重要です。たとえば、それらが70問のテストの正解数である場合、過剰分散二項回帰などの「成功数」変数のモデルを検討する必要があります。他の理由が他の解決策につながる場合があります。


2

データ変換:収まるようにデータを再スケーリングし、ロジットリンクを備えたglmモデルを使用してデータをモデル化します。[0,1]

編集:ベクトルを再スケーリングする(つまり、すべての要素を最大のエントリで分割する)場合、原則として、それを行う前に、外れ値のスクリーン(目玉)を作成します。

更新

Rにアクセスできると仮定すると、モデリングパーツには堅牢な glmルーチンが含まれます。パッケージを参照してください。glmrob()robustbase


3
ここで推奨されるようにデータをクランプすると、回帰の勾配にバイアスがかかります。
whuber

1
また、データの真の範囲がアプリオリにわかっている場合、サンプルの変位値に基づいたクランピングの即時値が表示されません。
枢機

@Cardinal(例えば)データの99%が[0,1]にあり、残りの値が70に等しいという点です。範囲のコンパクトな制約は、外れ値の不在を保証しません!そのため、提案されたアプローチの可能性のあるバイアスに関する懸念にもかかわらず、@ user603が提供するアドバイスの精神に同意します。
whuber

@whuber:このような設定での私の傾向は、この形式のクランプではなく、外れ値に耐性のあるGLMを使用することです。次に、「切片」および「勾配」係数を介してモデルの適合を調整します。
枢機卿

@Cardinalはい、それは有効な解決策です。このようなGLMの使用に、(近似)線形性と残差の独立性をチェックする診断手順がまだ付随していることを願っています。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.