0と1の間の範囲の結果に対するロジスティック回帰の拡張


9

結果が厳密に0、1ではなく、含む0から1までのすべての実数の範囲にある回帰問題があります。Y=[0,0.12,0.31,...,1]

この問題はこのスレッドで既に説明されていますが、私の質問は少し異なります。

ロジスティック回帰が通常使用されるのと同じ理由で、線形回帰を使用できません。線形回帰では、A)非常に大きなIVs値は予測結果を1にスキューし、B)線形回帰の結果は0,1の制限に制限されません。

教科書からこのロジスティックコスト関数を見る方程式が計算するように設計されていることを収集しますとが同じ値0または1を持たない場合にのみ、0より大きいコスト。y x

Cost=ylog(h(x))(1y)log(1h(x))
yx

コスト関数を変更してすべての仮説エラーを測定することにより、ロジスティック回帰を使用することは可能ですか?

回答:


9

いくつかのオプションがあります。そのうちの2つは次のとおりです。

  1. ロジスティック変換を通じてを変換する場合、通常の最小二乗法による線形回帰をその変換された応答変数に当てはめることができます。ログyYlog(y1y)
  2. または、元の変数を、リンク変数としてロジスティック変換を使用して一般化線形モデルに適合させ、の分散と平均の二項変数の関係との関係を使用して、反復再重み付け最小二乗法で近似することもできます。これは基本的に「ロジスティック回帰を使用する」と同じです。Y

どちらを使用するかはエラー構造に依存します。決定する唯一の方法は、両方に当てはめて、モデルの仮定に最も適合する残差構造を持つものを確認することです。私の疑いは、それらの間で選択することはあまりないだろうということです。確かに、あなたが言う理由のために、これらのオプションのどちらかが、変換されていない使った直線線形回帰の大きな改善になるでしょう。Y


2
(1)オプション2:通常、あなたは標準誤差を計算することを過分散&使用を推定したい- 「準二項」 Yの分散との関係&平均である、モデル、比例ではなく、のと同じ二項変数。
Scortchi-モニカの回復

@Scortchi:これはglm()、Rが連続応答を供給されているときにRで実行している機能family=quasibinomialですか?つまりfamily=binomial、追加のステップで係数を推定してから、過剰分散を考慮して標準誤差を計算しますか?はいの場合、これは「堅牢な標準エラー」の計算と同じですか?私はいくつかの適切なデータを持っていて、両方の家族をで試しましたglm。係数は同じですが、標準誤差が異なります。ありがとう。
amoeba 2016

1
@amoeba:はい、それで終わりです。しかし、「堅牢な標準誤差」とは、通常、サンドイッチ推定器などを使用することを意味します。
Scortchi-モニカの回復


0

yは厳密には0または1ではないので(前述のとおり)、コストは常に0より大きくなければなりません。そのため、モデルに変更を加える必要はないと思います。


0

2つの代替モデルをお勧めします。

結果(y変数)が順序付けられている場合は、順序付きプロビットモデルを試してください。

結果(y変数)が順序付けられていない場合は、多項ロジットモデルを試してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.