順序付きロジスティック回帰のより良い説明と理解については、カテゴリーデータ分析に関する本(Alan Agrestiのカテゴリーデータ分析、2002年を参照)を参照することをお勧めします。あなたが尋ねるすべての質問は基本的にそのような本のいくつかの章によって答えられます。R
関連する例にのみ興味がある場合は、Julian FarawayによるRでの線形モデルの拡張(CRC Press、2008)が参考になります。
質問に答える前に、順序付きロジスティック回帰は、カテゴリが順序付けされている多項ロジットモデルの場合です。我々は仮定カテゴリを注文し、その個体のための序応答と、、
のために。順序付けられた応答を使用すると、多くの場合、累積確率を処理する方が簡単です。累積確率は増加し、隣接するカテゴリの結合に対して不変です。さらに、なので、モデル確率のみが必要です。、I Y 、I 、P 、I 、J = P (Y I = J )J = 1 、。。。、J γ I J = P (Y I ≤ J )γ I J = 1J私Y私p私はj= P(Yi = j )J = 1 、。。。、Jγ私はj= P(Y私≤ J )γi J= 1J– 1
ここで、を共変量にリンクします。あなたのケースでは、3つのレベルを命じました:、、。順序付けられていないものではなく、順序付けられたものとして扱う方が理にかなっています。残りの変数は共変量です。検討している特定のモデルは比例オッズモデルであり、数学的に次と同等です。 Xγ私はjバツSat
low
medium
high
ここで、 γ J(X I)= P (Y I ≤ J | X I)
ロジット γj(x私)= θj- βTバツ私、j = 1 … J− 1
ここで、 γj(x私)= P(Y私≤ J | バツ私)
と比較する相対オッズは次のとおりであるため、そう呼ばれます。X 1 X 2Y≤ Jバツ1バツ2
(γj(x1)1 - γj(x1))/ (γj(x2)1 - γj(x2)) =exp(- βT(x1− x2))
上記の式は依存しないことに注意してください。もちろん、特定のデータセットについて比例オッズの仮定を確認する必要があります。j
ここで、いくつか(1、2、4)の質問に答えます。
モデルが適切に適合したかどうかをどのように理解できますか?summary(house.plr)は、残留偏差3479.149と3495.149のAIC(赤池情報量基準?)を示しています。いいですか?それらが相対的な尺度としてのみ有用な場合(つまり、別のモデルの適合と比較する場合)、優れた絶対尺度とは何ですか?残差はほぼカイ二乗分布ですか?元のデータまたは相互検証で「正しく予測された%」を使用できますか?それを行う最も簡単な方法は何ですか?
適合モデルpolr
は特別なものglm
であるため、glm
ここでの従来の保持に当てはまるすべての仮定があります。パラメータを適切に処理すれば、分布を把握できます。具体的には、モデルが良いかどうかをテストするために、次のnullをテストする適合度テストを実行できます(これは微妙であるため、ほとんどの場合nullを拒否したいが、ここではしたくないそれを拒否して良いフィットを得る):
Ho: 現在のモデルで十分
これにはカイ二乗検定を使用します。p値は次のように取得されます。
1-pchisq(deviance(house.plr),df.residual(house.plr))
ほとんどの場合、0.05より大きいp値を取得して、モデルが適切であると結論付けるためにnullを拒否しないようにします(ここでは哲学的な正確さは無視されます)。
AICは、多数のパラメーターを持ちたくないと同時に良好にフィットするように高くする必要があります。stepAIC
これを確認する良い方法です。
はい。クロス検証を使用して、予測が成立するかどうかを確認できます。参照predict
:機能(オプションtype = "probs"
で)?polr
。世話をする必要があるのは共変量だけです。
prにはどのような情報が含まれていますか?プロファイルのヘルプページは一般的なものであり、polrのガイダンスはありません。
@chlなどによって指摘されているように、pr
CIの取得に必要なすべての情報およびのその他の尤度関連情報が含まれていpolr fit
ます。すべてglm
のsは、対数尤度の反復加重最小二乗推定法を使用して近似されます。この最適化では、分散共分散行列、CI、t値などの計算に必要な多くの情報を取得します(参考文献を参照してください)。すべての情報が含まれています。
各係数のt値をどのように解釈しますか?一部のモデルとは異なり、ここにはP値がありません。
通常の線形モデル(special glm
)とは異なり、他glm
のsは回帰係数の素敵なt分布を持っていません。したがって、取得できるのは、パラメーター推定値と、最尤理論を使用した漸近分散共分散行列だけです。したがって:
分散(β^)= (XTWバツ)− 1ϕ^
推定値を標準誤差で割ったものが、BDRとWVがt値と呼ぶものです(MASS
ここでは慣例と仮定しています)。通常の線形回帰のt値と同等ですが、t分布に従いません。CLTを使用すると、漸近的に正規分布します。しかし、彼らはこの近似値を使用しないことを好みます(私は推測します)。(私が間違っていないことを望みます。もし私が間違っていれば、BDRがこのフォーラムに載っていないことを望みます。
methods("profile")
、Rprofile
オブジェクトに関連付けられた(この場合はS3)メソッドpolr
を提供します。オンラインgetAnywhere("profile.polr")
でRプロンプトに入力します。