順序独立変数を使用したロジット


18

ロジットモデルでは、各レベルにダミー変数を使用するよりも、独立した順序変数の効果を判断する賢い方法がありますか?


ソフトウェアに依存していませんか?

1
異なるソフトウェアが異なるオプションを許可する場合がありますが、原則的な答えがあるはずです。
fgregg

1
わかりました、愚かなコメント、ごめんなさい。

回答:


16

@ dmk38の応答に追加するために、「スコアのセットは、実験の結果を参照せずに作成された場合に有効なテストを提供します。スコアのセットが貧弱な場合、順序付けされた分類では、テストは敏感ではありません。したがって、スコアは、分類が構築および使用された方法について利用可能な最良の洞察を具体化する必要があります。(Cochran、1954、Agresti、2002、pp。88-89に引用)。言い換えれば、順序付けられた因子を数値的にスコア付けされた変数として扱うことは、単にモデリングの問題です。理にかなっている場合、これは結果の解釈方法にのみ影響し、順序変数の最適な表現の選択方法に関する決定的な経験則はありません。

母体のアルコール消費と先天性奇形の有無に関する次の例を考えてみましょう(Agresti、Categorical Data Analysis、表3.7 p.89):

            0    <1 1-2 3-5 6+
Absent  17066 14464 788 126 37
Present    48    38   5   1  1

この特定のケースでは、ロジスティック回帰または単純な関連表を使用して結果をモデル化できます。Rでやってみましょう:

tab3.7 <- matrix(c(17066,48,14464,38,788,5,126,1,37,1), nr=2,
                 dimnames=list(c("Absent","Present"),
                               c("0","<1","1-2","3-5","6+")))
library(vcd)
assocstats(tab3.7)

通常の(12.08、p = 0.016751)またはLR(6.20、p = 0.184562)統計(4 dfを使用)は、アルコール消費の順序付けられたレベルを考慮しません。χ2

両方の変数を等間隔のスコアを持つ序数として扱います(これは、奇形のようなバイナリ変数には影響がなく、ベースラインを0 =なしとして選択します)、線形連想をテストできます。最初に、この分割表の展開バージョンを作成しましょう。

library(reshape)
tab3.7.df <- untable(data.frame(malform=gl(2,1,10,labels=0:1), 
                                alcohol=gl(5,2,10,labels=colnames(tab3.7))), 
                     c(tab3.7))
# xtabs(~malform+alcohol, tab3.7.df) # check

次に、次を使用して線形関連性をテストできます。

library(coin)
#lbl_test(as.table(tab3.7))
lbl_test(malform ~ alcohol, data=tab3.7.df)

これ生み出すし。この統計は、単にスコアの2つの系列の間の相関(Agrestiと呼ばれることがあることに留意されたい容易として計算されます)、χ21=1.83p=0.1764M2=n1r2

cor(sapply(tab3.7.df, as.numeric))[1,2]^2*(32574-1)

ご覧のとおり、2つの変数間に明確な関連性があるという証拠はあまりありません。Agrestiが行ったように、アルコールレベルを{0,0.5,1.5,4,7}として再コーディングすることを選択した場合、最後のスコアが純粋にarbitrary意的であると仮定した連続スケールのミッドレンジ値を使用します。先天性奇形の発達に対する母親のアルコール消費のより大きな効果:

lbl_test(malform ~ alcohol, data=tab3.7.df,         
         scores=list(alcohol=c(0,0.5,1.5,4,7)))

関連付けられたp値0.01037で6.57の検定統計量を生成します。

Agrestiで議論されているミッドランク(この場合、PearsonではなくSpearmanにフォールバックする)を含む代替のコーディングスキームがありますが、ここで一般的な考え方をつかむことを望みます:実際に反映するスコアを選択するのが最善です順序変数の隣接するカテゴリ間の距離の適切な測定値と、等間隔は、多くの場合、適切な妥協点です(理論的な正当性がない場合)。ρr

GLMアプローチを使用して、次のように進めます。ただし、最初にアルコールがRでどのようにエンコードされているかを確認してください。

class(tab3.7.df$alcohol)

これは単純な順序なし因子("factor")であるため、名目上の予測子です。さて、アルコールを名目上の、順序的な、または連続的な予測因子と見なす3つのモデルを次に示します。

summary(mod1 <- glm(malform ~ alcohol, data=tab3.7.df, 
                    family=binomial))
summary(mod2 <- glm(malform ~ ordered(alcohol), data=tab3.7.df, 
                    family=binomial))
summary(mod3 <- glm(malform ~ as.numeric(alcohol), data=tab3.7.df, 
                    family=binomial))

最後のケースは暗黙的に等間隔のスケールを想定しており、は@ dmk38と同じように解釈されます。これは、ロジットリンクを介した結果に対するアルコールの1単位の増加の影響、つまり確率の増加を反映しています奇形の観察(奇形なし、つまりオッズ比と比較)はです。Waldテストは、通常の5%レベルでは重要ではありません。この場合、設計行列には2つの列のみが含まれます。1つ目は切片の1の定数列、2つ目は単純な線形回帰のように、予測変数の数値(1〜5)です。要するに、このモデルは、結果に対するアルコールの線形効果(ロジットスケール)をテストします。β^expθ^=exp0.228=1.256

ただし、他の2つの場合(mod1およびmod2)では、予測子のモデル化に使用される設計行列が異なるため、異なる出力が得られます。

model.matrix(mod1)
model.matrix(mod2)

関連する設計行列にmod1は、最初の列の切片項の後に、レベルのアルコール(0が常にベースライン)のダミー変数が含まれていますが、コントラストコーディングされた効果の4つの列がある場合は、(切片の1の列の後)。カテゴリ「3-5」の係数はで1.03736と推定されますが、で0.01633と推定されます。ただし、AICおよびその他の尤度ベースの尺度は、これら2つのモデル間で同一であることに注意してください。k1mod2mod1mod2

新しいスコアをアルコールに割り当てて、奇形の予測確率にどのように影響するかを確認できます。


3
(+1)非常に徹底した答え。テスト統計の分布を取得するには通常、シミュレーションまたは置換メソッドが必要ですが、順序変数にスコアを割り当てることなく、用量反応関係の単調性のみを想定したテストを取得できることを付け加えます。ヌルの下。Salanti&Ulm 2003 dx.doi.org/10.1002/bimj.200390012を参照してください。
ワンストップ

@onestopこのリファレンスをありがとう。見てみます。
chl

6

レベルが順序である場合、ロジット(またはOLS)回帰モデルでカテゴリカル予測子を使用することはまったく問題ありません。ただし、各レベルを離散として扱う理由がある場合(または実際にはカテゴリ変数が順序ではなく名義である場合)、ダミーコーディングの代わりとして、直交コントラストコーディングを使用することもできます。非常に完全でアクセスしやすい議論については、Judd、CM、McClelland、GH&Ryan、CSデータ分析:モデル比較アプローチ、Edn。2番目。(Routledge / Taylor and Francis、ニューヨーク、NY; 2008)、または単に「コントラストコーディング」をグーグル


モデル内で順序データを間隔データとして扱うことは問題ありませんか?もしそうなら、レベル間の「距離」がわからない場合、どうすれば係数を解釈できますか?
fgregg

3
はい。係数は、順序予測子の変化の各増分に対する対数オッズの変化を反映します。この(非常に一般的な)モデル仕様は、予測子がその増分にわたって線形の影響を与えることを前提としています。仮定をテストするために、順序変数を単一の予測子として使用するモデルと、応答を離散化し、複数の予測子として扱うモデルを比較できます(変数がノミナルである場合のように)。後者のモデルが大幅に優れた適合をもたらさない場合、各増分を線形効果を持つものとして扱うのが合理的です。
dmk38

この応答は問題ないように思えるので、+ 1を提供します。
chl

対数オッズの変化は順序変数で解釈できるため、これも完璧な例だと思います。
-SmallChess
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.