回答:
@ dmk38の応答に追加するために、「スコアのセットは、実験の結果を参照せずに作成された場合に有効なテストを提供します。スコアのセットが貧弱な場合、順序付けされた分類では、テストは敏感ではありません。したがって、スコアは、分類が構築および使用された方法について利用可能な最良の洞察を具体化する必要があります。(Cochran、1954、Agresti、2002、pp。88-89に引用)。言い換えれば、順序付けられた因子を数値的にスコア付けされた変数として扱うことは、単にモデリングの問題です。理にかなっている場合、これは結果の解釈方法にのみ影響し、順序変数の最適な表現の選択方法に関する決定的な経験則はありません。
母体のアルコール消費と先天性奇形の有無に関する次の例を考えてみましょう(Agresti、Categorical Data Analysis、表3.7 p.89):
0 <1 1-2 3-5 6+
Absent 17066 14464 788 126 37
Present 48 38 5 1 1
この特定のケースでは、ロジスティック回帰または単純な関連表を使用して結果をモデル化できます。Rでやってみましょう:
tab3.7 <- matrix(c(17066,48,14464,38,788,5,126,1,37,1), nr=2,
dimnames=list(c("Absent","Present"),
c("0","<1","1-2","3-5","6+")))
library(vcd)
assocstats(tab3.7)
通常の(12.08、p = 0.016751)またはLR(6.20、p = 0.184562)統計(4 dfを使用)は、アルコール消費の順序付けられたレベルを考慮しません。
両方の変数を等間隔のスコアを持つ序数として扱います(これは、奇形のようなバイナリ変数には影響がなく、ベースラインを0 =なしとして選択します)、線形連想をテストできます。最初に、この分割表の展開バージョンを作成しましょう。
library(reshape)
tab3.7.df <- untable(data.frame(malform=gl(2,1,10,labels=0:1),
alcohol=gl(5,2,10,labels=colnames(tab3.7))),
c(tab3.7))
# xtabs(~malform+alcohol, tab3.7.df) # check
次に、次を使用して線形関連性をテストできます。
library(coin)
#lbl_test(as.table(tab3.7))
lbl_test(malform ~ alcohol, data=tab3.7.df)
これ生み出すし。この統計は、単にスコアの2つの系列の間の相関(Agrestiと呼ばれることがあることに留意されたい容易として計算されます)、
cor(sapply(tab3.7.df, as.numeric))[1,2]^2*(32574-1)
ご覧のとおり、2つの変数間に明確な関連性があるという証拠はあまりありません。Agrestiが行ったように、アルコールレベルを{0,0.5,1.5,4,7}として再コーディングすることを選択した場合、最後のスコアが純粋にarbitrary意的であると仮定した連続スケールのミッドレンジ値を使用します。先天性奇形の発達に対する母親のアルコール消費のより大きな効果:
lbl_test(malform ~ alcohol, data=tab3.7.df,
scores=list(alcohol=c(0,0.5,1.5,4,7)))
関連付けられたp値0.01037で6.57の検定統計量を生成します。
Agrestiで議論されているミッドランク(この場合、PearsonではなくSpearmanにフォールバックする)を含む代替のコーディングスキームがありますが、ここで一般的な考え方をつかむことを望みます:実際に反映するスコアを選択するのが最善です順序変数の隣接するカテゴリ間の距離の適切な測定値と、等間隔は、多くの場合、適切な妥協点です(理論的な正当性がない場合)。
GLMアプローチを使用して、次のように進めます。ただし、最初にアルコールがRでどのようにエンコードされているかを確認してください。
class(tab3.7.df$alcohol)
これは単純な順序なし因子("factor"
)であるため、名目上の予測子です。さて、アルコールを名目上の、順序的な、または連続的な予測因子と見なす3つのモデルを次に示します。
summary(mod1 <- glm(malform ~ alcohol, data=tab3.7.df,
family=binomial))
summary(mod2 <- glm(malform ~ ordered(alcohol), data=tab3.7.df,
family=binomial))
summary(mod3 <- glm(malform ~ as.numeric(alcohol), data=tab3.7.df,
family=binomial))
最後のケースは暗黙的に等間隔のスケールを想定しており、は@ dmk38と同じように解釈されます。これは、ロジットリンクを介した結果に対するアルコールの1単位の増加の影響、つまり確率の増加を反映しています奇形の観察(奇形なし、つまりオッズ比と比較)はです。Waldテストは、通常の5%レベルでは重要ではありません。この場合、設計行列には2つの列のみが含まれます。1つ目は切片の1の定数列、2つ目は単純な線形回帰のように、予測変数の数値(1〜5)です。要するに、このモデルは、結果に対するアルコールの線形効果(ロジットスケール)をテストします。
ただし、他の2つの場合(mod1
およびmod2
)では、予測子のモデル化に使用される設計行列が異なるため、異なる出力が得られます。
model.matrix(mod1)
model.matrix(mod2)
関連する設計行列にmod1
は、最初の列の切片項の後に、レベルのアルコール(0が常にベースライン)のダミー変数が含まれていますが、コントラストコーディングされた効果の4つの列がある場合は、(切片の1の列の後)。カテゴリ「3-5」の係数はで1.03736と推定されますが、で0.01633と推定されます。ただし、AICおよびその他の尤度ベースの尺度は、これら2つのモデル間で同一であることに注意してください。mod2
mod1
mod2
新しいスコアをアルコールに割り当てて、奇形の予測確率にどのように影響するかを確認できます。
レベルが順序である場合、ロジット(またはOLS)回帰モデルでカテゴリカル予測子を使用することはまったく問題ありません。ただし、各レベルを離散として扱う理由がある場合(または実際にはカテゴリ変数が順序ではなく名義である場合)、ダミーコーディングの代わりとして、直交コントラストコーディングを使用することもできます。非常に完全でアクセスしやすい議論については、Judd、CM、McClelland、GH&Ryan、CSデータ分析:モデル比較アプローチ、Edn。2番目。(Routledge / Taylor and Francis、ニューヨーク、NY; 2008)、または単に「コントラストコーディング」をグーグル