結果をカテゴリーではなく順序と見なした場合、何が得られますか?


12

順序変数とカテゴリ変数の予測には、さまざまな方法があります。

私が理解していないのは、この区別がいかに重要かということです。注文を落とすと何が悪いのかを明確にする簡単な例はありますか?どのような状況でそれは重要ではありませんか?たとえば、独立変数もすべてカテゴリカル/オーディナルである場合、違いはありますか?

この関連する質問は、独立変数のタイプに焦点を当てています。ここでは、結果変数について尋ねています。

編集: 順序構造を使用するとモデルパラメーターの数が減るという点がわかりますが、それでもまだ確信が持てません。

ここに例があります(順序付きロジスティック回帰の序論から取られていますが、私が見る限り、順序ロジスティック回帰は多項ロジスティック回帰よりもパフォーマンスが良くありません:

library(nnet)
library(MASS)
gradapply <- read.csv(url("http://www.ats.ucla.edu/stat/r/dae/ologit.csv"), colClasses=c("factor", "factor", "factor", "numeric"))

ordered_result <- function() {
  train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9))
  train_data <- gradapply[train_rows,]
  test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),]
  m <- polr(apply~pared+gpa, data=train_data)
  pred <- predict(m, test_data)
  return(sum(pred==test_data$apply))
}

multinomial_result <- function() {
  train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9))
  train_data <- gradapply[train_rows,]
  test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),]
  m <- multinom(apply~pared+gpa, data=train_data)
  pred <- predict(m, test_data)
  return(sum(pred==test_data$apply))
}

n <- 100

polr_res <- replicate(n, ordered_result())
multinom_res <- replicate(n, multinomial_result())
boxplot(data.frame(polr=polr_res, multinom=multinom_res))

これは、両方のアルゴリズムの正しい推測(40個中)の数の分布を示しています。

polr_vs_multinom

Edit2:スコアリング方法として次を使用する場合

return(sum(abs(as.numeric(pred)-as.numeric(test_data$apply)))

「非常に間違った」予測にペナルティを科しますが、polrは依然として見栄えが悪くなります。つまり、上記のプロットはあまり変化しません。


1
この例では、不連続で不適切なスコアリングルールを使用しています。これは一般に、予測セットを比較するための適切な基盤ではありません(任意であり、パワーと精度が不足しています)。
フランクハレル

ordered factor結果を改善するために、出力変数をに強制する必要があるかもしれないと仮定しましたが、gradapply$apply <-factor(gradapply$apply, levels= c('unlikely', 'somewhat likely', 'very likely') , ordered = TRUE)違いはありません。精度を見ると、この2つはほとんど似ています。ただし、精度だけに頼るのに適した指標ではありません。
ジュバル16

回答:


10

必要に応じてYを序数として扱うことにより、大きな威力と精度が得られます。これは、モデル内のパラメーターの数がはるかに少ない(kの係数で、kはYのカテゴリーの数より1少ない)ことから発生します。いくつかの順序モデルがあります。最も一般的に使用されるのは、比例オッズと継続比の順序ロジスティックモデルです。


1
+1パラメーターの削減は、順序モデルの適合がはるかに容易になることも意味します。
JMS

4

変数の順序付けされた性質を無視しても、適切なメソッドは正しい分析を提供しますが、順序付けされたデータにメソッドを使用する利点は、重要な変数の順序と大きさに関するより大きな情報を提供することです。


注文に関するどの情報が提供されているかわかりません。
カルステンW.

1
変数には、low、med、highの3つのレベルがあるとします。通常の分析では、lowとmedの違いはないが、highの重要性が示唆されます。パラメーター推定値は、「変数Xが高い場合、効果は低または中程度の2.5倍であると推定される」などの情報を提供できます。したがって、方向と大きさです。
マレー

2

データをモデル化し、従属カテゴリ変数に順序付け(名義)がない場合は、多項ロジットモデルを使用する必要があります。従属変数に順序(順序)がある場合、累積ロジットモデル(比例オッズモデル)を使用できます。

個人的には、特に統計的に知識のない人に結果を報告したい場合、多項モデルに比べて比例オッズモデルの結果を解釈する方がはるかに簡単です。

使用できるモデルはこれらだけではありませんが、非常に典型的です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.