ワイン評価を予測する線形回帰または順序ロジスティック回帰（0〜10）

18

ここから、0から10までの値を持つ各エントリに関連付けられた従属評価を持つ11の数値独立変数で構成されるワインデータがあります。これは、変数と関連する変数との関係を調べるために回帰モデルを使用するのに最適なデータセットになります評価。しかし、線形回帰は適切でしょうか、または多項/順序付きロジスティック回帰を使用する方が良いでしょうか？

ロジスティック回帰は、特定のカテゴリ、つまり連続従属変数ではないが、（1）11のカテゴリ（少し多すぎる？）があり、（2）検査時に、それらのカテゴリのうち6〜7のデータ、つまり残りの5-4のカテゴリには、データセットに例がありません。

一方、線形回帰では、0〜10の間の評価を線形に推定する必要があります。これは、私が見つけようとしているものに近いようです。それでも、従属変数はデータセット内で連続的ではありません。

どちらが良いアプローチですか？注：分析にRを使用しています

回答に記載されているいくつかのポイントに対処して編集します。

これは実際には大学のコースであるため、ビジネス目標はありません。タスクは、私が適切と思う方法で、選択したデータセットを分析することです。
評価の分布は正常に見えます（ヒストグラム/ qqプロット）。データセットの実際の値は3〜8です（技術的には0〜10です）。

r regression logistic ordered-logit

— ダイムバッグ
ソース

9

順序付けられたロジットモデルは、ランク付けされた従属変数があるため、より適切です。たとえば、7は4よりも優れています。したがって、明確な順序があります。

これにより、各ビンの確率を取得できます。考慮する必要のある仮定はほとんどありません。あなたは見ることができ、ここで。

順序ロジスティック（および順序プロビット）回帰の基礎となる前提の1つは、結果グループの各ペア間の関係が同じであることです。言い換えると、順序ロジスティック回帰では、たとえば、応答変数の最低カテゴリとすべての上位カテゴリとの間の関係を記述する係数が、次に低いカテゴリとすべての上位カテゴリとの間の関係を記述する係数と同じであると想定されています。これは、比例オッズ仮定または並列回帰仮定と呼ばれます。

いくつかのコード：

library("MASS")
## fit ordered logit model and store results 'm'
m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE)

## view a summary of the model
summary(m)

ここ、ここ、ここ、またはここでさらに説明できます。

確率の観点から明確な解釈を得るには、係数をオッズ比に変換してから確率に変換する必要があることに注意してください。

これらを簡単に（そして単純化した方法で）計算するには、次のようにします。

$exp(\beta_{i})=Odds Ratio$

$\frac{exp(\beta_{1})}{\sum exp(\beta_{i})} = Probability$

（技術的になりすぎたくない）

— adrian1121
ソース

4

問題に対する別の見方を提供したいと思います。実世界では、この質問に遭遇する可能性は低くなります。何をすべきかはビジネスニーズに依存しているからです。

現実の世界での本質的な質問は、予測を得た後に何をすべきか？

$2$
ビジネスで3種類のレストランに送る高級ワインを選択したいとします。次に、マルチクラス分類が必要になります。

要するに、私は、応答変数の属性を見るだけでなく、予測を取得した後のニーズに本当に依存していると主張したいと思います。

— ハイタオドゥ
ソース

1

順序付けられたロジットモデル（@ adrian1121で詳述）は、モデルの仮定の観点から最も適切ですが、多重線形回帰にはいくつかの利点もあると思います。

解釈のしやすさ。線形モデルは、順序付けられたロジットモデルよりも簡単に解釈できます。
利害関係者の快適さ。モデルのユーザーは、それが何であるかを知っている可能性が高いため、線形回帰の方が快適かもしれません。
よりpar約的（単純）。より単純なモデルでも同様に実行できます。関連トピックを参照してください。

ほとんどの応答が3〜8であるという事実は、線形モデルがお客様のニーズに適切に機能する可能性があることを示唆しています。「より良い」と言っているわけではありませんが、より実用的なアプローチかもしれません。

— アンダーマイナー
ソース

0

原則として、順序付けられたロジットモデルは適切と思われますが、10（または7）のカテゴリが非常に多くあります。

1 /最終的に、何らかの再コーディングを行うことは理にかなっています（たとえば、評価1〜4は1つのモダリティに統合されます（「低評価」など）。

2 /評価の分布は何ですか？かなり正常に分布している場合は、線形回帰が適切に機能します（線形確率モデルを参照）。

3 /それ以外の場合は、「ベータ回帰」と呼ばれる完全に異なるものを選びます -11ポイントの評価スケールは、従来の5ポイントスケールと比較してかなり詳細なものです-評価スケールを「強度」と見なすことは許容できると思います0 = Nullおよび1 = Full / Perfectのスケール-これを行うことにより、基本的にスケールは（通常のスケールではなく）インターバルタイプであると想定されますが、私には受け入れられるように思えます。

— ウムカ
ソース

3

なぜ10（または7）カテゴリが多いのですか？10個のカテゴリが順序付きロジットモデルで適切に動作しない根本的な技術的な理由はありますか、それとも純粋に実用的な観点から話していますか？（たとえば、hxd1011が与えた答えと同様の考慮事項。）

— RM

いいえ、データが「非常に多くの」カテゴリの順序付きロジット（OL）を推定できる限り、技術的な理由はありません。ただし、11個のカテゴリを持つOLモデルを指定することは、10個の「定数」項（つまり、しきい値パラメータ）を推定することを意味します-特にデータベースで一部のカテゴリが適切に表されていない場合、私にはかなり聞こえます-私の直感では、 11のカテゴリは少し使いすぎです。評価を連続変数として扱うか、モダリティを折りたたんで、より節約的な（そしておそらく意味のある）OLモデルを指定します。

— ウムカ

-1

私はロジスティック回帰の専門家ではありませんが、離散従属変数のために多項式を使用したいと思うでしょう。

線形回帰は、従属変数の可能性のある境界から推定できる係数を出力できます（つまり、独立変数の増加は、特定の回帰係数の境界からの従属変数につながります）。

多項回帰では、従属変数のさまざまな結果のさまざまな確率が得られます（つまり、回帰係数により、スコアが範囲外になることなく、より良いスコアを与える確率がどのように増加するかがわかります）。

— デニス
ソース

3

多項は、複数の順序付けられていないカテゴリに適しています。順序ロジスティック（OPが質問で提案するもの）は、複数の順序付けされたカテゴリに適しています。

— グレゴール

-1

別の可能性は、ランダムフォレストを使用することです。ランダムフォレストで変数の「重要性」を測定する方法は2つあります。

$X_j$ $X_j$ $X_j$ $Y$ $X$
$X_j$ $X_j$

ランダムフォレストは、「部分依存プロット」と呼ばれるデータの視覚化にも適しています。詳細については、この詳細なチュートリアルを参照してください。

部分依存性と順列の重要性はランダムフォレストモデルに固有のものではありませんが、ランダムフォレストモデルの計算がどれだけ効率的であるかにより、その人気はランダムフォレストの人気とともに増加しました。

— シャドウトーカー
ソース

1

私はそれがやや接線的な答えであることは知っていますが、なぜこれがダウン投票されたのか知りたいです。間違っていますか？

— シャドウトーカー