ここから、0から10までの値を持つ各エントリに関連付けられた従属評価を持つ11の数値独立変数で構成されるワインデータがあります。これは、変数と関連する変数との関係を調べるために回帰モデルを使用するのに最適なデータセットになります評価。しかし、線形回帰は適切でしょうか、または多項/順序付きロジスティック回帰を使用する方が良いでしょうか?
ロジスティック回帰は、特定のカテゴリ、つまり連続従属変数ではないが、(1)11のカテゴリ(少し多すぎる?)があり、(2)検査時に、それらのカテゴリのうち6〜7のデータ、つまり残りの5-4のカテゴリには、データセットに例がありません。
一方、線形回帰では、0〜10の間の評価を線形に推定する必要があります。これは、私が見つけようとしているものに近いようです。それでも、従属変数はデータセット内で連続的ではありません。
どちらが良いアプローチですか?注:分析にRを使用しています
回答に記載されているいくつかのポイントに対処して編集します。
- これは実際には大学のコースであるため、ビジネス目標はありません。タスクは、私が適切と思う方法で、選択したデータセットを分析することです。
- 評価の分布は正常に見えます(ヒストグラム/ qqプロット)。データセットの実際の値は3〜8です(技術的には0〜10です)。