基本データ:評価「1,1」「良い」「2」「中間」または「3」「悪い」でマークされた人が約1,000人あります-これらは将来の人のために予測しようとしている値です。それに加えて、性別(カテゴリ:M / F)、年齢(数値:17-80)、および人種(カテゴリ:黒/白人/ラテン系)の人口統計情報があります。
主に4つの質問があります。
最初に、上記のデータセットを重回帰分析として実行しようとしました。しかし、私は最近、私の従属変数が順序変数であり、連続変数ではないため、このようなことには順序ロジスティック回帰を使用する必要があることを学びました。最初はのようなものを使用していましたが
mod <- lm(assessment ~ age + gender + race, data = dataset)
、誰かが私を正しい方向に向けられますか?そこから、私が快適だと思う係数を取得すると仮定して、x1、x2などの数値のみをプラグインする方法を理解します-しかし、たとえば、複数の応答がある場合、レースにどのように対処しますか:黒/白人/ラテン系?それで、コーカサス係数が0.289で、予測しようとしている人がコーカサス人であることがわかった場合、値は数値ではないので、どのように元に戻すのですか?
レース用、性別用など、欠落しているランダムな値もあります。これが歪んでいないことを確認するために、さらに何かをする必要がありますか?(データセットがR-Studioにロードされ
NA
、欠落データがとしてロードされると、Rは次のよう(162 observations deleted due to missingness)
になりますが、空白としてロードされても、何もしません。)これがすべてうまくいき、性別、年齢、人種を予測したい新しいデータがあると仮定します。新しい係数を持つ私の式が判明したとしても、Rでそれをすべて実行する簡単な方法がありますか?手動で行うのではなく?(この質問がここで適切でない場合は、Rフォーラムに戻すことができます。)