順序カテゴリ変数を独立変数として処理する方法


18

ロジットモデルを使用しています。私の従属変数はバイナリです。ただし、カテゴリ変数であり、応答を含む独立変数があります1.very good, 2.good, 3.average, 4.poor and 5.very poor。したがって、それは序数です(「定量的カテゴリ」)。モデルでこれを処理する方法がわかりません。を使用していgretlます。

[@ttnphnsからの注記:モデルはロジットであるとの質問がありますが(依存関係はカテゴリカルであるため)、重要な問題-順序独立変数-は基本的に類似しており、依存カテゴリカルまたは定量的です。したがって、この問題は、たとえばロジスティック回帰または他のロジットモデルと同様に、線形回帰にも同様に関連しています。]


私の従属変数は値0と1を取り、6個の独立変数があり、そのうち3つはカテゴリ変数です。お住まいの地域の警察サービス?応答は非常に良い、良い、平均的、貧しい、非常に貧しい
rahmat

@Tim従属変数がバイナリの場合、順序回帰は必要ありません。その意味は、インジケーター(ダミー)変数を使用して順序予測子を処理することです。
ニックコックス

ありがとう、ティム、もし私があなたの言うことを間違っていないなら、私はすべてのカテゴリーにダミーを作るべきだと言うのですか?たとえば、1つの独立変数に対して5つの応答(非常に良い、良い、平均、悪い、非常に悪い)があるため、5つのダミーを作成する必要があります。
-rahmat

回答:


14

序に伴う問題の独立変数は、以降の定義により、そのレベルの間の真のメトリック間隔はされていないことで知られていない離れた傘から「単調」 - - 、いかなる適切なタイプの関係をアプリオリに仮定することができます。たとえば、「バリアントを選別または結合する」、「何かを最大化するものを優先する」など、何かをする必要があります。

あなたのリッカート評価IVを序数(間隔または名目ではなく)として扱うことに固執する場合、私はあなたのために一対の選択肢を持っています。

  1. 使用する多項式の対比モデルで使用されるような各予測変数だけではなく、直線的でなく、二次関数と立体的に入るすなわち。そのため、線形だけでなく、より一般的な単調効果をキャプチャできます(線形効果は、スケール/間隔として保持される予測子に対応し、他の2つの効果は、不等間隔を持っていると味わいます)。さらに、各予測変数のダミーも入力できます。これにより、名目/要因効果をテストします。すべての最後に、予測因子が因子としてどれだけ作用するか、線形共変量としてどれだけ、非線形共変量としてどれだけかを知っています。このオプションは、ほとんどすべての回帰(線形、ロジスティック、その他の一般化線形モデル)で簡単に実行できます。dfを消費するため、サンプルサイズは十分に大きくする必要があります。
  2. 最適なスケーリング回帰を使用します。このアプローチは、予測変数に対する線形効果を最大化するために、順序予測変数を単調に間隔予測変数に変換します。CATREG(カテゴリ回帰)は、SPSSでのこのアイデアの実装です。特定のケースの問題の1つは、線形回帰ではなくロジスティックを実行したいが、CATREGはロジットモデルベースではないことです。あなたの予測は2カテゴリ(バイナリ)のみであるため、この障害は比較的小さいと思います:最適なスケーリングのためにCATREGを実行し、その後、変換されたスケール予測子で最終的なロジスティック回帰を実行する可能性があることを意味します。
  3. また、1つのスケールまたは順序DVと1つの順序IV Jonckheere-Terpstraテストの単純なケースでは、回帰ではなく妥当な分析になる場合があることに注意してください。

他の提案もあります。上記の3つは、あなたの質問をただちに読んだときに思い浮かぶものです。

これらのスレッドにもアクセスすることをお勧めします。名義とスケールまたは序数の間の関連付け序数とスケールの間の関連付け。それらは、特定の回帰に関するものではないにもかかわらず、役立つ可能性があります。

しかし、これらのスレッドは回帰、特にロジスティックに関するものです。内部を確認する必要があります:onetwothreefourfive


(+1)(1)十分だと思う場合は、最初のいくつかの多項式コントラストのみを使用することもできます。(2)同じデータセット内の応答から予測変数を定義するには、ヘルス警告が必要です。(3)隣接するレベルの係数間の不一致にもペナルティを科すことができます-stats.stackexchange.com/q/77796/17230を参照してください。
Scortchi -復活モニカ

1
@Scortchi、コメントありがとうございます。(2)-はい、特に、もちろん、最終回帰が行われるデータの別のサブセットで最適なスケーリングを行う方が信頼性が高くなります。(3)-感謝します、私もそれを知っています。
ttnphns

1
別のオプションは、アディティブモデルを使用し、スプラインを介して順序独立変数を表すことです。
kjetil bハルヴォルセン

2
@kjetilbhalvorsen、はい、可能です、ありがとう。ただし、順序変数の最適スケーリングの方法の1つはスプラインを使用するため、このオプションはPt 2で既に暗示されています。
ttnphns

7

他の優れた答えに追加するだけです。それを処理する現代的な方法は、スプラインを介して順序独立変数を表す加算モデルを使用することです。変数の効果が単調であることを確信している場合、単調スプラインに制限できます。(使用中のモノトーンスプラインの例については、シグモイドのような曲線に適合する関数を探すを参照しください)。

Rでは、順序予測子を「順序付けられた因子」(たとえばコードでord <- factor(sample(1:5,20,replace=TRUE),ordered=TRUE) )にすると、線形モデルでは直交多項式で表されます。


4
それを少し拡張して、序数の予測子でどのように機能するかをさらに詳しく説明するとよいでしょう。
ttnphns

0

あなたはダミー変数を必要とするが、あなたは必要がダミー変数、潜在的な応答の数です。5つの応答値(1〜5)がある場合、4つのダミー変数を作成します。応答が「5」の場合、4つのダミー変数はすべて0になります。理にかなっていますか?kk1k


3
私はあなたの小さな表記法を一方的に(そして、教育的に、またはそうでなければ)変更しました。些細なことですが、は通常、観測のカウントであり、初心者がこのような問題に混乱するのをよく目にします。n
ニックコックス

1
ティムとニックに感謝します。だから私は回帰の4つのダミーをすべて実行する必要があります。正しい?もしそうなら私はそれぞれ5つの応答を持つ3つのカテゴリ変数を持っています。したがって、モデルには12個の変数があります。正しい?
rahmat

1
ありがとう@NickCox-私は履歴書の世界に慣れていないし、敬意を表する修正を感謝します
オースティンT

1
残念ながら、ダミー変数が必要になる理由については説明していません。この答えは、それが現在どのようになっているかについては、質問に対する答えとは思わない
ttnphns

2
サポートとして、インジケーターが必要だと主張するケースではないと思います。単調でない関係を含むさまざまな効果をキャプチャできるようにするだけです。
ニックコックス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.