ロジスティック回帰(SPSS)で非バイナリのカテゴリ変数を処理する方法


10

多くの独立変数を使用してバイナリロジスティック回帰を実行する必要があります。それらのほとんどはバイナリですが、一部のカテゴリ変数には3つ以上のレベルがあります。

そのような変数に対処する最良の方法は何ですか?

たとえば、可能な値が3つある変数の場合、2つのダミー変数を作成する必要があるとします。次に、段階的な回帰手順では両方のダミー変数を同時にテストするか、別々にテストする方が良いですか?

SPSSを使用しますが、よく覚えていないので、SPSSはこの状況にどのように対処しますか?

さらに、順序カテゴリカル変数の場合、順序スケールを再作成するダミー変数を使用するのは良いことですか?(例えば、プット4状態順序変数のための3つのダミー変数を用いた0-0-0レベルに対して、レベルについて2、レベルについて3及びレベルについて4、代わりに、、および4つのレベルのために)。11-0-021-1-031-1-140-0-01-0-00-1-00-0-1


2
これは部分的な答えにすぎません。ダミーを明示的に作成した場合でも(ソフトウェアの暗黙的な機能を使用するのではなく)、すべての分析でそれらを一緒にしてください。特に、関係する変数の総数に対して適切に計算されたp値を使用して、それらはすべて一緒に入力され、すべて一緒にステップワイズ回帰で離れる必要があります。(とにかく、これはHosmer&Lemeshowの推奨事項であり、
非常

私はしばらく前に、SPSSの多項ロジスティック回帰リソースに関する投稿を書きました。
Jeromy Anglim

あなたはあなたの独立変数について話している。ロジスティック回帰のためにバイナリである必要があるのは、従属変数のみです。
ジョン

1
ここで注意すべき点の1つは、段階的な選択手順をまったく使用しないことです。それらは無効です。それが意味をなさない場合/理由を理解したい場合は、ここで私の答えを読むのに役立つ場合があります:algorithm-for-automatic-model-selection
ガン-モニカの復活

回答:


10

UCLAのWebサイトには、使い慣れたソフトウェアの種類ごとに分類されたすべての手順について、すばらしいチュートリアルがたくさんあります。注釈付きのSPSS出力を確認してください:ロジスティック回帰 -彼らが言及するSES変数は(バイナリではなく)カテゴリカルです。SPSSが自動的にインジケーター変数を作成します。デフォルトのコーディングを変更する方法に関する特定の情報とロジスティック回帰に固有のページがある、SPSSを使用した回帰のカテゴリカル予測子専用のページもあります。


7

ロジスティック回帰はかなり柔軟な方法です。それは独立変数のカテゴリー変数としてすぐに使用できます。ロジスティック回帰を使用するほとんどのソフトウェアでは、カテゴリ変数を使用できます。

例として、カテゴリ変数の1つが、コールド/マイルド/ホットの3つのカテゴリに定義された温度であるとします。あなたが示唆するように、それをそれぞれ1または0の値を持つ3つの別々のダミー変数として解釈することができます。そして、ロジット回帰は、3つの温度条件のそれぞれの係数(または定数)を導き出します。重要でない場合、ソフトウェアまたはユーザーはそれをすぐに取り出すことができます(t statおよびp値を観察した後)。

カテゴリー変数のカテゴリーを単一のカテゴリー変数にグループ化する主な利点は、モデルの効率です。モデルの単一の列は、単一のカテゴリ変数に必要な数のカテゴリを処理できます。代わりに、カテゴリ変数の各カテゴリにダミー変数を使用すると、モデルは急速に成長して、前述の代替案では不要な多数の列ができる可能性があります。


1
@gaetan単一の列と複数の列についての発言がわかりません。カテゴリ変数は、ダミー変数を使用するのではなく、1つの列で1、2、3などとしてコード化する必要があることを示唆していますか?レベル1とレベル2の間のdvへの影響の違いはレベル2とレベル3の間のdvへの影響の違いと同じであるという暗黙の制約を課しているので、私にはそれが意味をなさないかわかりません。何かが欠けています。

1
@Gaetan私はあなたをフォローしているのかわかりません。XLStatは、推定の目的で、コールド、マイルド、またはホットの「テキスト」値をどの程度正確に数値に変換しますか?ダミー変数を使用せずにカテゴリ変数の効果を確実に推定できる方法がある場合、基礎となる概念/モデルベースのロジックがあるため、使用するソフトウェアから独立している必要があります。

kk1

1
@Gatean OK、この場合、SPSSでも同じことができます(変数ごとに数値/序数/公称のいずれかを選択できます)。次に、それに応じて設計行列が構築されます。
CHL

2
@Gaetan @chl私の理解を要約すると、SPSSおよびXLStatの機能により、測定スケール(公称、序数など)を指定できるため、データファイルのサイズが小さくなります。ただし、どちらの場合も、ソフトウェアはバックグラウンドでの推定プロセスの一部として、正しいコーディングスキームを使用します(たとえば、Jカテゴリの公称変数をJ-1ダミー変数に展開します)。それは状況の公正な評価でしょうか?

0

私の理解では、カテゴリ/名義データにはダミー変数を使用するのが適切ですが、序数データの場合は、異なるレベルに1,2,3のコーディングを使用できます。ダミー変数の場合、特定の予約に対してtrueの場合は1、それ以外の場合は0をコーディングします。また、ダミー変数はnoより1少なくなります。レベルの、たとえばバイナリの場合、1があります。ダミー変数がすべて「0」の場合、コード化されていないダミーは自動的に1になります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.