ロジスティック回帰におけるカテゴリー変数のランキング


8

私はロジスティック回帰を使用していくつかの研究をしています。10個の変数が従属変数に影響を与えます。前述の1つは、カテゴリー(例:速達、標準配達など)です。ここで、従属変数への影響の「強さ」に基づいてそれらのカテゴリーをランク付けしたいと思います。

それらはすべて有意(小さいp値)ですが、オッズの値をランキングの目的で使用することはできないと思います。各カテゴリが他のカテゴリとも大幅に異なる場合、どういうわけか理解する必要があります。これは正しいです?

変数を中央揃えにする可能性について読みました。これは本当にオプションですか?モデルの残りの部分に影響を与えたくありません。


@subraの投稿への私のコメントをサポートするためのStata出力:

Average marginal effects                          Number of obs   =     124773
Model VCE    : OIM

Expression   : Pr(return), predict()
dy/dx w.r.t. : ExpDel

------------------------------------------------------------------------------
             |            Delta-method
             |      dy/dx   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
ExpDel |   .1054605   .0147972     7.36   0.000     .0798584    .1378626
------------------------------------------------------------------------------

回答:


1

カテゴリのランク付けに関心があるので、カテゴリ変数をいくつかの個別のバイナリ変数に再コード化することができます。

例:速達用のバイナリ変数を作成します-速達ケースの場合は値1、それ以外の場合は0になります。同様に、標準の配信用のバイナリ変数。

これらの再コード化されたバイナリ変数のそれぞれについて、以下に示すように限界効果を計算できます。

式

上記の方程式について少し説明しましょう。dが速達用に再コーディングされたバイナリ変数であるとします。

式 d = 1のときに平均で評価されるイベントの確率

式 d = 0のときに平均で評価されるイベントの確率

すべてのカテゴリ(再コード化されたバイナリ変数)の周辺効果を計算したら、それらをランク付けできます。


投稿ありがとうございます、subra。私はあなたの指示を忠実に守ろうとし、「。margins、dydx(ExpDel)」というコマンドをステータスで達成しました。出力は私の元の投稿にあります。ランク付けしたいすべてのカテゴリー変数(現在はバイナリ)に対してこのコマンドを実行し、値dy / dxを比較する必要があるだけですか?高いほど、従属変数への影響が大きくなりますか?どうもありがとうございました!
Lukas

@ルーカス:はい、あなたは正しいです。スタタでは、離散データの場合、「マージン」は実際に共変量の離散変化の影響を計算します。したがって、すべてのカテゴリ(現在はバイナリ)のdy / dx(マージンから)を比較するだけで済みます。値が高いほど影響が大きくなります。
subra 2015

@ subra:クラリファイしてくれてありがとう。上記の手順では、あたかもそれぞれのロジット係数をランク付けするのと同じランキングになります。ロジット係数ではなく、ランク付けの目的でマージナルエフェクトを参照する理由についてはまだわかりません。さらに読むためにお勧めできる情報源はありますか?さらに、比較の目的で他の変数の平均を使用するために、なぜ上記のstataコマンドを使用し、「atmeans」などを追加しないのか理由がわかりません。どうもありがとうございました。
Lukas

@ルーカス:はい、あなたは儀式です。予測子をランク付けするだけの場合は、ロジット係数で十分です。質問の2番目の部分は明確ではありません。我々は限界効果を評価するために持っている理由あなたが求めている場合は、以下の記事をご確認ください。stats.stackexchange.com/questions/167811/...
subra

-2

一度に1つの変数のみを使用してロジスティック回帰モデルを近似し、調整されたR2を調べることができます。

ほとんどの分散を説明するものは、モデルにより多くの影響を与えるはずです...

私は推測しているだけですが、それが厳密な解決策であるかどうかはわかりません...


4
いいえ、それは限界的な関連措置を提供するだけです。
フランクハレル2016年

-2

これは、多くの回答がある一般的な質問です。最も簡単なのは、標準化された機能を使用することです。戻ってくる係数の絶対値は、大まかに「より高い」=「より影響力がある」と解釈できます。ほとんどの場合、標準スコアを使用しても全体的な結果に影響を与えることはありません(ROC曲線は同じであるはずです。比較可能な決定しきい値を選択した場合、混同行列は同じであるはずです)。私は通常、両方の方法で回帰を計算します。生のスコアを使用して(私が使用する予測方程式を取得するため)、2回目は標準化されたスコアを使用して、どちらが最大かを確認します。

カテゴリカル予測子については、正規化された予測子を使用するときにも同じことが当てはまると想定しています(ただし、チェックしていません)。

まだ行っていない場合は、正則化の使用も検討してください:Lasso / ridge / elastic net。これは、弱い、無関係、または冗長な機能を削除して、より簡潔なモデルを作成するのに役立ちます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.