モデル間でロジスティック回帰係数を比較しますか?


11

6つの異なる横断データセットに適用するロジットモデルを開発しました。私が明らかにしようとしているのは、特定の独立変数(IV)の従属変数(DV)に対する実質的な効果に、他の説明をさまざまな時間および時間で制御する変化があるかどうかです。

私の質問は:

  • IVとDVの関連でサイズの増加/減少をどのように評価しますか?
  • モデル全体の係数の異なる大きさ(サイズ)を単純に確認できますか、それとも他のプロセスを実行する必要がありますか?
  • 他に何かする必要がある場合、それは何であり、それを行うことができますか/ SPSSでそれを行う方法は?

    また、単一のモデル内では、

  • すべてが0-1でコーディングされている場合、標準化されていないスコアに基づいて独立変数の相対サイズを比較できますか、それとも標準化されたスコアに変換する必要がありますか?
  • 標準化されたスコアに関連する問題はありますか?

2
この記事dx.doi.org/10.1093/esr/jcp006は興味深いかもしれませんが、ロジスティックモデル間の効果の比較は、OLSの場合よりもかなり複雑です。
アンディW

回答:


13

最初の3つの質問に主に焦点を当てます。短い答えは次のとおりです。(1)各期間のDVに対するIVの効果を比較する必要がありますが、(2)大きさを比較するだけで誤った結論につながる可能性があります。(3)これを行う方法はたくさんありますが、どちらが正しいかについてのコンセンサスはありません。

以下では、係数の大きさを単純に比較できない理由を説明し、これまでに考えられてきたいくつかの解決策を示します。

Allison(1999)によれば、OLSとは異なり、ロジスティック回帰係数は、観察されていない異質性が対象の変数に関連していない場合でも観察されません。

次のようなロジスティック回帰を当てはめる場合:

(1)

ln(11pi)=β0+β1x1i

y1y

y=α0+α1x1i+σε

ε

αβ

βj=αjσj=1,...,J.

σβσ

これは、観察されていない変動がグループ、国、または期間間で異なる場合、比較が誤った結論をもたらす可能性があるためです。異なるモデルを使用した比較と、同じモデル内の交互作用項を使用した比較の両方で、この問題が発生します。ロジットに加えて、これはそのいとこプロビット、クロッグログ、コーチット、さらにはこれらのリンク関数を使用して推定された離散時間ハザードモデルにも適用されます。注文されたロジットモデルも影響を受けます。

ウィリアムズ(2009)は、解決策は不均質な選択モデル(別名、ロケーションスケールモデル)を通じて観測されていない変動をモデル化することであると主張し、oglm それに要求されるStataアドオンを提供します(Williams 2010)。Rでは、異種選択モデルを、CRANを通じて利用可能なパッケージのhetglm()機能に適合させることglmxができます。どちらのプログラムも非常に使いやすいです。最後に、ウィリアムズ(2009)はPLUMこれらのモデルをフィッティングするためのSPSSのルーチンについて言及していますが、私はそれを使用したことがなく、使用がいかに簡単かについてコメントすることはできません。

ただし、分散方程式が正しく指定されていない場合、または測定誤差がある場合は、異種選択モデルを使用した比較がさらにバイアスされる可能性があることを示す少なくとも1つのワーキングペーパーがあります。

Mood(2010)は、分散のモデル化を含まないが、予測された確率変化の比較を使用する他のソリューションをリストしています。

どうやらそれは解決されていない問題であり、私の分野(社会学)の会議で論文がよく見られ、さまざまな解決策が考えられます。あなたの分野の人々が何をしているのかを見て、それをどのように扱うかを決めることを勧めます。

参考文献


Williams(2009)ソリューションをRに実装しようとしていますが、glmxパッケージの新しいバージョンにはhetprob()関数がもうないようです。これの代替案を知っているかどうかを確認したいだけですか?
AliCivil 2016年

1
私はしばらくglmxを使用しておらず、変更されたことを知りませんでした。現在はCRANから利用でき、異端的プロビットに使用される関数はhetglm()と呼ばれています。この回答は後で反映するように更新します(ここでは就寝時間についてです)。これが今のところお役に立てば幸いです。
Kenji

3

データセット全体に変更はありますか?データを見なくても答えられます!はい。がある。彼らはどのくらいの大きさですか?それが鍵です。私にとって、見る方法は見ることです。各データセットの各独立変数のオッズ比があります-人々が興味深いと思う方法は異なりますか?さて、それぞれに標準エラーなどが発生することは事実であり、統計的に有意に異なるかどうかを確認する方法はおそらくありますが、それは本当に興味深い質問ですか?そうである場合、ソフトウェアで簡単にテストする1つの方法は、すべての調査を組み合わせて、別の独立変数として「調査」を含めることです。必要に応じて、相互作用をテストすることもできます。これを実行するかどうかは、実質的な質問によって異なります。

モデル内の変数の比較に関して、標準化されたスコアの主な問題は、それらが特定のサンプルで標準化されていることです。したがって、パラメーターの推定値などは、特定のサンプルの変数の標準偏差に基づいています。サンプルが実際に一部の母集団からのランダムサンプルである場合でも、他のランダムサンプルとは(わずかに)標準偏差が異なります。これは混乱を招きます。

もう1つの問題は、「相対的なサイズ」の問題が何を意味するかです。IVがよく理解されているものである場合は、ある意味の範囲全体でORを比較できます。


ピーター、ありがとう。最初の質問をした理由は、査読済みの論文で、サンプル内のモデル全体の係数の比較と異なるサンプルのモデル全体の比較を正確に見てきたためです。それが正しいアプローチだとは思わなかったし、明らかに、私は正しい。技術的な詳細については、6つのサンプルすべてのモデルと、比較する主要な予測子と各サンプルを指定する変数(異なる期間を表す)の間の交互作用項を単純に推定できないのですか?それはあなたが言っていたのですか?sごとに変数が必要ですか
Ejs

@ejsさん、こんにちは。「サンプル」は、他のカテゴリ変数と同じ方法でコーディングする必要があります-ダミーコーディングやエフェクトコーディングなど。
ピーターフロム-モニカの回復

相互作用について....はい、それらは解釈するのが難しい場合があります。私はそれらが何を意味するのかを示すためのグラフィカルなアプローチが好きです。
ピーターフロム-モニカの回復

3

ギルヘルメはここのお金にあります。他の応答も役立ちますが、ロジスティック回帰(およびポアソンのようなすべての非線形回帰)は線形回帰とは根本的に異なることに注意してください。6つの異なるデータセットで同じ分析を実行してから、結合したデータセットでその分析を実行すると、ロジットスケーリング係数に深刻な問題が発生する可能性があります。係数の変化は、意味のある違いとは関係がない場合があります(統計的に有意または実質的に重要であっても)。それらは、サンプル全体で観察されていない不均一性と関係がある可能性があります。あなたは絶対にそれをテストする必要があります。社会科学および政策科学の分野の多くの(ほとんどではないにしても)研究者はこれを無視します。ギルヘルメは、これについての重要な記事を提供しています。ピーターズの提案は実用的です しかし、データが由来するサンプルのダミー変数をコーディングするだけでは、スケーリング係数のこの不均一性に対処できません。線形回帰でそれを行うことができ、不均一性は係数に影響しないはずですが、ここでは影響する可能性があります。

ロジット対線形回帰に特有の観察されない異質性の影響に対するもう1つの側面は、各データセットの異なるリグレッサの影響です。同じ変数がない場合、またはそれらが異なる方法で測定されている可能性がある場合は、変数バイアスの省略形があります。線形回帰とは異なり、キーリグレッサに直交する変数を省略しても、推定にバイアスがかかる可能性があります。クレイマーが言うように:

β^β^

Cramerはまた、変数を省略すると係数推定が下向きにバイアスされるが、偏導関数はそうではないことを指摘しています。これはかなり複雑であり、より明確な説明については記事を読む必要があります。全体的なポイントは、対数オッズまたはオッズ比だけを見るのではありません。予測される確率と導関数を検討します。詳細については、Stataのmarginsコマンドを参照してください。JD Longは、ここで詳細に説明する論文を持っています。

最後に、ロジットモデルの相互作用の用語についてGoogleが参考にできる論文がいくつかあります。私の理解では、特に係数を指数オッズ比として表示したい場合は、相互作用のロジット係数をガイドとして使用しますが、決定的なものではありません。予測された確率と平均の限界効果を確認することをお勧めします(SPSSを使用している場合でも、LogitのStataのmarginコマンドに関するドキュメントを参照してください)。

そのパッケージがこれらの問題をどのように処理できるかを知るには、SPSSについて十分に詳しくありませんが、私はこう言います:このようなより深い統計的な問題に遭遇したとき、それはあなたがより多くに移動する時がきたことを示していますStataやRなどの柔軟で洗練されたパッケージ


マージナルエフェクトを推奨し、Rへの移行を推奨するための+1
ケンジ

1

役立つ可能性のある別のツールは、標準化された回帰係数、ま​​たは少なくともラフですぐに使える疑似バージョンです。取得した係数に予測子の標準偏差を乗算することにより、そのようなバージョンを1つ取得できます。(他のバージョンがあり、最高のものについてのいくつかの議論があります。たとえば、Menard 2002、Applied Logistic Regression AnalysisGoogle Books)を参照してください)。これにより、研究全体の効果の強さを評価する方法が得られます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.