ロジスティック回帰係数の重要性は何ですか?


42

現在、2000年と2004年の選挙における投票場所と投票の選好に関する論文を読んでいます。その中には、ロジスティック回帰係数を表示するチャートがあります。数年前のコースから少し読んで、ロジスティック回帰は、複数の独立変数とバイナリ応答変数の間の関係を記述する方法であると理解しています。私が混乱しているのは、以下の表にあるように、南部のロジスティック回帰係数が.903であるため、南部人の90.3%が共和党に投票するということですか?メトリックのロジスティックな性質のため、この直接的な相関関係は存在しません。その代わり、0.903の南は、.506の回帰で、Mountains / plainsよりも共和党に票を投じているとしか言えないと思います。後者の場合、重要なものとそうでないものをどのように知ることができますか?また、このロジスティック回帰係数を与えられた共和党の投票の割合を推定することは可能ですか? ロジスティック回帰係数を示す表

サイドノートとして、間違って記載されている場合は投稿を編集してください


これはより詳細な質問です(そして、おそらく投稿するべきではありません)が、「パーセンテージを外挿することは可能ですか」という良い方法を見つけましたか。
ステファンアンダーソン

2
これをスタンドアロンの質問として定式化し、ここでの回答としてではなく、個別に投稿する方が良いと思います。
枢機

誰もが紙に疑問を抱いているなら、それはSCマッキーで、JM Teigenのは、赤と青をプロービング:2000年と2004年の米国大統領選挙でのセクショナリズムと有権者の場所(2009)政治地理
アレックス・ネルソン

回答:


36

まだ-あなたがこのような質問を持っていると著者は思いやりとして誰かを余儀なくされたということは練習理由を説得力の説明図であるあまりにも一般的な-このように、テーブルに回帰モデルの結果の報告を閉じ込めるのはとても受け入れられません。

  1. 指摘したように、ロジット係数を問題の予測子に対して推定される効果の何らかの意味のある表示に変換しようとすることができますが、それは面倒で予測の精度に関する情報を伝えません。これは通常、ロジスティック回帰モデル(特に投票時)。

  2. また、重要度の「レベル」を報告するために複数のアスタリスクを使用すると、p値が効果サイズの意味のあるインデックスであるという誤解が強まります(「すごい- アスタリスクが3つある!!」)。大声で叫ぶと、Nが10,000〜20,000の場合、p <.001なんとか何とかで完全に些細な違いが「有意」になります。

  3. このように神秘化する必要はまったくありません。ロジスティック回帰モデルは、測定誤差の影響を受ける予測子の指定値を条件とする結果の確率を予測するために(確定的な計算またはより良いシミュレーションを介して)使用できる方程式です。したがって、研究者は報告する必要があります関心のある予測変数の影響が、関心のある結果変数および関連するCIの確率にどのような影響を与えるか。実際の重要性を容易に把握できる単位で測定します。すぐに把握できるように、結果をグラフィカルに表示する必要があります。ここで、例えば、研究者は、都市有権者とは対照的に農村であると共和党に投票する可能性が高くなることを報告することができます(他のすべてと同等)、X pctポイント(2000年に約17、「4で割る」は合理的なヒューリスティック)+/- 0.95レベルの信頼度でx%-知っておくと便利な場合。

  4. 疑似R ^ 2の報告は、モデラーが光を当てようとする試みではなく、統計的な儀式に従事していることを示しています。「疑似R ^ 2」を計算する方法は多数あります。ここで使用されているものが指定されていないと不平を言うかもしれませんが、なぜわざわざ?すべては無意味の隣にあります。誰もが疑似R ^ 2を使用する唯一の理由は、彼らまたは彼らを拷問しているレビュアーが(おそらく25年以上前に)OLS線形回帰が統計の聖杯であり、それを理解しようとしている唯一のものだと考えるからです「分散の説明」です。ロジスティック分析に適したモデル全体の妥当性を評価するための防御可能な方法はたくさんあり、尤度比は対立仮説を反映するモデルを比較するための意味のある情報を伝えます。キング、G。統計で嘘をつかない方法。あ。J. Pol。科学 30、666-687(1986)。

  5. このような表にレポートが多少制限されている論文を読んだ場合、混乱しないでください。怖がらないでください。代わりに怒って、彼または彼女がお粗末な仕事をしていることを研究者に伝えてください(特に彼または彼女があなたの地元の知的環境を汚染している場合、神秘主義とa敬の念を抱いてください-完全に平凡な思想家が賢い人々をだまして何かを知っていると考えるのは驚くべきことです/ c後者が理解できないテーブルを作成できます)。これらのアイデアのスマートで温和な説明については、King、G.、Tomz、M.&Wittenberg。、J。Making the Most the Statistics Analyses:Improving Interpretation and Presentationを参照してください。あ。J. Pol。科学 44、347-361(2000); ゲルマン、A。、パサリカ、C。&ドディア、R。レッツ・プラクティスは、私たちは説く:グラフにテーブルを回します。あ。統計 56、121-130(2002)。


19

ここでの考え方は、ロジスティック回帰では、たとえば南部人が共和党に投票する実際の確率ではなく、それを変形した「対数オッズ」を予測するということです。代わりに確率の、我々は対処と対数オッズのための線形回帰係数を見つけます。plogp/(1p)

それで、例えば、都市の北東部が共和党に投票する確率が0.3であると仮定しましょう。(これはもちろん回帰の一部です。元の論文にあると思われますが、この表には報告されていません。)今、は ; つまり、、対応する「対数オッズ」。これらの「ログオッズ」は直線的に動作するものです。対応する対数オッズはです。したがって、都市南部の投票共和党員の対数オッズは、これ(ウィキペディアがインターセプトと呼ぶもの、)と南部のロジスティック回帰係数、x=1/(1+ez)z=logx1x X0.3ログ0.3/0.7-0.85β00.903-0.85+0.904=0.05、Pログ・P/1-PF0.051/1+E-0.050.510.431f1(x)=logx1xx0.3log0.3/0.70.85β00.9030.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

0.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55


2
ヒューリスティック:4で除算-ロジットcoeff / 4はprobで約pct-pt diffです。1単位の変更から。これは、「βsubn特性= zの人はx%の可能性が高い」ということとは異なります。(言及したように)だけでなく、βsub0を追加し、refクラスに関連する尤度を減算する必要があります。予測子の共線性も考慮する必要があります。B / cが南部であることは、他の予測因子と相関しますが、その確率は真実ではありません。南部投票の共和国は、βsub0-NEの変換対数オッズと南の変換対数オッズです。ベターは「等しい他のすべては、南からあることはのPROBでX PCTポイントの変更予測」、と言って
dmk38

1
「実際のオッズは0.43から1になりました」。そもそも0.43から来たのですか?
モニカヘッドネック

0.30.3/(10.3)0.43

6

ロジスティック回帰の係数は、特定の地域/人口統計が共和党に投票する傾向を、参照カテゴリーと比較して表します。正の係数は、地域が共和党に投票する可能性が高く、逆の場合は負の係数に投票することを意味します。絶対値が大きいほど、小さい値よりも強い傾向を意味します。

参照カテゴリは「北東」と「都市有権者」であるため、すべての係数はこの特定の有権者タイプとの対比を表します。

一般に、ロジスティック回帰の係数は、絶対値であっても[0、1]に制限されません。Wikipediaの記事自体には、係数-5および2のロジスティック回帰の例があります。


5

また、「何が重要で何が重要でないかをどうやって知るのか」と尋ねました。(実用的または実質的な重要性は別の問題であるため、統計的に重要な意味があると仮定します。)表のアスタリスクは脚注を参照します。一部の効果は小さなp値として示されます。これらは、各係数の有意性のWald検定を使用して取得されます。ランダムサンプリングを仮定すると、p <.05は、より大きな母集団にそのような影響がなかった場合、このサイズのサンプルで観測された接続と同じ、またはより強い接続が見られる確率が.05未満になることを意味します。 。このサイトには、p <.05にはない、微妙ではあるが重要な関連ポイントを議論する多くのスレッドがあります。 より大きな母集団に関連性がないという0.05の確率があることを意味します。


5

rolando2とdmk38の両方が指摘したことの重要性を強調しておきましょう。重要性は一般的に誤読されており、結果の表形式の表示ではその危険性が高くなります。

ポール・シュロットは最近、この問題の素晴らしい説明を提供しました:

研究者は、有意性検定の正しい解釈を厳守することはほとんど不可能だと感じています。p値は、帰無仮説の[通常]完全に非現実的な条件下で結果が得られる可能性のみを示します。これはあなたが知りたいことではありません。通常、データが与えられたとき、独立変数の効果の大きさを知りたいです。これはベイジアンの質問であり、頻繁な質問ではありません。代わりに、恒常的に、連想の強さを与えたかのように解釈されるp値を参照します。これは、私たちのジャーナルに浸透する遍在する星とP値の神秘崇拝です。 、またこれまでもありません。

私の経験では、この間違いを避けることはほとんど不可能です:問題を完全に認識している非常に慎重なアナリストでさえ、書面による説明で問題を回避したとしても、結果を口頭で議論するときにモードを切り替えることがよくあります。そして、卒業論文でこれを修正するために費やした何千時間ものインクを推測することさえしないようにしましょう。

(FN)別の問題にも知らせ、dmk38で言及したが、脚注:「[スターとP値のユビキタス神秘的なカルト]は最高R2の以前の-と同じように普及・カルトに取って代わっで...取り壊さキング(1986)


oh--編集した応答にKing citeを追加しました。この記事は、統計に意味がある場合でも(OLS回帰の場合でも)、R ^ 2マニア(計量経済学の風土病)を実際に破壊します。キングはまた、疑似R ^ 2は、「説明された分散」に関連する思考のなさを拡張するために製造された意味不明なものであると指摘しています。
dmk38
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.