ロジスティック回帰分析で連続独立変数のロジットへの線形性の仮定をどのようにチェックする必要がありますか?


13

ロジスティック回帰分析における連続予測子変数のロジットへの線形性の仮定と混同しています。単変量ロジスティック回帰分析を使用して潜在的な予測子をスクリーニングしながら、線形関係をチェックする必要がありますか?

私の場合は、多重ロジスティック回帰分析を使用して、参加者間の栄養状態(二分結果)に関連する要因を特定しています。年齢、Charlson併存症スコア、Barthel Indexスコア、握力、GDSスコア、BMIなどの連続変数。最初のステップは、単純なロジスティック回帰を使用して有意な変数をスクリーニングすることです。各連続変数の単純なロジスティック回帰分析中に線形性の仮定を確認する必要がありますか?それとも、最終的な多重ロジスティック回帰モデルで確認するだけですか?

さらに、私の理解のために、モデルに入力する前に非線形連続変数を変換する必要があります。変換の代わりに非線形連続変数を分類できますか?


1
あなたはすべきではないスプラインを試すために、より良い分類します!
kjetil b halvorsen

回答:


11

私の著書「Regression Modeling Strategies(2nd edition available 2015-09-04、e-book is now available)」で詳しく説明しているように、モデリングの前に変数を変換しようとするプロセスには問題があり、最も重要なのは歪みです。タイプIのエラーと信頼区間。分類は、さらに深刻な問題、特に適合性と恣意性の欠如を引き起こします。

これを「適合性の欠如のチェック」の問題と考えるのではなく、適合しそうなモデルを指定することと考えるのがよいでしょう。これを行う1つの方法は、強力である可能性が高く、線形性が妥当な仮定であることがまだわかっていないモデルの部分にパラメーターを割り当てることです。このプロセスでは、有効なサンプルサイズ(イベントの数と非イベントの数の最小値)を調べ、データの情報コンテンツが許可する範囲で複雑さを許可します(例:15:1イベント:パラメータルールを使用)親指の)。柔軟な付加的パラメトリックモデルを事前に指定することにより、重要な相互作用を省略して問題が生じる場合にのみ問題が発生します。相互作用は、一般的に言えば、事前に指定する必要があります。

モデルに非線形性が必要かどうかを正式なテスト(R rmsパッケージで簡単に作成)で確認できますが、重要でないときにこのような項を削除すると、上で概説した推定歪みが作成されます。

詳細については、http://biostat.mc.vanderbilt.edu/rmsからリンクされているコースノートをご覧ください。


以前に言及しなかったのは申し訳ありませんが、私はRに精通しておらず、分析にSPSSを使用していました。提供されたソリューションから、それは私が有効なサンプルサイズ(15:1)を使用する場合、それらの線形性をチェックせずに(レビューからの)すべての重要な要素を含めることができることを意味しますか?
Sze Lin Tan

私のケースで行った単変量ロジスティック回帰分析から、BMI、ふくらはぎの円周、上腕の真ん中の円周はすべて、栄養状態の単純なロジスティック回帰モデルに大きく貢献しています(p <0.05)。しかし、(単純なロジスティックモデルごとに)Box-Tidwellアプローチを使用して仮定を確認したところ、直線性の仮定を満たしていませんでした。したがって、これらの予測子を使用して多重ロジスティック回帰分析に進むべきかどうかはわかりません。
Sze Lin Tan

5
一変数分析に基づいてモデルを構築することは無効です。バリアントを使用して、多くの問題を引き起こすことが知られている段階的回帰を進めています。
フランクハレル2015

8

ロジスティック回帰は、従属変数と独立変数間の線形関係を想定していません。従属変数と独立変数の対数オッズ間の線形関係を前提としています(これは主に連続独立変数の問題です)。これに使用できるBox-Tidwellと呼ばれるテストがあります。stataコマンドはboxtidです。SPSSコマンドがわかりません。

これは助けになるかもしれません -http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm


リンクが壊れています。
Alexey Shrub

1

連続変数をプロットし、線形性をチェックしてから回帰モデルで使用する必要があると思います。線形性が妥当な仮定のように思われる場合、これはおそらくほとんどの場合、最終的な多変数回帰モデルにも当てはまると思います。そうでない場合、これは主に修正可能な相互作用効果が原因であると考えられます。

はい、非線形連続変数の分類は1つのオプションです。これに関する問題は、ほとんどの場合、カテゴリが恣意的に見える可能性があり、カテゴリ間のカットオフスコアのわずかな違いが異なる結果(特に統計的有意性に関して)につながる可能性があること、およびカテゴリの数とデータのサイズによって異なります。 、データの多くの貴重な情報を失う可能性があります。

別のアプローチは、ロジスティック回帰として指定できる回帰モデルである一般化された加法モデルを使用することですが、非線形独立変数を「スムーザー関数」として含めることができます。技術的には、これはRではそれほど複雑ではありませんが、他のソフトウェアパッケージについては知りません。これらのモデルは従属変数との非線形関係を識別しますが、欠点として、出力にきちんとした数値が表示されず、統計的有意性がテストされる視覚的な曲線が表示されることがあります。したがって、結果変数に対する非線形変数の影響を定量化することにどれだけ関心があるかによって異なります。

最後に、少なくともRを使用する場合は、上記の一般化された加法モデルを使用して、ロジスティック回帰モデルの線形性の仮定をテストできます。

この本を見てください(あなたと私のものとは非常に異なるフィールドですが、それはまったく問題ではありません):http : //www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / ref = sr_1_1?ie = UTF8&qid = 1440928328&sr = 8-1&keywords = zuur + ecology


私はRに精通しておらず、分析にSPSSを使用していました。以前にそれを言及しなかったため申し訳ありません。Box-Tidwellアプローチを使用して(連続変数とそれ自体の自然対数の間に相互作用項を作成し、相互作用項をモデルに追加して)線形性の仮定を確認できますか?
Sze Lin Tan

1

私はあなたのデータがわからないので、これらの3つの変数(基本変数、その自然対数、およびインタラクティブな用語)を組み合わせることが問題になるかどうかはわかりません。ただし、過去に3つの用語を組み合わせることを検討した場合、測定対象の概念的なトラックを失うことがよくあります。測定対象を適切に処理する必要があります。そうしないと、結果の説明に問題が生じます。お役に立てば幸いです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.