連続従属変数にロジスティック回帰を使用する


9

最近、研究論文の改訂版を入手しました。以下は、私の論文に対する査読者のコメントです。

1つのモデルから得られた結果はあまり説得力がありません。特に、線形回帰は通常、外れ値の処理に欠陥があります。著者はまた、ロジスティック回帰を試み、対応する結果を現在の結果と比較することをお勧めします。同様の観察結果が得られれば、結果はより確実になります。

レビューアのコメントは正しいですか?ロジスティック回帰は、多重線形回帰よりも優れていますか?

問題は、私の従属変数がカテゴリカルではなく、スケール変数であることです。私は今何ができますか?私のモデルを評価するために、他にどのような回帰方法をお勧めしますか?

スコアは次の表の従属変数です。最新性、頻度、在職期間、最終スコアは独立変数です。

ここに画像の説明を入力してください

私はサイトからこれらの変数を抽出していると私は、これらのことを仮定した独立変数が持っている重要な影響スコアを。したがって、私は次のモデルを表します。

ここに画像の説明を入力してください


ちなみに、この線形モデルのR 2乗の値は0.316です。レビューアもこの値についてコメントしました:

学習された係数の質に関する指標がないため、結果は説得力がありません。小さなR ^ 2は、モデルが過剰適合している可能性があるため、良好なパフォーマンスを示すことはできません。

Rの2乗に対して0.316は非常に低いですか?以前の論文で、私は同様の価値観をたくさん見ました。

ここに画像の説明を入力してください


これはマイナーなポイントですが、スコアがどのように計算されるかを理解することは、良い答えを提供するのに役立ちます。質問を編集して、それについてお知らせください。
whuber

投稿を編集します。私の統計的知識は良くありません。あなたが助けてくれればとてもありがたいです。
PSS 2013

1
連続従属変数でロジスティック回帰を実行することについての考えはありませんか???
PSS 2013

1
スコアは0から100の間でなければなりませんか?その場合、100で除算し、結果の変数に対してロジスティック回帰を実行できます。これは常に0と1の間にあります...そのように物事を行うのは少し奇妙に感じられます。多分それは査読者が示唆していることですか?
Sam Livingstone

2
いいえ、0から1にスケーリングすることや、スコアを分類して貴重な情報を破棄することは、良い解決策とは言えません。
フランクハレル2014年

回答:


7

Yormrms


Rと必要なすべてのパッケージをインストールしました。orm関数の例を教えてください。検索しても見つかりませんでした。私の回帰モデルでは、コードはどうあるべきですか?
PSS 2013

1
Y

1

また、1、2、3、4パーセンタイルのスコアにそれぞれ値1、2、3、および4を割り当てることにより、順序付けられたプロビット/ロジットモデルを試すこともできます。


(100のうち)最低の4パーセンタイルへの削減を提案している変数はどれですか。これは何を達成し、その理由は何ですか?
whuber

-1

スコアを二分する(バイナリ変数に変換する)ことができます。スコアが0〜100の場合、50未満のスコアには0を割り当て、それ以外の場合は1を割り当てることができます。これは外れ値に対処する良い方法だと聞いたことはありません。非常に高いスコアまたは低いスコアを区別することが不可能になるため、これは外れ値を単に隠す可能性があります。これは私にはあまり意味がありませんが、試すことができます。

βR2

R2R2

私は統計について多くのことを知っているふりをするつもりはありませんが、彼のコメントに基づいて、このレビュアーはさらに少ないかもしれないと私には思われます。


お返事ありがとうございます。すべての変数が歪んでいるので、自然に対数変換されます。私は正しいですか?「オーバーフィッティング」の意味を明確にしていただきありがとうございます!実は、オーバーフィットの意味がわかりませんでした。これで、レビュー担当者と編集者に返信できます。ちなみに、私の評価をより確かなものにするために私が推奨することは何ですか どの回帰法が良いと思いますか?
PSS

6
Y

@FrankHarrellに同意しますが、データを二分するために任意のしきい値を選択しても意味がありません。これはデータセット全体ですか?観測数が非常に少ない場合、データが正規分布に見えることは決してありません!また、扱うデータのタイプも理解する必要があります。彼らはどの範囲の値を取ることができますか、それらが正規分布であると想定することは賢明ですか?序数ロジスティック回帰を使用するというフランクの提案を検討しますが、私の推測では、回帰では値の代わりにスコアの順序を使用しています。
pontikos 2013

@PotentialScientist、あなたのディストリビューションが歪んでいるかどうかは関係ありません。OLS(通常の)回帰では、残差の分布のみが重要です。ここを参照してください:what-if-residuals-are-normally-distributed-but-y-is-not。また、これを読んで、予測子の変換の結果としてモデルに何が起こったかを理解するには、ログの変換された予測の解釈を読むこともできます。
ガン-モニカの回復

@PotentialScientistお元気ですか?質問を編集してCSV形式でデータを提供する場合、ハレル教授が提案したorm関数を実行して、出力を分析できます。Rの基本(ファイルを読み込んで回帰を実行する方法)を学ぶ価値があります。
pontikos 2013

-1

連続従属変数に対してもロジスティック回帰を適用することが可能です。予測scoreが常に範囲内にあることを確認したい場合、それは理にかなっています[0, 100](私はスクリーンショットから、100ポイントのスケールであると判断しています)。

それを達成するために、ちょうど100であなたのスコアを分割し、これをロジスティック回帰を実行する[0,1]-ベースのターゲット変数を、この質問のように -あなたが、例えば、それを行うことができR、使用して

glm(y~x, family="binomial", data=your.dataframe)

R2

R20.3R2R2

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.