ケース加重ロジスティック回帰


9

私はいくつかのロジスティック回帰の問題を見ています。(「通常」および「条件付き」)。

理想的には、glmがより低い重みのケースを誤って分類する可能性を犠牲にしてより高い重みのケースをより正確に予測することに焦点を合わせるように、各入力ケースに重みを付けたいと思います。

確かにこれは以前に行われたことです。誰かが私をいくつかの関連文献に向けることができますか(またはおそらく修正された尤度関数を提案します)。

ありがとう!


1
予測ではなく、分類が目標であると想定しています。確率を最適に推定するために、何も再重み付けする必要はありません。「偽陰性」と「偽陽性」は強制選択でのみ発生し、通常、純粋なバイナリ選択を強制することはありません。
フランクハレル2011

@フランクあなたは良い点を作ります。最終的に、このプロジェクトの目標は、今後のイベントの結果を予測することです。(つまり、トレーニングデータを含む機械学習の味と考えることができます。)一部の結果は他の結果よりも「重要」であるため、それに応じて重み付けする方法を探していました。尤度関数に関するニックの提案は理にかなっており、コードに実装するのはかなり簡単なはずです。
ノア

1
重みを必要としない確率モデルが正確に必要なように聞こえます。
フランクハレル2011

1
正しい; コスト関数を接続し、予測された確率を使用すると、最適な決定ができ​​ます。
フランクハレル2015年

1
よく調整された確率モデルでは「エラー」はなく、予測できないランダム性があるだけです。最適な決定は、予測される確率と、行動するためのさまざまな決定を行うためのコスト関数の関数です。
フランクハレル

回答:


3

glmweightsこの目的のために正確にパラメータを保持します。観測値と同じ数の重みを保持する任意のスケールの数値のベクトルを提供します。

あなたが話しているのではないかもしれないと今だけ気づきましたR。そうでない場合は、必要な場合があります。


私はRに非常に精通していますが、尤度関数の背後にある数学を理解したいと思います。これをC ++または他の言語でコーディングする場合があります。(glm関数の「ブラックボックス」を信頼することが必ずしも最良の解決策とは限りません)
Noah

ああ。よかったね。まあ、私が知る限り、重みは単に観測ごとの対数尤度を乗算するために使用されます。したがって、重み付けされていないバージョンを作成した場合、重みを追加するのは簡単です。glmCの実装を(おそらく)見つけるために、いつでもソースコードを確認できることにも注意してください。
Nick Sabbe、2011

2
@Nick、私もこれがglmのweights引数の関数であるという誤解の下にありました-そうではありません。実際には、2項の結果が異なる試行回数に基づいているという意味で不均一な場合に使用されます。たとえば、最初の観測値がBinomial()で、2番目の観測値がBinomial()の場合、それらの重みはます。繰り返しになりますが、glm()の重み引数はサンプリングの重みではありません。Rでこれを行うには、重みに従ってデータセットを拡張し、拡張されたデータセットにモデルを適合させる必要があります(ただし、この場合、SEは間違っている可能性があります)。7 0.5 3 73,.57,.53,7
マクロ

3
ここではメッセージボード上の「重み」引数の議論がある:r.789695.n4.nabble.com/Weights-in-binomial-glm-td1991249.html
マクロの

@マクロ:thx!とてもきちんとしています。コメントの前に使っていたら、歯が
痛い

1

SASにアクセスできる場合、これはPROC GENMODを使用して非常に簡単に実行できます。各観測に重み変数がある限り、重みステートメントを使用すると、目的の種類の分析を実行できます。私は主にInverse-Probability-of-Treatmentウェイトを使用してそれを使用しましたが、Nが一定であることを確認する限り、特定のタイプのケースを強調するためにデータにウェイトを割り当てることができなかった理由はわかりません。また、技術的には重み付けされたケースは繰り返しの観測であるため、ある種のID変数を含めるようにしてください。観測IDが「id」、重み変数が「wt」のコード例:

proc genmod data=work.dataset descending;
    class id;
    model exposure = outcome covariate / dist=bin link=logit;
    weight wt;
    repeated subject=id/type=ind;
run;
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.