タグ付けされた質問 「logistic」

一般に、ロジスティック関数を使用する統計的手順、最も一般的にはさまざまな形式のロジスティック回帰を指します。


8
ロジスティック回帰で完全な分離に対処する方法は?
ターゲット変数のゼロと1を完全に分離する変数がある場合、Rは次の「完全または準完全分離」警告メッセージを生成します。 Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred モデルは取得できますが、係数の推定値は膨らんでいます。 これを実際にどのように扱いますか?


3
ランク不足とは何ですか?
lme4を使用したロジスティック回帰の近似は Error in mer_finalize(ans) : Downdated X'X is not positive definite. このエラーの考えられる原因は、明らかにランクの不足です。ランクの不備とは何ですか、どのように対処すればよいですか?
87 r  logistic  lme4-nlme 

3
ロジスティック回帰を行う場合、不均衡なサンプルは重要ですか?
さて、20:1の経験則を考慮して、十分なサンプルがあると思います:合計7つの予測変数のかなり大きなサンプル(N = 374)。 私の問題は次のとおりです。使用する予測変数のセットが何であれ、100%の特異性と0%の感度よりも分類が良くなることはありません。満足のいくものではありませんが、候補予測変数のセット(これから逸脱することはできません)を考えると、これは実際には最良の結果になる可能性があります。 しかし、私はもっと良くできると思わずにはいられなかったので、従属変数のカテゴリはほぼ4:1の非常に不均一なバランスであることに気付きました。よりバランスのとれたサブサンプルで分類を改善できますか?

5
曲線下面積(AUC)またはc統計を手で計算する方法
バイナリロジスティック回帰モデルの曲線下面積(AUC)またはc統計を手動で計算することに興味があります。 たとえば、検証データセットでは、従属変数の真の値である保持(1 =保持、0 =保持されない)、およびモデルである回帰分析により生成された各観測の予測保持ステータスがありますトレーニングセットを使用して構築されます(これは0〜1の範囲です)。 私の最初の考えは、モデル分類の「正しい」数を特定し、「正しい」観測値の数を総観測値の数で単純に割ってc統計量を計算することでした。「正しい」とは、観測の真の保持ステータス= 1であり、予測される保持ステータスが> 0.5である場合、それは「正しい」分類です。さらに、観測の真の保持ステータス= 0で、予測保持ステータスが0.5未満の場合、それも「正しい」分類です。予測値= 0.5のときに「タイ」が発生すると想定していますが、検証データセットではその現象は発生しません。一方、「誤った」分類は、観測の真の保持ステータス= 1であり、予測される保持ステータスが0未満の場合です。5または結果の真の保持ステータス= 0であり、予測保持ステータスが> 0.5である場合。私はTP、FP、FN、TNを知っていますが、この情報を与えられたc統計を計算する方法を知りません。


3
ロジスティック回帰の診断?
線形回帰の場合、診断プロット(残差プロット、標準QQプロットなど)をチェックして、線形回帰の仮定に違反しているかどうかをチェックできます。 ロジスティック回帰の場合、ロジスティック回帰モデルの適合を診断する方法を説明するリソースを見つけるのに問題があります。GLMのいくつかのコースノートを掘り下げて、ロジスティック回帰近似の診断を実行するには残差のチェックは役に立たないと単純に述べています。 インターネットを見回すと、モデルの逸脱をチェックしたり、カイ2乗検定を実行するなど、さまざまな「診断」手順もあるようですが、他の情報源は、これは不適切であり、Hosmer-Lemeshow適合度を実行する必要があると述べていますテスト。次に、このテストは実際のグループ化とカットオフ値に大きく依存する可能性がある(信頼できない可能性がある)と述べる他のソースを見つけます。 それでは、ロジスティック回帰の適合性をどのように診断する必要がありますか?

2
閉形式と勾配降下の回帰パラメータの解決
Andrew Ngの機械学習コースでは、線形回帰とロジスティック回帰を紹介し、勾配降下法とニュートン法を使用してモデルパラメーターを近似する方法を示しています。 勾配降下は、機械学習の一部のアプリケーション(逆プロパゲーションなど)で役立つことがありますが、より一般的なケースでは、閉形式のパラメーターを解かない理由があります。コスト関数と微積分による解? 一般に、閉じた形式のソリューションに対して勾配降下法などの反復アルゴリズムを使用する場合、使用できる場合、その利点は何ですか?

1
単純なロジスティック回帰モデルは、MNISTで92%の分類精度をどのように実現しますか?
MNISTデータセット内のすべての画像は、同じスケールで中央に配置され、回転せずに表向きになっていますが、それらには大きな手書きのばらつきがあり、線形モデルがこのような高い分類精度をどのように実現するのか困惑しています。 私が視覚化できる限り、手書きの大きな変動を考えると、数字は784次元空間で線形に分離できないはずです。つまり、異なる数字を分離する少し複雑な(それほど複雑ではない)非線形境界があるはずです。 、正のクラスと負のクラスを線形分類器で分離できないというよく引用されたXORXORXOR例に似ています。マルチクラスロジスティック回帰が、完全に線形の特徴(多項式の特徴はない)でどのように高い精度を実現するのか、私には戸惑うようです。 例として、画像内の任意のピクセルが与えられた場合、数字222と333異なる手書きのバリエーションにより、そのピクセルを照らしたり、しなかったりすることができます。したがって、学習された重みのセットを使用して、各ピクセルは数字を222および333ように見せることができます。ピクセル値の組み合わせによってのみ、数字が222か333あるかを判断できます。これは、ほとんどの桁ペアに当てはまります。そのため、ロジスティック回帰は、ピクセル間の依存関係をまったく考慮せずに、盲目的にすべてのピクセル値に依存せずに決定を下し、そのような高い精度を達成できます。 どこか間違っているか、画像のばらつきを過大評価しているだけです。ただし、数字がどのように「ほぼ」直線的に分離できるかについての直感で誰かが私を助けることができれば素晴らしいことです。

4
GLMの「リンク機能」と「正規リンク機能」の違いは何ですか
「リンク関数」と「標準リンク関数」という用語の違いは何ですか?また、一方を他方より使用する(理論的な)利点はありますか? たとえば、バイナリ応答変数は、logitやprobitなどの多くのリンク関数を使用してモデル化できます。ただし、ここでのロジットは「標準的な」リンク関数と見なされます。


3
ロジスティック回帰の残差はどういう意味ですか?
この質問に答える際に、 John Christieは、残差を評価することによりロジスティック回帰モデルの適合性を評価することを提案しました。OLSで残差を解釈する方法に精通しています。それらはDVと同じスケールであり、yとモデルによって予測されたyの差は非常に明確です。ただし、ロジスティック回帰では、残差がロジスティック回帰で何を意味するのかわからなかったため、過去にAICなどのモデル近似の推定値を調べてきました。見た後Rのヘルプファイル、私はRで利用できるGLM残差の5種類があることがわかり少しc("deviance", "pearson", "working","response", "partial")。ヘルプファイルは以下を参照します。 Davison、ACおよびSnell、EJ(1991)残差および診断。In:統計理論とモデリング。デイビッド・コックスS、FRS編 ヒンクリー、DV、リード、N。、スネル、EJ、チャップマン&ホール。 私はそのコピーを持っていません。これらの各タイプの解釈方法を説明する簡単な方法はありますか?ロジスティックコンテキストでは、残差の二乗和がモデルの適合性の有意義な尺度を提供しますか、それとも情報量基準の方が良いでしょうか?

1
Rのロジスティック回帰により、完全な分離が発生しました(Hauck-Donner現象)。それで?
50の連続した説明変数を使用してバイナリの結果を予測しようとしています(ほとんどの変数の範囲はから)。私のデータセットにはほぼ24,000行あります。Rで実行すると、次のようになります。−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred 完全な分離が発生している可能性があることを示唆する他の応答を読みましたが、データにはそうではないと確信しています(準完全な分離が存在する可能性がありますが、そうであるかどうかを確認するにはどうすればよいですか?) 。一部の変数を削除すると、「収束しませんでした」エラーがなくなる可能性があります。しかし、それは常に起こることではありません。 bayesglm関数で同じ変数を使用しようとすると、同じエラーが発生しました。 ここで何が起こっているのかを正確に把握するには、どのようなステップを踏むでしょうか?どの変数が問題を引き起こしているのかをどのように把握しますか?

1
ロジスティック回帰のWald検定
私の知る限り、ロジスティック回帰のコンテキストでのWald検定は、特定の予測変数が有意であるかどうかを判断するために使用されます。対応する係数がゼロであるという帰無仮説を棄却します。XXX テストでは、係数の値を標準誤差で除算します。σσ\sigma 私が混乱しているのは、がZスコアとも呼ばれ、与えられた観測値が正規分布(平均ゼロ)から生じる可能性を示していることです。X/σX/σX/\sigma

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.