タグ付けされた質問 「logistic」

一般に、ロジスティック関数を使用する統計的手順、最も一般的にはさまざまな形式のロジスティック回帰を指します。

5
ロジスティック回帰のデータを分割する手段としてのクラスタリング
私は、ロジスティック回帰モデルのいくつかの機能に基づいて、学生の成功または失敗を予測しようとしています。モデルのパフォーマンスを向上させるために、明らかな違いに基づいて学生を複数のグループに分割し、各グループに個別のモデルを構築することをすでに考えました。しかし、これらのグループを試験で特定するのは難しいかもしれないと思うので、生徒の特徴をクラスタリングして、生徒を分割することを考えました。これは、そのようなモデルを構築する際の一般的な方法ですか?それを明白なグループに分けて(たとえば、最初の学期の生徒と帰国の生徒)、それらのグループでクラスタリングを実行するか、最初からクラスタリングすることを提案しますか? 明確にするために: つまり、クラスタリングアルゴリズムを使用して、ロジスティック回帰のトレーニングセットをグループに分割することを検討しています。次に、これらのグループごとに個別のロジスティック回帰を行います。次に、ロジスティック回帰を使用して学生の結果を予測する場合、どのグループに最も適合するかに基づいて、使用するモデルを選択します。 おそらく、グループ識別子を含めることで同じことを行うことができます。たとえば、学生が戻ってきた場合は1、戻っていない場合は0などです。 これで、母集団ごとに個別のロジスティック回帰モデルを構築するのではなく、トレーニングデータセットをクラスター化し、それらのクラスターラベルをロジスティック回帰の機能として使用する方が有利かどうかについて考えました。 帰国生と新入生のグループ識別子を含めると便利な場合は、グループのリストを拡張すると便利でしょうか。クラスタリングは、これを行う自然な方法のようです。 それが明確であることを願っています...


6
バイナリ結果の一連のカテゴリカル予測子の予測力を評価する方法は?確率またはロジスティック回帰を計算しますか?
私は、単純な確率が私の問題で機能するかどうか、またはロジスティック回帰などのより洗練された方法を使用(および学習)する方が良いかどうかを判断しようとしています。 この問題の応答変数はバイナリ応答(0、1)です。私はすべてカテゴリカルで順序付けされていない多数の予測変数を持っています。私は、予測変数のどの組み合わせが1の割合が最も高いかを判断しようとしています。ロジスティック回帰は必要ですか?カテゴリカル予測子の各組み合わせについて、サンプルセットの比率を計算するだけの利点は何ですか?

3
ロジスティック回帰の残差とクックの距離
エラー項の一定分散や残差の正規性など、ロジスティック回帰のエラーに関する特定の仮定はありますか? また、通常、クックの距離が4 / nより大きいポイントがある場合、それらを削除しますか?それらを削除した場合、削除されたポイントを含むモデルの方が優れているかどうかをどのように判断できますか?

1
交差する変量効果と不均衡データ
2つの交差したランダム効果があると思われるデータをモデリングしています。しかし、データセットはバランスが取れておらず、それを説明するために何をする必要があるのか​​わかりません。 私のデータは一連のイベントです。イベントは、クライアントがプロバイダーと会ってタスクを実行するときに発生します。何千ものクライアントとプロバイダーがあり、各クライアントとプロバイダーはさまざまな数のイベント(約5〜500)に参加しています。各クライアントとプロバイダーにはある程度のスキルがあり、タスクが成功する可能性は両方の参加者のスキルの関数です。クライアントとプロバイダーの間に重複はありません。 クライアントとプロバイダーの人口のそれぞれの差異に興味があるので、どのソースが成功率に大きな影響を与えるかを知ることができます。また、私たちが実際にデータを持っているクライアントとプロバイダー間のスキルの具体的な値を知り、最良または最悪のクライアントまたはプロバイダーを特定したいと考えています。 最初は、成功の確率はクライアントとプロバイダーのスキルレベルの組み合わせによってのみ決定され、他の固定効果はないと仮定したいと思います。したがって、xがクライアントの係数であり、yがプロバイダーの係数であるとすると、Rでは(パッケージlme4を使用)、次のように指定されたモデルがあります。 glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events) 1つの問題は、クライアントがプロバイダー間で均等に分散されていないことです。スキルの高いクライアントは、スキルの高いプロバイダーと一致する可能性が高くなります。私の理解は、変量効果はモデル内の他の予測子と無相関でなければならないということですが、それをどのように説明するかわかりません。 また、一部のクライアントとプロバイダーはイベントが非常に少ない(10未満)一方で、多くのイベント(最大500)があるため、各参加者のデータ量は広範囲に広がっています。理想的には、これは各参加者のスキル推定値の周りの「信頼区間」に反映されます(信頼区間という用語はここでは完全に正しくないと思います)。 データのバランスが取れていないため、交差したランダム効果は問題になりますか?もしそうなら、私が考慮すべき他のいくつかのアプローチは何ですか?

5
結果変数が5%から95%に分割されるときに、ロジスティック回帰にバイアスがかかりますか?
ユーティリティクライアントのロジスティック回帰を使用して傾向モデルを構築しています。私の懸念は、サンプル全体のうち、私の「悪い」アカウントはわずか5%であり、残りはすべて良好であるということです。「悪い」と予測しています。 結果は偏っていますか? 良いモデルを構築するのに最適な「悪い比率から良い比率」は何ですか?

2
どのカーネルメソッドが最も確率の高い出力を提供しますか?
最近、SVM出力のPlattのスケーリングを使用して、デフォルトイベントの確率を推定しました。より直接的な代替手段は、「カーネルロジスティック回帰(KLR)」および関連する「インポートベクトルマシン」のようです。 確率出力を提供するどのカーネルメソッドが現在最先端であるか、誰かが知ることができますか?KLRのR実装は存在しますか? ご助力ありがとうございます!

3
ロジスティック回帰(SPSS)で非バイナリのカテゴリ変数を処理する方法
多くの独立変数を使用してバイナリロジスティック回帰を実行する必要があります。それらのほとんどはバイナリですが、一部のカテゴリ変数には3つ以上のレベルがあります。 そのような変数に対処する最良の方法は何ですか? たとえば、可能な値が3つある変数の場合、2つのダミー変数を作成する必要があるとします。次に、段階的な回帰手順では、両方のダミー変数を同時にテストするか、別々にテストする方が良いですか? SPSSを使用しますが、よく覚えていないので、SPSSはこの状況にどのように対処しますか? さらに、順序カテゴリカル変数の場合、順序スケールを再作成するダミー変数を使用するのは良いことですか?(例えば、プット4状態順序変数のための3つのダミー変数を用いた0-0-0レベルに対して、レベルについて2、レベルについて3及びレベルについて4、代わりに、、および4つのレベルのために)。1111-0-02221-1-03331-1-14440-0-01-0-00-1-00-0-1

3
ロジスティック回帰のランキング機能
私はロジスティック回帰を使用しました。6つの機能があります。他の機能よりも結果に影響を与えるこの分類子の重要な機能を知りたいです。Information Gainを使用しましたが、使用する分類子に依存しないようです。特定の分類子(ロジスティック回帰など)に基づいて機能を重要度に従ってランク付けする方法はありますか?任意の助けをいただければ幸いです。

3
母集団のr二乗変化の信頼区間を取得する方法
簡単な例のために、2つの線形回帰モデルがあると仮定します モデル1は、3つの予測因子を持っているx1a、x2bと、x2c モデル2には、モデル1からの3つの予測子と2つの追加の予測子がx2aあり、x2b 母集団の分散が説明人口回帰式がある モデル1及びρ 2 (2 )増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 (2 ) - ρ 2 (1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子(たとえば、5および30)に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J (2 ) - R 2 次元J (1 )推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。Δρ2Δρ2\Delta\rho^2Δr2adj=r2adj(2)−r2adj(1)Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)} ご質問 されたの合理的な推定量Δは、ρ …

1
Luce選択公理、条件付き確率についての質問[終了]
休業。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善してみませんか?詳細を追加し、この投稿を編集して問題を明確にしてください。 2年前休業。 私はルース(1959)を読んでいます。それから私はこの声明を見つけました: 人が選択肢の中から選択すると、非常に多くの場合、それらの応答は、選択セットで条件付けられた確率によって管理されているように見えます。しかし、条件付き確率の標準的な定義を伴う通常の確率理論は、必要なものとはかなり思えません。例は難しさを示しています。自宅から別の都市への移動方法を決定する場合、飛行機(a)、バス(b)、または車(c)のいずれかを選択できます。旅行の形態に関連する自然の不確実な状態をA、B、Cで表すことにします。cを選択した場合、AとBのすべての不確実性が残ることに注意してください。ただし、aまたはbのいずれかを選択した場合、車はガレージに残り、セットCは車の運転時から大幅に変更されます。 第1章の選択公理は、固定された普遍的なサンプル空間の仮定をバイパスした確率のような選択理論を構築する最初の試みとして導入されました。 ソース:http://www.scholarpedia.org/article/Luce's_choice_axiom ΩΩ\OmegaFF\mathcal{F}PPP 上記の例に関して、私が定義した場合に問題になると思われるもの: Ω = { バス、車、飛行機}Ω={bus,car,airplane}\Omega = \{ \text{bus}, \text{car}, \text{airplane} \} 一般的な統計における重要な仮定の1つは、子宮口筋の状態です。これは、cpの仮定に違反しているため、選択動作のコンテキストで基本的な確率理論を調整する必要がある理由ですか?

1
混合効果ロジスティック回帰からの固定効果の解釈
混合効果ロジスティック回帰についてのUCLA Webページのステートメントに混乱しています。それらは、そのようなモデルのフィッティングからの固定効果係数の表を示し、下の最初の段落は、通常のロジスティック回帰とまったく同じように係数を解釈するようです。しかし、彼らがオッズ比について話すとき、彼らは変量効果を条件としてそれらを解釈しなければならないと言います。対数オッズの解釈が指数値と異なるのは何ですか? 「その他すべてを一定に保つ」ことも必要ではないでしょうか? このモデルから固定効果係数を解釈する適切な方法は何ですか?変量効果の期待値はゼロであるため、私は常に「通常の」ロジスティック回帰から何も変化がないという印象を受けました。したがって、変量効果の有無にかかわらず、ログオッズとオッズ比をまったく同じに解釈しました-SEのみが変更されました。 推定は本質的にいつものように解釈することができます。たとえば、IL6の場合、IL6の1単位の増加は、寛解の予想対数オッズの.053単位の減少に関連付けられています。同様に、結婚している、または結婚したまま生活している人は、独身の人よりも.26対数寛解の確率が高いと予想されます。 多くの人々はオッズ比を解釈することを好みます。ただし、これらは混合効果がある場合、より微妙な意味を帯びます。通常のロジスティック回帰では、オッズ比は、他のすべての予測子を固定した期待オッズ比です。これは、結婚などの「純粋な」効果や、関心のある主要な予測因子が何であれ、「純粋な」効果を得るために、年齢などの他の効果を統計的に調整することに関心があることが多いため、これは理にかなっています。同じことが混合効果ロジスティックモデルにも当てはまります。その他すべてを固定することには、変量効果を固定することが含まれます。つまり、ここでのオッズ比は、年齢とIL6を一定に保つ人と、同じ医師または同じ変量効果を持つ医師を持つ人の条件付きオッズ比です。

1
ロジスティック回帰問題のdecision_function、predict_proba、predict functionの違いは何ですか?
私はsklearnのドキュメントを調べてきましたが、ロジスティック回帰のコンテキストでこれらの関数の目的を理解できません。decision_functionそれが超平面とテストインスタンス間の距離と述べています。この特定の情報はどのように役立ちますか?そしてこれはどのように関連しpredict、predict-proba方法ですか?

2
ロジスティック回帰と順序独立変数
私はこの投稿を見つけました: はい。係数は、順序予測子の変化の増分ごとの対数オッズの変化を反映します。この(非常に一般的な)モデル仕様では、予測子がその増分全体で線形的な影響を与えると想定しています。仮定をテストするために、順序変数を単一の予測子として使用するモデルと、応答を離散化して複数の予測子として処理するモデルを比較できます(変数が名目である場合と同様)。後者のモデルの結果が大幅に良くならない場合は、各増分を線形効果があるものとして扱うのが妥当です。 – @ dmk38 10年12月12日5:21 この主張を裏付ける公開されたものをどこで見つけられるか教えていただけませんか?私はデータを使用していますが、ロジスティック回帰で順序独立変数を使用したいと考えています。

2
オッズ比とハザード比の間に機能的な違いはありますか?
ロジスティック回帰では、オッズ比2は、予測子が1ユニット増加した場合に、イベントの確率が2倍高いことを意味します。Cox回帰では、ハザード比2は、予測子が1ユニット増加すると、各時点でイベントが2倍の頻度で発生することを意味します。これらは実質的に同じものではありませんか? ロジスティック回帰のオッズ比から機能的に同じ情報を取得できる場合、Cox回帰を行ってハザード比を取得する利点は何でしょうか。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.