タグ付けされた質問 「regression-strategies」

回帰モデリング戦略

3
モデル選択:ロジスティック回帰
我々が持っていると仮定nnn共変量バツ1、 … 、xnバツ1、…、バツnx_1, \dots, x_n、バイナリ結果変数のyyy。これらの共変量のいくつかは、複数のレベルを持つカテゴリーです。その他は連続的です。「最適な」モデルをどのように選択しますか?言い換えれば、モデルに含める共変量をどのように選択しますか? 単純なロジスティック回帰を使用して、共変量のそ​​れぞれでyyyを個別にモデル化し、有意な関連性を持つ回帰を選択しますか?

3
ロジスティック回帰(または他の形式の回帰)での非線形性のテスト
ロジスティック回帰の前提の1つは、ロジットの線形性です。したがって、モデルを立ち上げて実行したら、Box-Tidwellテストを使用して非線形性をテストします。私の連続予測変数(X)の1つは、非線形性が陽性であることをテストしました。次に何をするつもりですか? これは仮定の違反であるため、予測変数(X)を取り除くか、非線形変換(X * X)を含める必要があります。または、変数をカテゴリカルに変換しますか?あなたが参照を持っているなら、あなたも私にそれを指し示すことができますか?

4
傾向スコアのマッチングが因果推論に役立つのはなぜですか?
傾向スコアマッチングは、観察研究で因果推論を行うために使用されます(Rosenbaum / Rubinの論文を参照)。それが機能する理由の背後にある単純な直感は何ですか? 言い換えれば、治療に参加する確率が2つのグループで等しくなるようにすると、交絡の影響がなくなり、その結果を使用して治療の因果関係を判断できるのはなぜですか。

4
ロジスティック回帰分析で連続独立変数のロジットへの線形性の仮定をどのようにチェックする必要がありますか?
ロジスティック回帰分析における連続予測子変数のロジットへの線形性の仮定と混同しています。単変量ロジスティック回帰分析を使用して潜在的な予測子をスクリーニングしながら、線形関係をチェックする必要がありますか? 私の場合は、多重ロジスティック回帰分析を使用して、参加者間の栄養状態(二分結果)に関連する要因を特定しています。年齢、Charlson併存症スコア、Barthel Indexスコア、握力、GDSスコア、BMIなどの連続変数。最初のステップは、単純なロジスティック回帰を使用して有意な変数をスクリーニングすることです。各連続変数の単純なロジスティック回帰分析中に線形性の仮定を確認する必要がありますか?それとも、最終的な多重ロジスティック回帰モデルで確認するだけですか? さらに、私の理解のために、モデルに入力する前に非線形連続変数を変換する必要があります。変換の代わりに非線形連続変数を分類できますか?

2
ロジスティック回帰はいつ適していますか?
現在、分類方法を教えています。具体的には、サポートベクターマシン、ニューラルネットワーク、ロジスティック回帰の3つの方法を検討しています。私が理解しようとしているのは、ロジスティック回帰が他の2つよりも優れたパフォーマンスを発揮する理由です。 ロジスティック回帰の私の理解から、アイデアはデータ全体にロジスティック関数を適合させることです。したがって、データがバイナリの場合、ラベル0のすべてのデータは値0(またはそれに近い)にマッピングされ、値1のすべてのデータは値1(またはそれに近い)にマッピングされる必要があります。ロジスティック関数は連続的で滑らかなので、この回帰を実行するには、すべてのデータが曲線に適合する必要があります。決定境界付近のデータポイントに適用される重要性はこれ以上なく、すべてのデータポイントが異なる量で損失に寄与します。 ただし、サポートベクターマシンとニューラルネットワークでは、決定境界付近のデータポイントのみが重要です。データポイントが決定境界の同じ側にある限り、同じ損失をもたらします。 したがって、決定の周りの難しいデータだけに焦点を合わせるのではなく、多くの重要でない(分類​​しやすい)データに曲線を当てはめようとすると「リソースを浪費する」ため、ロジスティック回帰はサポートベクターマシンまたはニューラルネットワークよりも優れています。境界?

4
問題が線形回帰に適しているという手がかり
Montgomery、Peck、およびViningによる「Introduction to Linear Regression Analysis」を使用して線形回帰を学習しています。データ分析プロジェクトを選択したいと思います。 線形回帰は、説明変数と応答変数の間に線形の関数関係があると疑われる場合にのみ適していると単純に考えています。しかし、実際のアプリケーションの多くは、この基準を満たしているとは思えません。しかし、線形回帰は非常に一般的です。 経験豊富な統計学者は、プロジェクトのどの側面を考慮して、自分の立場にあるかを考え、線形回帰に適した質問とデータを探します。

1
ロジスティック回帰の適合度検定。どの「適合」をテストしますか?
私は質問とその答えに言及しています:ロジスティック回帰から開発されたモデルの予測能力を比較する方法(確率)?@Clark Chong、@ Frank Harrellによる回答/コメント。そして、Hosmer-Lemeshowテストとコメントの自由度χ2χ2\chi^2の質問に。 私は紙の読み持っDWホズマー、T.ホズマー、S.ルCessie、S. Lemeshow、「ロジスティック回帰モデルの適合度検定の比較」、医学、巻で統計を。16、965-980(1997)。 読んだ後、私が言及した質問が「(確率)予測能力」を明示的に求めているので混乱しました。これは、私の意見では、上記の論文の適合度テストの目的と同じではありません。 ほとんどの人が知っているように、ロジスティック回帰は説明変数と成功の確率の間のS字型のリンクを想定しています。S字型の関数型は P(y= 1 |バツ私)= 11 + e− (β0+ ∑私β私バツ私)P(y=1|バツ私)=11+e−(β0+∑私β私バツ私)P(y=1|_{x_i})=\frac{1}{1+e^{-(\beta_0+\sum_i \beta_i x_i)}} Hosmer-Lemeshow検定に欠点がないというふりをせずに、(a)'(確率)予測能力 'と(b) ' 適合度 'の検定を区別する必要があると思います。 前者の目標は、確率が十分に予測されているかどうかをテストすることです。一方、適合度テストは、上記のS字型関数が「正しい」関数であるかどうかをテストします。より正式には: 「確率予測能力テスト」のテストには、成功確率がモデルによって十分に予測されていることを示すがあります。H0H0H_0 一方、適合度テストでは、は(上記のHosmer et al。を参照)S字型の関数型が正しいものです。ホスマー等。ヌルからの2種類の偏差、つまりリンク関数が間違っていること、または分母の指数が線形でないことを検出する能力を見つけるシミュレーションを実行します。H0H0H_0 明らかに、上記の関数が「正しい」関数形式を持っている場合(したがって、適合度テストのためにを受け入れることができるとテストが結論付けた場合)、予測される確率は良好です...H0H0H_0 最初の発言 ...しかし、を受け入れることは、帰無仮説を棄却できない場合に続くことで説明されているように、弱い結論です。。H0H0H_0 最初の質問 私が持っている最も重要な質問/発言は、適合度が拒否された場合、テストの結論は機能的形式が「正しい」ものではなかったということですが、これは確率がよく予測されていない?H0H0H_0 二番目の質問 さらに、Hosmer et。al。の結論を指摘したい。al; (要約から引用): ''正しいモデルには2次項があり、線形項のみを含むモデルが適合している場合のテストのパフォーマンスの検査は、ピアソンカイ2乗、重み付けされていない2乗和、Hosmer-Lemeshow十分位リスクの平滑化された残差平方和とStukelのスコアテストは、サンプルサイズが100のときに線形性から中程度の逸脱を検出するために50%を超える検出力を持ち、サイズ500のサンプルのこれらの同じ代替に対して90%を超える検出力を持ちます。正しいモデルに2項共変量と連続共変量の相互作用がある場合、すべてのテストには力がありませんでしたが、連続共変量モデルのみが適合しました。誤って指定されたリンクを検出する能力は、サイズ100のサンプルでは不十分でした。サイズ500のサンプルでは、​​Stukel ' sスコアテストは最高の性能を発揮しましたが、非対称リンク機能を検出するには50%を超えていました。誤って指定されたリンク関数を検出するための重みなし二乗和テストの能力は、Stukelのスコアテストよりもわずかに低かった '' このことから、どのテストがより強力であるか、またはHosmer-Lemeshowの方が(これらの特定の異常を検出するために)より少ないと結論付けることができますか? 第二の発言 Hosmer et。による論文 al。前述のように、特定の異常を検出するために電力を計算(シミュレーション)します(電力はが指定されている場合にのみ計算できます)。これは、これらの結果を「すべての可能な代替案」に一般化できることを意味するものではありません。H1H1H_1H1H1H_1

1
「仮説検定」と「モデル選択」の違いは何ですか?
文献では、両方の用語はしばしば同義語または織り交ぜられています。現在、両方の用語の明確な区別を見つけようとしています。私の観点から、仮説は通常モデルを介して表現されます。したがって、帰無仮説と対立仮説をテストしたとしても、私の観点からはモデル選択を行っています。誰かがこの区別を直感的に説明してもらえますか?

1
Rの回帰スプラインを使用したロジスティック回帰
私は、英国の頭部外傷の全国外傷データベースからの遡及データに基づいてロジスティック回帰モデルを開発しています。主要な結果は30日間の死亡率です(「生存率」指標として示されます)。以前の研究の結果に対する有意な効果の公表された証拠を持つ他の測定には、以下が含まれます: Year - Year of procedure = 1994-2013 Age - Age of patient = 16.0-101.5 ISS - Injury Severity Score = 0-75 Sex - Gender of patient = Male or Female inctoCran - Time from head injury to craniotomy in minutes = 0-2880 (After 2880 minutes is defined as a …

1
分類タスクで機能選択が重要なのはなぜですか?
特徴選択について学んでいます。なぜそれがモデル構築にとって重要かつ有用であるのかを理解できます。しかし、教師あり学習(分類)タスクに焦点を当てましょう。分類タスクで機能選択が重要なのはなぜですか? 特徴の選択と教師あり学習へのその使用について書かれた多くの文献を見ていますが、これは私を困惑させます。機能の選択とは、どの機能を破棄するかを特定することです。直感的には、一部の機能を破棄することは自己破壊的なようです。それは情報を破棄することです。情報を投げても役に立たないようです。 一部の機能を削除しても効果がある場合でも、一部の機能を破棄して残りを監視あり学習アルゴリズムにフィードする場合、監視あり学習アルゴリズムに処理を任せるのではなく、なぜ自分で実行する必要があるのでしょうか。一部の機能が役に立たない場合、適切な教師あり学習アルゴリズムが暗黙のうちにそれを発見し、その機能を使用しないモデルを学習すべきではありませんか? したがって、直感的には、機能の選択が役に立たず、場合によっては害を及ぼす可能性がある無意味な演習になると予想していました。しかし、それが非常に広く使用され、記述されているという事実は、私の直感に欠陥があると私に疑わせます。教師あり学習を行うときに、機能の選択が有用かつ重要である理由を誰かが直感的に理解できるでしょうか。なぜ機械学習のパフォーマンスが向上するのですか?それは私が使用する分類器に依存しますか?

3
ゼロで積み重ねられた連続データを持つGLM
私は結核、エイズなどの壊滅的な病気が入院費にどれだけ影響を与えるかを推定するモデルを実行しようとしています。私は従属変数として「入院費用あたり」と独立変数としてさまざまな個々のマーカーを持っています。それらのほとんどすべてが性別、世帯主のステータス、貧困ステータスなどのダミーであり、もちろんあなたが病気(プラス年齢)を持っているかどうかのダミーですと年齢の2乗)と相互作用項の束。 予想されるように、かなりの量のデータが(つまり、大量のデータが)ゼロに蓄積されています(つまり、12か月の参照期間の入院費用はありません)。これらのようなデータを処理する最良の方法は何でしょうか? 今のln(1+cost)ところ、すべての観測を含むようにコストをに変換し、線形モデルを実行することにしました。私は正しい軌道に乗っていますか?

2
最も強く関連付けられている予測子がバイナリの場合に回帰モデルの作成を開始する方法
私は、すなわち3つの変数の365観測を含むデータセットを持っているpm、tempとrain。次にpm、他の2つの変数の変化に応じての動作を確認したいと思います。私の変数は: pm10 =応答(依存) temp =予測子(独立) rain =予測子(独立) 以下は、私のデータの相関行列です。 > cor(air.pollution) pm temp rainy pm 1.00000000 -0.03745229 -0.15264258 temp -0.03745229 1.00000000 0.04406743 rainy -0.15264258 0.04406743 1.00000000 問題は、私が回帰モデルの構築を研究していたとき、加法的方法は応答変数に最も関連性の高い変数から始めることであると書かれていました。私のデータセットrainはpm(と比較してtemp)と高度に相関していますが、同時にダミー変数(rain = 1、no rain = 0)であるため、どこから始めればよいか手掛かりが得られます。2つの画像を添付しました。最初の画像はデータの散布図で、2番目の画像はpm10vsの散布図rainです。また、pm10vsの散布図を解釈することもできませんrain。誰かが私を始める方法を手伝ってくれる?

3
なぜロジスティック回帰でカテゴリー予測子のWOE変換を行う必要があるのですか?
カテゴリー変数の証拠の重み(WOE)変換はいつ役立つのですか? この例は、WOE変換で見ることができます。 (したがって、応答のために、&とカテゴリ予測k個のカテゴリ、および Y j個のうち成功N j個の内の試験Jこの予測の範疇番目用WOE Jカテゴリ番目は次のように定義されますyyykkkyjyjy_jnjnjn_jjjjjjj logyj∑kjyj∑kj(nj−yj)nj−yjlog⁡yj∑jkyj∑jk(nj−yj)nj−yj\log \frac{y_j} {\sum_j^k {y_j}} \frac{\sum_j^k (n_j-y_j)}{n_j-y_j} &変換は、カテゴリー予測子の各カテゴリーをそのWOEでコーディングして、新しい連続予測子を形成することで構成されます。) WOE変換がロジスティック回帰に役立つ理由を知りたいのですが。この背後にある理論は何ですか?

1
ノモグラムの読み取りに関する説明
以下は、式のrmsパッケージを使用してmtcarsデータセットから作成されたノモグラムです。 mpg ~ wt + am + qsec モデル自体は0.82のR2とP <0.00001で良いようです > mod Linear Regression Model ols(formula = mpg ~ wt + am + qsec, data = mtcars) Model Likelihood Discrimination Ratio Test Indexes Obs 32 LR chi2 60.64 R2 0.850 sigma 2.4588 d.f. 3 R2 adj 0.834 d.f. 28 Pr(> …

2
機能選択にのみLASSOを使用する
l1l1l_1 私の質問:人々は通常、機能選択を行うためだけにLASSOモデルを使用しますか(そして、それらの機能を別の機械学習モデルにダンプします)、または通常、機能選択と実際の回帰の両方を実行するためにLASSOを使用しますか? l1l1l_1l2l2l_2l1l1l_1l2l2l_2 回帰とは別に、これは分類タスク(SVM、ニューラルネットワーク、ランダムフォレストなどを使用)を実行する際の賢明な戦略ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.