タグ付けされた質問 「regression-strategies」

回帰モデリング戦略

3
ロジスティック回帰のランキング機能
私はロジスティック回帰を使用しました。6つの機能があります。他の機能よりも結果に影響を与えるこの分類子の重要な機能を知りたいです。Information Gainを使用しましたが、使用する分類子に依存しないようです。特定の分類子(ロジスティック回帰など)に基づいて機能を重要度に従ってランク付けする方法はありますか?任意の助けをいただければ幸いです。

3
統計モデルの非線形性の基準と意思決定とは何ですか?
次の一般的な質問が意味をなすことを願っています。この特定の質問の目的のために、非線形性を導入するための理論的な(対象ドメイン)理由には興味がないことに注意してください。したがって、質問全体を次のように定式化します。 理論的(対象領域)以外の理由で統計モデルに非線形性を導入するための論理的なフレームワーク(基準、および可能であれば意思決定プロセス)とは何ですか? いつものように、関連するリソースやリファレンスも歓迎します。

2
成長チャートを作成する最良の方法
私は5から15歳(5、6、7のみなど、2.6歳のような小数値はありません)の負ではなく、継続的である健康変数のチャート(成長チャートと同様)を作成する必要があります50〜150の範囲(この範囲外の数個の値のみ)。90、95、99パーセンタイル曲線を作成し、これらのパーセンタイルのテーブルも作成する必要があります。サンプルサイズは約8000です。 私は次の可能な方法をチェックして見つけました: 分位点を見つけて、レス法を使用して、これらの分位点から滑らかな曲線を取得します。滑らかさの程度は「スパン」パラメータで調整できます。 LMS(Lambda-Mu-Sigma)メソッドを使用します(RでgamlssまたはVGAMパッケージを使用するなど)。 分位回帰を使用します。 各年齢グループの平均とSDを使用して、その年齢のパーセンタイルを推定し、パーセンタイル曲線を作成します。 それを行う最良の方法は何ですか?「最良」とは、そのような成長曲線を作成するための標準的な方法であり、すべての人に受け入れられる理想的な方法を意味します。または、いくつかの制限があるかもしれませんが、受け入れ可能でより速い方法である、実装がより簡単で単純な方法。(たとえば、パーセンタイル値でloessを使用すると、gamlssパッケージのLMSを使用するよりもはるかに高速です)。 また、そのメソッドの基本的なRコードになります。 ご協力いただきありがとうございます。

2
説明変数の1つが2次および3次の項を持つ可能性がある場合、説明変数間の相互作用をどのようにモデル化すればよいですか?
私がこの質問を明確に回答できるように表現したことを心から望んでいます。もしそうでなければ、私に知らせて、もう一度やり直します!また、これらの分析にはRを使用することにも注意してください。 私がplant performance (Ys)課した4つの治療法の影響を受けたと思われるいくつかの測定値flower thinning (X1), fertilization (X2), leaf clipping (X3)がありbiased flower thinning (X4)ます- 、および。考えられるすべてのYについて、Nは少なくとも242なので、サンプルサイズが大きくなりました。すべてのプロットは間引きを行ったか、行わなかったかのいずれかですが、各プロットは他の3つの処理のうちの1つ(および1つのみ)も処理しました(または処理しませんでした-コントロールプロットもありました)。このデザインのアイデアは、他の3つの処理が、間引きの効果を「マスキング」または「強化」できるかどうかをテストすることでした。したがって、設計上、後者の3つの処理(X2〜X4)は交差しなかったため、互いに相互作用することはできませんでしたが、それぞれ花の間引きと相互作用することができます。 私の明確な仮説は、1)花が薄くなることは重要であり、2)X1*X2, X1*X3, and X1*X4,花が薄くなることと他の3つの処理の間の相互作用項も重要であることです。つまり、花の間引きは重要なはずですが、それが重要である方法は、他の3つの処理が何をしたかによって大幅に変更されるべきです。 このすべての情報を混合モデルに含めたいのですが。 Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects) しかし、ハングアップが1つあります。私は、Yの間引きの効果が非線形であることを信じる十分な理由があります。それらはおそらく2次式ですが、場合によっては3次式であることもあります。これは、間引きのパフォーマンスへの影響が、間引きのレベルが高いほど速く増加する可能性が高いためです。X1の2次および3次の項を追加することにより、上記の方程式を介してこの非線形関係をモデル化しようとすると、相互作用項をモデル化する方法がわかりません-X1の可能なすべての組み合わせ(X1)^ 2、(X1)^ 3 * X2、X3、X4?私が持っているデータポイントの数があったとしても、それは推定しようとする多くのパラメーターのようであり、得られる結果を解釈する方法がわかりません。とはいえ、これが状況をモデル化するための無作法な方法であると考える生物学的な理由はありません。 したがって、私はこの問題に対処する方法について3つの考えがあります。 たとえばY …

3
ロジスティック回帰モデルの正しい方法で予測子を減らす方法
現在の状況では、バイナリ応答データに基づいてロジスティックモデルを実行する必要があるため、モデリング(特にハレルの「回帰モデリング戦略」)に関する本(またはその一部)を読んでいます。データセットに、連続データ、カテゴリデータ、およびバイナリデータ(予測子)の両方があります。基本的に、私は現在約100の予測子を持っていますが、これは優れたモデルには明らかに多すぎます。また、これらの予測子の多くは、多少は異なりますが、同じメトリックに基づいていることが多いため、一種の関連性があります。 とにかく、一変量回帰と段階的手法を使用して私が読んでいることは、予測変数の量を減らすために実行できる最悪のことです。LASSOテクニックは(私がそれを正しく理解していれば)非常に大丈夫だと思いますが、明らかに100の予測子でそれを使用することはできません。 だからここで私の選択肢は何ですか?私は本当に座って、すべての上司、職場の賢い人々と話をし、トップ5の最良の予測因子が何である/するべきか(私たちは間違っているかもしれません)、またはどのアプローチが必要かについて本当に考えなければなりませんか?代わりに検討しますか? そして、はい、このトピックについてはオンラインと本でかなり議論されていることも知っていますが、このモデリング分野に少し慣れていないと、少し圧倒されるように見えることがあります。 編集: まず第一に、私のサンプルサイズは+1000人の患者であり(これは私の分野ではたくさんあります)、そのうち70-170の肯定的な応答があります(つまり、はいの応答が170であるのに対し、ケースの1つではおよそ900の応答がありません)。 。 基本的には、考えは放射線治療後の毒性を予測することです。予想されるバイナリレスポンスデータがいくつかあり(つまり、毒性があるか(1)、ないか(0))、いくつかのタイプのメトリックがあります。一部のメトリックは患者固有のものです。たとえば、年齢、使用する薬物、臓器とターゲットのボリューム、糖尿病などです。次に、ターゲットのシミュレーションされた治療フィールドに基づいたいくつかの治療固有のメトリックがあります。ほとんどの毒性は、受けた放射線(iedose)の量と非常に相関しているので、そのことから、私の分野でよく関連するいくつかの予測因子を取得できます。たとえば、私が肺腫瘍を治療する場合、ある程度の線量で心臓を打つリスクがあります。次に、心臓容積のx量がx量の投与を受ける量を計算できます。t始めに1つを選択するだけです(これは、過去の実験がもちろん試みたものであり、私が望んでいることでもあります)。これは、心臓毒性の間で実際に大きな相関がある程度を「正確に」知る必要があるためです。と体積線量(ここでも、例として、同じ戦略が適用される他の同様のメトリックがあります)。ええ、そうです、私のデータセットはこのようになっています。いくつかの異なるメトリック、およびいくぶん類似したいくつかのメトリック。t始めに1つを選択するだけです(これは、過去の実験がもちろん試みたものであり、私が望んでいることでもあります)。これは、心臓毒性の間で実際に大きな相関がある程度を「正確に」知る必要があるためです。と体積線量(ここでも、例として、同じ戦略が適用される他の同様のメトリックがあります)。ええ、そうです、私のデータセットはこのようになっています。いくつかの異なるメトリック、およびいくぶん類似したいくつかのメトリック。s私のデータセットがどのように見えるかということです。いくつかの異なるメトリック、およびいくぶん類似したいくつかのメトリック。s私のデータセットがどのように見えるかということです。いくつかの異なるメトリック、およびいくぶん類似したいくつかのメトリック。 次に、予測モデルを作成して、どの患者が何らかの毒性を受けるリスクがあるかを予測できるようにしたいと思います。そして、応答データはバイナリであるため、私の主なアイデアはもちろんロジスティック回帰モデルを使用することでした。少なくともそれは、私の分野で他の人々が行ったことです。ただし、既に行われているこれらの論文の多くを読んでいると、いくつかの問題が正しくないように見えます(少なくともF.ハレルのような特定のタイプのモデリングに関する本を読んでいるとき)。多くの場合、単変量回帰分析を使用して予測子を選択し、多変量分析で使用します(私が誤解していない場合はお勧めしません)。また、予測子の量を減らすために段階的な手法を使用することもあります。もちろん、すべてが悪いわけではありません。LASSO、PCA、相互検証、ブートストラップなどを多く使用していますが、私が見てきたものは、 機能の選択に関しては、これがおそらく私が今いるところです。モデルで使用する適切な予測子を選択/検索するにはどうすればよいですか?私はこれらの単変量/段階的アプローチを試しましたが、毎回「それが間違っているのに、なぜそうするのか?」しかし、おそらくそれは、少なくとも最終的には、「良いモデル」がどのようにして正しい方法を行ったかが「悪いモデル」が間違った方法で行われたかを示す良い方法かもしれません。ですから、おそらくやや間違った方法でそれを行うことができるでしょう。私が助けを必要としているのは、正しい方法でそれを行う方向を取得することです。 編集してすみません、それはとても長いです。 編集2: 私のデータがどのように見えるかの簡単な例: 'data.frame': 1151 obs. of 100 variables: $ Toxicity : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 1 1 1 1 ... $ Age : num 71.9 64 52.1 65.1 63.2 ... $ Diabetes …

1
投げ縄モデルから除外または含まれている変数を解釈するにはどうすればよいですか?
他の投稿から、ラッソーモデルに入る予測変数に「重要度」または「重要度」を帰属させることはできないと述べました。これらの変数のp値または標準偏差の計算はまだ進行中であるためです。 その推論の下で、投げ縄モデルから除外された変数は「無関係」または「重要ではない」とは言えないと断言するのは正しいですか? もしそうなら、ラッソーモデルに除外または含まれている変数について実際に何を主張できますか?私の特定のケースでは、ランダム値を減らし、エラー曲線を平均化するために、10倍の交差検証を100回繰り返すことにより、調整パラメーターlambdaを選択しました。 UPDATE1:以下の提案に従い、ブートストラップサンプルを使用して投げ縄を再実行しました。100個のサンプルを試してみました(その量は私のコンピューターの電源で一晩で管理できる量でした)と、いくつかのパターンが現れました。41の変数のうち2つがモデルに95%以上入り、3つの変数が90%を超え、5つの変数が85%を超えました。これらの5つの変数は、元のサンプルで実行したときにモデルに入力された9つの変数の1つであり、そのとき係数値が最も高かったものです。1000のブートストラップサンプルを使用してLassoを実行し、それらのパターンが維持されている場合、私の結果を提示する最良の方法は何ですか? 1000のブートストラップサンプルで十分ですか?(私のサンプルサイズは116です) すべての変数とそれらがモデルに入力される頻度をリストし、より頻繁に入力される変数が有意である可能性が高いと主張する必要がありますか? それは私の主張でできる限りですか?仕掛品ですので(上記参照)カットオフ値は使えませんよね? UPDATE2:以下の提案に従って、私は以下を計算しました。平均して、元のモデルの変数の78%が100のブートストラップサンプルに対して生成されたモデルに入りました。一方、その逆では41%に過ぎません。これは、ブートストラップサンプル用に生成されたモデルには、元のモデル(9)よりもはるかに多くの変数(平均17)が含まれる傾向があるという事実に大きく関係しています。 UPDATE3:ブートストラップとモンテカルロシミュレーションから得た結果の解釈を手伝っていただけるなら、この他の投稿をご覧ください。

5
ビッグデータのロジスティック回帰
約5000の機能のデータセットがあります。そのデータについて、私は最初に特徴の選択にカイ二乗検定を使用しました。その後、応答変数と有意な関係を示す変数を約1500個取得しました。 ここでロジスティック回帰を当てはめる必要があります。私はRにglmultiパッケージを使用しています(glmultiパッケージはvlmの効率的なサブセット選択を提供します)が、一度に30の機能しか使用できません。それ以外の場合、データセットの行数が約20000であるため、パフォーマンスが低下します。 上記の問題を解決する他のアプローチや手法はありますか?上記の方法で行くと、モデルを合わせるのに時間がかかりすぎます。


1
ブートストラップ(R)を使用して検量線を推定する方法
質問:バイナリ結果変数をモデル化するために確率モデル(ベイジアンネットワーク)を適合させました。ブートストラップでオーバーフィットするように修正された高解像度のキャリブレーションプロット(スプラインなど)を作成したいと思います。そのような曲線を計算するための標準的な手順はありますか? 考慮事項:これは、トレーニング/テスト分割で簡単に実行できますが、サンプルが20,000未満なので、データを捨てないでください。だから私は自然にブートストラップについて考えました。そのような関数(キャリブレーション)の1つがフランクハレルのrmsパッケージに実装されていることは知っていますが、残念ながら、私が使用するモデルはパッケージでサポートされていません。 おまけの質問:ブートストラップを使用して、誤って調整されたモデルを再調整することは可能ですか?私がこれを尋ねる理由は、私がモデルを再調整しようとしたことです トレイン/テストでデータを分割する セットをトレーニングするフィッティングモデル モデルを再調整してトレーニングセット(3次スプラインを使用) テストセットのキャリブレーションを評価する 上記の方法で再調整されたモデルは、列車セットでは完全に調整されましたが、テストセットではそれほど調整されていません。これは、おそらく軽度の過適合を示しています。また、テストセットをさらに分割して、1つの分割でキャリブレーションを行い、2番目の分割でキャリブレーションを評価しました。私はより良い結果を得ましたが(まだ完全に校正されていません)、セットはかなり小さくなり(〜1000サンプル)、したがって校正は信頼できなくなりました

4
傾向スコアのすべてを調整しますか?
方法論に関する質問があるため、サンプルデータセットが添付されていません。 特定の薬物が結果のリスクを低減するかどうかを調べることを目的とした、傾向スコア調整済みCox回帰を行う予定です。研究は観察的であり、10,000人の個人を含みます。 データセットには60個の変数が含まれています。これらのうち25が治療の割り当てに影響を与える可能性があると私は判断します。私はCox回帰でこれらすべての25を調整することはありませんが、傾向スコアに予測子としてその多くの変数を含めることができ、Cox回帰には傾向スコアサブクラスと処理変数のみを含めることができると聞きました。 (もちろん、プロップスコア調整後に等しくない共変量は、Cox回帰に含める必要があります)。 結論として、その多くの予測子を小道具スコアに含めるのは本当に賢明ですか? @Dimitriy V. Masterovこれらの重要な事実を共有していただきありがとうございます。他の回帰フレームワークを検討している本や記事とは異なり、傾向スコア分析でのモデル選択に関する(Rosenbaumsの本を読んで)ガイドラインはありません。標準的な教科書やレビュー記事では、常に厳しい変数選択を推奨し、予測子の数を低く抑えているようですが、プロップスコア分析では、このような議論はあまり見ていません。あなたは書く:(1)「理論的洞察、制度的知識、そして良い研究はXの選択を導くべきである」。私は同意しますが、変数が手元にあり、変数が治療の割り当てまたは結果に影響を与えるかどうかが実際にはわからない(しかし可能性がある)状況があります。例:濾過率で測定した腎機能を、スタチン治療の調整を目的とした支柱スコアに含めますか?スタチン治療は腎機能とは何の関係もありません。私はすでにスタチン治療に影響を与える一連の変数を含めました。しかし、それでも腎機能を含めるのは魅力的です。さらに調整される可能性があります。これは結果に影響を与えるので含める必要があると言う人もいますが、私たちが知る限り、治療にも結果にも影響を与えない変数の別の例(バイナリ変数アーバン/ルーラルリビングなど)を挙げます。それが含まれている限り、私はそれを含めたいと思います tプロップスコアの精度に影響します。(2)「治療の影響を受けるXを、治療後または治療を見越して事前に含めると、仮定が無効になります。」ここで何を言っているのかわかりません。しかし、スタチンが心血管転帰に及ぼす影響を研究する場合、傾向脂質に血中脂質のさまざまな測定値を含めます。血中脂質は治療によって影響を受けます。私はこの発言を誤解したと思います。 @statsRusは、事実、特に「入力の選択に関するメモ」と呼んでいるものを共有してくれてありがとう。私もあなたと同じように推論します。 残念ながら、プロップスコアメソッドでは、モデル選択戦略ではなく、さまざまな調整戦略について説明しています。おそらくモデルフィットは重要ではありません。その場合は、結果と治療の割り当てにわずかに影響する可能性のあるすべての変数を調整します。私は統計学者ではありませんが、モデルの適合が重要でない場合は、治療の割り当てと結果に影響を与える可能性のあるすべての変数を調整したいと思います。これは、多くの場合、治療によって影響を受ける変数を含めることを意味します。 さらに、一部の人々は、その後のCox回帰には治療変数とプロップスコアサブクラスのみを含める必要があると示唆しています。他の人は、coxの調整には、調整する他のすべての変数に加えてプロップスコアを含めることを推奨しています。

3
ブートストラップによる内部検証:提示するROC曲線は?
標準のロジスティック回帰またはエラスティックネットで構築された多変量モデルの内部検証にブートストラップアプローチを使用しています。 私が使用する手順は次のとおりです。 1)データセット全体を使用してモデルを構築し、予測値を取得して、AUC(AUC_ap、見かけ)を計算します 2)元のデータセットから派生した100-500のブートストラップサンプルを生成する 3)各ブートストラップサンプルについて、#1と同じ手順に従い、i)現在のブートストラップサンプル、ii)元のデータセットの予測値とaucを取得します。 4)100-500のブートストラップサンプルそれぞれについて、i)とii)(#3で)の差を計算し、平均を取る-> "optimism" 5)楽観主義が修正されたAUCを計算します:AUC_ap-楽観主義 私の質問は、ROC曲線が論文に提示するのに最も適しているのは何ですか?たとえば、手順1で取得したROCは1つの選択肢ですが、明らかに楽観的です。あるいは、ステップ#3(ii)で導出されたROC曲線に基づいて、RパッケージROCRを使用して「平均ROC」を生成しようとしました。ただし、[これらのROC曲線の平均]のAUCは、ステップ5で取得した値と同等ではないと考えています。 どんな入力でも大歓迎です!-M

2
問題は何ですか?
これが線形方程式問題の解法であることを知っています。 しかし、私の質問は、なぜ観測数が予測子数よりも少ないことが問題なのか、どうしてそのようなことが起こり得るのでしょうか。 データ収集は、彼らが少なくともこのことについて考えている範囲で、繊細な調査計画または実験計画から来ていませんか? データ収集で45の変数を収集して調査を行う場合、なぜ彼は45未満の観測値を収集するのでしょうか。私は何かを見逃しましたか?モデル選択部分は応答の非改善変数も排除しましたが、収集された変数は常に排除されますか? 45−(45−p)45−(45−p)45-(45-p) それでは、なぜそのような場合に非固有のソリューションに直面するのでしょうか。

2
多変量バイナリ応答-回帰戦略に関するアドバイス
次の状況にどのように取り組むかについてアドバイスをいただければ幸いです:カウント変数Xと4つのバイナリ変数A、B、C、Dがあります。カウント変数は独立変数です(これは、小児期の有害な経験の数を指します)とバイナリは従属変数です(それらは成人期の特定の有害な結果を指します)。データセット内の回答者は、A、AC、BCDなどの結果の任意の組み合わせを持つことができます。カウント変数Xと結果のA、B、C、Dの間の関連の強さを測定します。他の結果。 これにどのように取り組むのが最善かわかりません。変数の役割を逆転させ、カウント変数Xを結果として、ADを予測子として扱うことは正当化されますか?したがって、これは負の二項回帰になります(過剰分散があります)。このようにして、XとA(B、C…)間の関連付けは、他のバイナリ変数を一定に保持して推定されます。しかし、私は、以前に起こったことと後で起こることを予測しているので、論理的にそれは危険だと思われます。 または、代わりにMANOVAを使用する必要があります(ただし、結果の解釈が簡単ではないことをどこかで読んだことがあります)。 または、https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2798811/で提案されているように、一般化された線形混合モデル(これまでに試したことがない)を使用する必要があります。

1
検量線の解釈
私は段階的に導出されたバイナリロジスティック回帰モデルを持っています。R calibrate(, bw=200, bw=TRUE)のrmsパッケージの関数を使用して、将来のキャリブレーションを推定しました。出力を以下に示します。これは、バックワードステップダウンロジスティックモデルのブートストラップ過適合が補正された検量線推定を示しています。しかし、私はそれをどのように解釈するかわかりません。 キャリブレーションとは、将来の予測確率が観測された確率と一致するかどうかを指すことを理解しています。予測モデルは、新しい被験者の予測が極端すぎる(つまり、結果の観測確率が低リスク被験者の予測よりも高く、高リスク被験者の予測よりも低い)ことに悩まされています。これは、リスクの低いグループの理想(破線)よりも高く、リスクの高いグループの理想よりも低い点線の曲線をトレースするとわかります。 同じ推論を使用すると、バイアスが補正された曲線は、さらに極端な確率を生成するという意味で、より悪くなります。私の解釈は正しいですか?

1
ビニングデータなしで生存データのキャリブレーションプロットを作成するにはどうすればよいですか?
Coxモデルから推定された生存確率のキャリブレーションプロットを作成するには、推定されたリスクをグループに分割し、グループ内の平均リスクを計算してから、これをカプランマイヤー推定と比較します。ビニングを必要としない代替アプローチは何ですか?そのようなテクニックを実装するために必要な具体的な手順は何ですか?その背後にあるロジックは何ですか?この質問にはいくつかの議論があります。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.