タグ付けされた質問 「regression-strategies」

回帰モデリング戦略


7
連続予測変数を分割することの利点は何ですか?
モデルで使用する前に、連続予測変数を取得してそれを分割(たとえば、五分位数に分割)することの価値は何かと思っています。 変数をビニングすると情報が失われるように思えます。 これは、非線形効果をモデル化できるからですか? 変数を連続的に保ち、それが実際に直線関係ではなかった場合、データに最適な何らかの曲線を考え出す必要がありますか?



1
モデルから項を削除した後の適切な残留自由度
この質問に関する議論、特にフランク・ハレルのコメントについて、縮小モデル(つまり、多くの説明変数がテストされ、棄却されたモデル)の分散の推定には、Yeの一般化された自由度を使用する必要があると考えています。ハレル教授は、これが最終モデル(多くの変数が拒否された)からのものよりも、元の「完全な」モデル(すべての変数を含む)の残留自由度にはるかに近いと指摘します。 質問1.縮約モデルからのすべての標準的な要約と統計に適切なアプローチを使用したい場合(ただし、一般化された自由度の完全な実装が不足している場合)、残差分散などの推定における完全なモデル? 質問2.上記が真実で、私がそれをやりたいなら、R設定と同じくらい簡単かもしれません finalModel$df.residual <- fullModel$df.residual モデル適合の演習のある時点で、finalModelとfullModelがlm()または同様の関数で作成されました。その後、summary()やconfint()などの関数が目的のdf.residualで動作するように見えますが、誰かが明らかにfinalModelオブジェクトをいじったというエラーメッセージを返します。

3
ロジスティック回帰の評価とHosmer-Lemeshow適合度の解釈
誰もが知っているように、ロジスティック回帰モデルを評価するには2つの方法があり、それらは非常に異なることをテストしています 予測力: 独立変数に基づいて従属変数を予測できる程度を測定する統計を取得します。よく知られたPseudo R ^ 2はMcFadden(1974)とCox and Snell(1989)です。 適合度の統計 このテストは、モデルをより複雑にすることでさらに改善できるかどうかを判断します。これは、実際には非線形性または相互作用があるかどうかをテストすることです。 私のモデルに両方のテストを実装しましたが、 すでに2次および相互作用が追加されています。 >summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 …

2
最終(生産準備完了)モデルは、完全なデータでトレーニングするのか、それともトレーニングセットでトレーニングするのか?
トレーニングセットで複数のモデルをトレーニングし、クロス検証セットを使用して最適なモデルを選択し、テストセットでパフォーマンスを測定したと仮定します。だから今、私は1つの最終的な最高のモデルを持っています。使用可能なすべてのデータで再トレーニングするか、トレーニングセットのみでトレーニングしたソリューションを出荷する必要がありますか?後者の場合、なぜですか? 更新:@ P.Windridgeが指摘したように、再訓練されたモデルを出荷することは、基本的に検証なしでモデルを出荷することを意味します。しかし、テストセットのパフォーマンスを報告することができます。その後、最適なモデルとより多くのデータを使用するため、パフォーマンスが向上することを期待して、完全なデータでモデルを再トレーニングできます。そのような方法論からどのような問題が発生する可能性がありますか?

5
分位点回帰がOLSより悪いのはいつですか?
条件付き平均関係を絶対に理解しなければならないいくつかのユニークな状況とは別に、研究者が分位点回帰よりもOLSを選択すべき状況は何ですか? OLSの代替として中央値回帰を使用することができるため、「テール関係を理解するのに役に立たない場合」と答えたくありません。

2
過適合についてのベイジアン思考
私は、従来の頻度主義統計ドメインで予測モデルを検証するための方法とソフトウェアの開発に多くの時間を費やしました。より多くのベイジアンのアイデアを実践と教育に取り入れる際に、受け入れるべき重要な違いがいくつかあると思います。まず、ベイジアン予測モデリングはアナリストに、候補の特徴に合わせてカスタマイズできる事前分布についてよく考えるように頼みます。これらの事前分布は、モデルをそれらに引き寄せます)。第二に、「実際の」ベイジアンの方法では、単一のモデルにはなりませんが、予測のために事後分布全体を取得します。 これらのベイジアン機能を念頭に置いて、過剰適合とはどういう意味ですか?評価すべきでしょうか?もしそうなら、どのように?ベイズのモデルが野外での使用に信頼できるときはどのようにして知ることができますか?それとも、予測のために開発したモデルを使用すると、事後はすべての注意を与える不確実性に沿って進むので、それは重要なポイントですか? ベイジアンモデルを単一の数値、たとえば事後平均/最頻値/中央値リスクに蒸留するように強制した場合、考え方はどのように変わりますか? ここに関連する考え方があります。パラレル議論を見つけることができるここに。 フォローアップの質問::完全にベイジアンであり、データを見る前に事前確率について考えるのに時間を費やし、データ尤度が適切に指定されたモデルに適合した場合、過剰適合に関してモデルに満足することを強いられますか?または、ランダムに選択された対象が平均して十分に予測される可能性のある頻繁な世界で行うことを行う必要がありますが、予測が非常に低い対象または予測値が非常に高い対象を選択すると、回帰が発生しますという意味ですか?

2
LASSOには、段階的回帰と同じ問題がありますか?
段階的アルゴリズムの変数選択方法は、回帰モデルのすべての推定値(およびそのSE、p値、F統計量など)に多かれ少なかれバイアスをかけるモデルを選択する傾向があり、ほぼ真の予測子を除外する可能性が高い適度に成熟したシミュレーション文献によると、誤った予測変数を含めます。ββ\beta LASSOは、変数を選択するために使用される場合、同じ特定の方法で影響を受けますか?

1
サンプルサイズをランダム変数にすることはどういう意味ですか?
Frank Harrellがブログ(統計的思考)を開始しました。彼の最高の投稿では、彼の統計哲学のいくつかの重要な特徴をリストしています。他のアイテムの中で、含まれるもの: 可能な場合、サンプルサイズをランダム変数にする 「サンプルサイズをランダム変数にする」とはどういう意味ですか? これを行う利点は何ですか?なぜそれが好ましいのでしょうか?

3
Hosmerらを使用したモデルの構築と選択 2013. Rでロジスティック回帰を適用
これはStackExchangeでの最初の投稿ですが、かなり以前からリソースとして使用してきました。適切な形式を使用して適切な編集を行うために最善を尽くします。また、これは複数の部分からなる質問です。質問を複数の異なる投稿に分割すべきか、それとも1つの投稿に分割すべきかはわかりませんでした。質問はすべて同じテキストの1つのセクションからのものであるため、1つの質問として投稿する方が関連性が高いと考えました。 私は修士論文のために大型哺乳類種の生息地利用を研究しています。このプロジェクトの目標は、森林管理者(統計学者ではない可能性が高い)に、この種に関して管理する土地の生息地の品質を評価するための実用的なフレームワークを提供することです。この動物は比較的とらえどころのない、生息地の専門家であり、通常は遠隔地に位置しています。特に季節ごとに、種の分布に関する研究は比較的少ない。数匹の動物に1年間GPSカラーを取り付けました。100の場所(50夏と50冬)は、各動物のGPSカラーデータからランダムに選択されました。さらに、「利用可能」または「擬似欠席」の場所として機能するように、各動物のホーム範囲内で50ポイントがランダムに生成されました。 各場所について、フィールドでいくつかの生息地変数(樹木直径、水平カバー、粗い木質の破片など)がサンプリングされ、いくつかがGISを介してリモートでサンプリングされました(標高、道路までの距離、凹凸など)。変数は、7レベルの1つのカテゴリ変数を除き、ほとんど連続しています。 私の目標は、回帰モデリングを使用してリソース選択関数(RSF)を構築し、リソースユニットの使用の相対確率をモデル化することです。動物の個体群(デザインタイプI)と個々の動物(デザインタイプIII)の季節(冬と夏)RSFを構築したいと思います。 Rを使用して統計分析を実行しています。 プライマリテキスト私が使用しているは... 「Hosmer、DW、Lemeshow、S。、およびSturdivant、RX2013。AppliedLogisticRegression。Wiley、Chicester」。 Hosmer et al。の例の大部分。STATA を使用し、Rで参照するために次の2つのテキストも使用しています。 「クローリー、MJ2005。統計:イギリス、ウェストサセックス州チチェスターのRJワイリーを使用した紹介。」 「植物、RE2012。R.CRC Pressを使用した生態学および農業における空間データ分析、ロンドン、GBR。」 私は現在、Hosmer et al。の第4章の手順に従っています。「共変量の目的の選択」のために、プロセスについていくつか質問があります。私は私の質問に役立つように、以下のテキストの最初のいくつかのステップを概説しました。 ステップ1:各独立変数の単変数分析(単変数ロジスティック回帰を使用しました)。単一変数テストのp値が0.25未満の変数は、最初の多変数モデルに含める必要があります。 ステップ2:ステップ1で含めるために特定されたすべての共変量を含む多変数モデルを近似し、そのWald統計量のp値を使用して各共変量の重要性を評価します。従来の有意水準では寄与しない変数は削除し、新しいモデルを適合させる必要があります。部分尤度比検定を使用して、新しい小さなモデルを古い大きなモデルと比較する必要があります。 ステップ3:小さいモデルの推定係数の値を、大きいモデルのそれぞれの値と比較します。モデルに残っている変数の効果の必要な調整を提供するという意味で重要であるため、係数が大きさで著しく変化した変数はモデルに追加し直す必要があります。すべての重要な変数がモデルに含まれ、除外された変数が臨床的および/または統計的に重要でないと思われるまで、ステップ2および3を繰り返します。ホスマー等。係数の大きさの変化の尺度として「delta-beta-hat-percent」を使用します。彼らは、デルタベータハットパーセントが20%を超える大きな変化を示唆しています。ホスマー等。delta-beta-hat-percentを次のように 定義しますΔのβ^%= 100 θ^1- β^1β^1Δβ^%=100θ^1−β^1β^1\Delta\hat{\beta}\%=100\frac{\hat{\theta}_{1}-\hat{\beta}_{1}}{\hat{\beta}_{1}}。ここで、は小さなモデルの係数で、は大きなモデルの係数です。 β 1θ^1θ^1\hat{\theta}_{1}β^1β^1\hat{\beta}_{1} ステップ4:ステップ1で選択されていない各変数をステップ3の最後に取得したモデルに一度に1つずつ追加し、カテゴリーの場合はWald統計p値または部分尤度比検定のいずれかでその有意性を確認します2レベル以上の変数。このステップは、単独では結果にあまり関係しないが、他の変数の存在下で重要な貢献をする変数を識別するために不可欠です。ステップ4の最後のモデルを、予備的な主効果モデルと呼びます。 ステップ5〜7:ここまで進んでいません。そのため、これらのステップは今のところ省略するか、別の質問のために保存します。 私の質問: ステップ2では、従来の重要度レベルとして適切なものは何でしょうか。p値が<0.05の場合、<。25のように大きくなりますか? 再びステップ2で、部分尤度テストに使用していたRコードが正しいことを確認し、結果を正しく解釈していることを確認します。ここに私がやっていることがあります... anova(smallmodel,largemodel,test='Chisq')p値が有意(<0.05)である場合、変数をモデルに追加し、有意でない場合は削除を続行しますか? ステップ3では、delta-beta-hat-percentに関する質問と、除外された変数をモデルに戻すのが適切な場合について質問があります。たとえば、モデルから1つの変数を除外すると、異なる変数のが20%以上変化します。ただし、 20%を超える変更がある変数は重要ではないようで、手順2および3の次の数サイクルでモデルから除外されるように見えます。両方の変数をモデルに含めるか除外するかを決定しますか?最下位の変数を最初に削除することにより、一度に1つの変数を除外することで進めているため、順序が狂った変数を除外することにheしています。Δ β%Δのβ^%Δβ^%\Delta\hat{\beta}\%Δのβ^%Δβ^%\Delta\hat{\beta}\% 最後に、計算に使用するコードが正しいことを確認します。私は次のコードを使用しています。私のためにこれを行うパッケージまたはそれを行うより簡単な方法がある場合、私は提案を受け入れます。 Δのβ^%Δβ^%\Delta\hat{\beta}\% 100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])

5
線形モデルの因子の有意でないレベルの係数を無視できますか?
ここで線形モデル係数についての明確化を求めた後、因子レベルの係数の重要でない(高いp値)に関するフォローアップの質問があります。 例:線形モデルに10レベルの因子が含まれ、それらのレベルのうち3つだけに有意なp値が関連付けられている場合、モデルを使用してYを予測するときに、被験者が次のいずれかに該当する場合、係数項を含めないことを選択できます非重要レベル? さらに劇的に、7つの重要でないレベルを1つのレベルにまとめて再分析するのは間違っているでしょうか?


4
どの変数がどのPCAコンポーネントを説明し、その逆ですか?
このデータの使用: head(USArrests) nrow(USArrests) 私はこうしてPCAを行うことができます: plot(USArrests) otherPCA <- princomp(USArrests) 新しいコンポーネントを入手できます otherPCA$scores そして、コンポーネントによって説明される分散の割合 summary(otherPCA) しかし、どの変数がほとんどの主成分によって説明されているかを知りたい場合はどうすればよいですか?逆もまた同様です。たとえば、PC1またはPC2は主に説明されていmurderますか?これどうやってするの? たとえば、PC1の80%がmurderまたはで説明されていると言えますかassault? 私はここで負荷が私を助けると思うが、彼らは私がそれを理解するように説明された分散ではなく方向性を示す、例えば otherPCA$loadings Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Murder 0.995 Assault -0.995 UrbanPop -0.977 -0.201 Rape -0.201 0.974

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.