タグ付けされた質問 「model-averaging」


2
これは最先端の回帰方法論ですか?
私は長い間Kaggleのコンペティションをフォローしてきましたが、多くの勝利戦略には、「ビッグスリー」の少なくとも1つ、つまりバギング、ブースティング、スタックの使用が含まれることに気付きました。 回帰については、可能な限り最良の回帰モデルの構築に焦点を当てるのではなく、(一般化)線形回帰、ランダムフォレスト、KNN、NN、SVM回帰モデルなどの複数の回帰モデルを構築し、合理的な方法で結果を1つにブレンドします-個々のメソッドを何回も実行します。 もちろん、各方法をしっかり理解することが重要であり、線形回帰モデルに基づいて直感的なストーリーを伝えることができますが、これが最良の結果を達成するための最先端の方法論になっているのではないかと思っています。

7
さまざまなソースからの確率/情報の組み合わせ
3つの独立したソースがあり、それぞれが明日の天気を予測するとします。最初の人は明日の雨の確率が0であると言い、2番目の人は確率が1であると言い、最後の人は確率が50%であると言います。その情報が与えられた場合の合計確率を知りたいです。 独立したイベントに乗算定理を適用すると、0になりますが、これは正しくないようです。すべてのソースが独立している場合、3つすべてを乗算できないのはなぜですか?新しい情報が得られたときに事前を更新するベイジアンの方法はありますか? 注:これは宿題ではなく、私が考えていたものです。

1
GLMのモデル平均化のために、リンクまたは応答スケールで予測を平均しますか?
GLMの応答スケールでモデル平均予測を計算するには、「正しい」のはなぜですか? リンクスケールでモデル平均予測を計算し、応答スケールに逆変換するか、または 予測を応答スケールに逆変換し、モデルの平均を計算します モデルがGLMの場合、予測は近いものの等しくありません。異なるRパッケージは、両方にオプションを提供します(デフォルトは異なります)。何人かの同僚は、「誰もが#2をしている」ため#1が間違っていると大声で主張しています。私の直感では、#1はすべての線形数学を線形に保つため「#1」が正しいと言います(#2は線形スケールではないものを平均します)。単純なシミュレーションでは、#2のMSEが#1よりも非常に(非常に)わずかに小さいことがわかります。#2が正しい場合、その理由は何ですか?そして、もし#2が正しいなら、なぜ私の理由(線形の数学を線形に保つ)が不十分な推論であるのですか? 編集1:GLMの別の要因のレベルに対する限界平均の計算は、私が上で尋ねている質問と同様の問題です。Russell Lenthは#1(emmeansパッケージ内)の「タイミング」(彼の言葉)を使用してGLMモデルの周辺平均を計算し、彼の議論は私の直感に似ています。 編集2:モデル平均化を使用して、予測(または係数)が「最適な」ネストされたモデルのすべてまたはサブセットの加重平均として推定されるモデル選択の代替を参照しています(参照およびRパッケージを参照) 。 MMMηm私η私m\eta_i^m私私immmwmwmw_mmmm Y^私= g− 1( Σm = 1Mwmηm私)Y^私=g−1(∑m=1Mwmη私m)\hat{Y}_i = g^{-1}\Big(\sum_{m=1}^M{w_m \eta_i^m}\Big) 上記の#2を使用したモデル平均予測 MMM Y^私= ∑m = 1Mwmg− 1(ηm私)Y^私=∑m=1Mwmg−1(η私m)\hat{Y}_i = \sum_{m=1}^M{w_m g^{-1}(\eta_i^m}) モデル平均化のいくつかのベイジアンおよびフリークエンティスト法は次のとおりです。 Hoeting、JA、Madigan、D.、AE、Raftery、およびVolinsky、CT、1999年。ベイジアンモデル平均化:チュートリアル。統計科学、pp.382-401。 Burnham、KPおよびAnderson、DR、2003。モデル選択とマルチモデル推論:実用的な情報理論的アプローチ。スプリンガーサイエンス&ビジネスメディア。 Hansen、BE、2007。最小二乗モデルの平均化。計量経済学、75(4)、pp.1175-1189。 Claeskens、G. and Hjort、NL、2008。モデル選択とモデル平均化。ケンブリッジブックス。 Rパッケージには、BMA、MuMIn、BAS、およびAICcmodavgが含まれますます。(注:これは、より一般的なモデル平均化の知恵についての質問ではありません。)

2
モデルの平均化結果をRに解釈する
Rでのモデルの平均化を使用して、いくつかのデータの分析から何を報告するかを理解および把握しようとしています。 次のスクリプトを使用して、特定の変数に対する測定方法の影響を分析しています。これはデータセットです。https://www.dropbox.com/s/u9un273gzw9o30u/VMT4.csv?dl = 0 装着するモデル: LM.1 <- gls(VMTf ~ turn+sex+method, na.action="na.fail", method = "ML",VMT4) 浚渫フルモデル require(MuMIn) d=dredge(LM.1) print(d) coefficients(d) すべてのモデルの要約情報を取得してパラメーター推定値を取得する summary(model.avg(d)) すべてのモデルを平均化(フルモデル平均)することも、それらのサブセットのみ(条件付き平均化)にすることもできます。さて、私は知りたいのですが、完全平均または条件付き平均を使用して推論を行う方が良い場合はいつですか。科学論文についてこれをすべて報告する必要がありますか?モデルの平均化状況で正確にZ値と関連するpはどういう意味ですか? 質問を視覚化しやすくするため。これが結果表です > summary(model.avg(d))# now, there are effects Call: model.avg(object = d) Component model call: gls(model = VMT ~ <8 unique rhs>, data = VMT4, method = ML, na.action …

1
モデル平均化アプローチ—係数推定値とモデル予測の平均化?
IT基準を使用して候補セット内のモデルに重み付けするモデル平均化のアプローチに関する基本的な質問があります。 私がモデル平均化で読んだほとんどのソースは、モデルの重みに基づいてパラメーター係数推定値を平均化することを提唱しています(「自然平均」または「ゼロ平均」法を使用しています)。ただし、特にモデルをネストされていない予測子変数と比較する場合、モデルの重みに基づくパラメーター係数推定値ではなく、各モデルの予測の平均化と重み付けがより簡単で正当なアプローチであるという印象を受けました。 モデル平均化へのどのアプローチが最も正当化されるかについての明確なガイダンスはありますか(加重パラメーター推定値と加重予測の平均化)?また、混合モデルの場合、係数推定値のモデル平均化でさらに複雑になりますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.