タグ付けされた質問 「ensemble」

機械学習では、アンサンブル法は複数のアルゴリズムを組み合わせて予測を行います。バギング、ブースティング、スタッキングなどがその例です。

4
ランダムフォレスト手法を線形回帰に適用できますか?
ランダムフォレストは、元のトレーニングデータのブートストラップサンプル(入力変数と観測値の両方のサンプル)を使用して各ツリーが作成される決定ツリーのアンサンブルを作成することにより機能します。 同様のプロセスを線形回帰に適用できますか?k個の回帰ごとにランダムブートストラップサンプルを使用してk個の線形回帰モデルを作成する モデルのような「ランダム回帰」を作成しない理由は何ですか? ありがとう。基本的に誤解していることがあれば教えてください。

1
ランダムフォレストでのLASSOの使用
次のプロセスを使用してランダムフォレストを作成します。 情報ゲインを使用して分割を決定し、データとフィーチャのランダムサンプルでツリーを構築します リーフノードが定義済みの深さを超えている場合、または任意の分割の結果、リーフカウントが定義済みの最小値よりも少ない場合、リーフノードを終了します。 各ツリーにクラスラベルを割り当てるのではなく、リーフノードのクラスの割合を割り当てます 事前定義された数が構築された後、ツリーの構築を停止します これは、2つの方法で従来のランダムフォレストプロセスに対抗します。1つは、クラスラベルではなく比率を割り当てる枝刈りされたツリーを使用します。2つ目は、停止基準は、アウトオブバッグエラーの推定値ではなく、事前に決定されたツリー数です。 私の質問はこれです: N個のツリーを出力する上記のプロセスの場合、ロジスティック回帰とLASSO選択を使用してモデルを近似できますか?誰もがランダムフォレスト分類器をフィッティングし、ロジスティックLASSOで後処理した経験がありますか? ISLEフレームワークでは、分類問題ではなく、回帰問題の後処理ステップとしてLASSOを使用することに言及しています。さらに、「ランダムな森のなげなわ」をグーグルで検索しても、役に立つ結果は得られません。

1
アンサンブル学習を常に使用しないのはなぜですか?
アンサンブル学習は、単一の学習仮説よりも常に優れた予測パフォーマンスを提供するように思えます。 それでは、なぜそれらを常に使用しないのでしょうか? 私の推測は、おそらく、計算上の制限によるものですか?(それでも、弱い予測子を使用するため、わかりません)。

6
アンサンブルメソッドの実装方法を学習するためのリソース
私はそれらがどのように機能するか(理論的に)は理解していますが、アンサンブル法(投票、加重混合など)を実際に使用する方法はわかりません。 アンサンブルメソッドを実装するための優れたリソースは何ですか? Pythonでの実装に関する特定のリソースはありますか? 編集: コメントに関する議論に基づいていくつかを整理するために、randomForestなどのアンサンブルアルゴリズムを探していません。代わりに、異なるアルゴリズムの異なる分類をどのように組み合わせることができるのか疑問に思っています。 たとえば、誰かがロジスティック回帰、SVM、およびその他の方法を使用して、特定の観測のクラスを予測するとします。これらの予測に基づいてクラスの最適な推定値を取得するための最善の方法は何ですか?

3
アンサンブル時系列モデル
時系列予測を自動化する必要がありますが、それらの系列の機能(季節性、傾向、ノイズなど)を事前に知りません。 私の目的は、各シリーズに最適なモデルを取得することではなく、かなり悪いモデルを回避することです。言い換えれば、小さなエラーを毎回取得することは問題ではありませんが、大きなエラーを時々取得することは問題です。 異なる手法で計算されたモデルを組み合わせることで実現できると思いました。 つまり、ARIMAは特定のシリーズに最適なアプローチですが、別のシリーズには最適でない場合があります。指数平滑法についても同様です。 ただし、各手法の1つのモデルを組み合わせると、1つのモデルがそれほど良くなくても、もう1つのモデルが推定値を実際の値に近づけます。 ARIMAが長期の正常に動作するシリーズに適していることはよく知られていますが、指数平滑法は短期のノイズの多いシリーズで際立ちます。 私のアイデアは、より堅牢な予測を得るために、両方の手法から生成されたモデルを組み合わせることです、それは理にかなっていますか? これらのモデルを組み合わせるには多くの方法があるかもしれません。 これが良いアプローチである場合、それらをどのように組み合わせる必要がありますか? 予測の単純な平均はオプションですが、モデルの適切な尺度に従って平均に重みを付けると、より良い予測が得られる可能性があります。 モデルを組み合わせるときの分散の扱いは何ですか?

2
モデルを構築するための回帰係数の平均化に理論的な問題はありますか?
それぞれが完全なデータのサブセットに基づいた複数のOLSモデルの平均である回帰モデルを構築したい。この背景にある考え方は、このペーパーに基づいています。k個の折り畳みを作成し、それぞれが折り畳みのないデータに基づいてk個のOLSモデルを作成します。次に、回帰係数を平均して最終モデルを取得します。 これは、複数の回帰ツリーが構築されて平均化されるランダムフォレスト回帰のようなものに似ています。ただし、平均化されたOLSモデルのパフォーマンスは、データ全体に1つのOLSモデルを単純に構築するよりも悪いようです。私の質問は次のとおりです。複数のOLSモデルの平均化が間違っている、または望ましくないという理論上の理由はありますか?複数のOLSモデルを平均化してオーバーフィットを減らすことはできますか?以下はRの例です。 #Load and prepare data library(MASS) data(Boston) trn <- Boston[1:400,] tst <- Boston[401:nrow(Boston),] #Create function to build k averaging OLS model lmave <- function(formula, data, k, ...){ lmall <- lm(formula, data, ...) folds <- cut(seq(1, nrow(data)), breaks=k, labels=FALSE) for(i in 1:k){ tstIdx <- which(folds==i, arr.ind = TRUE) tst <- …

1
勾配ブースティングは確率推定をどのように計算しますか?
私は、さまざまなブログ、ウェブサイトを読んで勾配ブーストを理解し、たとえばXGBoostソースコードを調べて私の答えを見つけようとしています。ただし、勾配ブースティングアルゴリズムが確率推定値を生成する方法についての理解できる説明は見当たらないようです。それで、彼らはどのように確率を計算しますか?

1
アンサンブル学習:モデルスタッキングが効果的なのはなぜですか?
最近、私はアンサンブル学習の一種としてモデルスタッキングに興味を持ちました。特に、回帰問題のおもちゃのデータセットを少し試してみました。基本的に、個々の「レベル0」リグレッサを実装し、各リグレッサの出力予測を「メタリグレッサ」が入力として受け取る新しい機能として保存し、このメタリグレッサをこれらの新しい機能(レベルからの予測)に適合させました。 0リグレッサ)。バリデーションセットに対してメタリグレッサーをテストしたところ、個々のリグレッサーに対してささやかな改善でさえあることに私は非常に驚きました。 それで、ここに私の質問があります:なぜモデルスタッキングは効果的ですか?直感的には、スタッキングを行うモデルは、レベル0の各モデルと比較して機能表現が貧弱であるように見えるため、パフォーマンスが低いことが予想されます。つまり、20の特徴を持つデータセットで3つのレベル0のリグレッサをトレーニングし、これらのレベル0のリグレッサの予測をメタリグレッサへの入力として使用する場合、これは、メタリグレッサに3つの特徴しか学習できないことを意味します。メタリグレッサがトレーニングに使用する3つの出力フィーチャよりも、レベル0リグレッサがトレーニングに持つ20の元のフィーチャにエンコードされた情報が多いようです。

3
小さなn、大きなpの問題におけるツリーベースのアンサンブル法の制限?
ランダムフォレストなどのツリーベースのアンサンブルメソッド、およびその後の派生物(条件付きフォレストなど)はすべて、相対的な変数の重要度を特定するために、いわゆる「小さなn、大きなp」の問題で役立つとされています。実際、これは事実であるように見えますが、私の質問は、この能力をどこまでとることができるかということです。たとえば、30の観測値と100の変数を持つことができますか?そのようなアプローチの限界は何ですか?存在する適切な経験則はありますか?シミュレートされたデータセットまたは実際のデータセットのいずれかを使用して、実際の証拠(推測ではない)へのリンクに裏付けられた回答を希望し、受け入れます。後者についてはあまり知りませんでした(こことここ)、それであなたの考え/アドバイス/(トピックに関する)参照提案は大歓迎です!

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
アンサンブルベースの方法でのハード投票、ソフト投票
私は、Scikit-LearnとTensorFlowを使用した実践的な機械学習:インテリジェントシステムを構築するための概念、ツール、テクニックを読んでいます。次に、アンサンブルベースのメソッドのコンテキストで、ハード投票とソフト投票の違いを理解できません。 本からそれらの説明を引用します。上から2つ目の画像はハード投票の説明で、最後の1つはソフト投票の画像です。 私の見解では、ハード投票は多数決ですが、ソフト投票と、ソフト投票がハード投票よりも優れている理由はわかりません。誰かが私にこれらを教えますか? 私が読んだ投稿

1
新しい情報をディリクレ事前配布に組み込むにはどうすればよいですか?
私の問題はこれです。私は、それぞれが一連のクラスにわたって分布を生成する予測子のアンサンブルを持っています。 私がやりたいことは、最初にこのラベル分布がどのように見えるかについて非情報的な前もってあり、次にアンサンブルの各メンバーの予測でそれを更新することです。 そのため、以前は情報量の少ないディリクレを使用することを考え、それを予測として得られる各サンプル分布で更新しました。 私の質問は次のとおりです。このアプローチは有効ですか。そうである場合、以前のサンプルをどのように更新すれば、より多くのサンプルが蓄積されるので、より明確になりますか?

6
なぜ回帰ランダムフォレスト予測の平均を取るのですか?
私が読んだすべての(回帰)ランダムフォレストペーパーで、すべての木の予測を収集するときが来たら、平均値を予測として使用します。 私の質問は、なぜそれを行うのですか? 平均を取るための統計的正当性はありますか? 編集:質問を明確にするために、私は他の集約関数を使用することが可能であることを知っています(分類にはモードを使用します)。

2
ブースティング手法では、他のアンサンブル方法と同様に投票を使用しますか?
投票を使用して、すべてのアンサンブルメソッドを一般化できますか?ブースティングメソッドも投票を使用して、弱学習者を最終モデルに入れますか? テクニックについての私の理解: ブースティング:正しく分類されなかったデータポイントをブーストするために、弱学習器を継続的に追加します。 アンサンブル手法:複数の学習者を使用して、1人の学習者よりも優れた予測を取得します。これはウィキペディアで説明されています。

1
回帰モデルを組み合わせる方法は?
それぞれがサイズ 3つのデータセットがあるとします。nnn =米国のみの人の身長y1y1y_1 =全世界の男性の身長y2y2y_2 =全世界の女性の身長y3y3y_3 そして、因子、i = 1 、を使用して、それぞれの線形モデルを構築します。。。、k:xixix_ii=1,...,ki=1,...,ki = 1,..., k y^j=β0+β1x1+β2x2+ϵjy^j=β0+β1x1+β2x2+ϵj\hat{y}_{j} = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + \epsilon_{j} OLSのための通常の特性を有します。また、複数の回帰で係数x iを使用する場合があります。 ϵϵ\epsilonxixix_i 私の質問は、次の推定値を取得できるように回帰を組み合わせるにはどうすればよいですか。 =米国のみの男性の身長y12y12y_{12} =米国のみの女性の身長y13y13y_{13} データがありません 私はおそらく何らかの重み付けを考えました: y^12=w1y^1+(1−w1)y^2y^12=w1y^1+(1−w1)y^2 \hat{y}_{12} = w_{1} \hat{y}_{1} + (1 - w_{1}) \hat{y}_{2} w1w1w_1

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.