タグ付けされた質問 「bagging」

バギングまたはブートストラップ集約は、モデル平均化の特殊なケースです。標準のトレーニングセットが与えられると、バギングはブートストラップによって新しいトレーニングセットを生成し、生成されたデータセットに対して何らかのトレーニングメソッドを使用した結果が平均化されます。バギングは、木などのいくつかの不安定な方法からの結果を安定させることができます。 mm


5
ランダムフォレストはブースティングアルゴリズムですか?
ブースティングの簡単な定義: 一連の弱い学習者が単一の強い学習者を作成できますか?弱学習器は、真の分類とわずかにしか相関しない分類子であると定義されます(ランダムな推測よりも例をラベル付けできます)。 ランダムフォレストの短い定義: ランダムフォレストは、多くの分類ツリーを成長させます。入力ベクトルから新しいオブジェクトを分類するには、入力ベクトルをフォレスト内の各ツリーに配置します。各ツリーは分類を提供し、ツリーはそのクラスに「投票」します。フォレストは、(フォレスト内のすべてのツリーに対して)最も投票数の多い分類を選択します。 ランダムフォレストの別の短い定義: ランダムフォレストは、データセットのさまざまなサブサンプルに多数の決定木分類器を適合させ、予測精度を向上させて過剰適合を制御するために平均化を使用するメタ推定器です。 私が理解しているように、ランダムフォレストは弱い分類子としてツリーを使用するブースティングアルゴリズムです。また、他の手法を使用し、それらを改善することも知っています。誰かがランダムフォレストがブースティングアルゴリズムではないことを修正しましたか? 誰かがこれについて詳しく説明できますか、なぜランダムフォレストがブースティングアルゴリズムではないのですか?

2
これは最先端の回帰方法論ですか?
私は長い間Kaggleのコンペティションをフォローしてきましたが、多くの勝利戦略には、「ビッグスリー」の少なくとも1つ、つまりバギング、ブースティング、スタックの使用が含まれることに気付きました。 回帰については、可能な限り最良の回帰モデルの構築に焦点を当てるのではなく、(一般化)線形回帰、ランダムフォレスト、KNN、NN、SVM回帰モデルなどの複数の回帰モデルを構築し、合理的な方法で結果を1つにブレンドします-個々のメソッドを何回も実行します。 もちろん、各方法をしっかり理解することが重要であり、線形回帰モデルに基づいて直感的なストーリーを伝えることができますが、これが最良の結果を達成するための最先端の方法論になっているのではないかと思っています。


3
アンサンブル分類器を使用しない場合
一般に、目標がサンプル外のクラスメンバーシップを正確に予測することである分類問題では、アンサンブル分類器を使用しないのはいつですか? この質問は、アンサンブル学習を常に使用しないのはなぜですか?。その質問は、なぜアンサンブルを常に使用しないのかを尋ねています。アンサンブルが同等のアンサンブルよりも悪い(「良くないだけでなく時間の無駄」ではない)ことがわかっている場合があるかどうかを知りたい。 また、「アンサンブル分類器」とは、たとえば、独自にロールアップしたサポートベクターマシンとは対照的に、AdaBoostやランダムフォレストなどの分類器を指します。

1
バギングの理論的保証は何ですか
私は(およそ)聞いたことがある: バギングは、予測子/推定子/学習アルゴリズムの分散を減らす技術です。 しかし、私はこの声明の正式な数学的な証拠を見たことがない。なぜこれが数学的に正しいのか誰もが知っていますか?これは広く受け入れられている/知られている事実であるように思えるので、これを直接参照することを期待します。非がある場合私は驚かれることでしょう。また、誰がこれがバイアスにどのような影響を与えるか知っていますか? 誰かが重要であり、それを共有したいと思っていると考える他のアプローチの理論的保証はありますか?

1
ツリーのブーストとバギング(XGBoost、LightGBM)
ツリーのバギング や ブースティングのアイデアに関する多くのブログ記事、YouTubeビデオなどがあります。私の一般的な理解では、それぞれの擬似コードは次のとおりです。 バギング: サンプルのx%および特徴のy%のN個のランダムサンプルを取得します Nのそれぞれにモデル(決定木など)を適合させる 各Nで予測 予測を平均して最終予測を取得する ブースティング: モデル(意思決定ツリーなど)をデータに適合させる 残差を取得する モデルを残差に適合させる N回のブースティングラウンドで2に進む 最終予測は、順次予測子の加重合計です。 上記の私の理解を明確にするために説明しますが、私の意図する質問は次のとおりです。 XGBoostとLightGBMの両方には、バギングを許可するパラメーターがあります。このアプリケーションは、バギングまたはブースティング(すべてのブログ投稿で述べられていること)ではなく、バギングとブースティングです。バギングとブースティングの組み合わせが行われる場所とタイミングの擬似コードは何ですか? 「Bagged Boosted Trees」になると思っていましたが、「Boosted Bagged Trees」のようです。違いは大きいようです。 バギングブーストツリー: サンプルのx%および特徴のy%のN個のランダムサンプルを取得します N個のサンプルのそれぞれにブーストされたツリーをフィット 各Nで予測 予測を平均して最終予測を取得する これが最善の方法のようです。結局、ブーストのリスクは過剰適合であり、バギングの主な利点は過剰適合を減らすことです。ブーストされたモデルの束をまとめることは素晴らしいアイデアのようです。 ただし、たとえば、scikit-learn gradient_boosting.py(サンプルのバギングを行いますが、ランダムな特徴選択は行いません)を調べ、LightGBMとXGBoostに関する投稿全体のいくつかの小さなナゲットを組み合わせると、XGBoostとLightGBMは次のように機能します。 ブーストバギングツリー: 決定木をデータに適合させる Nブーストラウンドのiの場合: 残差を取得する bag_frequency == 0の場合(つまり、5ラウンドごとにバッグする): サンプルのx%と特徴のy%の単一のランダムサンプルを取得します。今後このランダムなサンプルを使用してください 木を残差に適合させる 最終予測は、順次予測子の加重合計です。 ここで私の理解を修正し、詳細を入力してください。Boosted Bagged Tree(bag_frequencyごとにランダムツリーが1つだけ)は、Bagged Boosted Treeほど強力ではないようです。

1
lmerモデルに使用する多重比較方法:lsmeansまたはglht?
1つの固定効果(条件)と2つのランダム効果(被験者内のデザインとペアによる参加者)を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました:exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 次に、固定効果(条件)のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。 私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

2
scikit-learnブートストラップ関数がテストセットをリサンプルするのはなぜですか?
モデルの評価にブートストラップを使用するとき、私は常に、out-of-bagのサンプルがテストセットとして直接使用されると思っていました。ただし、これは非推奨の scikit-learnBootstrapアプローチの場合には当てはまらないようです。これは、out-of-bagデータサブセットからの置き換えで描画からテストセットを構築しているようです。これの背後にある統計的推論は何ですか?この手法が、out-of-bag-sampleで評価するよりも優れている、またはその逆の特定のシナリオはありますか?

1
ランダムフォレストの後継に値するバギングアルゴリズムはどれですか?
アルゴリズムをブーストするために、それらはかなり進化したと言えます。1995年の初めにAdaBoostが導入され、しばらくしてからGradient Boosting Machine(GBM)が導入されました。最近、2015年頃にXGBoostが導入されました。これは正確で、オーバーフィットを処理し、複数のKaggleコンテストの勝者になりました。2017年にMicrosoftによって導入されたLightGBMは、XGBoostと比較して大幅に短いトレーニング時間を提供します。また、カテゴリ機能を処理するために、YandexによってCatBoostが導入されました。 ランダムフォレストは2000年代初頭に導入されましたが、それにふさわしい後継者はいましたか?ランダムフォレストよりも優れたバギングアルゴリズムが存在すれば(実際に簡単に適用できます)、Kaggleのような場所で注目を集めたと思います。また、ブースティングがより一般的なアンサンブルテクニックになった理由は、最適な予測のために構築するツリーを少なくできるからですか?

5
ランダムフォレストおよび決定木アルゴリズム
ランダムフォレストは、バギングの概念に従う決定木の集合です。ある決定木から次の決定木に移動すると、最後の決定木で学習した情報は次の決定木にどのように進みますか? 私の理解では、すべての決定木に対して作成され、次の決定木が誤分類されたエラーから学習を開始する前にロードされる訓練されたモデルのようなものは何もないからです。 それでは、どのように機能しますか?

3
ランダムフォレストとブースティングはパラメトリックですか、ノンパラメトリックですか?
優れた統計モデリング:2つの文化(Breiman 2001)を読むことにより、従来の統計モデル(線形回帰など)と機械学習アルゴリズム(バギング、ランダムフォレスト、ブーストツリーなど)のすべての違いを把握できます。 ブライマンはデータモデル(パラメトリック)を批判します。これは、統計が統計学者によって規定された既知の正式なモデルによって観測が生成されるという仮定に基づいているためです。一方、MLアルゴは正式なモデルを想定せず、データから入力変数と出力変数の間の関連付けを直接学習します。 Bagging / RFとBoostingもパラメータの一種であることに気付きました。たとえば、ntree、RFのmtry、学習率、bag fraction、Stochastic Gradient Boosted ツリーのツリー複雑度はすべてチューニングパラメーターです。また、データを使用してこれらのパラメーターの最適な値を見つけるため、データからこれらのパラメーターを推定することもできます。 それで、違いは何ですか?RFおよびブーストツリーはパラメトリックモデルですか?

1
アンサンブル学習を常に使用しないのはなぜですか?
アンサンブル学習は、単一の学習仮説よりも常に優れた予測パフォーマンスを提供するように思えます。 それでは、なぜそれらを常に使用しないのでしょうか? 私の推測は、おそらく、計算上の制限によるものですか?(それでも、弱い予測子を使用するため、わかりません)。

2
バギングされたツリー/ランダムフォレストツリーは、単一の決定ツリーよりもバイアスが高いのはなぜですか?
完全に成長した決定木(つまり、枝刈りされていない決定木)を考えると、分散が大きく、バイアスが低くなります。 バギングおよびランダムフォレストは、これらの高分散モデルを使用し、分散を減らして予測精度を高めるためにそれらを集約します。バギングフォレストとランダムフォレストはどちらもブートストラップサンプリングを使用します。「統計学習の要素」で説明されているように、これにより単一ツリーのバイアスが増加します。 さらに、ランダムフォレスト法では、各ノードで分割できる変数が制限されるため、単一のランダムフォレストツリーのバイアスがさらに大きくなります。 したがって、予測精度が向上するのは、バギングおよびランダムフォレストの単一ツリーのバイアスの増加が分散の減少を「過度に」超えていない場合のみです。 これにより、次の2つの質問が生じます。1)ブートストラップサンプリングを使用すると、(ほとんどの場合)ブートストラップサンプルに同じ観察結果がいくつかあることを知っています。しかし、なぜこれがバギング/ランダムフォレストの個々の木のバイアスの増加につながるのでしょうか。2)さらに、分割ごとに分割できる変数の制限により、ランダムフォレスト内の個々のツリーでバイアスが高くなるのはなぜですか?

1
ランダムフォレストの確率的予測と多数決
Scikitの学習では、モデル集約手法に多数決投票ではなく確率的予測を使用しているようですが、その理由は説明されていません(1.9.2.1。ランダムフォレスト)。 理由は明確に説明されていますか?さらに、ランダムフォレストのバギングに使用できるさまざまなモデル集約手法に関する優れた論文またはレビュー記事はありますか? ありがとう!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.