タグ付けされた質問 「random-forest」

ランダムフォレストは、多くの決定木の出力の組み合わせに基づく機械学習手法です。

9
ランダムフォレストから知識を取得する
ランダムフォレストはブラックボックスと見なされますが、最近、ランダムフォレストからどのような知識が得られるのかと考えていましたか? 最も明白なことは、変数の重要性です。最も単純なバリアントでは、変数の出現回数を計算するだけでそれを行うことができます。 私が考えていた2番目のことは相互作用です。木の数が十分に大きければ、変数のペアの出現回数をテストできると思います(カイ二乗独立のようなもの)。3番目のことは、変数の非線形性です。私の最初のアイデアは、変数対スコアのチャートを見ることでしたが、それが意味をなすかどうかはまだわかりません。 追加された2012.01.2012 動機 この知識を使用して、ロジットモデルを改善したいと思います。見落とされた相互作用と非線形性を見つけることは可能だと思います(または少なくとも希望します)。

2
勾配ブースティングツリーとランダムフォレスト
Friedmanが提案する勾配ツリーブースティングでは、決定木をベース学習器として使用します。基本決定ツリーを可能な限り複雑にする(完全に成長させる)か、もっと単純にするべきか疑問に思っています。選択の説明はありますか? ランダムフォレストは、決定木を基本学習器として使用する別のアンサンブル手法です。私の理解に基づいて、通常、各反復でほぼ完全に成長した決定木を使用します。私は正しいですか?

3
パブリケーションでランダムフォレストを表示する最良の方法は?
私は、ランダムフォレストアルゴリズムを、1000種類の特徴を持つマイクロアレイ研究の2つのグループの堅牢な分類子として使用しています。 ランダムフォレストを提示して、それを論文で再現可能にするのに十分な情報があるようにする最良の方法は何ですか? フィーチャの数が少ない場合、実際にツリーをプロットするRのプロットメソッドはありますか? エラー率のOOB推定は、引用するのに最適な統計ですか?

2
ランダムフォレストのチューニングに関する実用的な質問
私の質問はランダムフォレストについてです。この美しい分類器の概念は私には明らかですが、実際の使用上の疑問はまだたくさんあります。残念ながら、RFの実用的なガイドを見つけることができませんでした(Geoffrey Hintonによる「制限付きボルツマンマシンのトレーニングのための実践ガイド」のようなものを探していましたが、ランダムフォレストについてです! 実際にRFを調整するにはどうすればよいですか? ツリーの数が多いほど良いというのは本当ですか?ツリーの数の増加と、特定のデータセットの推定方法に合理的な制限(もちろん、比較能力を除く)はありますか? 木の深さはどうですか?合理的なものを選択するには?1つのフォレスト内で異なる長さの木を実験することに意味はありますか?それに対するガイダンスは何ですか? RFのトレーニング時に検討する価値のある他のパラメーターはありますか?個々のツリーを構築するためのアルゴリズムはどうでしょうか? RFがオーバーフィッティングに耐性があると彼らが言うとき、それはどのように真実ですか? 検索中に見逃したかもしれない答えやガイドや記事へのリンクに感謝します。

3
randomForest :: getTree()からサンプルツリーを実際にプロットする方法は?[閉まっている]
いくつかのサンプルツリーを実際にプロットする方法について、ライブラリまたはコードの提案がありました。 getTree(rfobj, k, labelVar=TRUE) はいエンコードされたファクターがどれだけうまく機能しているかなど) 適切な答えのない事前の質問: ランダムフォレストをより解釈可能にする方法は? また、ランダムフォレストから知識を得ます 実際にサンプルツリーをプロットしたいです。だから、すでにそれについて私と議論しないでください。varImpPlot(Variable Importance Plot)やpartialPlotor MDSPlot、またはこれらの他のプロットについては聞いていませんが、それらは既にありますが、サンプルツリーを見ることの代わりではありません。はい、視覚的に出力を調べることができますgetTree(...,labelVar=TRUE)。 (plot.rf.tree()貢献は非常に歓迎されると思います。)

6
ランダムフォレストモデルの予測には予測間​​隔がありますか?
randomForestモデルを実行すると、モデルに基づいて予測を行うことができます。各予測の予測間隔を取得する方法はありますか。その結果、モデルがその答えをどの程度「保証」しているのかがわかります。これが可能である場合、単にモデル全体の従属変数の変動性に基づいているのでしょうか、それとも特定の予測に従ってた特定の決定木に応じて、より広い間隔とより狭い間隔を持っていますか?

5
ランダムフォレストはブースティングアルゴリズムですか?
ブースティングの簡単な定義: 一連の弱い学習者が単一の強い学習者を作成できますか?弱学習器は、真の分類とわずかにしか相関しない分類子であると定義されます(ランダムな推測よりも例をラベル付けできます)。 ランダムフォレストの短い定義: ランダムフォレストは、多くの分類ツリーを成長させます。入力ベクトルから新しいオブジェクトを分類するには、入力ベクトルをフォレスト内の各ツリーに配置します。各ツリーは分類を提供し、ツリーはそのクラスに「投票」します。フォレストは、(フォレスト内のすべてのツリーに対して)最も投票数の多い分類を選択します。 ランダムフォレストの別の短い定義: ランダムフォレストは、データセットのさまざまなサブサンプルに多数の決定木分類器を適合させ、予測精度を向上させて過剰適合を制御するために平均化を使用するメタ推定器です。 私が理解しているように、ランダムフォレストは弱い分類子としてツリーを使用するブースティングアルゴリズムです。また、他の手法を使用し、それらを改善することも知っています。誰かがランダムフォレストがブースティングアルゴリズムではないことを修正しましたか? 誰かがこれについて詳しく説明できますか、なぜランダムフォレストがブースティングアルゴリズムではないのですか?


4
Rでのランダムフォレストコンピューティング時間
R のパーティパッケージを10,000行と34の機能で使用していますが、一部の要因機能には300以上のレベルがあります。計算時間が長すぎます。(これまでに3時間かかりましたが、まだ終了していません。) ランダムフォレストの計算時間に大きな影響を与える要素を知りたいです。レベルが多すぎる要因がありますか?RF計算時間を改善するための最適化された方法はありますか?
49 r  random-forest 


5
ランダムフォレストアルゴリズムの最適化された実装
私は、ALGLIB、Waffles、およびなどのいくつかのRパッケージなど、ランダムフォレストの実装がいくつかあることに気付きましたrandomForest。これらのライブラリが高度に最適化されているかどうかを教えてもらえますか?統計学習の要素で詳しく説明されているランダムフォレストと基本的に同等ですか、それとも多くの余分なトリックが追加されていますか? この質問が具体的であることを願っています。私が探している答えのタイプの例として、線形代数パッケージBLASが高度に最適化されているかどうか尋ねられた場合、それは非常に高度に最適化されていて、非常に特殊なアプリケーションを除いて改善しようとする価値はほとんどないと言います。

2
ランダムフォレストの仮定
ランダムフォレストは初めてなので、基本的な概念にまだ苦労しています。 線形回帰では、独立した観測、一定の分散… ランダムフォレストを使用する場合の基本的な仮定/仮説は何ですか? モデルの仮定に関して、ランダムフォレストとナイーブベイの主な違いは何ですか?


6
ランダムフォレスト-過剰適合の処理方法
私はコンピューターサイエンスのバックグラウンドを持っていますが、インターネット上の問題を解決してデータサイエンスを学ぼうとしています。 私はこの数週間、この問題に取り組んでいます(約900行と10個の機能)。最初はロジスティック回帰を使用していましたが、ランダムフォレストに切り替えました。トレーニングデータでランダムフォレストモデルを実行すると、aucの値が非常に高くなります(> 99%)。ただし、テストデータで同じモデルを実行すると、結果はそれほど良くありません(精度約77%)。これにより、トレーニングデータを過剰に適合していると信じることになります。 ランダムフォレストでの過剰適合の防止に関するベストプラクティスは何ですか? 開発環境としてrとrstudioを使用しています。randomForestパッケージを使用しており、すべてのパラメーターのデフォルトを受け入れました

2
ランダムフォレストの変数重要度の測定
私は回帰のためにランダムフォレストをいじくり回しており、2つの重要度の測定値が何を意味し、どのように解釈すべきかを正確に判断するのに苦労しています。 このimportance()関数は、変数ごとに2つの値を提供します:%IncMSEとIncNodePurity。これらの2つの値の簡単な解釈はありますか? 以下のためにIncNodePurity、特に、これは単にその変数を除去した後の金額RSS増加のですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.