統計とビッグデータ random-forest

9

ランダムフォレストはブラックボックスと見なされますが、最近、ランダムフォレストからどのような知識が得られるのかと考えていましたか？最も明白なことは、変数の重要性です。最も単純なバリアントでは、変数の出現回数を計算するだけでそれを行うことができます。私が考えていた2番目のことは相互作用です。木の数が十分に大きければ、変数のペアの出現回数をテストできると思います（カイ二乗独立のようなもの）。3番目のことは、変数の非線形性です。私の最初のアイデアは、変数対スコアのチャートを見ることでしたが、それが意味をなすかどうかはまだわかりません。追加された2012.01.2012 動機この知識を使用して、ロジットモデルを改善したいと思います。見落とされた相互作用と非線形性を見つけることは可能だと思います（または少なくとも希望します）。

127 machine-learning data-mining interaction random-forest cart

2

勾配ブースティングツリーとランダムフォレスト

Friedmanが提案する勾配ツリーブースティングでは、決定木をベース学習器として使用します。基本決定ツリーを可能な限り複雑にする（完全に成長させる）か、もっと単純にするべきか疑問に思っています。選択の説明はありますか？ランダムフォレストは、決定木を基本学習器として使用する別のアンサンブル手法です。私の理解に基づいて、通常、各反復でほぼ完全に成長した決定木を使用します。私は正しいですか？

110 machine-learning random-forest cart boosting ensemble

3

パブリケーションでランダムフォレストを表示する最良の方法は？

私は、ランダムフォレストアルゴリズムを、1000種類の特徴を持つマイクロアレイ研究の2つのグループの堅牢な分類子として使用しています。ランダムフォレストを提示して、それを論文で再現可能にするのに十分な情報があるようにする最良の方法は何ですか？フィーチャの数が少ない場合、実際にツリーをプロットするRのプロットメソッドはありますか？エラー率のOOB推定は、引用するのに最適な統計ですか？

75 r machine-learning classification random-forest microarray

2

ランダムフォレストのチューニングに関する実用的な質問

私の質問はランダムフォレストについてです。この美しい分類器の概念は私には明らかですが、実際の使用上の疑問はまだたくさんあります。残念ながら、RFの実用的なガイドを見つけることができませんでした（Geoffrey Hintonによる「制限付きボルツマンマシンのトレーニングのための実践ガイド」のようなものを探していましたが、ランダムフォレストについてです！実際にRFを調整するにはどうすればよいですか？ツリーの数が多いほど良いというのは本当ですか？ツリーの数の増加と、特定のデータセットの推定方法に合理的な制限（もちろん、比較能力を除く）はありますか？木の深さはどうですか？合理的なものを選択するには？1つのフォレスト内で異なる長さの木を実験することに意味はありますか？それに対するガイダンスは何ですか？ RFのトレーニング時に検討する価値のある他のパラメーターはありますか？個々のツリーを構築するためのアルゴリズムはどうでしょうか？ RFがオーバーフィッティングに耐性があると彼らが言うとき、それはどのように真実ですか？検索中に見逃したかもしれない答えやガイドや記事へのリンクに感謝します。

65 random-forest cart

3

randomForest :: getTree（）からサンプルツリーを実際にプロットする方法は？[閉まっている]

いくつかのサンプルツリーを実際にプロットする方法について、ライブラリまたはコードの提案がありました。 getTree(rfobj, k, labelVar=TRUE) はいエンコードされたファクターがどれだけうまく機能しているかなど）適切な答えのない事前の質問：ランダムフォレストをより解釈可能にする方法は？また、ランダムフォレストから知識を得ます実際にサンプルツリーをプロットしたいです。だから、すでにそれについて私と議論しないでください。varImpPlot（Variable Importance Plot）やpartialPlotor MDSPlot、またはこれらの他のプロットについては聞いていませんが、それらは既にありますが、サンプルツリーを見ることの代わりではありません。はい、視覚的に出力を調べることができますgetTree(...,labelVar=TRUE)。（plot.rf.tree()貢献は非常に歓迎されると思います。）

62 r data-visualization random-forest cart

6

ランダムフォレストモデルの予測には予測間隔がありますか？

randomForestモデルを実行すると、モデルに基づいて予測を行うことができます。各予測の予測間隔を取得する方法はありますか。その結果、モデルがその答えをどの程度「保証」しているのかがわかります。これが可能である場合、単にモデル全体の従属変数の変動性に基づいているのでしょうか、それとも特定の予測に従ってた特定の決定木に応じて、より広い間隔とより狭い間隔を持っていますか？

52 r confidence-interval random-forest

5

ランダムフォレストはブースティングアルゴリズムですか？

ブースティングの簡単な定義：一連の弱い学習者が単一の強い学習者を作成できますか？弱学習器は、真の分類とわずかにしか相関しない分類子であると定義されます（ランダムな推測よりも例をラベル付けできます）。ランダムフォレストの短い定義：ランダムフォレストは、多くの分類ツリーを成長させます。入力ベクトルから新しいオブジェクトを分類するには、入力ベクトルをフォレスト内の各ツリーに配置します。各ツリーは分類を提供し、ツリーはそのクラスに「投票」します。フォレストは、（フォレスト内のすべてのツリーに対して）最も投票数の多い分類を選択します。ランダムフォレストの別の短い定義：ランダムフォレストは、データセットのさまざまなサブサンプルに多数の決定木分類器を適合させ、予測精度を向上させて過剰適合を制御するために平均化を使用するメタ推定器です。私が理解しているように、ランダムフォレストは弱い分類子としてツリーを使用するブースティングアルゴリズムです。また、他の手法を使用し、それらを改善することも知っています。誰かがランダムフォレストがブースティングアルゴリズムではないことを修正しましたか？誰かがこれについて詳しく説明できますか、なぜランダムフォレストがブースティングアルゴリズムではないのですか？

51 machine-learning random-forest boosting bagging

3

ランダムフォレストを多重線形回帰の特徴選択に使用できますか？

RFは非線形性を処理できますが、係数を提供できないため、ランダムフォレストを使用して最も重要な機能を収集し、それらの機能を係数を取得するために多重線形回帰モデルにプラグインするのが賢明でしょうか？

50 regression machine-learning feature-selection random-forest regression-strategies

4

Rでのランダムフォレストコンピューティング時間

R のパーティパッケージを10,000行と34の機能で使用していますが、一部の要因機能には300以上のレベルがあります。計算時間が長すぎます。（これまでに3時間かかりましたが、まだ終了していません。）ランダムフォレストの計算時間に大きな影響を与える要素を知りたいです。レベルが多すぎる要因がありますか？RF計算時間を改善するための最適化された方法はありますか？

49 r random-forest

3

ランダムフォレストの最適なツリー数は予測子の数に依存しますか？

予測子の数が多いときに、ランダムフォレストに多数の木が必要な理由を誰かが説明できますか？どのようにして最適なツリー数を決定できますか？

46 machine-learning random-forest

5

ランダムフォレストアルゴリズムの最適化された実装

私は、ALGLIB、Waffles、およびなどのいくつかのRパッケージなど、ランダムフォレストの実装がいくつかあることに気付きましたrandomForest。これらのライブラリが高度に最適化されているかどうかを教えてもらえますか？統計学習の要素で詳しく説明されているランダムフォレストと基本的に同等ですか、それとも多くの余分なトリックが追加されていますか？この質問が具体的であることを願っています。私が探している答えのタイプの例として、線形代数パッケージBLASが高度に最適化されているかどうか尋ねられた場合、それは非常に高度に最適化されていて、非常に特殊なアプリケーションを除いて改善しようとする価値はほとんどないと言います。

43 random-forest algorithms model-evaluation

2

ランダムフォレストの仮定

ランダムフォレストは初めてなので、基本的な概念にまだ苦労しています。線形回帰では、独立した観測、一定の分散… ランダムフォレストを使用する場合の基本的な仮定/仮説は何ですか？モデルの仮定に関して、ランダムフォレストとナイーブベイの主な違いは何ですか？

43 regression classification random-forest

7

ランダムフォレストが予測子の欠損値を処理しないのはなぜですか？

欠損値を処理しない理論的な理由は何ですか？勾配ブースティングマシン、回帰ツリーは欠損値を処理します。なぜランダムフォレストはそれをしないのですか？

42 random-forest missing-data gbm

6

ランダムフォレスト-過剰適合の処理方法

私はコンピューターサイエンスのバックグラウンドを持っていますが、インターネット上の問題を解決してデータサイエンスを学ぼうとしています。私はこの数週間、この問題に取り組んでいます（約900行と10個の機能）。最初はロジスティック回帰を使用していましたが、ランダムフォレストに切り替えました。トレーニングデータでランダムフォレストモデルを実行すると、aucの値が非常に高くなります（> 99％）。ただし、テストデータで同じモデルを実行すると、結果はそれほど良くありません（精度約77％）。これにより、トレーニングデータを過剰に適合していると信じることになります。ランダムフォレストでの過剰適合の防止に関するベストプラクティスは何ですか？開発環境としてrとrstudioを使用しています。randomForestパッケージを使用しており、すべてのパラメーターのデフォルトを受け入れました

41 random-forest overfitting

2

ランダムフォレストの変数重要度の測定

私は回帰のためにランダムフォレストをいじくり回しており、2つの重要度の測定値が何を意味し、どのように解釈すべきかを正確に判断するのに苦労しています。このimportance()関数は、変数ごとに2つの値を提供します：%IncMSEとIncNodePurity。これらの2つの値の簡単な解釈はありますか？以下のためにIncNodePurity、特に、これは単にその変数を除去した後の金額RSS増加のですか？

40 r machine-learning random-forest importance

タグ付けされた質問 「random-forest」

タグ付けされた質問「random-forest」