タグ付けされた質問 「random-forest」

ランダムフォレストは、多くの決定木の出力の組み合わせに基づく機械学習手法です。

2
多変量回帰のランダムフォレスト
入力フィーチャと出力のマルチ出力回帰問題があります。出力には、複雑な非線形相関構造があります。dバツdバツd_xdydyd_y ランダムフォレストを使用して回帰を行いたいです。私が知る限り、回帰用のランダムフォレストは単一の出力でのみ機能するため、各出力に1つずつ、ランダムフォレストをトレーニングする必要があります。これは、それらの相関を無視します。dydyd_y 出力相関を考慮したランダムフォレストの拡張機能はありますか?多タスク学習のガウス過程回帰のようなものかもしれません。


5
RのrandomForestは32レベル以上を処理できません。回避策は何ですか?
RのrandomForestパッケージは、32レベルを超える係数を処理できません。32レベルを超えると、エラーメッセージが表示されます。 32を超えるカテゴリを持つカテゴリカル予測子を処理できません。 しかし、私が持っているデータにはいくつかの要因があります。それらの一部には1000以上のレベルがあり、一部には100以上があります。52の米国の「状態」もあります。 だから、ここに私の質問があります。 なぜそのような制限があるのですか?randomForestは、単純な場合でも実行を拒否します。 > d <- data.frame(x=factor(1:50), y=1:50) > randomForest(y ~ x, data=d) Error in randomForest.default(m, y, ...) : Can not handle categorical predictors with more than 32 categories. 単にメモリ制限が原因である場合、scikit学習のrandomForeestRegressorは32を超えるレベルでどのように実行できますか? この問題を処理する最良の方法は何ですか?X1、X2、...、X50の独立変数があり、Yが従属変数であるとします。そして、X1、X2、X3には32を超えるレベルがあるとします。私は何をすべきか? 私が考えているのは、距離がYの差として定義されるX1、X2、X3のそれぞれに対してクラスタリングアルゴリズムを実行することです。3つの問題のある変数があるので、3つのクラスタリングを実行します。そして、各クラスタリングで、同様のレベルを見つけることができればと思います。そして、それらをマージします。 これはどのように聞こえますか?

3
部分依存プロットのy軸の解釈
この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 5年前に移行され ました。 部分依存プロットに関する他のトピックを読みましたが、それらのほとんどは、それらを正確に解釈する方法ではなく、異なるパッケージで実際にプロットする方法に関するものです。 私はかなりの量の部分依存プロットを読んで作成しています。私は、彼らが私のモデルからの他のすべての変数(χc)の平均の影響で関数ƒS(χS)に対する変数χsの限界効果を測定することを知っています。yの値が大きいほど、クラスの正確な予測に大きな影響を与えます。しかし、私はこの定性的な解釈に満足していません。 私のモデル(ランダムフォレスト)は、2つの控えめなクラスを予測しています。「はい」と「いいえ」。TRIは、これに適した変数であることが証明されている変数です。 私が考え始めたのは、Y値が正しい分類の確率を示しているということです。例:y(0.2)は、TRI値が30を超えていると、True Positive分類を正しく識別する可能性が20%であることを示しています。 逆に y(-0.2)は、TRI値が<〜15の場合、True Negative分類を正しく識別する確率が20%であることを示しています。 文献で行われている一般的な解釈は、「TRI 30より大きい値がモデルの分類にプラスの影響を与え始める」というように聞こえますが、それだけです。潜在的にあなたのデータについて多くを語ることができるプロットにとって、それはとても曖昧で無意味に聞こえます。 また、すべてのプロットは、y軸の範囲内で-1から1の範囲で制限されます。-10〜10などの他のプロットを見ました。これは、予測しようとしているクラスの数の関数ですか? 誰もこの問題に話すことができるかどうか疑問に思っていました。これらのプロットまたは私を助けてくれるいくつかの文献をどのように解釈すべきかを教えてください。多分私はこれを読みすぎていますか? 統計学習の要素であるデータマイニング、推論、および予測を非常によく読んでおり、素晴らしい出発点でしたが、それだけです。

4
「半教師付き学習」-これは過剰適合ですか?
私は、Kaggleコンペティション(マルウェア分類)の勝利ソリューションのレポートを読んでいました。レポートはこのフォーラムの投稿にあります。問題は、トレインセットに10000個の要素、テストセットに10000個の要素がある分類問題(9つのクラス、メトリックは対数損失)でした。 競争中、モデルはテストセットの30%に対して評価されました。もう1つの重要な要素は、モデルのパフォーマンスが非常に優れていたことです(100%に近い精度) 著者は次の手法を使用しました。 もう1つの重要なテクニックは、半教師あり学習です。最初に、最適なモデルの最大確率を選択して、テストセットの擬似ラベルを生成します。次に、トレインデータとテストデータの両方を使用して、クロス検証方式でテストセットを再度予測します。たとえば、テストデータセットは4つのパートA、B、C、Dに分割されます。トレーニングデータ全体と、疑似ラベル付きのテストデータA、B、Cを新しいトレーニングセットとして使用し、テストを予測します。 Dを設定します 同じ方法を使用してA、B、Cを予測します。Xiaozhouによって発明されたこのアプローチは驚くほどうまく機能し、ローカルクロス検証損失、パブリックLB損失、プライベートLB損失を削減します。最高の半教師あり学習モデルは、プライベートLBログ損失で0.0023を達成できます。これは、すべてのソリューションで最高のスコアです。 結果をどのように改善できるのか、本当にわかりません。それは、テストセットの30%が「漏出」し、この情報を使用する方法だったからでしょうか。 それとも、なぜ機能するのかを説明する理論的な理由はありますか?

5
ランダムフォレストと回帰
5つの独立変数を持つデータセットでOLS回帰モデルを実行しました。独立変数と従属変数は両方とも連続的であり、線形に関連しています。Rスクエアは約99.3%です。しかし、Rでランダムフォレストを使用して同じことを実行すると、結果は「%Var説明:88.42」になります。なぜランダムフォレストの結果は、回帰に比べてそれほど劣るのでしょうか?私の仮定では、ランダムフォレストは少なくともOLS回帰と同じくらい良いだろうということでした。

5
ランダムフォレストの誤分類のコストを制御する方法は?
RパッケージrandomForestで誤分類のコストを制御することは可能ですか? 私自身の研究では、偽陰性(例えば、人が病気にかかっている可能性があるというミス)は、偽陽性よりもはるかに費用がかかります。パッケージrpartを使用すると、損失マトリックスを指定して誤分類に異なる重みを付けることにより、誤分類コストを制御できます。同様の何かが存在しrandomForestますか?たとえば、classwtGini基準を制御するオプションを使用する必要がありますか?


3
機械学習モデルの組み合わせ
私は、データマイニング/機械学習/などの初心者です。複数のモデルと同じモデルの実行を組み合わせて予測を改善するいくつかの方法について読んでいます。 いくつかの論文(理論やギリシャ文字では面白くて素晴らしいが、コードや実際の例は短い)を読んだときの印象は、次のようになるはずだということです。 モデル(knn、RFなど)を取得し、0〜1の分類子のリストを取得します。私の質問は、これらの分類子の各リストをどのように組み合わせるかです。最終モデルに入る列の数が同じになるようにトレーニングセットで同じモデルを実行しますか、それとも他のトリックがありますか? 提案/例にRコードが含まれていれば素晴らしいと思います。 注:これは、トレーニングセットに100k行、テストセットに70k行、10列のデータセット用です。

2
ランダムフォレストがランダムフォレストを生成する方法
私はランダムフォレストの専門家ではありませんが、ランダムフォレストの重要な問題は(ランダム)ツリーの生成であることを明確に理解しています。木がどのように生成されるのか説明してもらえますか?(つまり、ツリー生成に使用される分布は何ですか?) 前もって感謝します !

1
分類でトレーニングデータを生成するための層別サンプリングとランダムサンプリングの利点
元のデータセットを分類用のトレーニングとテストセットに分割するときに、ランダムサンプリングではなく層別サンプリングを使用する利点があるかどうかを知りたいと思います。 また、層化サンプリングは、ランダムサンプリングよりも分類器により多くのバイアスを導入しますか? データ準備に層化サンプリングを使用したいアプリケーションは、元のデータセットのでトレーニングされたRandom Forests分類器です。分類器の前に、クラスのサイズのバランスをとる合成サンプル生成(SMOTE [1])のステップもあります。2323\frac{2}{3} [1] Chawla、Nitesh V.、他 「SMOTE:合成マイノリティオーバーサンプリングテクニック。」Journal of Artificial Intelligence Research 16(2002):321-357。

2
ランダムフォレストは過剰適合ですか?
私はscikit-learnを使用してランダムフォレストで実験しており、トレーニングセットでは素晴らしい結果を得ていますが、テストセットでは比較的悪い結果が得られています... ここに私が解決しようとしている問題(ポーカーに触発された)があります:プレーヤーAのホールカード、プレーヤーBのホールカード、およびフロップ(3枚のカード)がある場合、どのプレーヤーが最高のハンドを持っていますか?数学的には、これは14個の入力(7枚のカード-それぞれに1つのランクと1つのスーツ)と1つの出力(0または1)です。 これまでの私の結果の一部を以下に示します。 Training set size: 600k, test set size: 120k, number of trees: 25 Success rate in training set: 99.975% Success rate in testing set: 90.05% Training set size: 400k, test set size: 80k, number of trees: 100 Success rate in training set: 100% Success rate in testing set: …

11
ロジスティック回帰が機械学習アルゴリズムと呼ばれるのはなぜですか?
機械学習アルゴリズムで正しく理解できた場合、モデルはその経験から学習する必要があります。つまり、モデルが新しいケースに対して間違った予測を与える場合、モデルは新しい観測に適応する必要があり、やがてモデルはますます良くなります。ロジスティック回帰にはこの特性があるとは思えません。では、なぜ機械学習アルゴリズムと見なされているのでしょうか?「学習」という用語でのロジスティック回帰と通常の回帰の違いは何ですか? ランダムフォレストについても同じ質問があります! そして、「機械学習」の定義は何ですか?

3
回帰のランダムフォレストは「真の」回帰ですか?
回帰にはランダムフォレストが使用されます。しかし、私が理解していることから、彼らは各葉に平均目標値を割り当てています。各ツリーのリーフは限られているため、回帰モデルからターゲットが達成できる特定の値のみがあります。したがって、それは単なる「離散」回帰(ステップ関数のような)ではなく、「連続」な線形回帰ではないのでしょうか? これを正しく理解していますか?はいの場合、ランダムフォレストは回帰においてどのような利点を提供しますか?

1
極端なランダムフォレストとランダムフォレストの違いは何ですか?
ERはより効率的な実装ですか(Extreme Gradient Boosting勾配ブースティングに似ています)-実際の観点からの違いは重要ですか?それらを実装するRパッケージがあります。それは、効率の点だけでなく、他のいくつかの分野でも「一般的な」実装(RのRandomForestパッケージ)を克服する新しいアルゴリズムですか? エクストリームランダムフォレストhttp://link.springer.com/article/10.1007%2Fs10994-006-6226-1

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.