ランダムフォレストは非常に小さなデータセットに適していますか？

24行の月次データで構成されるデータセットがあります。機能は、GDP、空港到着、月、およびその他いくつかです。従属変数は、人気のある観光地への訪問者の数です。ランダムフォレストはそのような問題に適していますか？

データは非公開なので、サンプルを投稿できません。

random-forest small-sample

— ヒューズ
ソース

通常、ランダムフォレストに対する1つの制限は、機能の数が非常に多いことです。RFの最初のステップは、1 / 3nまたはsqrt（n）機能を選択してツリーを作成することです（タスク、回帰/分類に応じて）。そのため、かなりの数の機能がある場合は、小さなデータセットでもRFを使用してください。小さなデータセットで実際に機能するアルゴリズムがないため、何も失うことはありません。

— ドイツのデミドフ2016年

あなたは低い範囲にいます。RFは機能しますが、生データを主演することで実現できることよりも、はるかに複雑なことは学習しないでしょう。データのノイズが非常に低い場合に役立ちます。40-50サンプルから、それは良くなり始めています。500良い。5000すごい。

— Soren Havelund Welling 2016

回帰の場合、可能なツリーの深さはminnode = 5によって制限されるため、サンプルは平均して2回を超えて分割されません[[24->（1）12->（2）6.]] mtryの制限を含めて、モデルは、相互作用効果や単純な非線形効果さえもキャプチャするのに苦労します。minnodeとmtryをいじることもできますが、データのノイズが実質的に少ない場合にのみ行う必要があります。当てはめられた結論を超える可能性は、逆になります。得られたモデル構造は、大まかに平滑化されたステップ関数のようになります。

— Soren Havelund Welling

stackoverflow.com/questions/24752941/…–

— 404pio

小さなデータセットの場合は、相互検証手法を使用します。詳細については、stats.stackexchange.com / questions / 19048 /…

— Asif Khan

回答:

ランダムフォレストは、基本的にサンプルのブートストラップリサンプリングと意思決定ツリーのトレーニングであるため、質問への回答ではこれら2つに対処する必要があります。

ブートストラップリサンプリングは、小さなサンプルの治療法ではありません。データセットに24の観測値しかない場合、このデータから置き換えて取得した各サンプルは、24以下の異なる値で構成されます。ケースをシャッフルし、それらの一部を描画しなくても、基礎となるディストリビューションについて何か新しいことを学ぶ能力はあまり変わりません。したがって、小さなサンプルはブートストラップの問題です。

決定木は、予測変数に条件付きでデータを一度に1つの変数で分割することによってトレーニングされ、最大の判別力を持つサブサンプルを見つけます。ケースが24個しかない場合は、運が良ければ、すべての分割のサイズが同じであれば、2つの分割で6つのケースの4つのグループになり、3つのグループの8つのグループでツリーが分割されます。サンプルで条件付き平均を計算した場合（回帰ツリーの連続値、または決定木での条件付き確率を予測するため）、結論はこれらの少数のケースにのみ基づいています！したがって、決定に使用するサブサンプルは、元のデータよりもさらに小さくなります。

少量のサンプルでは、通常、単純な方法を使用するのが賢明です。さらに、ベイジアン設定で有益な事前分布を使用することで小さなサンプルに追いつくことができ（問題についてデータ外の知識がある場合）、テーラーメイドのベイジアンモデルの使用を検討できます。

— ティム
ソース

一方、これは小さなデータセットであり、ランダムフォレストはデータを大量に消費します。

一方、多分、何もないよりはましだ。「試してみてください」以外に言うべきことはありません。特定のモデルが「良い」かどうかを判断します。さらに、モデルが特定の目的に適しているかどうかを通知することはできません（私たちが望んでいることはありません-私たちが間違っていても私たちに費用はかかりません！）。

— Sycoraxはモニカを復活させると言います
ソース