24行の月次データで構成されるデータセットがあります。機能は、GDP、空港到着、月、およびその他いくつかです。従属変数は、人気のある観光地への訪問者の数です。ランダムフォレストはそのような問題に適していますか?
データは非公開なので、サンプルを投稿できません。
24行の月次データで構成されるデータセットがあります。機能は、GDP、空港到着、月、およびその他いくつかです。従属変数は、人気のある観光地への訪問者の数です。ランダムフォレストはそのような問題に適していますか?
データは非公開なので、サンプルを投稿できません。
回答:
ランダムフォレストは、基本的にサンプルのブートストラップリサンプリングと意思決定ツリーのトレーニングであるため、質問への回答ではこれら2つに対処する必要があります。
ブートストラップリサンプリングは、小さなサンプルの治療法ではありません。データセットに24の観測値しかない場合、このデータから置き換えて取得した各サンプルは、24以下の異なる値で構成されます。ケースをシャッフルし、それらの一部を描画しなくても、基礎となるディストリビューションについて何か新しいことを学ぶ能力はあまり変わりません。したがって、小さなサンプルはブートストラップの問題です。
決定木は、予測変数に条件付きでデータを一度に1つの変数で分割することによってトレーニングされ、最大の判別力を持つサブサンプルを見つけます。ケースが24個しかない場合は、運が良ければ、すべての分割のサイズが同じであれば、2つの分割で6つのケースの4つのグループになり、3つのグループの8つのグループでツリーが分割されます。サンプルで条件付き平均を計算した場合(回帰ツリーの連続値、または決定木での条件付き確率を予測するため)、結論はこれらの少数のケースにのみ基づいています!したがって、決定に使用するサブサンプルは、元のデータよりもさらに小さくなります。
少量のサンプルでは、通常、単純な方法を使用するのが賢明です。さらに、ベイジアン設定で有益な事前分布を使用することで小さなサンプルに追いつくことができ(問題についてデータ外の知識がある場合)、テーラーメイドのベイジアンモデルの使用を検討できます。
一方、これは小さなデータセットであり、ランダムフォレストはデータを大量に消費します。
一方、多分、何もないよりはましだ。「試してみてください」以外に言うべきことはありません。特定のモデルが「良い」かどうかを判断します。さらに、モデルが特定の目的に適しているかどうかを通知することはできません(私たちが望んでいることはありません-私たちが間違っていても私たちに費用はかかりません!)。