私はsklを使用して構築されたランダムフォレスト回帰を持っていますが、ランダムシードを異なる値に設定すると異なる結果が得られることに注意します。
LOOCVを使用してどのシードが最適に機能するかを確認する場合、これは有効な方法ですか?
1
人々はそれを競技会で行います。しかし、それを正当化するのが難しい学界にとっては。
—
Firebug
極端なケースのシナリオについて考えてみましょう。私たちはゲームをプレイします。2つのサイコロを振って、高い額のサイコロを獲得した人が勝ちます。しかし、実際には私は2回サイコロを振ることが許可されています。それはあなたのことですか?ランダムシードの設定は再現可能な研究の不可欠な部分であり、常に実行する必要があることを指摘しておきます。ただし、「好ましいシード」が見つかるまで、さまざまなシードを試す必要があるという意味ではありません。
—
usεr11852
@usεr11852現在受け入れられている回答に対する私のコメントをどう思いますか?これがkmeansのようなランダムな再起動と異なるかどうかはわかりません。ランダムな再起動がRの標準関数に組み込まれるまでは、最初の実行を強制的に受け入れる必要があるとは誰も考えていません。モデルではなく、モデルがkmeansを100回実行していると考えない限り単一の最高のクラスタリングである
—
jld 2018
いいえ、それは実際のランダム性に対する過剰適合のまさに定義のようです。
—
マークホワイト
@シャコンヌ:適切な検証の必要性についてのあなたの主張を完全にサポートします。とは言っても、2つのユースケースには大きな違いがあると思います。k平均(または一般に確率的最適化)の場合、パラメーターの「最適なセット」を探し、CVの場合は「代表的なセット」を考慮します。 」初期のケースでは、「どれほど良いことができるか」を示すように努めていますが、後者のケースでは「どのくらい良いか」を示しています。
—
usεr11852