コンピューターベースの実験/シミュレーションにおける残差の独立性?


17

古科学で使用されている特定のタイプのモデルに適合するさまざまな方法のコンピューターベースの評価を実施しました。大規模なトレーニングセットがあるため、テストセットをランダムに(階層化されたランダムサンプリングで)設定しました。トレーニングセットサンプルに異なる方法を適合させ、結果モデルを使用して、テストセットサンプルの応答を予測し、テストセット内のサンプルのRMSEPを計算しました。これは単一の実行です。mm

その後、新しいテストセットをランダムにサンプリングして異なるトレーニングセットを選択するたびに、このプロセスを何度も繰り返しました。

これを行った後、メソッドのいずれかがRMSEPのパフォーマンスを改善するか、悪化させるかを調査したいと思います。また、ペアワイズ法の複数の比較を行いたいです。m

私のアプローチは、線形混合効果(LME)モデルをRunの単一のランダム効果に適合させることでした。私は使用lmer()からlme4のからの私のモデルや機能に合わせてパッケージmultcompの多重比較を行うためのパッケージ。私のモデルは本質的に

lmer(RMSEP ~ method + (1 | Run), data = FOO)

ここmethodで、テストセットのモデル予測を生成するために使用されたメソッドを示す要因であり、「実験」のRun特定の実行ごとのインジケータです。

私の質問は、LMEの残差に関するものです。実行の単一のランダム効果を考えると、ランダム効果がもたらす誘導相関に基づいて、その実行のRMSEP値はある程度相関しているが、実行間で無相関であると想定しています。

この実行の独立性の仮定は有効ですか?そうでない場合は、LMEモデルでこれを説明する方法がありますか、または質問に答えるために別のタイプの静的分析を採用する必要がありますか?


残差は、予測されたランダム効果を条件とするか、無条件であり、シミュレーションでは、予測されたランダム効果は一定または変動します。LME4のデフォルトのシミュレーション方法でこれを理解し、できないことを忘れないでください(ただし、プロジェクトは整理する前にキャンセルされました)。
パネロン

完全にフォローするかどうかはわかりませんが、描画トレーニングセットのさまざまな実行->モデルの適合-> RMSEPの計算はすべて、LMEの前に行われます。ランダム効果は、テストセットサンプルのさまざまな組み合わせが選択されるため、各実行で異なる切片(RMSEP)が使用されるため、実行用ですが、これは実行中は一定です。条件付き/無条件ビットについては、あなたが何を言っているのか分かりません。コメントありがとうございます。
モニカの復活-G.シンプソン

回答:


4

ここでは、各mメソッドについて本質的に何らかの形式の相互検証を行っているので、どのメソッドがよりよく実行されるかを確認したいと思います。実行間の結果は、同じデータに基づいており、トレイン/テストセット間で重複があるため、間違いなく依存します。問題は、メソッドを比較するときにこれが重要かどうかです。

実行を1回だけ実行し、1つの方法が他の方法よりも優れていることに気付いたとします。その後、あなたは自分自身に尋ねるでしょう-これは単にテストセットの特定の選択によるものですか?これが、多くの異なるトレイン/テストセットに対してテストを繰り返す理由です。そのため、あるメソッドが他のメソッドよりも優れていることを判断するために、何度も実行し、実行ごとに他のメソッドと比較します(エラー/ランクなどを見るオプションは異なります)。現在、ほとんどの実行でメソッドのパフォーマンスが向上していることがわかった場合、結果はそのとおりです。これにp値を与えることが役立つかどうかはわかりません。または、p値を与えたい場合は、ここで背景モデルは何ですか?


ご意見ありがとうございます。あなたの最後の行は、私が今いるところにかなり要約していると思います。これをある程度予想して、このタイプのデータを分析する適切な方法について尋ねるフォローアップがあります。「それが何であるか」についてのあなたの主張も好きです。それも最近私の思考プロセスの端で渦巻いていた。
復帰モニカ-G.シンプソン

「結果はそれが何であるか」という部分に関して私が抱えている問題の1つは、RMSEPが実行ごとにかなり変動することです。したがって、平均して1つまたは2つの方法の方が優れていますが、RMSEPのばらつきを考えると、本当に優れているのでしょうか。したがって、Runのランダム効果を持つLMEを試してみました。そのアプローチを修正するには、各データセットが誰と相関しているかを知る必要があります。私が行う統計的検定は、そのように修正する必要があるように思われます。したがって、私はまだ各方法の50回の実行から平均を解釈する方法と、結論を引き出すことができるかどうかに苦労しています...?
モニカの復職-G.シンプソン

1
私の考えでは、データの可能なすべてのトレイン/テストセットパーティションでメソッドを評価するのが最も包括的な評価でした。これは不可能なので、ランダムに実行してこれを推定しています。すべてのトレイン/テストパーティションを評価できるとしましょう-どの方法がより良いかをどのように決定するかという問題が残ります。したがって、これは「良い」とは何かをどのように定義するかという問題です。平均スコアが高いということですか?または、多くの実行で、1つのメソッドが他のメソッドよりも高いスコアを取得することを意味しますか(個人的にはこれがより良いバージョンだと思います)?
ビット単位

1

あなたがしたことを本当に理解していないかもしれませんが、

実行の場合、その実行のRMSEP値はある程度相関していると仮定しています

はい、それはテストセットがその実行でどれほど難しかったかを反映しています

しかし、実行間で無相関です

いいえ、テストセットのサンプリング方法を考えると、一部は他のテストセットよりも重複します(ほとんどの場合、独立した複製ではありません)

オーバーラップに基づいて依存関係をモデル化するか、実行が独立するように評価を設計する必要があります。クロスバリデーションに関する統計資料を読みます;-)


+1回答ありがとうございます。うーん、どういう意味かわかります。テストセットが類似しているほど、RMSEP値は類似しています。OK、そのように言えば、データが空間的または一時的に相関している場合と同じです。トレーニングセット/テストセットを生成する方法は、平均して、それらがすべて互いに異なることを意味するはずです。ここでCVがどうなるかはわかりませんが、ある意味では、リサンプリングアプローチによってそれを行っています。おそらく、実際の問題を解決する方法について別のQを尋ねます。
モニカの復活-G.シンプソン

バウンティ期間の終わりまでこれを開いたままにして、他の誰かが噛むかどうかを確認しますが、ここであなたの考えに感謝し、他の回答が来ない場合はバウンティを受け入れて授与します。
モニカの復活-G.シンプソン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.