統計的有意性を使用して2つの異なるモデルの精度を比較する方法

10

私は時系列予測に取り組んでいます。2つのデータセットとます。 3つの予測モデルがあります。これらのモデルはすべて、データセットサンプルを使用してトレーニングされ、そのパフォーマンスはデータセットサンプルを使用して測定されます。パフォーマンスメトリックがMSE（またはその他）であるとします。データセットについて測定し、それらのモデルのMSEある及び。あるモデルの別のモデルに対する改善が統計的に有意であることをどのようにテストできますか？ $D1=\{x_1, x_2,....x_n\}$ $D2=\{x_n+1, x_n+2, x_n+3,...., x_n+k\}$ $M1, M2, M3$ $D1$ $D2$ $D2$ $MSE_1, MSE_2,$ $MSE_3$

たとえば、、、、これらのMSEの計算に基づくデータセットサンプルの総数が2000 であるとします、、およびが大幅に異なることをどのようにテストできますか。誰かがこの問題で私を助けることができれば私は非常に感謝します。 $MSE_1=200$ $MSE_2=205$ $MSE_3=210$ $D2$ $MSE_1$ $MSE_2$ $MSE_3$

— マシュド
ソース

1

上記のリンクされた投稿の1つは、尤度比テストを使用することを示唆していますが、これを機能させるには、モデルを相互にネストする必要があります（つまり、モデルの1つにあるすべてのパラメーターが、テスト対象のモデルに存在する必要があります）。。

RMSEは、明らかにモデルがデータにどれだけ適合するかを示す尺度です。ただし、尤度比も同様です。チェン夫人によると、特定の人の可能性は、すべてのパラメータを持つ人が持っていた結果が得られた確率です。データセットの同時尤度は、チェン夫人の可能性*ガンダーセン夫人の可能性*ジョンソン夫人の可能性* ...などです。

共変量、または任意の数の共変量を追加しても、実際には尤度比を悪化させることはできないと思います。しかし、それは重要でない量によって尤度比を改善することができます。より適合するモデルは、可能性が高くなります。モデルAがモデルBに適しているかどうかを正式にテストできます。使用するソフトウェアでLRテスト関数を使用できるようにする必要がありますが、基本的に、LRテスト統計は-2 *尤度の対数の差であり、df =数の差でカイ二乗分布ですパラメータの。

また、2つのモデルのAICまたはBICを比較して、最も低いモデルを見つけることも可能です。AICとBICは基本的に、パラメーターの数に対してペナルティが課される対数尤度です。

RMSEにt検定を使用するかどうかはわかりませんが、その領域で行われた理論的な作業を見つけられない限り、実際にはそれを使用しません。基本的に、RMSEの値が漸近的に分布する方法を知っていますか？よく分かりません。ここでいくつかのさらなる議論：

http://www.stata.com/statalist/archive/2012-11/index.html#01017

— Weiwen Ng
ソース

0

この回答は、あなたのデータが時系列を形成しているという事実を考慮していませんが、これが問題になるとは思いません。

RMSEを使用する場合、この投稿はt検定の使用を提案しています：モデルのRMSEの有意性のテスト

ピアソンの相関を使用して、適合度を評価することもできます。この投稿によると、そのためにウルフのt検定を使用できます：相関の増加の統計的有意性

私は現在同じ問題について学ぼうとしています。自分自身でもっと詳細な回答をいただければ幸いです。

— ブーシェル
ソース

0

これを行うには主に2つの方法がありますが、最初に、1つだけを選択するという考えに挑戦します。ほとんどの場合、3つの別々のモデルのアンサンブルモデルは、すべての中で最高のパフォーマンスを実現します。

それを行うための主な、おそらく最良の方法は、モデルを使用して評価指標の周囲の信頼区間を取得することです。これは通常、ブートストラップ（またはポアソンブートストラップ）によって行われます。

もう1つの方法は、統計的検定を使用することです。すべてのテストは異なる仮定を行い、これらは多くの場合、単一点評価ではなく、分布から取得した値またはサンプルを比較するために使用されます。これらの統計的検定の多くは、正式に独立性を必要とします。時系列データに対して同じモデルまたは複数のモデルの複数の結果を比較する場合、通常はそうする必要はありません。

特に時系列予測では、相互検証を使用してバックテストを行い、トレインとテストエラーを毎回評価する必要があります（例）。これを行うと、モデルがすべて同じように機能するので、区別するための統計的検定が必要になるとは思いません。ほとんどの場合、大きな違いが見られます。

また、履歴評価メトリック（実績と予測の比較）だけでは予測評価には不十分であることにも注意してください。既知の履歴データに完全に適合する2つの予測があり、1つは将来に関する以前の信念にも一致し、もう1つは明らかに違反している（たとえば、1つがゼロに消えたが、それが起こらないと信じる理由がある場合）、予測を優先するそれはあなたの以前のものとよりよく一致します。

— マイケル・ブランデージ
ソース