平均二乗誤差と最小二乗誤差のどちらをデータセットと比較しますか?


8

同じシステムの3つのデータセットがあります。しかし、最初のものについては、21の測定があります。2番目と3番目の測定値は9つしかありません。次に、これら3つのデータセットを使用してモデルを作成しました(つまり、3つのモデル、データセットごとに1つ)。これら2つのデータセットの誤差を比較したい場合。LSE(最小二乗誤差)の代わりにMSEを使用することによる明確な利点はありますか?インターネットでは、これに対する明確な答えは見つかりません。主な利点は何ですか?

回答:


11

データからモデルを構築する方法と、モデルの構築後にモデルの精度を定量化する方法はわかりにくいと思います。

モデルを作成する場合(おそらく、線形回帰ではないでしょうか?)、線とデータポイント間の「合計」ユークリッド距離を最小化する最小二乗誤差法を通常使用します。理論的には、この線の係数は微積分を使用して見つけることができますが、実際には、アルゴリズムはより速い勾配降下を実行します。

モデルを取得したら、そのパフォーマンスを評価します。したがって、回帰の場合、平均して実際のデータポイント(またはテストセットデータがある場合はテストセットデータ)に対するモデルの「距離」を評価するメトリックを計算するとよいでしょう。MSEは、あなたが使いたいと思う良い見積もりです!

要約すると、LSEはモデルを構築する方法であり、MSEはモデルのパフォーマンスを評価するメトリックであることを覚えておいてください。


1
MatlabコマンドでLSQNONLINの2つのパラメーターを使用して、非線形の生物学的不活化モデルを作成しました。このコマンドを使用すると、最小二乗誤差が得られます。3つのデータセットに対してそれを行ったので、これらの最小二乗誤差のうち3つがあります。次に、両方のデータセットの精度を比較します。これらのLSEを互いに比較できないのはなぜですか?
トーマス

1
@Thomasデータセットの観測数は異なりますか?3つのモデルすべてをスコアリングするための最終データセットを保持しましたか?
Matthew Drury、2016

1
しかし、LSEとMSEの式はほとんど同じですよね?
QtRoS 2018年

2つのデータセットについて考えてみましょう。1つは10データポイント、もう1つは10,000データポイントです。それらが同じMSEを持っている場合、それらは同じLSEをもつことはできません-これが、「平均二乗誤差」の平均が使用される理由です。ポイント。「R2 = 1.0-(absolute_error_variance / dependent_data_variance)」として計算されるR-2乗(R2)も同様の理由で使用されます。つまり、モデリングで使用されるデータポイントの数とは無関係です。
James Phillips

3

MSE(平均二乗誤差)は二乗誤差の平均、つまり推定量と推定量の差です。MMSE(最小平均二乗誤差)は、MSEを最小化する推定量です。したがって、LSEとMMSEはどちらも推定量であるため、比較できます。LSEとMSEは、Anilが指摘しているように比較できません。理論的には、MMSEとLSEの間にはいくつかの重要な違いがあります。
MMSEはプロセスのすべての実現に最適であり、LSEは特定のデータ自体に最適です。これは、MMSEがアンサンブル平均(期待値)を使用するのに対し、LSEは時間平均を使用するためです。

実際の意味は次のとおりです。1. MMSEの場合、データの2次統計特性(相互相関と自己相関)を知る必要がありますが、LSEの場合はデータのみが必要です。自己相関と相互相関は計算コストが高く、正確な計算には多くのデータポイント/実験が必要です。2. MMSE係数はプロセスに最適であるため、プロセスのすべてのデータセットに最適であり、LSEは特定のデータセットにのみ最適です。データセットが変更された場合、LSE係数は最適のままではありません。

また、プロセスがエルゴードで、データポイントの数が無限に近づくと、MMSEはLSEに近づきます。


0

Anil Narassiguinによる現在の最初の回答は誤解を招くと思います。「LSEはモデルを構築する方法であり、MSEはモデルのパフォーマンスを評価する指標です。」

これは単に真実ではありません。基本的には、どちらも損失/コスト関数です。どちらも反復中に現在の予測の誤差を計算するため、重みを最適化できます。

ただし、LSEは分類の問題に使用され、MSEは回帰の問題に使用されます。これがこの2つの主な違いだと思います。そのため、どのような問題が発生しているか、分類の回帰を把握する必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.