診断メトリック(


12

私は自分のモデルを適合させ、それが良いかどうかを理解しようとしています。私はそれを評価するために推奨されるメトリック(R2 / AUC /精度/予測誤差/など)を計算しましたが、それらを解釈する方法がわかりません。要するに、私のモデルがメトリックに基づいて良いかどうかはどのようにしてわかりますか?あるR2、私は推論やベース科学/ビジネス上の意思決定を描画するために進んでみましょうするのに十分な(例えば)0.6のは?


この質問は、メンバーが頻繁に遭遇するさまざまな状況をカバーするために、意図的に広くなっています。このような質問は、この質問の重複として閉じることができます。ここで説明したメトリックを超えて範囲を広げる編集、およびその他の回答、特に他のクラスのメトリックに関する洞察を提供するものは歓迎されます。


1
R2=0.6

2
R2R2=0.03R2=0.05

回答:


18

R2

R2R2

どうしてこれなの?私自身の経験からの例を使って説明します(細かい詳細は変更されました)。

R2

R2

R2

R2


これらの大きな期待の違いにつながるものは何ですか?環境。そのあいまいな用語は広大な領域をカバーしているので、それをいくつかのより具体的な要因に分けてみます(これはおそらく不完全です)。

1.見返り/結果/アプリケーションは何ですか?

R2

R2鳥の。数十年前までは、米国では約85%の精度が高いと考えられていました。今日、99%前後という非常に高い精度を達成することの価値は?どうやらという高い範囲で給与60,000多分に18万(いくつかの簡単なグーグルに基づいて)、年間ドル。人間の作業速度はまだ限られているため、同様の精度を達成できるが、ソートをより速く実行できる機械学習アルゴリズムは、何百万もの価値があります。

(私はあなたがこの例を楽しんだことを望みます–代替案はテロリストの非常に疑わしいアルゴリズムによる識別についての憂鬱なものでした)。

2.システム内のモデル化されていない要因の影響はどのくらい強いですか?

R2

3.測定はどのくらい正確で正確ですか?

R2

4.モデルの複雑さと一般化可能性

R2R2

R2R2

IMO、オーバーフィッティングは多くの分野で驚くほど一般的です。これを回避する最善の方法は複雑なトピックであり、これに興味がある場合は、このサイトで正規化の手順とモデルの選択について読むことをお勧めします。

5.データ範囲と外挿

R2

これとは別に、モデルをデータセットに適合させ、そのデータセットのX範囲外の値を予測する必要がある場合(つまり、外挿)、そのパフォーマンスが予想よりも低い場合があります。これは、推定した関係が、当てはめたデータ範囲の外で大きく変化する可能性があるためです。下の図で、緑色のボックスで示されている範囲でのみ測定を行った場合、直線(赤)がデータをよく表していると想像してください。しかし、その赤い線でその範囲外の値を予測しようとすると、かなり不正確になります。

ここに画像の説明を入力してください

[この図は、「モノ曲線」のグーグル検索で見つけたこの版の編集版です。

6.メトリクスは画像の一部のみを提供します

これは、実際にはメトリックを批判するものではありません。これらは要約であり、設計によって情報を破棄することも意味します。しかし、それは、どの単一の測定基準も、その解釈に重要であり得る情報を除外することを意味します。優れた分析では、単一のメトリック以上のものを考慮に入れます。


提案、修正、その他のフィードバックを歓迎します。そしてもちろん他の答えも。


3
R2R2

@Lewianフィードバックありがとうございます。ポイント2と3でカバーしたと思いましたが、改善できることがわかりました。その点をより明確にする方法を考えます。
mkt-モニカを

1
はい、これはすでにカバーされているかどうか考えました。2と3の問題は、これが発生する具体的な理由を示していることですが、これは一般的な問題です。
Lewian

@Lewian同意、私はいくつかの考えを与えます。
mkt-モニカを

2

この問題は、モデルが降水量と気候データから河川の流れをどの程度予測できるかを評価するときに、私の水文学の分野で発生します。一部の研究者(ChiewとMcMahon、1993)は93人の水文学者を調査し(63人が回答)、彼らが使用した診断プロットと適合統計の良さを確認しました。 。結果は現在日付が付けられていますが、アプローチはまだ興味深いかもしれません。彼らは、さまざまな品質のモデルフィットの結果を提示し、水文学者にそれらを4つのカテゴリに分類するように求めました(1)完全に許容できる結果。(2)受け入れ可能ですが、予約して使用します。(3)許容できない。他に選択肢がない場合にのみ使用する。(4)いかなる条件下でも絶対に使用しないでください。

最も重要な診断グラフは、キャリブレーションに使用されたデータからのシミュレーションおよび記録されたフローの時系列プロットと散布図でした。R二乗およびNash-Sutcliffeモデルの効率係数(E)は、適合度の統計の好ましい良さでした。たとえば、E => 0.8の場合、結果は許容できると見なされました

文献には他の例があります。北海の生態系モデルを評価する場合、次の分類が使用されましたE> 0.65優れ、0.5〜0.65非常に良い、0.2〜0.5程度が良い、<0.2程度が悪い(Allen et al。、2007)。

Moriasi et al。、(2015)は、さまざまなタイプのモデルのメトリックの許容値の表を提供します。

この情報と参照をブログ投稿にまとめました。

アレン、J.、P。ソマーフィールド、およびF.ギルバート(2007)、高解像度結合流体力学的生態系モデルにおける不確実性の定量化、J。Mar. Syst。、64(1–4)、3–14、doi:10.1016 /j.jmarsys.2006.02.010。

Moriasi、D.、Gitau、M。Pai、N。およびDaggupati、P。(2015)水文および水質モデル:ASABE(米国農業生物工学会)のパフォーマンス測定および評価基準トランザクション58(6): 1763-1785


0

上記の素晴らしい答えに追加するだけです-私の経験では、評価指標と診断ツールはそれらを使用する人と同じくらい優れて正直です。つまり、それらの背後にある数学を理解している場合は、人為的にそれらを増やして、実際のユーティリティを増加させずにモデルをより見栄えよくすることができます。

R2=0.03R2=0.05

上記は説明/参照を提供する素晴らしい仕事をするので、私はこの答えを短くしておきます。6.のセクションにいくつかの視点を追加したかっただけです。メトリックは、 mktの回答による画像の一部を提供するだけです

お役に立てれば。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.