分類の問題については、ニューラルネットワークを使用して、このリソース (ミラー)に従って混同行列とその測定値を使用してタイプIおよびIIのエラーを測定してきました。これは非常に簡単です。
推定の問題に直面した場合、モデルのパフォーマンスをどのように評価しますか?クラスがなく、出力が実際の形式で解釈されると仮定します。距離測定基準の平均化を超えて、それは多くの洞察を与えません。
分類の問題については、ニューラルネットワークを使用して、このリソース (ミラー)に従って混同行列とその測定値を使用してタイプIおよびIIのエラーを測定してきました。これは非常に簡単です。
推定の問題に直面した場合、モデルのパフォーマンスをどのように評価しますか?クラスがなく、出力が実際の形式で解釈されると仮定します。距離測定基準の平均化を超えて、それは多くの洞察を与えません。
回答:
あなたが投稿したリンクには、私が提案するテクニックの多くが含まれていますが、さらに学習曲線をプロットすることも役立ちます。これは、絶対的なパフォーマンスだけでなく、最適なパフォーマンスからどれだけ離れているかを理解するのに役立ちます。
学習曲線:交差検証(cv)エラーとトレーニングセットのエラー率とトレーニングセットのサイズをプロットすると、多くのことを学ぶことができます。2つの曲線が低いエラー率で互いに近づいていれば、問題はありません。
曲線が互いに近づき始め、両方の方向が低くなっている場合は、より多くのデータが必要です。
CVカーブが高いままで、トレーニングセットカーブが低いままである場合は、分散の状況が高くなります。より多くのデータを取得するか、正規化を使用して一般化を改善できます。
cvが高いままで、トレーニングセットカーブがそれを満たすようになっている場合は、バイアスが高くなっています。この場合、モデルに詳細を追加します。
参照scikit-学ぶドキュメンテーション(機械学習のためのPythonベースのパッケージ)、r2_scoreと人気のある選択肢はexplained_variance_scoreです。mean_squared_errorやmean_absolute_errorなどの距離測定とは異なり、これらのメトリックは、予測がどの程度良いか悪いかを示します(1に近いほど=>より良い予測)。[ちなみに、距離メジャーを使用する場合は、大きさを予測と比較できるように、MSE(平均二乗誤差)ではなくRMSE(二乗平均平方根誤差)をお勧めします]
または、ピアソンの相関係数(線形モデルの場合)を使用して、リグレッサの予測値と真のターゲット変数値の間の相関係数を計算するか、スピアマンの順位相関係数(線形モデルを想定しておらず、外れ値の影響を受けにくいため)を使用することもできます。 )。
John Yetterの回答で提案されている学習曲線も良い方法ですが、上記のメトリックはパフォーマンスを評価する方が簡単な場合があります。