予測の信頼スコアを取得するにはどうすればよいですか？

7

回帰問題で、XGBoostやニューラルネットワークなどのモデルを指定して、特定の予測の信頼性/信頼性スコアを計算することはできますか？

machine-learning neural-network regression decision-trees xgboost

— ロドリゴネイダー
ソース

回答:

7

モデルに関係なく、常にノンパラメトリックブートストラップを使用して、予測（実際にはランダム変数ですが、期待値として報告されます）を含む任意のパラメーターの信頼区間を作成できます。一般的な手順は次のとおりです。

してみましょうトレーニングデータに観測値の数を表し、およびその予測、特定の観測表す、あなたがのためにCIをしたいが。 $N$ $X$ $x_j$ $\hat{y}_j$
ましょうリサンプリング反復のいくつかの数を示す（ある必要がありカバーするためCI） $K$ $\ge 20$ $\ge 95\%$
以下のために中、ドローから無作為標本を交換に。これを表す $i$ $K$ $N$ $X$ $X_i^{*}$
上のモデルをトレーニングおよび上予測を形成するために、このモデルを使用。これを呼びます $X_i^{*}$ $x_j$ $\hat{y}^{*}_{ji}$
サンプルから分布パラメーターを推定します。 CIは次式で与えられとのパーセンタイル。 $\hat{y}_j$ $100 - \alpha$ $\frac{\alpha}{2}$ $100 - \frac{\alpha}{2}$ $\hat{y}^{*}_{j}$

— デビッドマルクス
ソース

1

既にトレーニングされているモデルに対してこの信頼区間を取得する方法はありますか？

— Rodrigo Nader

1

私が知っていることではありません。残差がiidのふりをしている場合（おそらくこれらのモデルにはない）、残差の分布を直接推定し、そこから予測区間を導き出すことができます。それがあなたのニーズに合っているかどうかはわかりません。モデルが多かれ少なかれ「確実」である予測を特定しようとしている場合、これはあなたにそれを与えません。

— デビッドマルクス

@davidmarxなぜiidの仮定が必要なのですか？十分な検証データがある場合、推定するパラメーターとしてエラーを見て、それらを推定するための2番目の回帰モデルを作成できませんか？

— ihadanny

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。

Licensed under cc by-sa 3.0 with attribution required.