xgb-forecastの信頼区間


8

専門家!たぶん、xgboostの信頼区間を計算する方法を知っていますか?私のデータは通常は分布されていないため、t分布のある古典的な数式は役に立ちません。または関係ありませんか?

いくつかの文献を提案する場合、それは非常に便利ですが、RおよびPython(ライブラリxgbのコンテキスト)でのアプローチも適切です。

おそらく、このように見えますが、どのように計算しますか?そしてこれを見つけまし -それは正しいですか?

PS:データに関連する画像(リンクの制限)を追加できません。申し訳ありません。


これは分類の問題ですか?データが正常ではないと言うとき、多変量正常を意味しますか?
Michael R.Chernick

@MichaelChernickいいえ、回帰の問題です。データには多変量正規という名前を付けることができると思います。これは、さまざまな都市や子会社に関する情報が含まれているためです。したがって、私の信頼区間は、各都市の分布に関連しています。
Lu Wao 2017年

問題は明確に述べられていません。これを判断する方法は、回帰問題でした。自分のリンクを見た上での分類だと感じました。それが回帰である場合、予測変数は1つと従属変数は1つだけですか?その場合は、あなたが話している回帰パラメーターのt分布を使用しています。また、x(予測変数)が指定されたy(従属変数)の特定の近似値、または新しい値yの予測間隔の場合もあります。
Michael R. Chernick

@MichaelChernickモデルでは、1つの依存変数と30以上の独立変数。はい、xgbは(最初は分類の問題を解決する)ツリーで機能しますが、回帰に使用しました。
Lu Wao 2017年

1
@ ab90hiしかし、あなたの答えに感謝します。わかったことですが、Rは自動的に間違った間隔を計算します:)
Lu Wao

回答:


4

これが答えです!

異常分散データの信頼限界を構築するには、デフォルトのように線形回帰ではなく、まず分位点回帰を構築する必要があります。これには、記事から派生した派生物を使用するか、Pythonでコードを単にコピーして、変数「目的」をカスタマイズする必要があります。勾配関数とガウス関数も変更する必要があります。すべてをプログラムした後、50番目の分位点の分位点回帰(これは初期回帰になります)を作成し、次に区間の2つの境界(たとえば、95と5)の2つの分位点回帰を作成します。その結果、初期回帰のより正確なモデルだけでなく、目的の間隔も得られます。


4
私たちは質疑応答の形で高品質の統計情報の永続的なリポジトリを構築しようとしています。したがって、linkrotのため、リンクのみの回答には注意が必要です。リンクが切れた場合に備えて、リンクに完全な引用と情報の要約を投稿できますか?
TEG-モニカを2017年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.