予測区間には平均が含まれている必要がありますか?


8

私が思いついた概念的な問題で大きな問題を抱えています。

ある会社が非常に歪んだ分布をしているとしましょう。指数関数または対数正規関数に似たもので、さらに極端なもの。ここで、分布が歪んでいると仮定して、分布の平均が分布の99%パーセンタイルよりも高くなるようにします。(別名1-2の極端に高い値により、他の分布と比較して平均が非常に高くなりました)。

定義により、この分布が将来の値(別名分布からのランダムサンプル)を予測するために使用された場合、平均が95%予測間隔に含まれないのは本当ですか?

私の脳では、95%の予測間隔は、すべての将来の値の95%がその間に入る範囲です。どの分布でも、これは下限の.025パーセンタイル、および上限の.975パーセンタイルに正確に等しい必要があります...平均が.975パーセンタイルよりも高い場合、平均は'95%内にありません。予測間隔」。

私はこれを間違って考えていますか?予測を次のように報告するのは奇妙に思えます

  • 平均予測値:6,000,0000
  • 95%予測間隔:[400,5000]。

1
まったく意味のない分布から値を予測するときはどうしますか?なぜそのような分布を予測するのはおかしいと思いますか?
whuber

Actuall Whuber ...意味のない分布から値を予測するときはどうしますか...意味がないのでモンテカルロはできません...変数自体の分布を表示できます...多分中央値を使用しますか?私は実際にはその質問への答えを知りません、そして多分それは混乱の一部です。
Anotherdream 2015年

混乱の一部はこれだと思います。これに非常に似た動作をする変数の予測区間を指定するように言われました。「予測ポイント推定値」は、6か月の移動平均でした。ただし、6か月の移動平均は上位パーセンタイルよりも高かったので、私の「予測間隔」には「予測の見積もり」が含まれていませんでした。誰もが、平均値は最初から使うのに悪い値だと言っているようです(私はそれを見ることができます...私はこれを構築しなかったのです)。私はそれを正しくフォローしていますか?おそらく別の値を「予測ポイント推定値」として使用する必要がありますか?
Anotherdream 2015年

あなたの最初のコメントは、それが不必要に平均を導入するように思われる方法で興味深いです。変数自体の分布の良いシミュレーションができたら、なぜそれは良い予測をするのに十分な情報ではないのですか?将来の価値はその分布の本体内にある可能性が高いのではないでしょうか?その場合、なぜ平均値が関連するのでしょうか?
whuber

Whuber。私はあなたの言っていることに完全に同意します。...この例では平均はまったく関係がないようです...しかし、シミュレーションを実行し、「変数」(この場合)を使用した場合、平均)をポイント推定値として使用し、残差がひどく歪んでいる場合、歪んだポイント推定値を取得し、残差からランダムにサンプリングして結果を加算することで、元の分布を簡単に再作成できます。「偏った」推定値と残差距離から元の距離を作り直しました...では、元の推定値はどのような用途ですか?
Anotherdream 2015年

回答:


7

いいえ、予測区間に平均を含める必要はありません。あなたの混乱のいくつかは、予測区間と信頼区間の混合かもしれないと思う。予測区間の目標は確率変数の将来の値を確実に含めることですが、信頼区間の目標は分布の真の平均を含めることです。

高度に歪んだディストリビューションで述べたように、これらのアイデアは互いに矛盾しているようです。重要なことは、提供される各統計の値を認識することです。

平均の予測値は次のとおりです。

1)累積:より多くのサンプルが入ると、それらの平均は真の平均に向かう傾向があります。したがって、累積値に関心がある場合(たとえば、ギャンブルで勝ち負けに対処する場合、累積効果に関心がある場合)、平均は非常に役立ちます。

2)二乗残差を最小化する:二乗残差はいくぶん任意の関心量ですが、予測が最小化しているものを知ることは価値があります。

ただし、予測の絶対誤差を最小限に抑えることが目標である場合、6,000,000の平均予測値は、私が求めるものではありません。


時間jlimahaverfoldをありがとう。だから私があなたを正しく理解していれば、次の真の声明です(私はそう思います、それはちょうど「間違っている」と感じます)。「平均」を使用して「ポイント」推定が与えられた変数があり、残差が非常に非正規(たとえば、指数関数的)である場合、残差分布から基本的にランダムにサンプリングすることで、「予測分布」を得ることができます10k回(モンテカルロ)そして新しく作成された分布は予測間隔でしょうか?これはこのようにする方法だと思いますが、正しく理解していることを確認したい
Anotherdream

私の質問をもう少し明確にするために。誰かが6か月間の移動平均予測を行ったが、この推定値に通常の残差がなかった場合...残差分布からサンプリングし、その値を平均予測ポイント推定値に追加してから計算することにより、予測分布を作成することは正しいですか?この結果の分布のパーセンタイルからの95%予測間隔?また、高度に歪んだデータの特定の予測で絶対誤差を最小限にしたい場合は、「平均」以外に何をするかを指定できますか?もう一度、私は本当にあなたの助けに感謝します!
Anotherdream 2015年

質問の解釈にまだ問題があります。私が探しているものを明確にさせてください。ランダム変数Xとデータ{x1、x2、... xN}があります。この6か月の移動平均は\ sum_ {j = i} ^ {i + 180} x_i / 180の線に沿ったものだと思います。これらの線に沿った何か。絶対残差を最小化することについて私が言ったことについては、それは単に別の目的関数です。平均は残差の2乗の合計を最小化しますが、これは絶対残差を最小化する必要はありませんが、一部の値(必ずしも一意ではない)は最小化します。
jlimahaverford 2015年

+1、予測区間と信頼区間について考えられる混乱について非常に良い点。ちなみに、予想される絶対誤差を最小限にしたい場合は、予測分布の中央値をポイント予測として使用します(ここを参照)。もちろん、これは常に(中央の)予測間隔に含まれます。
Stephan Kolassa、2015年

ステファン。あなたのコメントはBUNCHに役立ちます。これは、これらの見積もりの​​将来に起こる必要があることだと思います。本当に問題は平均がそのような歪んだ分布の使用を開始するための間違った場所だったと思います...しかし、それらはここから始まったので、私は何ができるかと混乱しました... 「予測ポイント推定値」として、それに限界を与える?私は予測に非常に
慣れて

1

サンクトペテルブルクのパラドックスで考えられる収益の分布を考えてみましょう。

確率(1)= 1/2

確率(2)= 1/4

確率(4)= 1/8 ...確率(2 ^ n)= 1/2 ^(n + 1)

平均は発散し、妥当な予測間隔の範囲外です。(この場合、中央値は1ですが、ポイント予測に何を使用するかわかりません。おそらく、上記のStephan Kolassaが示唆しています。)

別の複雑な問題があり ます。ある分布(先ほど述べた分布以外)に対して95%の予測間隔が必要だとします。2.5%タイルから97.5%タイルに行くのか、0から95番目に行くのか、5番目から100番目に行くのか...?答えはおそらくあなたが質問をしている理由に依存します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.