密度予測は、損失関数が指定されている場合に、ポイント予測を超える価値を追加しますか?


7

密度予測は、ポイント予測よりも普遍的です。それらは、確率変数の具体的な関数(予測平均、中央値、変位値など)ではなく、確率変数の予測分布全体に関する情報を提供します。密度予測を利用できるため、さまざまなユーザーが関心のある関連要素(ポイント予測)を選択できます。一部のユーザーは、予測の評価に使用される損失関数(およびユーザーごとに異なる可能性があります)に応じて、予測平均に焦点を当てたり、予測中央値に焦点を合わせたりします。密度予測には確率関数に関するすべての確率的情報が含まれているため、密度予測があれば、損失関数に関係なくすべてのユーザーのニーズが満たされます。

ただし、具体的なユーザーを念頭に置いて、その損失関数を知っている場合、

  • 密度予測は、損失関数に合わせたポイント予測に対して付加価値を提供しますか?
  • 答えが一般的にいいえである場合、それをはいにするための条件は何ですか?

PS @hejsebは、損失関数に合わせたポイント予測と十分な統計との間に興味深い類似点を描きます。おそらくこれは答えを刺激することができます。


私の最初の考えに対する反例を含む@StephanKolassaの回答のおかげで、質問を拡張しました(2番目の部分を追加)。
Richard Hardy

密度予測をどのように生成していますか?
Glen_b-モニカを

@Glen_b、私はそのことを考えていません。この質問が一般的なポイントと密度の予測に役立つことを願っています。そうでない場合、具体化を提案できますか?
Richard Hardy

たとえば、損失予測に基づいて密度予測を取得した場合(たとえば、スケーリング定数まで指定されたいくつかのについてとすると)、それは、他の方法で導出されます。L=logff
Glen_b-2018

1
@Glen_b、私はもっと考えて、よりよく説明しようとします。これまでのご意見ありがとうございます!
Richard Hardy

回答:


5

たとえ損失関数がわかっていても、完全な密度がポイント予測よりも優れている1.5程度の現実的な状況を考えることができます。

  • ひどい状況は、ユーザーの損失関数がポイント予測だけでなく、両面に依存する状況です 、または密度全体、つまり損失関数は

    はい、通常、損失関数は単一ポイントの予測に依存するように定義されているため、ここでは命名法にゆとりがあります。それにもかかわらず、これらのような状況は発生します。たとえば、金融ボラティリティの予測などです。あるいは、私が働いている小売補充予測では、95%のサービスレベルを達成する必要があるかもしれません。そのため、一見すると、その(ポイント)分位予測だけに関心があるかもしれません。ただし、95%の変位値予測は4になる可能性がありますが、パックサイズ8で補充するように制限される可能性があります。このような状況では、8ユニットが何パーセントに対応するかを知ることは価値があります。

  • より適切な状況は、予測密度の関数に関心がある状況です。繰り返しになりますが、小売予測を考慮してください。配送スケジュールにより、私たちの補充注文は火曜日から木曜日の3日間をカバーする必要がある場合があります。ただし、毎日の粒度で予測します。したがって、需要の合計の95%分位予測に興味があるかもしれません。たたみ込みでは、完全な密度が必要です。(3日間のバケットの粒度で予測することもできますが、たとえば、バケットの途中でプロモーションが開始される場合は問題になります。)

お返事ありがとうございます。意思決定理論的には次のように考えています。ユーザーは、期待される有用性(負の期待される損失)を最大化するアクションを選択します。選択は予測に基づいています。密度予測が与えられた場合、ユーザーは、結果の予測密度に対してそのアクションの効用を統合することにより、特定のアクションの予想効用を計算できます。次に、彼/彼女はこの期待されるユーティリティを最大化するアクション(可能なすべてのものの中から)を選択します。ユーティリティ関数に一意の最大値がある(損失関数に一意の最小値がある)場合、最適なアクションは一意です。
Richard Hardy

重要なことに、結果の分布には、上記とまったく同じ期待効用をもたらすポイントが存在し、そのポイントが「関連する」ポイント予測のターゲットを定義します。したがって、2つの予測の品質が「同等に良好」である場合、ユーザーは、得られる予測が密度予測であるか「関連」ポイント予測であるかに関係なく、(可能なすべてのアクションで)まったく同じ最大化期待ユーティリティを取得します。あなたの例のどれかがこれに違反していますか?
Richard Hardy

おそらく、予測間隔の[に基づくアクション]の例は有効な反例ですが、疑わしいです(上記の意思決定理論的な観点に基づく)...次に、OPのステートメントを修飾する方法を考えます(いくつか追加します)条件)に答えて、「密度予測には付加価値がない」という答えを正しくします。もちろん、これはあなたの答えを無効にすることではなく、私自身が状況をよりよく理解するためだけのものです。スコアリングルールに関して、スコアリングルールが特定のユーザーの損失関数として直感的に理解できる例を取得することも興味深いでしょう。(+1)
リチャードハーディ

実際、密度予測と同様の議論が区間予測にも当てはまります。私の回答の議論は、与えられた損失関数に対して、区間予測は関連するポイント予測を超えた付加価値を持たないことを示唆しています。予測に応じた損失関数については、ユーザーが予測に合わせてアクションを調整すると可能ですが、間隔または密度予測を関連するポイント予測に置き換えることができ、ポイント予測に基づいて損失関数が定式化されます。
Richard Hardy

つまり、損失は必然的に結果に依存しますが、間隔または密度の予測がポイント予測に置き換えられる場合は、必ずしもその予測に依存するわけではありません。結果は損失関数の基本的な引数ですが、ユーザーがさまざまなタイプの予測(点vs間隔vs密度)から選択できる場合、予測のタイプは異なります。したがって、最初の例は有効な反例ではありません。2番目の例も有効ではないようです。あなたが言うように、3日間のバケット粒度で予測することもできるからです。
Richard Hardy

4

背景(省略可能)

以下のように意思決定論的に考えていきます。ユーザーはアクションを選択する必要がありますa 一連の可能性の中で 。アクションは彼/彼女にいくつかの「実用性」(経済学で一般的に使用される概念)をもたらしますあなたa;s 自然の状態に応じて s それは将来実現され、 sS、可能なすべての状態のセット。(効用は基本的に損失のネガティブであり、以下のことは効用または損失のいずれかに関して同等に再定式化できます。)ユーザーは、アクションに対して予想される効用を最大化する(または予想される損失を最小化する)ことを目的とします。

最高aESあなたa;s

行動の選択は、実現される自然の状態の予測に基づいています。密度予測が与えられたf^S、ユーザーは、自然状態の予測分布に対するそのアクションの効用を統合することにより、特定のアクションの予想効用を計算できます。

ES^あなたa;s=あなたa;sf^Ssds
次に、彼/彼女はこの期待されるユーティリティを最大化するアクションを(可能なすべてのものから)選択します。 a^:=arg最高aES^あなたa;s。この密度予測について、このアクションでのユーティリティの期待値はあなた^:=あなたa^

ユーティリティ関数に一意の最大値がある(損失関数に一意の最小値がある)場合、最適なアクションは一意です。自然の状態が連続確率変数である場合、分布(自然の状態)に正確に次の点が存在します。 あなた^。そのポイントは、「関連する」ポイント予測のターゲットを定義します。彼は取得予報が密度予報や「関連」ポイント予報(自然の特定の状態の単位確率質量)であるかどうかしたがって、ユーザーは関係なく、まったく同じ(可能なすべてのアクションを介して)最大期待効用を得るでしょう、提供2つの予測の品質は「同等に良好」です(後者を直感的に理解するのが最も簡単なのは、ポイントと密度予測の両方が完全な場合を検討することです)。

主要部分(詳細は背景を参照)

予測の有用性は、特定のユーザーが被る損失によって完全に反映されると想定するのが妥当だと思います。次に、ユーザーの目的は、予想される損失を最小限に抑える予測を選択することです。したがって、予測された分布が与えられた場合、ユーザーは、予想される損失を最小限に抑える具体的な関数(たとえば、予測平均)をとります。残りの予測密度には、ユーザーにとって付加価値はありません。

損失関数に一意の最小値がある場合、関数は単一値となり、その値がユーザーに関連するポイント予測になります。たとえば、ユーザーの損失関数が2次(真の分布の平均で一意の最小値を持つ)である場合、ユーザーは平均の予測のみを考慮します。別のユーザーが絶対的な損失に直面している場合(真の分布の中央値に固有の最小値があります)、そのユーザーは中央値の予測のみを気にします。それぞれの平均と中央値の予測に加えて、これらのユーザーのいずれかに密度予測を提供することは、それらに付加価値がありません。

Elliott and Timmermann(2016a)はp。423-424(密度予測の評価に関して):

[密度予測を評価する] 1つの方法は、密度予測をポイント予測に変換し、ポイント予測評価のメソッドを使用することです。密度予測を評価するこの単純なアプローチは、いくつかの理由で適切な場合があります。<...> [D]密度予測は、さまざまな損失関数を持つ複数のユーザーがいるという理由で正当化できます。これらのユーザーのいずれかが、自分の問題に適切と見なされる特定の損失関数を参照して、密度予測のパフォーマンスを調査する場合があります。予測パフォーマンスの関連する測定値は、各ユーザーの特定の損失関数から計算された平均損失です。

さらに、既知の損失関数を考えると、次の2つの理由により、密度予測は関連するポイント予測よりも劣る場合があります。まず、密度予測は通常、ポイント予測よりも作成が困難です。第2に、予測されている分布全体の特定のポイント(たとえば、平均または中央値)での精度/精度を、精度/精度とトレードオフする可能性があります。つまり、全体の密度を予測する場合、他の場所でより高い精度/精度を得るために、平均の予測のためにいくつかの精度/精度を犠牲にする必要があるかもしれません。エリオットとティンマーマン(2016B)書き込み、

文献で人気のあるスコアリングルールと個々のユーザーの潜在的な損失関数の関係は明確ではありません。したがって、使用されるスコアリングルールは、一部のユーザーが構築することを望む条件付き分布の特徴の不十分な推定を提供する可能性があります。

同様の引用は、Elliott and Timmermann(2016a)、p。277-278:

予測密度の提供は、ポイント予測の報告よりも優れているように思われます。これは、(a)損失関数と組み合わせてポイント予測を作成できるためです。(b)損失関数に依存しない。予測密度の古典的な推定では、これらの点はどちらも実際には成り立ちません。<...> [I] n古典的な設定の推定予測分布は、損失関数に依存します。予測密度のすべてのパラメーターを推定する必要があり、これらの推定にはいくつかの損失関数が必要なため、損失関数は混合に戻されます。ここでの問題は、密度推定によく使用される損失関数が、ポイント予測に使用される損失関数と一致しないため、ポイント予測が悪くなる可能性があることです。<...>さらに、

したがって、損失関数が指定されている場合、分布全体を予測しようとするのではなく、損失関数に合わせた特定のポイントの予測に焦点を当てることが理にかなっています。これは、実行が簡単であるか、正確である可能性があります。

私にとっての重要な質問:「関連する」ポイント予測は、未知の密度の関数として表現できず、密度によって異なる(その値だけではなく、関数として)異なるのではないでしょうか。次に、密度予測が必要なポイント予測を見つけるために密度予測が必要になり、密度予測はポイント予測プロセスの避けられないステップになります。

参照:

  • Elliott、G.&Timmermann、A.(2016a)。経済予測。プリンストン:プリンストン大学出版局。
  • Elliott、G.&Timmermann、A.(2016b)。経済学と金融の予測経済学年次レビュー、8、81-110。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.