回答:
「予測」と「推定」は、非技術的な文章で実際に互換的に使用されることがあり、同様に機能するように見えますが、統計問題の標準モデルでは明確に区別されます。 推定の間、パラメータを推測するために使用するデータの予測は、データセットの一部ではない、いくつかのランダムな値を推測するためのデータを使用しています。 統計での「パラメーター」と「ランダム値」の意味に慣れていない人のために、以下に詳細な説明があります。
この標準モデルでは、データは確率変数(おそらく多変量)観測を構成すると仮定されます。推定、数学的手順であるの各可能な値に割り当てる、いくつかの特性自然状態の例えばその平均値として、。したがって、推定値は自然の真の状態に関する推測です。と 比較することで、推定値がどれだけ良いかわかります。 X X T (X)θ μ (θ )μ (θ )
予測子 、別のランダム変数の独立した観察に関する分布性質の真の状態に関連しています。 予測とは、別のランダム値についての推測です。をによって実現される値 と比較することによってのみ、特定の予測がどれほど優れているかを知ることができます。平均して、合意が良好であることを願っています(可能なすべての結果を平均し、同時にすべての可能な値を平均するという意味で)。Z p (x)Z x Z
通常の最小二乗は標準的な例です。 データは、従属変数の値を独立変数の値に関連付けるペア構成されます。自然の状態は、3つのパラメーター、、およびによって指定されます。各は、平均および標準偏差正規分布からの独立した描画のようなものです。 、、およびは、固定されていて変化しないと考えられるパラメーター(数値)です。関心の焦点Y I X 、I α β σ Y I α + β X I σ α β σ α β (α、β)α α β β α β(切片)および(勾配)。OLS推定値、書き込ま、という意味で良い近くになる傾向にあるととなる傾向があります近くに、の真(未知)の値に関係なく、どのようなとあるかもしれません。
OLS 予測では、独立変数の値に関連付けられた従属変数の新しい値を観察します。 は、データセット内のに含まれる場合と含まれない場合があります。それは重要ではありません。直感的に良い予測の1つは、この新しい値が近い可能性が高いことです。より良い予測では、新しい値がどれだけ近いかがわかります(予測間隔と呼ばれます)。それらは、とが不確かであるという事実を説明します(それらは数学的にランダムな値に依存しているためです)X X X I α + β X α β(Y I)σ Y (X )σ α + β X)、が特定されていない(したがって推定する必要がある)こと、およびが標準偏差および平均(帽子がないことに注意してください!)。
特に、この予測には2つの不確実性の原因があることに注意してください。データの不確実性は、推定勾配、切片、および残差標準偏差()の不確実性につながります。さらに、値が発生するかについて不確実性があります。はランダムであるため、この追加の不確実性は予測を特徴付けます。予測は推定のように見えることがあり(結局、は推定します :-)、まったく同じ数式(は、と同じになることがありますσ Y (X )Y (X )α + β X α + β X P (X)T (X) )、ただし、推定よりも大きな不確実性が伴います。
ここで、OLSの例では、明確に区別されます。推定値はパラメーター(固定だが未知の数)を推測し、予測はランダムな量の値を推測します。潜在的な混乱の原因は、予測は通常、推定されたパラメーターに基づいており、推定器と同じ式を持っていることさえあるということです。
実際には、次の2つの方法で推定器と予測器を区別できます。
目的:推定はランダム変数の結果を推測しようとする一方で、推定器は自然の真の状態の特性を知ることを求めます。そして
不確実性:ランダム変数の結果に不確実性が追加されるため、通常、予測変数は関連する推定変数よりも大きな不確実性を持ちます。したがって、十分に文書化され記述された予測子には、通常、信頼区間として知られる推定量の不確実性帯域よりも広い不確実性帯域、つまり予測区間が付属しています。予測区間の特徴は、データセットが大きくなると(仮説的に)縮小できることですが、幅がゼロに縮小することはありません-ランダムな結果の不確実性は「縮小不能」です。一方、信頼区間の幅はゼロに縮小します。これは、十分な量のデータがあると推定の精度が勝手に良くなるという直感に対応しています。
これを潜在的な投資損失の評価に適用する場合、まず目的を検討します。特定の期間中にこの投資(またはこの特定の投資バスケット)で実際にどれだけ失う可能性があるかを知りたいですか、それとも本当に予想される損失(おそらく投資の大規模な範囲で)?前者は予測であり、後者は推定です。次に、不確実性を考慮します。データを収集して分析を実行するためのリソースがほぼ無限にある場合、答えはどのように変わりますか?それが非常に正確になる場合、おそらく投資の期待収益率を推定しているのに対して、答えについて非常に不確実なままであれば、予測をしていることになります。
したがって、どの動物を扱っているのかまだわからない場合は、推定者/予測者に次の質問をしてください。 (1)と(2)の両方の基準を使用して、自分が持っているものを知ることができます。
モデルに違いはありません。実際、実行されたアクションには(わずかな)違いがあります。推定とは、データ(AI用語では「学習」)を使用した確率モデルのキャリブレーションです。予測は、将来の観測の「推測」です。この「推測」が過去のデータに基づいていると仮定すると、これは推定の場合です。人口の平均身長の推定値を使用して、あなたが会おうとしている次の人の身長の予測など。ただし、予測は常に推定のインスタンスではないことに注意してください。あなたが会おうとしている次の人の性別は、古典的な意味での人口のパラメータではありません。性別を予測するには、ある程度の推定が必要になる場合がありますが、さらにいくつかが必要になります...
バリュー・アット・リスクの場合は、あなた以来の予測と推定一致の予測損失は、ある推定損失の期待。
通常、「推定」はパラメーター用に予約され、「予測」は値用です。ただし、「明日価値を予測する」のではなく、「明日価値を見積もる」などのようなものを見たことがあるかもしれません。
バリューアットリスク(VaR)は興味深いケースです。VaRはパラメータではありませんが、「予測VaR」とは言いません。「VaRを推定する」と言います。どうして?
VaRが分布を知っている場合、およびVaRを計算するには分布を知る必要がある場合、VaRがランダムな量ではない理由。したがって、パラメトリックVaRアプローチを使用している場合は、まず分布のパラメーターを推定してからVaRを計算します。あなたはノンパラメトリックのVaRを使用している場合は、直接見積もりあなたがパラメータを推定する方法をと類似のVaRを。この点では、変位値に似ています。
一方、損失額はランダムな値です。したがって、損失を予測するように求められた場合、損失を予測するのではなく予測することになります。繰り返しますが、時々「推定」損失と言います。そのため、先ほど書いたように、線はぼやけています。
私は以下の定義の説明を見つけます:
推定とは、結果の計算された近似値です。この結果は予測である可能性がありますが、必ずしもそうではありません。たとえば、昨日午後5時のゴールデンゲートブリッジの車の数は、マリンに向かう3車線が満員で、各車が30フィートのスペースを取り、ブリッジの長さが9000フィートであると仮定すると、900台であったと推定できます( 9000/30 x 3 = 900)。
外挿は、推定値が既知の値から何らかのパターンに従うと仮定して、既知の値の範囲外の変数の値を推定します。外挿の最も単純で最も一般的な形式は、既知のデータに基づいて線形トレンドを推定することです。線形外挿の代替には、多項式および円錐外挿が含まれます。推定と同様に、外挿は予測に使用できますが、予測に限定されません。
予測は単に未来について何かを言っているだけです。通常、予測は結果に焦点を当てており、それらの結果への経路ではありません。たとえば、2011年の低採用から2050年までに完全に採用されるまでの経緯を説明することなく、2050年までにすべての車両に電気モーターが搭載されると予測できます。前の例からわかるように、予測は必ずしもデータに基づいているわけではありません。
予測は、予測または予測を行うプロセスです。予測と予測という用語はしばしば同じ意味で使用されますが、予測が結果への経路の説明を提供することが多いため、予測と予測が区別される場合があります。たとえば、電気自動車の採用予測には、2025年までに電気自動車がほとんどなく、急速に採用された2030年に変曲点が発生し、その後の電気自動車の大半が電気になるS字型の採用パターンに従う完全な電気自動車の採用への経路が含まれる場合があります2040年。
推定、外挿、予測、および予測は、相互に網羅的な用語ではなく、集合的に網羅的な用語です。複雑な問題の長期的な予測では、妥当な結果を得るために、外挿以外の手法を使用する必要があります。予測や予測は、いかなる種類の計算された推定なしでも発生する可能性があります。