3つのことについて質問します。(a)複数の予測を組み合わせて単一の予測を取得する方法、(b)ここでベイジアンアプローチを使用できる場合、および(c)ゼロ確率を処理する方法。
予測の組み合わせは、一般的な方法です。複数の予測がある場合、それらの予測の平均を取る場合よりも、結果として得られる予測の組み合わせは、個々の予測のいずれよりも精度の点で優れているはずです。それらを平均するために、重みが逆誤差(すなわち精度)または情報内容に基づいている加重平均を使用できます。各ソースの信頼性に関する知識があれば、各ソースの信頼性に比例する重みを割り当てることができるため、ソースの信頼性が高いほど、最終的な結合予測に大きな影響を与えます。あなたの場合、信頼性に関する知識がないため、各予測の重みは同じであるため、3つの予測の単純な算術平均を使用できます
0%×.33+50%×.33+100%×.33=(0%+50%+100%)/3=50%
@AndyWと@ArthurBによるコメントで提案されたとおり。、単純な加重平均以外の方法も利用できます。このような方法の多くは、専門家の予測を平均化することに関する文献に記載されていますが、私はこれまで詳しくはありませんでした。専門家の予測を平均化する際に、専門家が平均に回帰する傾向があるという事実を補正したい場合があります(Baron et al、2013)、または予測をより極端にします(Ariely et al、2000; Erev et al、1994)。これを達成するために、個々の予測変換、たとえばロジット関数を使用できます。pi
logit(pi)=log(pi1−pi)(1)
乗の確率a
g(pi)=(pi1−pi)a(2)
ここで、、またはより一般的な形式の変換0<a<1
t(pi)=paipai+(1−pi)a(3)
ここで、の場合、変換は適用されず、a > 1の個々の予測がより極端にされる場合、0 < a < 1の予測がより極端にならない場合、下の写真に示されるもの(Karmarkar、1978; Baron et al、2013を参照) )。a=1a>10<a<1
このような変換後、予測は平均化されます(算術平均、中央値、加重平均、またはその他の方法を使用)。式(1)または(2)が使用された場合、(1)の逆ロジットおよび(2)の逆オッズを使用して、結果を逆変換する必要があります。あるいは、幾何平均を使用することもできます(Genest and Zidek、1986;参照:Dietrich and List、2014)
p^=∏Ni=1pwii∏Ni=1pwii+∏Ni=1(1−pi)wi(4)
またはSatopääet al(2014)によって提案されたアプローチ
p^=[∏Ni=1(pi1−pi)wi]a1+[∏Ni=1(pi1−pi)wi]a(5)
ここで、は重みです。ほとんどの場合、他の選択肢を示唆するアプリオリ情報が存在しない限り、等しい重みw i = 1 / Nが使用されます。このような方法は、専門家の予測を平均化するために使用され、自信不足または過剰自信を修正します。それ以外の場合は、予測を最大または最小に変換することを正当化する必要があるかどうかを検討する必要があります。wiwi=1/N
雨の確率に関する先験的な知識がある場合は、ベイズの定理を適用して、ここで説明したのと同様の方法で雨の先験的な確率を与えられた予測を更新できます。適用することができる簡単な方法、あなたのすなわち計算加重平均もあるのp i個の事前確率予測(上述したように)πは、いくつかの予め指定された量で追加のデータ点として扱われるW πこれとIMDBの例は、(参照ソース、またはここと議論のためにここ ; cf. Genest and Schervish、1985)、すなわちpiπwπ
p^=(∑Ni=1piwi)+πwπ(∑Ni=1wi)+wπ(6)
しかし、あなたの質問から、あなたがあなたの問題について先験的な知識を持っているわけではないので、おそらく均一な事前を使用するでしょう。すなわち、事前に の雨の可能性を仮定します。50%
ゼロを処理するには、いくつかの異なるアプローチが可能です。まず、あなたは気づくべきであると言うので、雨の可能性は、本当に信頼できる値ではないことは不可能雨が降ること。同様の問題は、自然言語処理で発生する可能性のある値をデータで確認しない場合によく発生します(たとえば、文字の頻度をカウントし、データでは珍しい文字がまったく発生しないなど)。この場合、確率の古典的な推定量、すなわち0%
pi=ni∑ini
niidpi=0ni=0
β
pi=ni+β(∑ini)+dβ
The common choice for β is 1, i.e. applying uniform prior based on Laplace's rule of succession, 1/2 for Krichevsky-Trofimov estimate, or 1/d for Schurmann-Grassberger (1996) estimator. Notice however that what you do here is you apply out-of-data (prior) information in your model, so it gets subjective, Bayesian flavor. With using this approach you have to remember of assumptions you made and take them into consideration. The fact that we have strong a priori knowledge that there should not be any zero probabilities in our data directly justifies the Bayesian approach in here. In your case you do not have frequencies but probabilities, so you would be adding some very small value so to correct for zeros. Notice however that in some cases this approach may have bad consequences (e.g. when dealing with logs) so it should be used with caution.
Schurmann, T., and P. Grassberger. (1996). Entropy estimation of symbol sequences. Chaos, 6, 41-427.
Ariely, D., Tung Au, W., Bender, R.H., Budescu, D.V., Dietz, C.B., Gu, H., Wallsten, T.S. and Zauberman, G. (2000). The effects of averaging subjective probability estimates between and within judges. Journal of Experimental Psychology: Applied, 6(2), 130.
Baron, J., Mellers, B.A., Tetlock, P.E., Stone, E. and Ungar, L.H. (2014). Two reasons to make aggregated probability forecasts more extreme. Decision Analysis, 11(2), 133-145.
Erev, I., Wallsten, T.S., and Budescu, D.V. (1994). Simultaneous over-and underconfidence: The role of error in judgment processes. Psychological review, 101(3), 519.
Karmarkar, U.S. (1978). Subjectively weighted utility: A descriptive extension of the expected utility model. Organizational behavior and human performance, 21(1), 61-72.
Turner, B.M., Steyvers, M., Merkle, E.C., Budescu, D.V., and Wallsten, T.S. (2014). Forecast aggregation via recalibration. Machine learning, 95(3), 261-289.
Genest, C., and Zidek, J. V. (1986). Combining probability distributions: a
critique and an annotated bibliography. Statistical Science, 1, 114–135.
Satopää, V.A., Baron, J., Foster, D.P., Mellers, B.A., Tetlock, P.E., and Ungar, L.H. (2014). Combining multiple probability predictions using a simple logit model. International Journal of Forecasting, 30(2), 344-356.
Genest, C., and Schervish, M. J. (1985). Modeling expert judgments for Bayesian updating. The Annals of Statistics, 1198-1212.
Dietrich, F., and List, C. (2014). Probabilistic Opinion Pooling. (Unpublished)