さまざまなソースからの確率/情報の組み合わせ


26

3つの独立したソースがあり、それぞれが明日の天気を予測するとします。最初の人は明日の雨の確率が0であると言い、2番目の人は確率が1であると言い、最後の人は確率が50%であると言います。その情報が与えられた場合の合計確率を知りたいです。

独立したイベントに乗算定理を適用すると、0になりますが、これは正しくないようです。すべてのソースが独立している場合、3つすべてを乗算できないのはなぜですか?新しい情報が得られたときに事前を更新するベイジアンの方法はありますか?

注:これは宿題ではなく、私が考えていたものです。


1
あなたは独立した情報源がどのように信頼性が知っていますか
ディリップSarwate

いいえ、先験的に、すべてのソースが同等に信頼できると仮定します。
ビエラディエラ

3
これも私が考えている良い質問です。2番目の質問を追加します。すべての予測が0.75だった場合、結合された確率はどうなりますか?0.75より高い?この種の質問を分析するための正式なフレームワークは何でしょうか?
カルステンW.

2
本当に十分な情報がありません。予測が現実にどのように関連すると予想されるかのモデルが必要です。
Glen_b-モニカを

情報源が確率または信頼/信頼レベルに関する記述を提供する場合、「すべての情報源が同等に信頼できる」とはどういう意味なのかよくわかりません。確かな確率が与えられた価値を持っている確率について話している場合、それは概念的な問題を引き起こしているようです。ところで、ソース1とソース2が同等に信頼できる場合、それらは両方とも確率0.50 ...で正しくなければなりません(そして雨の確率は1/2です)。
AG

回答:


32

3つのことについて質問します。(a)複数の予測を組み合わせて単一の予測を取得する方法、(b)ここでベイジアンアプローチを使用できる場合、および(c)ゼロ確率を処理する方法。

予測の組み合わせは、一般的な方法です。複数の予測がある場合、それらの予測の平均を取る場合よりも、結果として得られる予測の組み合わせは、個々の予測のいずれよりも精度の点で優れているはずです。それらを平均するために、重みが逆誤差(すなわち精度)または情報内容に基づいている加重平均を使用できます。各ソースの信頼性に関する知識があれば、各ソースの信頼性に比例する重みを割り当てることができるため、ソースの信頼性が高いほど、最終的な結合予測に大きな影響を与えます。あなたの場合、信頼性に関する知識がないため、各予測の重みは同じであるため、3つの予測の単純な算術平均を使用できます

0%×.33+50%×.33+100%×.33=(0%+50%+100%)/3=50%

@AndyW@ArthurBによるコメントで提案されたとおり。、単純な加重平均以外の方法も利用できます。このような方法の多くは、専門家の予測を平均化することに関する文献に記載されていますが、私はこれまで詳しくはありませんでした。専門家の予測を平均化する際に、専門家が平均に回帰する傾向があるという事実を補正したい場合があります(Baron et al、2013)、または予測をより極端にします(Ariely et al、2000; Erev et al、1994)。これを達成するために、個々の予測変換、たとえばロジット関数を使用できます。pi

(1)logit(pi)=log(pi1pi)

乗の確率a

(2)g(pi)=(pi1pi)a

ここで、、またはより一般的な形式の変換0<a<1

(3)t(pi)=piapia+(1pi)a

ここで、の場合変換は適用されず、a > 1の個々の予測がより極端にされる場合、0 < a < 1の予測がより極端にならない場合、下の写真に示されるもの(Karmarkar、1978; Baron et al、2013を参照) )。a=1a>10<a<1

ここに画像の説明を入力してください

このような変換後、予測は平均化されます(算術平均、中央値、加重平均、またはその他の方法を使用)。式(1)または(2)が使用された場合、(1)の逆ロジットおよび(2)の逆オッズを使用して、結果を逆変換する必要があります。あるいは、幾何平均を使用することもできます(Genest and Zidek、1986;参照:Dietrich and List、2014)

(4)p^=i=1Npiwii=1Npiwi+i=1N(1pi)wi

またはSatopääet al(2014)によって提案されたアプローチ

(5)p^=[i=1N(pi1pi)wi]a1+[i=1N(pi1pi)wi]a

ここで、は重みです。ほとんどの場合他の選択肢を示唆するアプリオリ情報が存在しない限り等しい重みw i = 1 / Nが使用されます。このような方法は、専門家の予測を平均化するために使用され、自信不足または過剰自信を修正します。それ以外の場合は、予測を最大または最小に変換することを正当化する必要があるかどうかを検討する必要があります。wiwi=1/N

雨の確率に関する先験的な知識がある場合はベイズの定理を適用して、ここで説明したのと同様の方法で雨の先験的な確率を与えられた予測を更新できます。適用することができる簡単な方法、あなたのすなわち計算加重平均もあるのp i個の事前確率予測(上述したように)πは、いくつかの予め指定された量で追加のデータ点として扱われるW πこれとIMDBの例は、(参照ソース、またはここと議論のためにここ ; cf. Genest and Schervish、1985)、すなわちpiπwπ

(6)p^=(i=1Npiwi)+πwπ(i=1Nwi)+wπ

しかし、あなたの質問から、あなたがあなたの問題について先験的な知識を持っているわけではないので、おそらく均一な事前を使用するでしょう。すなわち、事前に の雨の可能性を仮定します。50%

ゼロを処理するには、いくつかの異なるアプローチが可能です。まず、あなたは気づくべきであると言うので、雨の可能性は、本当に信頼できる値ではないことは不可能雨が降ること。同様の問題は、自然言語処理で発生する可能性のある値をデータで確認しない場合によく発生します(たとえば、文字の頻度をカウントし、データでは珍しい文字がまったく発生しないなど)。この場合、確率の古典的な推定量、すなわち0%

pi=niini

niidpi=0ni=0

β

pi=ni+β(ini)+dβ

The common choice for β is 1, i.e. applying uniform prior based on Laplace's rule of succession, 1/2 for Krichevsky-Trofimov estimate, or 1/d for Schurmann-Grassberger (1996) estimator. Notice however that what you do here is you apply out-of-data (prior) information in your model, so it gets subjective, Bayesian flavor. With using this approach you have to remember of assumptions you made and take them into consideration. The fact that we have strong a priori knowledge that there should not be any zero probabilities in our data directly justifies the Bayesian approach in here. In your case you do not have frequencies but probabilities, so you would be adding some very small value so to correct for zeros. Notice however that in some cases this approach may have bad consequences (e.g. when dealing with logs) so it should be used with caution.


Schurmann, T., and P. Grassberger. (1996). Entropy estimation of symbol sequences. Chaos, 6, 41-427.

Ariely, D., Tung Au, W., Bender, R.H., Budescu, D.V., Dietz, C.B., Gu, H., Wallsten, T.S. and Zauberman, G. (2000). The effects of averaging subjective probability estimates between and within judges. Journal of Experimental Psychology: Applied, 6(2), 130.

Baron, J., Mellers, B.A., Tetlock, P.E., Stone, E. and Ungar, L.H. (2014). Two reasons to make aggregated probability forecasts more extreme. Decision Analysis, 11(2), 133-145.

Erev, I., Wallsten, T.S., and Budescu, D.V. (1994). Simultaneous over-and underconfidence: The role of error in judgment processes. Psychological review, 101(3), 519.

Karmarkar, U.S. (1978). Subjectively weighted utility: A descriptive extension of the expected utility model. Organizational behavior and human performance, 21(1), 61-72.

Turner, B.M., Steyvers, M., Merkle, E.C., Budescu, D.V., and Wallsten, T.S. (2014). Forecast aggregation via recalibration. Machine learning, 95(3), 261-289.

Genest, C., and Zidek, J. V. (1986). Combining probability distributions: a critique and an annotated bibliography. Statistical Science, 1, 114–135.

Satopää, V.A., Baron, J., Foster, D.P., Mellers, B.A., Tetlock, P.E., and Ungar, L.H. (2014). Combining multiple probability predictions using a simple logit model. International Journal of Forecasting, 30(2), 344-356.

Genest, C., and Schervish, M. J. (1985). Modeling expert judgments for Bayesian updating. The Annals of Statistics, 1198-1212.

Dietrich, F., and List, C. (2014). Probabilistic Opinion Pooling. (Unpublished)


2
I wanted to add to this rather than start a new answer. Another well known method is to combine the three (or N) probabilities by taking their geometric mean (rather than their arithmetic mean). Hinton points out that this gives a model with a very high or low probability, the 'veto' power amongst others, rather than averaging everything which may at times work against you.
Zhubarb

So, if the three forecasts were all 75%, and no information on their reliability is available, the final forecast would be 75%?
Karsten W.

@KarstenW. yes, why would you expect something different? If you have no a priori information, than this is the only information that you have, so you have no reason to consider the final result to be different...
Tim

1
Haven't read any of Tetlock's academic papers, but I would start there. Such as Two Reasons to Make Aggregated Probability Forecasts More Extreme. I will look up Phil's exact wording, I may be mis-remembering the word extremify.
アンディW

1
I was close with extremified, but not quite. I should have used extremized, see here. Besides the Baron et al. paper mentioned, I see Ville Satopää has some work on the topic arxiv.org/abs/1506.06405.
Andy W

6

There are two way to think of the problem. One is to say that the sources observe a noisy version of the latent variable "it will rain / it will not rain".

For instance, we could say that each source draws its estimates from a Beta(a+b,a) distribution if it will rain, and a Beta(a,a+b) distribution if it will not.

In this case, the a parameter drops out and the three forecast, x, y, and z would be combined as

p=11+(1x1)b(1y1)b(1z1)b

b is a parameter controlling how under (b>1) or over (b<1) confident the sources are. If we assume that the sources estimates are unbiased, then b=1 and the estimate simplifies as

p1p=x1xy1yz1z

Which is just saying: the odds of rain is the product of the odds given by each source. Note that it is not well defined if a source gives an estimate of exactly 1 and another gives an estimate of exactly 0, but under our model, this never happens, the sources are never that confident. Of course we could patch the model to allow for this to happen.

This model works better if you're thinking of three people telling you whether or not it rained yesterday. In practice, we know that there is an irreducible random component in the weather, and so it might be better to assume that nature first picks a probability of rain, which is noisily observed by the sources, and then flips a biased coin to decide whether or not it is going to rain.

In that case, the combined estimate would look much more like an average between the different estimates.


What would x, y, z be in this model?
Karsten W.

It would be the three different predictions.
Arthur B.

The example you were wondering about would be x=y=z=34. In the framework I suggested as a reasonable choice, you would have p=2728. This is because 34 represents 3 to 1 odds, so the product represents 27 to 1 odds, or a 2728 probability.
Arthur B.

Going from 3/4 to 27/28 is a bit extreme, it is like three people were telling you that the sky is dark blue and you concluded it is black...
Tim

It depends on the model. Here I'm assuming each source has a noisy view on a latent binary variable, rain or no rain. It's more like three different people tell you it rained yesterday. You can also model the system as there being a latent probability of rain and the forecast sources as getting a noisy version of that forecast.
Arthur B.

3

In the framework of Transferable Belief Model (TBM), it is possible to combine different predictions using for instance the "conjunctive rule of combination". In order to apply this rule, you need to transform the probabilities of the predictions into basic belief assignments. This can be achieved with the so-called Least-Committed-Principle. In R:

library(ibelief)
#probabilities
p1 <- c(0.99, 0.01) # bad results for 0 and 1
p2 <- c(0.01, 0.99)
p3 <- c(0.5, 0.5)

# basic belief assignment, 
# each row represents a subset of (rain, not rain)
# each column represents one prediction
Mat <- LCPrincple(rbind(p1,p2,p3))

# combine beliefs
m <- DST(Mat, 1)

# resulting probability distribution (pignistic probability)
mtobetp(m)
# returns 0.5 and 0.5

For the second example of three independent predictions of 0.75, this approach returns a higher value:

p4 <- c(0.75, 0.25)
Mat <- LCPrincple(rbind(p4,p4,p4))
m <- DST(Mat, 1)
mtobetp(m)
#returns 0.9375 0.0625

This is not very far from the Bayesian approach shown in Arthur B's answer.


2

I think it's worthwhile to look at the weighting scheme based on inverse errors mentioned in one of the answers. If the sources are truly independent and we constrain the weights to sum to one, the weights are given by

w1=σ22σ32σ12σ22+σ12σ32+σ22σ32, w2=σ12σ32σ12σ22+σ12σ32+σ22σ32, w3=σ12σ22σ12σ22+σ12σ32+σ22σ32.

If, as the OP states, the forecasts are equally reliable, then all weights will simplify to 13 and the combined forecast for the given example will be 50%.

Note that the values of σi do not need to be known if their relative proportions are known. So if σ12:σ22:σ32=1:2:4, then the forecast in the example would be

f=814(0)+414(1)+214(0.5)=0.3571

1

Their numbers for rain likelihood is only half the story, as we'd have to temper their predictions with the probability that they are accurate when making guesses.

Because something like rain is mutually exclusive(it's either raining or isn't, in this setup), they cannot all simultaneously be correct with 75% probability as Karsten suggested (I think, hard to tell with the confusion I hear about what it means to find "combined probability").

Taking into consideration their individual abilities to predict the weather, we could take a stab (a la Thomas Bayes, as in a generally blind shot in the dark) at what the chance of rain is tomorrow.

Station 1 is correct in their predictions 60% of the time, the second 30% of the time, and the last station a poor 10% of the time.

E[rain]=PxX+PyY+Pz*Z is the form we're looking at here:

(.6)(0)+(.3)(1)+(.1)(.5) = E[rain] = 35% chance of rain with made up prediction accuracies.


1
This algorithm can produce values above 1.
Andy W

1

There are a lot of complicated answers given to this question, but what about the Inverse Variance Weighted Mean: https://en.wikipedia.org/wiki/Inverse-variance_weighting

Instead of n repeated measurements with one instrument, if the experimenter makes n of the same quantity with n different instruments with varying quality of measurements...

Each random variable is weighted in inverse proportion to its variance.

The inverse-variance weighted average seems very straightforward to calculate and as a bonus has the least variance among all weighted averages.


-1

For combining reliability, my go-to formula is r1xr2xr3÷(r1xr2xr3+(1-r1)x(1-r2)x(1-r3). So for the 3 sources of reliability 75% all saying the same thing, i would have .75^3 ÷ (.75^3 + .25^3) => 96% reliability of the combined response


1
This doesn't seem to be a proper answer to the question.
Michael R. Chernick

Admittedly, it was more of a response to KarstenW comments than a direct response to the question.
user3902302
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.