いくら支払う?実用的な問題


66

これは在宅での質問ではなく、当社が直面している本当の問題です。

ごく最近(2日前)、10000個の製品ラベルの製造をディーラーに注文しました。ディーラーは独立した人です。彼はラベルを外部から製造し、会社はディーラーに支払いをします。各ラベルの費用は会社にとって1ドルです。

昨日、ディーラーにはラベルが付属していましたが、ラベルはそれぞれ100ラベルのパケットにバンドルされていました。このように、合計100個のパケットがあり、各パケットには10​​0個のラベルが含まれていたため、合計10000個のラベルがありました。ディーラーに10000ドルの支払いを行う前に、数個のパケットをカウントして、各パケットに100個のラベルが正確に含まれるようにしました。ラベルを数えると、100ラベルに満たないパケットが見つかりました(97ラベルが見つかりました)。これが偶然ではなく意図的に行われたことを確認するために、さらに5つのパケットをカウントし、各パケット(最初のパケットを含む)で次の数のラベルを見つけました。

Packet Number    Number of labels
1                97 
2                98  
3                96
4                100
5                95 
6                97  

すべてのパケットを数えることは不可能だったため、平均ベースで支払いを行うことにしました。したがって、6つのパケットのラベルの平均数は97.166であるため、合計支払い額は9716ドルでした。

統計学者がそのようなタイプの問題にどのように対処しなければならないかを知りたいだけです。
さらに、ラベル全体の実際の数を超えて支払われていないことを95%保証するために、いくら支払うべきかを知りたいと思います。

追加情報:

P(100個を超えるラベルを含むパケット)= 0
P(90個未満のラベルを含むパケット)= 0 = {パケットの重みが小さいため、パケットのカウント中に90未満のラベルが簡単に検出されます}


編集: ディーラーはそのような不正行為を単に否定した。これらのディーラーは、会社が支払っている金額についてメーカーから受け取る特定のコミッションに基づいて機能していることがわかりました。メーカーに直接連絡したところ、メーカーでもディーラーの欠陥でもないことがわかりました。製造業者は、「シートのサイズが標準化されていないためラベルが短くなり、1枚のシートから何でも切り取ってパケットにまとめます」と述べています。

さらに、追加の情報で与えられた最初のアサーション検証されます。これは、製造業者がシートのサイズのわずかな増加から、追加のラベルをカットできないこと、また、シートのサイズのわずかな縮小からはカットできないことを認めたためですまったく同じサイズの100個のラベル。


7
+1(1)「追加情報」セクションの最初の主張をどのように正当化できますか?(2)パケットをどれだけ正確に計量できますか?
whuberの

15
イングランドとアイザックニュートンは、300年前とまったく同じ問題に直面していました。(問題の「ラベル」は鋳造されたコインだったので、賭け金はいくぶん大きかった。)したがって、stat.wisc.edu / sites / default / files / TR442_0.pdfスティーブンスティグラーのPyxの試練の説明を読むことを楽しむかもしれない。
whuberの

7
@Neerajすべてのアイテムの重量に一貫性がある場合、配信全体の重量を測定するだけではどうですか?
モニカの復元

9
9000ドルを支払い、彼らが「しかし、1000ではなく600 だけをショートさせた」と言うのを待つことを申し出ます
ディーンマクレガー

5
別に偉大な統計の質問、1から、私は印刷事業における年からアドバイスのより直接的な作品を共有したいと思った:すべての適切な、プロのプリンタが持っているこのようなオーバーラン/アンダーランポリシーをほとんどのプリンタは、上の正確なカウントを提供していませんので、 「番号付け」を使用しないもの(個々のシリアル番号)。しかし、彼らは彼らがあなたに与えたものの優れた数を持っている必要があり、短絡された場合、マイナー(5%、例えば)以上であれば割引してください。既知のアンダーランの全額を請求することは標準的なポリシーではありません。
ブライアン

回答:


20

「Upon reflection ...」で始まる段落に関するフィードバックに興味があります。これは、モデルの特定の部分が夜間に私を追い続けているからです。

ベイジアンモデル

修正された質問は、シミュレーションを使用せずにモデルを明示的に開発できると考えさせます。サンプリング固有のランダム性により、シミュレーションにより追加の変動性が導入されました。しかし、ソフロジストの答えは素晴らしいです。

仮定:エンベロープごとのラベルの最小数は90で、最大数は100です。

したがって、ラベルの最小数は9000 + 7 + 8 + 6 + 10 + 5 + 7 = 9043(OPのデータで指定)、下限による9000、および観測データからの追加ラベルです。

意味封筒にラベルの数を。示し、90ラベルの数を、すなわち、そう。二項分布モデル成功の総数(ここで成功はエンベロープ中の標識の存在である)試験は、一定の成功確率と独立している試験に値をとるを取ると、11の異なる結果が得られます。シートのサイズは不規則であるため、一部のシートにはYiiXiX=Y90X{0,1,2,...,10}npX0,1,2,3,...,n.n=10X90を超える追加ラベル、および90を超える各ラベルのこの「追加スペース」は、確率独立して発生します。そうpXiBinomial(10,p).

(反映すると、独立した仮定/二項モデルはおそらく奇妙な仮定です。なぜなら、プリンターのシートの構成を事実上単峰性に修正し、データはモードの場所を変更することしかできませんが、モデルは決して認めないからですマルチモーダル分布。たとえば、代替モデルでは、プリンタのみが可能ですサイズ97、98、96、100、および95のシートがあります。これはすべての規定された制約を満たし、データはこの可能性を排除しません。各シートサイズを独自のカテゴリと見なし、ディリクレ多項モデルをデータに適合させる方が適切な場合があります。データが非常に少ないため、ここではこれを行いません。したがって、11の各カテゴリの事後確率は、事前確率によって非常に強く影響を受けます。一方、より単純なモデルをフィッティングすることにより、同様に、作成できる推論の種類を制限しています。)

各エンベロープは、 iid実現です。同じ成功確率の二項試行の合計も二項であるため、(これは定理です-検証するには、MGF一意性定理を使用します。)iXpiXiBinomial(60,p).

これらの問題はベイジアンモードで考えることを好みます。なぜなら、関心のある事後の量について直接確率ステートメントを作成できるからです。未知の持つ二項試行の典型的な事前分布ベータ分布であり、これは非常に柔軟です(0から1の間で変化し、いずれかの方向で対称または非対称、均一または2つのディラック質量のいずれかで、アンチモードまたはモードがあります)。 。それは素晴らしいツールです!)。データが存在しない場合、一様な確率を仮定するのが妥当と思われます。つまり、91枚、92枚、...枚、100枚、90枚のラベルに対応するシートを期待するかもしれません。したがって、pppBeta(1,1).このベータ事前確率が妥当でないと思われる場合は、均一な事前確率を別のベータ事前確率に置き換えることができ、数学の難易度も上がりません!

このモデルの共役特性により、の事後分布はです。ただし、ラベルの総数を気にするほどを気にしないため、これは中間ステップにすぎません。幸いなことに、共役の特性は、シートの事後予測分布がベータ二項であり、ベータ事後のパラメータを持つことも意味します。あり残りのラベルに、当社の事後モデルはのでreamining「裁判」、配信におけるそれらの存在が不確かであるために、すなわちラベルは、あるppBeta(1+43,1+17)p940ZZBB(44,18,940).

ここに画像の説明を入力してください

分布とラベルごとの値モデル(ベンダーはラベルごとに1ドルに同意している)があるため、ロットの値全体の確率分布を推測することもできます。表す多くの総ドルの価値を。私たちは、知っているするので、唯一のモデル、我々は分からないラベル。したがって、値の分布はによって与えられます。ZDD=9043+ZZD

ロットの価格設定を検討する適切な方法は何ですか?

0.025と0.975(95%間隔)の分位数は、それぞれ553と769であることがわかります。したがって、Dの95%間隔はです。支払いはその間隔内に収まります。(上の分布は正確に対称ではないため、これは中央の95%間隔ではありません。ただし、非対称性は無視できます。とにかく、以下で詳しく説明するように、中央の95%間隔が正しいかどうかはわかりません考慮すべきもの!)[9596,9812]D

Rのベータ二項分布の分位数関数を知らないので、Rのルート検出を使用して独自に作成しました。

qbetabinom.ab <- function(p, size, shape1, shape2){
    tmpFn <- function(x) pbetabinom.ab(x, size=size, shape1=shape1, shape2=shape2)-p
    q <- uniroot(f=tmpFn, interval=c(0,size))
    return(q$root)
}

それについて考える別の方法は、期待について考えることです。このプロセスを何度も繰り返した場合、支払う平均費用はいくらですか?の期待値を直接計算できます。DE(D)=E(9043+Z)=E(Z)+9043.E(Z)=nαα+β=667.0968E(D)=9710.097,

D

(もちろん、ベンダーが取引を受け入れたという事実は、彼が非負の実質損失を持っていることを教えてくれます...彼が申し出を受け入れたので、あなたはせいぜい損益分岐点でした。)

ブートストラップとの比較

処理する観測値は6つだけです。ブートストラップの正当化は漸近的であるため、小さなサンプルで結果がどのように見えるかを考えてみましょう。このプロットは、ブーストラップシミュレーションの密度を示しています。 ここに画像の説明を入力してください

「でこぼこ」パターンは、サンプルサイズが小さいことによるアーチファクトです。1つのポイントを含めたり除外したりすると、平均に劇的な効果があり、この「束のような」外観が作成されます。ベイジアンのアプローチは、これらの塊を滑らかにし、私の意見では、何が起こっているのかというより信じられない肖像です。縦線は5%の分位です。


それは素晴らしい答えです。リスクにペナルティを課すことにより、新しい洞察を提供しました。ありがとう
ニーラジ

1
私はあなたの予想される損失がたった6ドルだったことを知ってうれしく思いました。:-)すばらしい質問をありがとう。
モニカを

1
np0,1,2,3,....,n.n=10Xp
モニカ

1
0,1,2,3,...101,102,103,...,1061060X10


20

編集:悲劇!私の最初の仮定は間違っていました!(あるいは、少なくとも、売り手があなたに言っていることを信頼していますか?それでも、Mortenにヒントをお願いします。)これは統計のもう1つの良い紹介ですが、部分シートアプローチが以下に追加されます(人々は全体シートを好むように思われたので、おそらく誰かがそれをまだ便利だと思うでしょう。

まず、大きな問題。しかし、もう少し複雑にしたいと思います。

そのため、私がやる前に、もう少し簡単にして、今あなたが使用している方法は完全に合理的だと言っておきましょう。安くて理にかなっています。だから、もしあなたがそれに固執しなければならないなら、あなたは気分が悪くないはずです。バンドルをランダムに選択するようにしてください。そして、すべてを確実に計量できる場合(whuberとuser777へのヒント)、それを行う必要があります。

私がそれをもう少し複雑にしたい理由は、あなたがすでに持っているからです-あなたはちょうど私たちに全体の合併症について教えていない、つまりです- カウントには時間がかかり、時間もお金です。しかし、いくら?たぶん、実際にすべてを数えるほうが安いでしょう!

ですから、あなたが本当にしていることは、カウントにかかる時間と節約している金額のバランスを取ることです。(もちろん、このゲームは1回しかプレイしません。次回、これが売り手で発生した場合、彼らは追いついて新しいトリックを試したかもしれません。ゲーム理論では、これはシングルショットゲームと反復の違いです。ゲーム。しかし、今のところ、売り手が常に同じことをするふりをしましょう。)

しかし、推定に到達する前にもう1つ。(そして、あまりにも多くのことを書いて申し訳ありませんが、それでも答えが得られませんでしたが、それは統計学者が何をするかに対するかなり良い答えでしょうか?彼らがそれについて何かを言うことに抵抗する前に。)そして、それは以下に基づく洞察です:

(編集:実際にチートしている場合...)セラーはラベルを削除してもお金を節約できません。シートを印刷しないことでお金を節約できます。彼らはあなたのラベルを他の誰かに売ることはできません(私は推測します)。そして、多分、私は知らないし、あなたがそうするかどうかも知らない、彼らはあなたの物の半分のシートと他の誰かのものの半分のシートを印刷できない。つまり、カウントを開始する前に、ラベルの総数はであると仮定できます9000, 9100, ... 9900, or 10,000。それが今のところ私がアプローチする方法です。

全シート法

この問題のように問題が少し難しい(離散的で境界のある)場合、多くの統計学者が何が起こるかをシミュレートします。シミュレートしたものは次のとおりです。

# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
    bucket <- sample(which(stacks!=100),1)
    stacks[bucket] <- stacks[bucket] + 1
}

これにより、シート全体を使用しており、仮定が正しいと仮定すると、ラベルが(プログラミング言語Rで)配布される可能性があります。

それから私はこれをしました:

alpha = 0.05/2
for(i in 4:20){
    s <- replicate(1000, mean(sample(stacks, i)))
    print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}

これは、「ブートストラップ」法を使用して、4、5、... 20個のサンプルを使用して信頼区間を見つけます。つまり、平均して、N個のサンプルを使用する場合、信頼区間はどれくらいの大きさになりますか?これを使用して、シートの数を決定するのに十分小さい間隔を見つけ、それが私の答えです。

「十分に小さい」とは、95%の信頼区間に整数が1つしかないことを意味します。たとえば、信頼区間が[93.1、94.7]の場合、正しいシート数として94を選択します。それは整数です。

別の難しさ- あなたの自信は真実に依存しています。90枚のシートがあり、すべてのパイルに90個のラベルがある場合、非常に速く収束します。100枚と同じです。そこで、最大の不確実性が存在する95枚のシートを調べましたが、95%の確実性を確保するには、平均で約15個のサンプルが必要であることがわかりました。全体として、実際に何が存在するのか分からないため、15個のサンプルを取得したいとしましょう。

必要なサンプル数がわかったら、予想される節約量は次のとおりです。

100Nmissing15c

c50015

ただし、この作業をすべて実行させた場合は、その人にも請求する必要があります。

(編集:追加!)部分シートアプローチ

さて、メーカーが言っていることは真実であり、それは意図的なものではないと仮定しましょう-いくつかのラベルがすべてのシートで失われているだけです。あなたはまだ、全体的にいくつのラベルについて知りたいですか?

この問題は異なります。きれいな決定を下すことができなくなるためです。これは、Whole Sheetの仮定の利点でした。以前は11の答えしかありませんでした-現在、1100があり、正確にいくつのラベルがあるかについて 95%の信頼区間を取得すると、おそらく必要以上に多くのサンプルを取得することになります。それで、これについて違った考え方ができるかどうか見てみましょう。

これは本当にあなたが決定を下すことに関するものであるため、1つの取引でどれだけのお金を失うか、1つのスタックをカウントするのにどれだけのお金がかかるか、いくつかのパラメーターがまだありません。しかし、私はあなたができることをそれらの数字で設定させてください。

再度シミュレートします(ただし、ユーザー777を使用しない場合はuser777に依存しますが!)が、異なるサンプル数を使用する場合は間隔のサイズを確認することが有益です。これは次のように実行できます。

stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
    s <- replicate(1000, mean(sample(stacks, i)))
    q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])

(今度は)各スタックが90から100の間の一様にランダムな数のラベルを持っていると仮定し、以下を提供します:

サンプル数別の信頼区間の限界

もちろん、物事がシミュレートされたようなものであれば、真の平均はスタックあたり約95サンプルであり、真実よりも低いです。これは実際にベイジアンアプローチの1つの引数です。ただし、サンプリングを続けるにつれて、回答についてどれだけ確実になっているのかを知ることができます。また、サンプリングのコストを、価格設定に関する取引と明示的にトレードオフすることができます。

私が今知っていることですが、私たちは皆、本当に知りたいと思っています。


6
+1この分析は、問題に直接かつ創造的に対処します。(良い)統計学者は問題をどのように考えますか?シート数に注目することは貴重な洞察です。
whuberの

1
費用対効果のアプローチは素晴らしいアイデアです。すでに、この問題に費やされた総労働力は、Neeajが使用したn = 6サンプルからの284ドルの節約を超えていると思います。:)
ロバートF

1
素敵な答え。現在コーディングしているように、プリンタが完全なスタックを取得すると、余分なラベルを地面に落とすだけです。これはおそらく合理的です。しかし9000,9100...10000、最後に合計ラベルが必要な場合は、ifロジックを置き換えて bucket <- sample(which(stacks!=100),1)、常にスタックをインクリメントできます。
アダムC

1
ああ、ちょうど自分自身に気づいた!キャッチしてくれてありがとう。間違いなく間違い。
one_observation

1
信頼区間をどのように計算していますか?ブートストラップを使用していますか?
ロバートF

3

これはかなり限られたサンプルです。(コードスニペットはRにあります)

> sample <- c(97,98,96,100,95,97)

総人口の予想数と価格の95%信頼値での最初の推測では、平均と5%分位から始めます。

> 100*mean(sample)
[1] 9716.667
> 100*quantile(sample,0.05)
  5% 
9525 

さらに進むには、理論モデルを作成し、追加の仮定を作成する必要があります。不確実性にはいくつかの原因があります-(1)パケット充填のモデルの機能形式の不確実性、(2)モデルのパラメーターの推定の不確実性、および(3)サンプリング誤差。

pn=100p

> n <- 100
> (p<-1-mean(sample)/100)
[1] 0.02833333

n100np10

> (lambda <- n*p)
[1] 2.833333

λ=lambda

> var(sample)
[1] 2.966667

λr=100*lambda

> 100*100-100*lambda
[1] 9716.667
> 100*100-qpois(0.95,100*lambda)
[1] 9689

ppαβαβα=1β=0

α=1+583β=0+17

αβαβ

ここで、各パケットが独立して満たされると仮定すると、パケットのボックス全体を、100個のサブイベントの100個のイベントではなく、10000個の独立したイベントとして表示できます。したがって、平均は9717.138で、標準偏差は69.57153です。分布関数を使用すると、95%の信頼値を約9593として計算できます。VGAMそのために、Rパッケージをその*betabinom.ab機能に使用しました。

したがって、推定されたパラメーターの不確実性により、95%の信頼価格がほぼ100減少し、最初の単純な近似にかなり近くなります。

アプローチまたはモデルが何であれ、追加データを使用してモデルを検証できます。つまり、追加データが理論モデルの下で妥当であるか、調整または新しいモデルが必要かどうかを確認できます。モデリングプロセスは科学的手法に似ています。


2

ピンチでは、最初の傾向は、90および100ラベルの下限と上限の間にある切り捨てられた正規分布のサンプル平均の95%信頼区間を計算することです。

Rパッケージをtruncnorm使用すると、指定されたサンプル平均、サンプル標準偏差、下限、および上限が与えられたとき、切り捨てられた正規分布の信頼区間を見つけることができます。

比較的小さな母集団(N = 100)からn = 5のサンプルを取得しているため、サンプルの標準偏差に有限母集団係数= [(Nn)/(N-1)] ^を掛けることができます。 5 = 0.98。


5
カウントが離散的であり、取り得る値の数が少ない場合、切り捨てられた法線を仮定することの追加の複雑さは価値があるか、さらには有効であるかどうか疑問に思います。
whuber

@whuber-True、ただし信頼区間はサンプル平均の分布を超えており、これは連続的な量です。95%の信頼区間を使用するよりも、おそらく、93と99などの離散的な量の間の分布の下の領域を見つける方がよいでしょう。
RobertF

ただし、サンプル平均を処理するために切り捨てられたNormalは必要ありません。それは不必要な合併症のように見えます。
whuberの

1
CLTは、切り捨てられた正規分布に従うものがあることを主張しません。ブートストラップは、その有効性が漸近的な結果に依存するため、問題が発生する可能性があります。
whuberの

1
平均の標準偏差は範囲よりも急速に小さくなるため、切り捨ては実質的に無関係です。私たちは、不必要で恐らく気を散らす詳細によって複雑にされない実用的な解決策について話している。
whuberの

2

すばやく簡単なアプローチは、サイズ6のすべての可能なリサンプルを検討することです。置換は15,625のみです。これらを見て、各ケースの平均を取得し、平均をソートして5%分位を抽出すると、96の値が得られます。

したがって、支払おうとする金額は約9600です。これは、いくつかのより洗練されたアプローチとよく一致しています。

ここでの改善点は、サイズ6の多数のサンプルをシミュレートし、同じ手順を使用してサンプル平均の5パーセンタイルを見つけることです。100万を少し超えるリサンプルを使用して、5番目のパーセンタイルが96.1667であることがわかりました。したがって、最も近いドルでの支払いは9617ドルで、これはuser777の9615の結果とわずか2ドルの差です。


1
これがいくら支払うべきかに対する適切な答えである理由を説明していただけますか たとえば、サンプルの平均を使用しないのはなぜですか?
whuber

ラベルの数に合わせて支払いを行いたい場合は、サンプル平均を使用します。しかし、質問者は、自分が作ったよりも多くのラベルにお金を払わないという95%の保証を求めました。したがって、サイズ6のサンプルのサンプル平均の分布を把握し、5番目のパーセンタイルを使用します。
soakley

1
その説明を回答に含めるとよいでしょう。このリサンプリング手順が実際に有効または信頼性の高い信頼限界を生み出すと考える理由を説明することも検討できます。多くの大きなデータセットで使用できますが、このような小さなデータセットでも同じように使用できるかどうかを検討する必要があります。
whuberの

0

エラーは意図的に行われたと既に結論付けているようですが、統計学者はそのような結論にジャンプしません(証拠はこれを支持しているように見えますが)。

これを仮説検定として設定できます。

H0:ディーラーは正直ですが、かなりずさんです

H1:ディーラーは不正であり、不足分は意図的なものです。

H0を仮定すると、各偏差は平均= 0のランダムなイベントであり、正または負の確率が等しくなります。さらに、偏差が正規分布していると仮定します。6つのデータポイントの偏差に基づく正規分布の標準偏差は、sd = 1.722です。

統計学者が自分の理論をあまりよく覚えていないが、Rが近くにある(ありそうもないシナリオではない)場合、H0が本当。

numpackages=c(97,98,96,100,95,97)
error<-100-numpackages
errorStdev<-sd(error)
numSimulations<-1000000
max100orLes<-0
for(p in 1:numSimulations)
{
  simulatedError<-rnorm(6,mean=0,sd=errorStdev)

  packageDeviations<-round(simulatedError)

  maxValue<-max(packageDeviations)
  if(maxValue<=0)
  {
    max100orLes<-max100orLes+1
  }   
}
probH0<-100*max100orLes/numSimulations
cat("The probability the H0 is correct is:",probH0,"%")

シミュレーションの結果は次のとおりです。

The probability the H0 is correct is: 5.3471 %

ディーラーが正直である確率はわずか5.35%であり、したがって、詐欺の被害者である可能性が非常に高くなります。

これは宿題の問題ではなく、あなたの会社の実際の状況であると言うので、これは正しい予想番号ラベルの計算の演習ではなくなりますが、不正なサプライヤの扱い方のトリッキーなケースです。

ここからあなたがすることは、統計だけでは本当に答えられません。それは、あなたのレバレッジとディーラーとの関係に大きく依存します。

幸運を祈ります!

モーテン・ブネス・グスタフセン


1
17/61.72/60.7017/6/0.704.01000.00003

失敗は常に選択肢なので、私は間違いを犯したかもしれません...しかし、私の計算は私が提供したRコードに文書化されているので、どうやって結果を得たのか疑問に思うべきではありません。はい、私の場合のH0仮説は、ディーラーが正直であり、偏差は平均が100のランダムな変動であるということです。私の計算でのStdevは、シリーズのStdevのみです(-3、-2、-4、 0、-5、-3)これは各パッケージの100からの偏差です。
モーテンブネスグスタフセン

私は実際にこの標準偏差を使用し、6個のサンプルを描画し、それらのいずれも0より大きいかどうかを確認します。シミュレーションを1000,000回実行し、0を超えるサンプルを取得できなかったのは何回かですケースの5.35%であることが判明しました。私がこの角度を選んだ理由は、質問がそれが実際の状況(すなわち、学術的な運動ではない)であり、彼/彼女がこの場合統計学者が何をするかを知りたいと明示的に述べたからです。
モーテンブネスグスタフセン

3
また、この質問では、1つのパケットで100個を超えるラベルをカウントする可能性はないと述べています。とにかく、あなたがやったことは、データのように見える数値の大規模なシミュレーションですが、質問と関係がある場合(「いくら支払うべきか」)はあいまいです。
whuber

-2

多項モデルのようなものはどうですか。

各結果の確率は1 / 6、1 / 6、...(6つの観測に基づいて)と推定されるため、E(x)= 97.16およびVar(x)= sum(95 ^ 2 * 1/6 + ...)-E(x)^ 2 = 2.47したがって、95%CIは[94、100]になります


3
これは多項分布ではないように見えます。CIは分散の未修正の式を使用した標準理論区間のようです。それに、どのくらい支払うかという質問にどのように答えますか?
whuber

多項式は結果、すなわち95、96、97 ... 100に適用され、はいxe(x)/ sd〜NであるためCIは正常理論です* 100

4
多項仮定をまったく使用していないことに気づきましたか?WS Gossetが1908年に観察したように、CIは短すぎます。しかし、サンプルの平均のみに基づいて推奨事項を作成する場合、なぜCIを計算するのでしょうか。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.