失敗がなかった場合、失敗の確率をどのように見分けるのですか？

50

1年間に100,000個の製品が故障せずに故障している場合、何かが故障する確率（製品）を判断する方法があるのだろうか？販売される次の10,000製品の1つが失敗する確率はどのくらいですか？

probability survival binomial

— メロン
ソース

4

何かがこれが本当の信頼性の問題ではないと教えてくれます。このような低い故障率の製品はありません。

— アクサカル

統計から実際の成功/失敗率の確率までを推測する前に、可能性のある成功/失敗率の分布のモデルが必要です。あなたの説明は、そのような分布を推測/推定するための基礎をほとんど与えません。

— –RBarryYoung

1

@RBarryYoungは提供された回答を確認してください-問題に対する興味深い有効なアプローチはほとんどありません。これらのアプローチに同意しない場合は、自由にコメントしたり、独自の回答を提供してください。

— ティム

2

@Aksakal-高い価値を備えた単純な製品であり、障害が発生した場合（手術器具など）にテストおよび検査のレベルを通過する（場合によっては独立している）認定）リリース前。もちろん、逆の場合もあります。製品の値が非常に低いため、エンドユーザーが欠陥製品の問題を報告していない可能性があります（ガムボールメーカーの欠陥率は報告された1/100000未満ですか？）。それと新しいものを試みます。

— ジョニー

モトローラが思いついた@Johnny、

6 σ

$6\sigma$ 彼らは3億のの製品あたりの故障、またはそのような何かがあることを誇りに使用。

— アクサカル

43

製品が故障する確率は、確かに時間と使用の関数です。使用に関するデータはありません。1年で障害は発生しません（おめでとうございます！）。したがって、この側面（生存関数と呼ばれる）は、データから推定することはできません。

ただし、1年以内の失敗は二項分布から引き出されると考えることができます。まだ障害はありませんが、これは今や一般的な問題です。簡単な解決策は、3のルールを使用することです。これは、大きな（これは確かにあります）で正確です。具体的には、1年以内の真の故障確率のとして、片側95％信頼区間の上限（つまり、下限は）を取得できます。あなたの場合、あなたは95％の割合が未満であると確信しています。 $N$ $0$ $3/N$ $0.00003$

また、次の10kの1つ以上が失敗する確率を計算する方法を尋ねました。上記の分析を拡張するための迅速かつ簡単な（極端ではありますが）方法は、基になる確率として上限を使用し、対応する二項CDFを使用して、失敗がならない確率を取得することです。コードを使用すると、次のことができます。次の1万個の製品で1つ以上の障害が発生する可能性があります。上限を使用したことで、これはむしろ、あなたがそれをする確率は非常に低いと言うことができ、少なくとも一つの障害を有する確率の最適点推定値ではありませんの障害が複数ある $0$ R1-pbinom(0, size=10000, prob=0.00003)0.2591851 $\ge 1$ $\approx 26\%$ （これはやや「手で波打つ」フレーミングであることを認識しています）。別の可能性は、ラプラスの継承規則からの推定値の@amoebaの提案を使用することです。継承のルールでは、推定される失敗の確率はであり、は失敗の数です。その場合、との予測確率の計算次万の障害であり得、又は $(F+1)/(N+2)$ $F$ $\hat p = 9.9998\times 10^{-06}$ $1^+$ 1-pbinom(0, size=10000, prob=9.9998e-06)0.09516122。 $\approx 10\%$

— gung-モニカの回復
ソース

3

+1。「3のルール」について聞いたことがありません。3のルールと「ラプラスの継承のルール」の間には何か関係があるのだろうか？後者によると（正しく適用した場合）、失敗の確率は

と推定されます。

1 / (N + 2)

$1/(N+2)$

— アメーバは、モニカを復活させる

14

@amoebaこの3のルールは、95％の片側信頼限界です。故障カウントに二項分布

があると仮定します。その場合、障害が発生しない可能性は

です。より大きいことを作るために

、解決

ため

。使用

小さいため

、溶液は、

(n, p)

$(n,p)$

(1 - p)^{n}

$(1-p)^n$

5 %

$5\%$

(1 - p)^{n} \geq 0.05

$(1-p)^n\ge 0.05$

p

$p$

\log (1 - p) \approx - p

$\log(1-p)\approx -p$

p

$p$

。以来

、我々が得

。それが「3のルール」です。信頼レベルを調整する場合に「3」を変更する方法がわかったので、知っておく価値があります。また、

以上のレートを検出するために必要な最小

を見つけるためにそれを反転できます。

p \leq - \log (0.05) / n

$p\le -\log(0.05)/n$

0.05 = 1 / 20 \approx e^{3}

$0.05=1/20\approx e^3$

p \leq 3 / n

$p\le 3/n$

n

$n$

p

$p$

— whuber

1

@amoebaで述べたように、故障確率よりも前に統一した。異なる事前確率はかなり異なる結果につながると信じています。

— イェールダオン

1

編集は順調に進んでいます（+1）。ただし、解釈の問題が発生します。本当の潜在的なチャンスを完全に確信していないため、チャンスが

超えないことを「確信」していません。

には「上限」はありませんが、信頼限界の上限のみがあります。将来のイベントの予測を行うときは、（a）予測し、（b）境界を提供する必要があります。上の境界私たちを与える：このようなそれを見

とき、

、

独立して、条件付きで

26 %

$26\%$

p

$p$

Y

$Y$

X \sim Binomial (n, p)

$X\sim\text{Binomial}(n,p)$

Y \sim Binomial (m, p)

$Y\sim\text{Binomial}(m,p)$

。これらの境界は、

基づく

予測区間です。

X = 0

$X=0$

Y

$Y$

X

$X$

— whuber

2

「3つのルール」に賛成です。私は何年も前に「米国医師会誌」への短いメモでそれを見ました。jama.jamanetwork.com/article.aspx?articleid

— DWin

25

ベイジアンアプローチを取ることができます。失敗の確率をで示し、確率変数と考えます。あなたが実験の結果を見る前に先験的には、あなたが信じているかもしれない。あなたはこの製品は信頼性を高めるためにエンジニアを信頼する場合は、多分あなたは取ることができまたはそう。これはあなた次第です。次に、ベイズの定理を使用して、事後分布を計算できます。意味あなたが観察したことをイベント（ゼロで障害が発生した実験）。 $\Theta$ $\Theta \sim U(0,1)$ $\Theta \sim U(0,0.1)$ $\theta$ $A$ $n$

すべてが単純です：は均一なので、は一定です。実験を実行するため、は、bernouli試行で失敗しない確率であり、失敗の確率はです。

p （ Θ = θ | A ） = \frac{p （ A | Θ = θ ） p （ Θ = θ ）}{p （ A ）} = \frac{p （ A | θ ） p （ θ ）}{\int p （ A | θ ） p （ θ ） d θ} 。

$p(\Theta = \theta | A) = \frac{p (A | \Theta = \theta) p(\Theta = \theta )}{p(A)} = \frac{p (A |\theta) p(\theta )}{\int p (A |\theta) p(\theta )d\theta}.$

Θ

$\Theta$

p (θ)

$p(\theta)$

n

$n$

p (A | θ)

$p(A | \theta)$

n

$n$

θ

$\theta$

あなたは持っていたらは、任意のイベントの確率を計算することができます：あなたしている金 integrateionによって： $p(\theta | A)$ $B$ $\mathbb{P}(B) = \int p(B |\theta) p(\theta |A) d\theta$

以下では、上記のアプローチに従って、詳細なソリューションを検討します。いくつかの標準的なショートカットを使用します。

前とする。次に：正規化定数をであることが見出された $U(0,1)$

p （ θ | A ） \propto p （ A | θ ） \cdot 1 = （ 1 - θ ）^{n} 。

$p(\theta |A)\propto p(A|\theta) \cdot 1 = (1-\theta)^n.$

p (A) = \int p (A | θ) p (θ) d θ

$p(A) = \int p(A|\theta)p(\theta) d\theta$

-ウィキペディアのベータ関数とベータ分布のページをご覧ください。だから、

B (1, n + 1)

$B(1,n+1)$

、これはパラメーター

ベータ分布です。

p (θ | A) = \frac{(1 - θ)^{n}}{B (1, n + 1)}

$p(\theta |A) = \frac{(1-\theta)^n}{B(1,n+1)}$

1, n + 1

$1, n+1$

来年に製品で故障が発生しない確率をます。少なくとも1つの失敗の確率はです。次いで、 $m$ $B$ $1 -\mathbb{P}( B )$

1 - P （ B ） = 1 - \int （ 1 - θ ）^{m} \frac{（ 1 - θ ）^{n}}{B （ 1 、 n + 1 ）} d θ = \frac{B （ 1 、 n + m + 1 ）}{B （ 1 、 n + 1 ）}

$1- \mathbb{P}(B) =1 - \int (1-\theta)^m\frac{(1-\theta)^n}{B(1,n+1)}d\theta = \frac{B(1,n+m+1)}{B(1,n+1)}$

これはおおよそであるを用いて。あまり印象的ではありませんか？失敗の確率については均一な分布を取りました。おそらく、あなたのエンジニアに対するより良い事前の信仰を持っているでしょう。 $0.1$ $n= 100,000, m = 10,000$

— ヤイル・ダオン
ソース

3

このような単純な問題の実際の解決策が非常に不足していること、特にメソッドが非常に有望に見える場合は奇妙に思えます。計算が難しいことを提案していますか？

— whuber

2

@whuber私はそれを忘れていませんでした、この最後のステップは明らかだと思いました。「非抑圧的」とは、最初の100,000回の実行で障害が発生しなかった場合と比較して、障害の10％の確率が依然として大きいことを意味します。また、共役ペアに関するコメントのおかげで、OPを混乱させ、重要なものから注意をそらす可能性があると考えたため、省略しました。

— イェールダオン

3

もちろん、はい-しかし、最終的に0.9の値になった場合、それは、前のテキストでそれについて何と言っても、人々が見る数字です。あなたが誤解されないように、あなたが提供している答えを明確にすることは常に役に立ちます。（改善された回答、BTWに対して+1）

— whuber

3

確かに、関係なく、あなたのエンジニアであなたの信仰の、それはあなたが観察した場合、その実際に非常に驚くべきことではありません

無故障で裁判を、あなたは平均で約期待すべき

次の内の障害

裁判、したがって、少なくとも1で期待するべきです確率

故障。これは、小さい

約

です。したがって、100,000件の成功したトライアルでは、次の10,000回のトライアル内で少なくとも1つの失敗のおよそ10％の予想確率が得られます。

n ≫ 1

$n \gg 1$

k

$k$

k n

$kn$

1 - e^{- k}

$1-e^{-k}$

k

$k$

k

$k$

— イルマリカロネン

2

@whuber事前失敗は問題ではないという仮定は、障害ゼロの場合には当てはまりません。それは、ゼロに近い勾配に大きく依存します。たとえば、フラット均一事前分布（ベータ1,1）とジェフリーズ事前分布（ベータ0.5、0.5）は、実質的に異なる事後を与えます。

— エリック

12

確率を計算するのではなく、失敗する可能性のある製品の数を予測してみませんか？

観測のモデリング

フィールドには製品があり、検討中の別の製品があります。それらの故障はすべて独立しており、確率一定であると仮定します。 $n=100000$ $m=10000$ $p$

未知の割合で出チケットの箱の：私たちは、二項の実験によって、この状況をモデル化することができる「失敗」のチケットとの、「成功」のチケットを描くそのため、交換に（チケット失敗の可能性は変わりません）。最初のチケット（とします）の失敗をカウントし、残りのチケットの失敗をカウントして、その呼び出します。 $p$ $1-p$ $m+n=110000$ $n$ $X$ $m$ $Y$

質問のフレーミング

原理的には、と何であってもよいです。我々が興味のあることは可能性である与えられ、その（とにおける任意の数）。失敗はすべてのチケットのどこででも発生する可能性があるため、考えられるすべての構成が同じチャンスを持つため、の数 $0\le X \le n$ $0 \le Y\le m$ $Y = u$ $X+Y=u$ $u$ $\{0,1,\ldots, m\}$ $n+m$ $u$ -subsets の数によるもの全ての-subsets もの： $m$ $u$ $n+m$

p (u; n, m) = Pr (Y = u | X + Y = u) = \frac{(\binom{m}{u})}{(\binom{n + m}{u})} = \frac{m (m - 1) \dots (m - u + 1)}{(n + m) (n + m - 1) \dots (n + m - u + 1)} .

$p(u;n,m) = \Pr(Y = u\,|\, X+Y=u) = \frac{\binom{m}{u}}{\binom{n+m}{u}} \\= \frac{m(m-1)\cdots(m-u+1)}{(n+m)(n+m-1)\cdots(n+m-u+1)}.$

同等の式を計算するために使用することができる場合 $X=1, 2, \ldots.$

上部予測限界 $1-\alpha$ もの最後の失敗数の（UPL）チケットは、、最小で与えられる（に応じて用）。 $m$ $t_\alpha(X;n,m)$ $u$ $X$ $p(u;n,m) \le \alpha$

解釈

UPLは、使用のリスクの観点から解釈されるべきで、どちらかの前に評価されるまたは観察されます。 つまり、1年前であり、最初のが観測されたら次の製品の故障数を予測する手順を推奨するように求められているとします。あなたのクライアントは尋ねます $t_\alpha$ $X$ $Y$ $m$ $n$

あなたの手順がを過小評価する可能性は何ですか？今後、データが増えてからというわけではありません。私は意味、今の私は今決断をしなければならないと私に利用できる私が持っているだろう唯一のチャンスは、この時点で計算することが可能なものであるため。」 $Y$

あなたの応答は、

現在、チャンスはより大きくありませんが、より小さな予測を使用する場合、チャンスはを超えます。 $\alpha$ $\alpha$

結果

以下のための、、および我々は、計算することができます。 $n=10^5$ $m=10^4$ $X=0$

p (0, n, m) = 1; p (1, n, m) = \frac{1}{11} \approx 0.091; p (2, n, m) = \frac{909}{109999} \approx 0.0083; \dots

$p(0,n,m)=1;\ p(1,n,m)=\frac{1}{11}\approx 0.091;\ p(2,n,m)=\frac{909}{109999}\approx 0.0083; \ldots$

したがって、を観察すると $X=0$ 、

最大のための信頼度（ある場合）、最大である予測次の障害製品。 $1-\alpha=90.9\%$ $9.1\%\le \alpha$ $t_\alpha(0;n,m)=1$ $10,000$
最大のために（で、信頼）、予測最大である次の障害製品。 $99.2\%$ $0.8\%\le \alpha \lt 9.1\%$ $t_\alpha(0;n,m)=2$ $10,000$
等。

このアプローチはいつ、なぜ適用されるのでしょうか？ あなたの会社がたくさんの異なる製品を作っているとします。フィールド内の各自ののパフォーマンスを観察した後、「1年以内にすべての障害を完全に無償で交換する」などの保証を作成するのが好きです。障害の数に予測限界を設けることにより、これらの保証を支持しなければならない総コストを制御できます。多くの製品を製造しており、障害は制御できないランダムな状況に起因すると予想されるため、各製品の経験は独立しています。長期的にリスクを管理することは理にかなっています $n$ 。時々、予想よりも多くの請求を支払う必要があるかもしれませんが、ほとんどの場合、支払う金額は少なくなります。発表された金額以上の支払いが破滅的な場合は、を極端に小さく設定します（そして、より洗練された障害モデルも使用する可能性があります！）。それ以外の場合、コストが小さい場合は、低い信頼度（高い）で生活できます。 これらの計算は、自信とリスクのバランスを取る方法を示しています。 $\alpha$ $\alpha$

完全な手順を計算する必要がないことに注意してください。が観測されるまで待機し、上記のように特定の（ここでは）の計算を実行するだけです。ただし、原則として、最初にすべての可能な値に対して計算を実行できたはずです。 $t$ $X$ $X$ $X=0$ $X$

ベイズのアプローチ（他の回答で説明）は魅力的であり、結果が事前に大きく依存していない場合はうまく機能します。 残念ながら、故障率が非常に低く、ごくわずか（または故障なし）が観察される場合、結果は事前の選択に敏感です。

— ウーバー
ソース

+1、ただし

は正しくないようです。

p (0, n, m) = 1

$p(0,n,m)=1$

— アメーバは、モニカを復活させる

1

@COOLSerdash、なぜなら

、及びための用語

ゼロに等しくありません。

\sum_{u} p (u, n, m) = 1

$\sum_u p(u,n,m)=1$

u = 1, 2...

$u=1,2...$

— アメーバは、モニカを復活

1

あなたが取得している理由

@amoebaノートとしては、あるあなたのため

\sum_{u} p (u; n, m) > 1

$\sum_u p(u;n,m) > 1$

は実際には

ではなく、むしろ

（そしてすべきです）したがって、例えば

p (u; n, m) = \frac{(\binom{m}{u})}{(\binom{n + m}{u})}

$p(u;n,m) = \frac{m \choose u}{n+m \choose u}$

P r (Y = u | X = 0)

${\rm Pr}(Y=u|X=0)$

P r (Y = u | X + Y = u)

${\rm Pr}(Y=u|X+Y=u)$

=

$=$

P r (X = 0 | X + Y = u)

${\rm Pr}(X=0|X+Y=u)$

p (0; n, m, u)

$p(0;n,m,u)$ またはそのようなもの）。私はあなたが後でそれをどうするかを正確に追うのに苦労していますが、それが何であれ、それは残念なことに、尋ねられた問題の正しい解決策ではないことを確信しています。

— イルマリカロネン

1

@IlmariKaronenご意見ありがとうございます。あなたは、私が特徴づけられていなければならないことを正しい

、それは上の確率分布ではないので、もう少し明確に

--itは条件付き確率である-しかし、私は答え自体はそれにもかかわらず、正しいと私と信じて予測限界を計算するためのこのアプローチは正しいものであり、従来のものであると確信しています。これらの点を明確にするために、この投稿を編集します。

p (u; n, m)

$p(u;n,m)$

u

$u$

— whuber

1

@Ilmari既に編集を行っています。編集履歴で確認できます。事前確率を想定せず、予測間隔の定義をこの問題にのみ適用します。それが「統計的に意味がある」かどうかに挑戦したいなら、あなたはこの標準的な構造に気まぐれに挑戦していることに気付くでしょう。たとえば、Hahn＆Meeker、Statistical Intervals（J. Wiley 1991）を参照してください。

— whuber

9

以下は、「10,000個の新製品のうち、以前の100,000個すべてが失敗しなかった場合、どれだけが失敗すると予想されますか？」に対するベイジアンの回答ですが、異なる事前分布に対する感度を考慮する必要があります。

仮定与えられ、条件付き独立同一分布であるように、、及び共役使用前、。 $X_1,\dots,X_n$ $\Theta=\theta$ $X_1\mid\Theta=\theta\sim\mathrm{Bernoulli}(\theta)$ $\Theta\sim\mathrm{Beta}(a,b)$ $a,b>0$

以下のために、我々は $m<n$

E [\sum_{i = m + 1}^{n} X_{i} | X_{1} = 0, \dots X_{m} = 0] = \sum_{i = m + 1}^{n} E [X_{i} ∣ X_{1} = 0, \dots X_{m} = 0] .

$\mathrm{E}\left[\sum_{i=m+1}^n X_i\;\Bigg\vert\; X_1=0,\dots X_m=0 \right] = \sum_{i=m+1}^n \mathrm{E}\left[ X_i\mid X_1=0,\dots X_m=0 \right] \, .$

以下のための、我々が持っている $m+1\leq i\leq n$ ここで私たちが使用。

\begin{aligned} E [X_{i} ∣ X_{1} = 0, \dots X_{m} = 0] & = Pr (X_{i} = 1 ∣ X_{1} = 0, \dots X_{m} = 0) \\ = \int_{0}^{1} Pr (X_{i} = 1 ∣ Θ = θ) f_{Θ ∣ X_{1}, \dots, X_{m}} (θ ∣ 0, \dots, 0) d θ \\ = \frac{Γ (m + a + b)}{Γ (m + a + b + 1)} \frac{Γ (a + 1)}{Γ (a)} = \frac{a}{m + a + b}, \end{aligned}

$\begin{align} \mathrm{E}\left[X_i\mid X_1=0,\dots X_m=0\right] &= \Pr(X_i=1\mid X_1=0,\dots X_m=0) \\ &= \int_0^1 \Pr(X_i=1\mid \Theta=\theta) \,f_{\Theta\mid X_1,\dots,X_m}(\theta\mid 0,\dots,0) \,d\theta \\ &= \frac{\Gamma(m+a+b)}{\Gamma(m+a+b+1)} \frac{\Gamma(a+1)}{\Gamma(a)} = \frac{a}{m+a+b}\, , \end{align}$

Θ ∣ X_{1} = 0, \dots, X_{m} = 0 \sim B e t a (a, m + b)

$\Theta\mid X_1=0,\dots,X_m=0\sim \mathrm{Beta}(a,m+b)$

（均一前に、あなたの番号に接続すると、）あなたは周りの故障率を期待するジェフリーズのような（前ながら、）あなたの失敗を与えます近いレート。 $a=1,b=1$ $10\%$ $a=1/2,b=1/2$ $5\%$

この予測予測は、予測分布が大きく歪んでいるため、良い要約とは思えません。さらに進んで、予測分布を計算できます。以降我々は前に我々が行ったようにコンディショニング

\sum_{私 = m + 1}^{n} {バツ}_{私} | Θ = θ 〜 B 私 n （ n - m + 2 、 θ ） 、

$\sum_{i=m+1}^n X_i \;\Bigg\vert\; \Theta=\theta \sim \mathrm{Bin}(n-m+2,\theta) \, ,$

のために

。

\begin{aligned} Pr & （ \sum_{私 = m + 1}^{n} {バツ}_{私} = t | {バツ}_{1} = 0 、 \dots {バツ}_{m} = 0 ） = \\ （ \binom{n - m + 2}{t} ） \frac{Γ （ m + a + b ）}{Γ （ a ） Γ （ m + b ）} \frac{Γ （ t + a ） Γ （ n - t + 2 ）}{Γ （ n + a + 2 ）} 、 \end{aligned}

$\begin{align} \Pr&\left(\sum_{i=m+1}^n X_i=t \;\Bigg\vert\; X_1=0,\dots X_m=0\right) = \\ &\qquad\qquad\qquad\qquad\binom{n-m+2}{t} \frac{\Gamma(m+a+b)}{\Gamma(a)\Gamma(m+b)} \frac{\Gamma(t+a)\Gamma(n-t+2)}{\Gamma(n+a+2)} \, , \end{align}$

t = 0, 1, \dots, n - m + 2

$t=0,1,\dots,n-m+2$

後で予測間隔を計算して終了します。 $95\%$

— 禅
ソース

3

m

$m$

B e t a (a, b)

$\mathrm{Beta}(a,b)$

\frac{a}{m + a + b} \approx \frac{a}{m}

$\frac{a}{m+a+b}\approx\frac am$

a

$a$

b

$b$

U (0, 1)

$U(0,1)$

U (0, 0.01)

$U(0,0.01)$

U (0.01, 1)

$U(0.01,1)$

6

p = \frac{1}{100000 + 1}

$p=\frac{1}{100000+1}$

n

$n$

（ 1 - p ）^{n}

$(1-p)^n$

n

$n$

1 - {（ 1 - \frac{1}{100001} ）}^{n}

$1-\left(1-\frac{1}{100001}\right)^{n}$

n = 10000

$n=10000$

P_{10000} \approx 0.095

$P_{10000}\approx 0.095$

P_{200000} \approx 0.87

$P_{200000}\approx 0.87$

もちろん、より多くの製品が販売されている間はデータを更新し続ける必要があり、最終的には失敗します。

— アクサカル
ソース

10, 000

$10,000$

200, 000

$200,000$

200000 / 100001 \approx 2

$200000/100001\approx 2$

@whuber、それを修正

— Aksakal

1

0.865

$0.865$

@whuberは、はい、それは一つ少なくゼロだった

— Aksakal

5

この質問に対していくつかの良い答えが提供されましたが、最近、このトピックに関するいくつかのリソースをレビューする機会がありましたので、結果を共有することにしました。

$k=0$ $n$

\begin{matrix} （1） & P （ K = k ） = \frac{k}{n} = 0 \end{matrix}

$P(K = k) = \frac{k}{n} = 0 \tag{1}$

サンプルに障害が観察されなかったという事実は、それらが一般的に不可能であることをほとんど証明していないため、このような推定はかなり不十分です。外のデータ不足の知識があることを示唆しているいくつかの非が（まだ）が観察された場合でも、故障の確率。先験的な知識があると、ベイリー（1997）、ラザギ（2002）、バス他（1996）、およびルードブルックとルー（2009）によってレビューされたベイズ法を使用することになります。

単純な推定量の中で、想定される「上限」推定量（Bailey、1997）

故障ゼロの場合のPの推定量が、故障1の場合の最尤推定量によって予測される確率を超える確率、合理的な上限をもたらすことは論理的ではないこと

として定義される

\begin{matrix} （2） & \frac{1}{n} \end{matrix}

$\frac{1}{n} \tag{2}$

言及することができます。Ludbrook and Lew（2009）がレビューしたように、他の可能性は「3のルール」です（ここ、Wikipedia、またはEypasch et al、1995を参照）

\begin{matrix} (3) & \frac{3}{n} \end{matrix}

$\frac{3}{n} \tag{3}$

または他のバリエーション：

\begin{matrix} (4) & \frac{3}{n + 1} \end{matrix}

$\frac{3}{n+1} \tag{4}$

NewcombeとAltman（または3.6）による「3.7の規則」：

\begin{matrix} (5) & \frac{3.7}{n} \end{matrix}

$\frac{3.7}{n} \tag{5}$

「4つの新しいルール」：

\begin{matrix} (6) & \frac{4}{n + 4} \end{matrix}

$\frac{4}{n+4} \tag{6}$

しかし、Ludbrook and Lew（2009）によって結論付けられたように、「3の規則」は「役に立たない」および「3.6の規則」（および3.7）「重大な制限があります-初期サンプルサイズが50未満の場合、非常に不正確です」また、方法（3）-（6）を推奨せず、適切なベイジアン推定量を使用することを推奨しています（以下を参照）。

ベイジアン推定量の中には、いくつかの異なるものがあります。Bailey（1997）によって提案された最初のそのような推定量は

\begin{matrix} (7) & 1 - {0.5}^{\frac{1}{n}} \end{matrix}

$1 - 0.5^\frac{1}{n} \tag{7}$

一様事前分布の下での中央値を推定するため

\begin{matrix} (8) & 1 - {0.5}^{\frac{1}{n + 1}} \end{matrix}

$1 - 0.5^\frac{1}{n+1} \tag{8}$

またはそのような事前の下で平均を推定するため

\begin{matrix} (9) & \frac{1}{n + 2} \end{matrix}

$\frac{1}{n+2} \tag{9}$

一定の故障率（ポアソン分布）を持つ指数関数的な故障パターンを想定したさらに別のアプローチは、

\begin{matrix} (10) & \frac{1 / 3}{n} \end{matrix}

$\frac{1/3}{n} \tag{10}$

$a$ $b$

\begin{matrix} (11) & \frac{a}{a + b + n} \end{matrix}

$\frac{a}{a+b+n} \tag{11}$

$a = b = 1$ $a = b = 0.5$

\begin{matrix} (12) & \frac{1}{2 (n + 1)} \end{matrix}

$\frac{1}{2(n+1)} \tag{12}$

$n$

ベイリー、RT（1997）。故障ゼロのデータからの推定。リスク分析、 17、375-380。

ラザギ、M。（2002）。サンプルにゼロオカレンスがある二項式成功確率の推定について。 Journal of Modern Applied Statistics Methods、1（2）、41。

Ludbrook、J。、およびLew、MJ（2009）。まれな合併症のリスクの推定：「3つのルール」で十分ですか？ANZ外科ジャーナル、79（7-8）、565-570。

Eypasch、E.、Lefering、R.、Kum、CK、およびTroidl、H.（1995）。まだ発生していない有害事象の確率：統計情報。 BMJ 311（7005）：619–620。

Basu、AP、Gaylor、DW、およびChen、JJ（1996）。サンプルで発生がゼロのまれな癌の腫瘍発生の確率を推定します。規制毒性および薬理学、23（2）、139-144。

— ティム
ソース

1

そこにあるものの優れたレビュー！

— -AlefSin

「いくつかのベイジアン推定量の中で...」で始まるコメントについては、一般に、与えられたコメントがその上の式に関係するのか下の式に関係するのかは明確ではありません。それをもっと明確にできますか？

— GUNG -復活モニカ

2

あなたは本当にあなたの製品のデザイナーに戻る必要があります。これは、観察上の統計的な問題ではなく、基本的なエンジニアリングの問題です。彼らは、各コンポーネントの故障確率、およびそれから組み立てられた製品全体の正味の故障確率についての考えを持ちます。これらは、製品の設計寿命全体にわたって予想される故障数を提供します。

土木技師は、120年の設計寿命を持つように橋を設計します。ブリッジの各コンポーネントには、わずかな障害の可能性があります。各負荷は、わずかに超過する可能性があります。橋を建設するために経済的にするために、完全崩壊は2400年に1回しか発生せず、橋が維持される期間よりもはるかに長くなります。ブリッジが1年目でも2年目から120年目にも故障しないことは驚くことではありません。それが崩壊していないことはほとんどわかりません。時間とともに失敗するさまざまな可能性は、元の設計者のみが推定できます。

— ロバート
ソース

0

これは、生産の失敗をなくすために新しい製造プロセスを導入したときに直面した問題に似ています。

新しいシステムでは障害が発生しなかったため、人々は同じ質問をしていました。障害率をどのように予測するのでしょうか。あなたの場合、その期間内にいつ障害が発生するかを気にせずに障害が発生する期間を規定しているため、一時的な影響は取り除かれました。そして、それは単に何かが失敗したかどうかのケースです。それが規定されている-私の答えで。

直観的には、故障率を計算できるようにするためには、少なくとも1つの故障が必要であると思われます。ただし、この仮定には暗黙的な誤りがあります。故障率を計算することはありません。それはサンプルを扱っているからです。したがって、推定故障率の範囲のみを推定できます。これを行う方法は、故障率の分布を見つけることです。このインスタンスでジョブを実行する分布は、パラメーターがα = n + 1およびβ = N - n + 1であるベータ分布です。

注：Nはサンプルサイズで、nは失敗の数です（この場合は0）。

シナリオの場合、故障率の分布を以下に示します。。

次に、その分布をそれぞれの二項確率式に入力して、1つのユニットが故障する確率の分布を取得します（分析的に、またはモンテカルロを使用して実行できます）。数字は非常に少ないと思います。

このプロセスは、最初のセットの失敗の数に関係なく適用できることに注意してください。

— クリント・スティール
ソース