1年間に100,000個の製品が故障せずに故障している場合、何かが故障する確率(製品)を判断する方法があるのだろうか?販売される次の10,000製品の1つが失敗する確率はどのくらいですか?
1年間に100,000個の製品が故障せずに故障している場合、何かが故障する確率(製品)を判断する方法があるのだろうか?販売される次の10,000製品の1つが失敗する確率はどのくらいですか?
回答:
製品が故障する確率は、確かに時間と使用の関数です。使用に関するデータはありません。1年で障害は発生しません(おめでとうございます!)。したがって、この側面(生存関数と呼ばれる)は、データから推定することはできません。
ただし、1年以内の失敗は二項分布から引き出されると考えることができます。まだ障害はありませんが、これは今や一般的な問題です。簡単な解決策は、3のルールを使用することです。これは、大きな(これは確かにあります)で正確です。具体的には、1年以内の真の故障確率の3 / Nとして、片側95%信頼区間の上限(つまり、下限は0)を取得できます。あなたの場合、あなたは95%の割合が0.00003未満であると確信しています。
また、次の10kの1つ以上が失敗する確率を計算する方法を尋ねました。上記の分析を拡張するための迅速かつ簡単な(極端ではありますが)方法は、基になる確率として上限を使用し、対応する二項CDFを使用して、失敗がならない確率を取得することです。コードを使用すると、次のことができます。次の1万個の製品で1つ以上の障害が発生する可能性があります。上限を使用したことで、これはむしろ、あなたがそれをする確率は非常に低いと言うことができ、少なくとも一つの障害を有する確率の最適点推定値ではありません≥ 1つの障害が複数ある≈ 26 %R
1-pbinom(0, size=10000, prob=0.00003)
0.2591851
(これはやや「手で波打つ」フレーミングであることを認識しています)。別の可能性は、ラプラスの継承規則からの推定値の@amoebaの提案を使用することです。継承のルールでは、推定される失敗の確率は(F + 1 )/(N + 2 )であり、Fは失敗の数です。その場合、P = 9.9998 × 10 - 06、との予測確率の計算1つの+次万の障害であり得、又は1-pbinom(0, size=10000, prob=9.9998e-06)
0.09516122
。
ベイジアンアプローチを取ることができます。失敗の確率をで示し、確率変数と考えます。あなたが実験の結果を見る前に先験的には、あなたが信じているかもしれないΘ 〜U (0 、1 )。あなたはこの製品は信頼性を高めるためにエンジニアを信頼する場合は、多分あなたは取ることができΘ 〜U (0 、0.1 )、またはそう。これはあなた次第です。次に、ベイズの定理を使用して、θの事後分布を計算できます。意味Aあなたが観察したことをイベント(nはゼロで障害が発生した実験)。
すべてが単純です:Θは均一なので、p(θ)は一定です。n回の実験を実行するため、p(A|θ)は、n個のbernouli試行で失敗しない確率であり、失敗の確率はθです。
あなたは持っていたらは、任意のイベントの確率を計算することができます:あなたしている金Bを integrateionによって:P(B )= ∫ P (B | θ )のp (θ | A )D θ
以下では、上記のアプローチに従って、詳細なソリューションを検討します。いくつかの標準的なショートカットを使用します。
前とする。次に: P (θ | A )α P (A | θ )⋅ 1 = (1 - θ )のn。 正規化定数をP (A )= ∫ P (A | θ )P (θ )D θであることが見出されたB (1 、nは
来年に製品で故障が発生しない確率をBで示します。少なくとも1つの失敗の確率は1 - P(B )です。次いで、 1 - P(B )= 1 - ∫(1 - θ )M (1 - θ )N
これはおおよそであるを用いて、N = 100 、000 、M = 10 、000。あまり印象的ではありませんか?失敗の確率については均一な分布を取りました。おそらく、あなたのエンジニアに対するより良い事前の信仰を持っているでしょう。
確率を計算するのではなく、失敗する可能性のある製品の数を予測してみませんか?
フィールドには製品があり、検討中の別のm = 10000 個の製品があります。それらの故障はすべて独立しており、確率pで一定であると仮定します。
未知の割合で出チケットの箱の:私たちは、二項の実験によって、この状況をモデル化することができる「失敗」のチケットとの1 - P、「成功」のチケットを描くメートル+ N = 110000枚のそのため、交換に(チケット失敗の可能性は変わりません)。最初のn個のチケット(Xとします)の失敗をカウントし、残りのmチケットの失敗をカウントして、そのYを呼び出します。
原理的には、と0 ≤ Y ≤ mは何であってもよいです。我々が興味のあることは可能性であるY = Uが与えられ、そのX + Y = U(とUにおける任意の数{ 0 、1 、... 、M })。失敗はすべてのn + mチケットのどこででも発生する可能性があるため、考えられるすべての構成が同じチャンスを持つため、uの数 -subsets の数によるものUが全ての-subsets のn + m個のもの:
同等の式を計算するために使用することができる場合
上部予測限界もの最後の失敗数の(UPL)チケットは、T α(X ; N 、Mは)、最小で与えられるU(に応じてX用)P (U ; N 、M )≤ α。
UPLは、使用のリスクの観点から解釈されるべきで、どちらかの前に評価されるXまたはYが観察されます。 つまり、1年前であり、最初のnが観測されたら次のm個の製品の故障数を予測する手順を推奨するように求められているとします。あなたのクライアントは尋ねます
あなたの手順がを過小評価する可能性は何ですか?今後、データが増えてからというわけではありません。私は意味、今の私は今決断をしなければならないと私に利用できる私が持っているだろう唯一のチャンスは、この時点で計算することが可能なものであるため。」
あなたの応答は、
現在、チャンスはより大きくありませんが、より小さな予測を使用する場合、チャンスはαを超えます。
以下のための、M = 10 4、およびX = 0我々は、計算することができます。
したがって、X = 0を観察すると、
最大のための信頼度(ある場合9.1 %≤ α)、最大である予測のT α(0 ; N 、M )= 1次の障害10 、000製品。
最大のために(で、信頼0.8 %≤ α < 9.1 %は)、予測最大であるのT α(0 ; N 、M )= 2次の障害10 、000製品。
等。
このアプローチはいつ、なぜ適用されるのでしょうか? あなたの会社がたくさんの異なる製品を作っているとします。フィールド内の各自ののパフォーマンスを観察した後、「1年以内にすべての障害を完全に無償で交換する」などの保証を作成するのが好きです。障害の数に予測限界を設けることにより、これらの保証を支持しなければならない総コストを制御できます。多くの製品を製造しており、障害は制御できないランダムな状況に起因すると予想されるため、各製品の経験は独立しています。長期的にリスクを管理することは理にかなっています。時々、予想よりも多くの請求を支払う必要があるかもしれませんが、ほとんどの場合、支払う金額は少なくなります。発表された金額以上の支払いが破滅的な場合は、を極端に小さく設定します(そして、より洗練された障害モデルも使用する可能性があります!)。それ以外の場合、コストが小さい場合は、低い信頼度(高いα)で生活できます。 これらの計算は、自信とリスクのバランスを取る方法を示しています。
完全な手順を計算する必要がないことに注意してください。Xが観測されるまで待機し、上記のように特定のX(ここではX = 0)の計算を実行するだけです。ただし、原則として、最初にXのすべての可能な値に対して計算を実行できたはずです。
ベイズのアプローチ(他の回答で説明)は魅力的であり、結果が事前に大きく依存していない場合はうまく機能します。 残念ながら、故障率が非常に低く、ごくわずか(または故障なし)が観察される場合、結果は事前の選択に敏感です。
以下は、「10,000個の新製品のうち、以前の100,000個すべてが失敗しなかった場合、どれだけが失敗すると予想されますか?」に対するベイジアンの回答ですが、異なる事前分布に対する感度を考慮する必要があります。
仮定与えられ、条件付き独立同一分布であるΘ = θように、X 1 | Θ = θ 〜B用のE R N oをU L L I(θ )、及び共役使用前Θを〜B e t a(a 、b )、a 、b > 0の場合。
以下のために、我々は Eの[ N Σ I = M + 1 X I
以下のための、我々が持っている E [ X I | X 1 = 0 、... 、X M = 0 ] ここで私たちが使用Θを|X1=0、...、XM=0〜BのEのT(、M+B)。
(均一前に、あなたの番号に接続すると、= 1 、B = 1)あなたは周りの故障率を期待する10 %ジェフリーズのような(前ながら、= 1 / 2 、B = 1 / 2)あなたの失敗を与えます5 %に近いレート。
この予測予測は、予測分布が大きく歪んでいるため、良い要約とは思えません。さらに進んで、予測分布を計算できます。以降 我々は前に我々が行ったようにコンディショニング PRは(N Σ I = M + 1 X I = T
後で予測間隔を計算して終了します。
この質問に対していくつかの良い答えが提供されましたが、最近、このトピックに関するいくつかのリソースをレビューする機会がありましたので、結果を共有することにしました。
サンプルに障害が観察されなかったという事実は、それらが一般的に不可能であることをほとんど証明していないため、このような推定はかなり不十分です。外のデータ不足の知識があることを示唆しているいくつかの非が(まだ)が観察された場合でも、故障の確率。先験的な知識があると、ベイリー(1997)、ラザギ(2002)、バス他(1996)、およびルードブルックとルー(2009)によってレビューされたベイズ法を使用することになります。
単純な推定量の中で、想定される「上限」推定量(Bailey、1997)
故障ゼロの場合のPの推定量が、故障1の場合の最尤推定量によって予測される確率を超える確率、合理的な上限をもたらすことは論理的ではないこと
として定義される
言及することができます。Ludbrook and Lew(2009)がレビューしたように、他の可能性は「3のルール」です(ここ、Wikipedia、またはEypasch et al、1995を参照)
または他のバリエーション:
NewcombeとAltman(または3.6)による「3.7の規則」:
「4つの新しいルール」:
しかし、Ludbrook and Lew(2009)によって結論付けられたように、「3の規則」は「役に立たない」および「3.6の規則」(および3.7)「重大な制限があります-初期サンプルサイズが50未満の場合、非常に不正確です」また、方法(3)-(6)を推奨せず、適切なベイジアン推定量を使用することを推奨しています(以下を参照)。
ベイジアン推定量の中には、いくつかの異なるものがあります。Bailey(1997)によって提案された最初のそのような推定量は
一様事前分布の下での中央値を推定するため
またはそのような事前の下で平均を推定するため
一定の故障率(ポアソン分布)を持つ指数関数的な故障パターンを想定したさらに別のアプローチは、
ベイリー、RT(1997)。故障ゼロのデータからの推定。リスク分析、 17、375-380。
ラザギ、M。(2002)。サンプルにゼロオカレンスがある二項式成功確率の推定について。 Journal of Modern Applied Statistics Methods、1(2)、41。
Ludbrook、J。、およびLew、MJ(2009)。まれな合併症のリスクの推定:「3つのルール」で十分ですか?ANZ外科ジャーナル、79(7-8)、565-570。
Eypasch、E.、Lefering、R.、Kum、CK、およびTroidl、H.(1995)。まだ発生していない有害事象の確率:統計情報。 BMJ 311(7005):619–620。
Basu、AP、Gaylor、DW、およびChen、JJ(1996)。サンプルで発生がゼロのまれな癌の腫瘍発生の確率を推定します。規制毒性および薬理学、23(2)、139-144。
あなたは本当にあなたの製品のデザイナーに戻る必要があります。これは、観察上の統計的な問題ではなく、基本的なエンジニアリングの問題です。彼らは、各コンポーネントの故障確率、およびそれから組み立てられた製品全体の正味の故障確率についての考えを持ちます。これらは、製品の設計寿命全体にわたって予想される故障数を提供します。
土木技師は、120年の設計寿命を持つように橋を設計します。ブリッジの各コンポーネントには、わずかな障害の可能性があります。各負荷は、わずかに超過する可能性があります。橋を建設するために経済的にするために、完全崩壊は2400年に1回しか発生せず、橋が維持される期間よりもはるかに長くなります。ブリッジが1年目でも2年目から120年目にも故障しないことは驚くことではありません。それが崩壊していないことはほとんどわかりません。時間とともに失敗するさまざまな可能性は、元の設計者のみが推定できます。
これは、生産の失敗をなくすために新しい製造プロセスを導入したときに直面した問題に似ています。
新しいシステムでは障害が発生しなかったため、人々は同じ質問をしていました。障害率をどのように予測するのでしょうか。あなたの場合、その期間内にいつ障害が発生するかを気にせずに障害が発生する期間を規定しているため、一時的な影響は取り除かれました。そして、それは単に何かが失敗したかどうかのケースです。それが規定されている-私の答えで。
直観的には、故障率を計算できるようにするためには、少なくとも1つの故障が必要であると思われます。ただし、この仮定には暗黙的な誤りがあります。故障率を計算することはありません。それはサンプルを扱っているからです。したがって、推定故障率の範囲のみを推定できます。これを行う方法は、故障率の分布を見つけることです。このインスタンスでジョブを実行する分布は、パラメーターがα = n + 1およびβ = N - n + 1であるベータ分布です。
注:Nはサンプルサイズで、nは失敗の数です(この場合は0)。
次に、その分布をそれぞれの二項確率式に入力して、1つのユニットが故障する確率の分布を取得します(分析的に、またはモンテカルロを使用して実行できます)。数字は非常に少ないと思います。
このプロセスは、最初のセットの失敗の数に関係なく適用できることに注意してください。