比率とバイナリ分類器のテスト


10

部品を作る機械のプロトタイプを持っています。

最初のテストで、マシンはパーツを生成し、バイナリ分類子は、パーツに欠陥があり(、通常および)、パーツが良好であることをてくれます。d 1 d 1 < N 1 d 1 /N1d1d1<N1N 110 4 N 1 - D 1d1/N1<0.01N1104N1d1

次に、技術者は、欠陥のある部品の数を減らすために、機械に変更を加えます。

2回目以降のテストでは、変更されたマシンがパーツを生成し、同じバイナリ分類子(そのまま)により、パーツに欠陥があることがます。とにかく、はと非常に似ています。d 2 d 2 / N 2 dN2d2d2/N2d1/N1

技術者は、彼の変更が有効かどうかを知りたいと考えています。

分類子が完全である(その感度が100%で、その特異度が100%である)と仮定すると、比率のテストを実行できます(Rを使用して、と入力するだけですprop.test(c(d1,d2),c(N1,N2)))。

しかし、分類子は完全ではないので、技術者に適切に回答するために、分類子の感度と特異度(どちらも不明)をどのように考慮することができますか?


分類器の正解率を確認できますか?
Michelle

@Michelle私はエラーなしで知っていますとが、欠陥部品がいくつ不良と分類されているのかはわかりません。d1d2
アレッサンドロジャコプソン2012年

また会ったね。偽陽性率を推定するために、N1とN2の良品のランダムサンプルを個別に行うことはできますか?
ミシェル

1
この情報を使用して、この方法を使用して変更を比較できますか?onlinelibrary.wiley.com/doi/10.1002/sim.906/abstractは、ここncbi.nlm.nih.gov/pubmed/18224558と他のアイデアもここで参照してください
ミシェル

2
(+1)これは素晴らしい質問です!
steffen 2012

回答:


4

だから私はこれを第一原理から導き出しているので、それが正しいかどうか確信が持てません。これが私の考えです。

編集:これは以前はまったく正しくありませんでした。更新しました。

  1. 、真陽性の実際の数と、と呼ぶバイナリ分類子によって出力される数との予想される差を示しましょう。これは、既知のラベルを持つセットで分類子を実行することで測定できます。分類子によって生成されたポジティブの数から実際のポジティブの数を減算し、次に割ってを取得します。αd1d1^Nα

  2. したがって、欠陥部品の実際の比率のポイント推定は、次の式で与えられます。 。つまり、観測された欠陥部品の数から、予想される偽陽性の数を差し引いたものに、予想される偽陰性の数を加えたものです。d1N1^=d1+αN1N1

  3. 同様に、d2N2^=d2+αN2N2

  4. それでは、小道具テストをしてみましょう。標準のpropテストでは、最初にnull値として使用されるプールされた比率を計算します:。したがって、ここでは、およびポイント推定値を入力して、次の値を得ますp=p1N1+p2N2N1+N2d1N1^d2N2^p=d1+d2+α(N1+N2)N1+N2

  5. そして標準エラーはいつものことです:p(1p)(1N1+1N2)

  6. そして検定統計量は同じです:z=d1N1d2N2se

解釈についてのいくつかの考え:

  • モデルは、標準誤差の虚数値を生成できます。これは、の場合に発生します。これは、分類子が生成すると予想されるエラーの数が、観測された数を超える場合です。たとえば、ポジティブを含まないサンプルが与えられた場合でも、分類子が平均5つのポジティブを生成すると期待するとします。4つの陽性を観察すると、信号がないかのように見えます。結果は、分類器によって生成されたノイズと区別できません。この場合、帰無仮説を棄却すべきではないと思います。p<0

  • これについて考えるもう1つの方法は、欠陥部品の数が分類器の誤差範囲内にある場合、当然、違いがあるかどうかはわかりません。部品に欠陥があるかどうかさえわかりません。

の推定にエラーを組み込む:α

  • これについてもう少し考えました。これを行うにはいくつかの方法があると思いますが、基本的には分布の推定値を取得したいと考えています。理想的には、この方法を使用する予定のデータセットの代表的なサンプルでの推定値を取得するための手順を繰り返して、この購入を実行します。これが不可能な場合は、単一のデータセットからサンプルを描画して単一のデータセットをブートストラップすることができますが、単一のデータセットが関心のあるすべてのセットを代表していない限り、これは理想的ではありません。αα

信頼度信頼区間を計算するとします。h

  • ブートストラップ分布を使用して、の信頼区間を経験的に計算します。(非常に保守的または非常に寛大な)ポイント推定値として使用して、各エンドポイントを上記のプロセスに接続し、propテストを使用して比率の差の推定値の信頼区間を見つけます。下限値と値の間隔として、間隔(とを取得するとします。次に、間隔(以前の間隔の両方を含む)は、比率の差に対して(1-h)* 100%CIになるはずです...h2ααh2lowl,lowr)(highl,highr)α(highl,lowr)

注:上記では、片側テストを想定しています。2つの独立した仮説をテストしているという事実を考慮して、hを2で除算します(はあなたが考える区間にあり、テスト統計は有意差です)。両側検定を行う場合は、代わりに4で割ります。α


+1、ありがとうございます。6で「静的」と書いたが、「統計」という意味ですか?
アレッサンドロジャコプソン

最初の箇条書きで、が架空の標準誤差を与えると考えます。についてはどうですか(これは架空の標準誤差も発生させる可能性があります)?を取得することは可能ですか?p<00<p<10<p<1
アレッサンドロジャコプソン

2番目の箇条書きで、「分散」について書いたのですが、どういう意味ですか。私の理解は次のとおりです。最初のテストのからサイズサンプルを取り、7つの欠陥部品を見つけたとします。私は、内の任意の分散無視します。一方、(たとえばRを使用して)信頼区間を取得し、モデルに組み込むことができます。私は正しいですか?0.01(N1d1)100β=7100ββprop.test(7,100)
アレッサンドロジャコプソン

@uvts_cvsええ、それは「統計」でなければなりません。すぐに修正します。標準エラーの計算にはタイプミスもありますが、代わりにp *(1-p)にする必要があります。分類子が本当に悪く、dが大きい場合を除いて、Pは常に1未満でなければなりません。3つ目のコメントについては、そうですね。その見積もりをモデルに組み込む方法がわからないだけです。おそらくここにいる誰かが知っていますか?
John Doucette、2012年

受け入れてくれてありがとう、しかし昨夜から私はそれについてもう少し考えました(ところで非常に良い質問です!)、そして分散をどのように組み込むかについていくつかのアイデアを持っています。に負の標本の数を掛け、に正の標本の数を掛ける必要があります。私はそれを処理し、後でこれを更新します。βαβ
John Doucette、2012年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.