平易な英語でのコーエンのカッパ


131

データマイニングの本を読んでいますが、分類器の予測パフォーマンスを評価する手段としてカッパ統計に言及しています。しかし、私はこれを理解できません。私はまた、ウィキペディアをチェックしますが、それはあまりにも助けなかった:https://en.wikipedia.org/wiki/Cohen's_kappaを

Cohenのカッパは、分類器の予測パフォーマンスの評価にどのように役立ちますか?それは何を伝えますか?

100%のカッパは、分類器がランダムな分類器と完全に一致していることを意味しますが、これが分類器のパフォーマンスの評価にどのように役立つかわかりませんか?

40%kappaはどういう意味ですか?40%の時間、分類器はランダム分類器と一致しているということですか?もしそうなら、それは私に何を伝え、分類器を評価するのに役立ちますか?

回答:


226

前書き

カッパ統計(または値)は、観測された精度期待された精度(ランダムチャンス)を比較するメトリックです。kappa統計は、単一の分類子を評価するためだけでなく、分類子同士を評価するためにも使用されます。さらに、ランダムチャンス(ランダムな分類子との一致)を考慮します。これは、一般に、単純にメトリックとして精度を使用するよりも誤解が少ないことを意味します(80%の観測精度は75%の期待精度であまり印象的ではありません)対50%の期待精度)。観測された精度期待される精度の計算は、カッパ統計の理解に不可欠であり、混同行列を使用して最も簡単に説明できます。Cats and Dogsの単純なバイナリ分類からの単純な混同マトリックスから始めましょう

計算

     Cats Dogs
Cats| 10 | 7  |
Dogs| 5  | 8  |

ラベル付きデータに対して教師付き機械学習を使用してモデルが構築されたと仮定します。これは常にそうである必要はありません。カッパ統計は、多くの場合、2人の評価者間の信頼性の尺度として使用されます。とにかく、列は1つの「評価者」に対応し、行は別の「評価者」に対応します。教師あり機械学習では、1つの「評価者」はラベル付きデータから取得したグラウンドトゥルース(分類する各インスタンスの実際の値)を反映し、もう1つの「評価者」は分類の実行に使用する機械学習分類器です。最終的に、どちらがカッパ統計量を計算するかは重要ではありませんが、明確にするために」 分類。

混同マトリックスから、合計30のインスタンス(10 + 7 + 5 + 8 = 30)があることがわかります。最初の列によると15(10 + 5 = 15)とラベル付けされ、2番目の列によると15(7 + 8 = 15)とラベル付けされました。また、このモデルでは17個のインスタンスが(10 + 7 = 17)として、13個のインスタンスが(5 + 8 = 13)として分類されていることがわかります。

観測精度はとして標識したインスタンスの数、つまり、単純に全体の混同マトリックス全体に正しく分類されたインスタンスの数であるを経由して地上の真実と、その後に分類によって機械学習分類子、またはとしてラベルを経由してグランドトゥルースとその後、機械学習分類器によってとして分類されます。観測精度を計算するには、機械学習分類器グラウンドトゥルースと合意したインスタンスの数を単に追加します。ラベルを付け、インスタンスの総数で割ります。この混同行列の場合、これは0.6((10 + 8)/ 30 = 0.6)になります。

kappa統計の方程式に進む前に、もう1つの値が必要です。それはExpected Accuracyです。この値は、混同マトリックスに基づいてランダム分類器が達成することが期待される精度として定義されます。予想精度は、直接、各クラス(のインスタンスの数に関係しているインスタンスの数と一緒に、)機械学習分類子はと合意したグランドトゥルースラベル。計算するために期待される精度私たちの混同行列のために、最初の乗算限界周波数猫をすることによって一つの「評価者」のための限界周波数2番目の「評価者」の、およびインスタンスの総数で割ります。特定の「評価者」による特定のクラスの限界頻度は、「評価者」がそのクラスを示したすべてのインスタンスの合計です。我々の場合では、15(10 + 5 = 15)の場合のように標識したに係るグランドトゥルース、及び17(10 + 7 = 17)の場合のように分類されたによって機械学習クラシファイア。この結果、値は8.5(15 * 17/30 = 8.5)になります。これは、2番目のクラスについても同様に行われます(2つ以上ある場合は、追加のクラスごとに繰り返すことができます)。15(7 + 8 = 15)インスタンスはグラウンドトゥルースに従ってDogsとしてラベル付けされ、13(8 + 5 = 13)インスタンスは機械学習分類器によってDogsとして分類されました。これにより、値6.5(15 * 13/30 = 6.5)になります。最後のステップは、これらの値をすべて加算し、最終的にインスタンスの総数で再び除算することです。その結果、期待精度0.5((8.5 + 6.5)/ 30 = 0.5)になります。この例では、いずれかの「評価者」がバイナリ分類で同じ頻度で各クラスを分類する場合(両方のが常にそうであるように、期待精度は50%であることが判明しましたそして、私たちの混同マトリックスのグラウンドトゥルースラベルによると、犬に15個のインスタンスが含まれていました)

その後、観測精度0.60)と期待精度0.50)の両方と式を使用してカッパ統計を計算できます。

Kappa = (observed accuracy - expected accuracy)/(1 - expected accuracy)

したがって、この場合、カッパ統計は(0.60-0.50)/(1-0.50)= 0.20に等しくなります。

別の例として、バランスの悪い混同マトリックスと対応する計算を次に示します。

     Cats Dogs
Cats| 22 | 9  |
Dogs| 7  | 13 |

グラウンドトゥルース:猫(29)、犬(22)
機械学習分類器:猫(31)、犬(20)
合計:(51)
観測精度:((22 + 13)/ 51)= 0.69
期待精度:((29 * 31/51)+(22 * 20/51))/ 51 = 0.51
カッパ:(0.69-0.51)/(1-0.51)= 0.37

本質的に、カッパ統計は、機械学習分類器によって分類されたインスタンスがグラウンドトゥルースとしてラベル付けされたデータとどの程度一致したかを示す尺度であり、予測精度によって測定されるランダム分類器の精度を制御します。このカッパ統計は、分類器自体の実行方法を明らかにするだけでなく、あるモデルのカッパ統計は、同じ分類タスクに使用される他のモデルのカッパ統計に直接匹敵します。

解釈

カッパ統計の標準化された解釈はありません。ウィキペディア(論文を引用)によると、ランディスとコッホは0-0.20をわずか、0.21-0.40を公平、0.41-0.60を中程度、0.61-0.80を実質、0.81-1をほぼ完全とみなしています。フライスはカッパを> 0.75が優れているとみなし、0.40〜0.75を公平〜良いとみなし、<0.40を不良とみなしています。両方のスケールがいくぶんarbitrary意的であることに注意することが重要です。カッパ統計を解釈するときは、少なくとも2つの考慮事項を考慮する必要があります。第一に、可能な限り最も正確な解釈を得るために、カッパ統計を付随する混同マトリックスと常に比較する必要があります。次の混同マトリックスを検討してください。

     Cats Dogs
Cats| 60 | 125 |
Dogs| 5  | 5000|

カッパ統計は0.47で、LandisとKochによる中程度のしきい値をはるかに上回っており、Fleissにとっては良好です。ただし、を分類する場合のヒット率に注意してください。すべての猫の 3分の1未満が実際にとして分類されました。残りはすべて犬に分類されました。我々は分類の詳細を気にした場合猫を正しくする(たとえば、我々はにアレルギーがあるではないと、そして我々は我々が取る動物の数を最大化することとは対照的に、アレルギーに屈していない気にすべての)下で、その後、分類器をカッパですが、の分類率が高いほど理想的です。

第二に、許容できるカッパ統計値はコンテキストによって異なります。たとえば、行動を容易に観察できる評価者間信頼性調査の多くでは、0.70未満のカッパ統計値は低いと見なされる場合があります。ただし、機械学習を使用して白昼夢などの認知状態などの観測不可能な現象を調査する研究では、0.40を超えるカッパ統計値は例外と見なされる場合があります。

だから、0.40カッパについてのあなたの質問に答えて、それは依存します。それ以外の場合は、分類器が、予想される精度が100%である場合の2/5の分類率を達成したことを意味します。予想される精度が80%の場合、分類器は80%を超える20%(これは80%と100%の間の距離であるため)の40%(カッパーは0.4であるため)を実行したことを意味します(これは0のカッパーであるため、またはランダムチャンス)、または88%。したがって、その場合、カッパが0.10増加するごとに、分類精度が2%増加することを示します。精度が代わりに50%である場合、0.4のカッパは、50%(これはaであるため)の50%(50%と100%の間の距離)の40%(0.4のカッパ)の精度で分類器が実行したことを意味します0のカッパ、またはランダムチャンス)、または70%。繰り返しますが、この場合、カッパが0増加することを意味します。

さまざまなクラス分布のデータセットで構築および評価された分類子は、予想される精度との関係でこのスケーリングが行われるため、カッパ統計を使用して(単に精度を使用するのではなく)より確実に比較できます。クラス分布が同様に歪んでいる場合、単純な精度が歪む可能性があるため、分類器がすべてのインスタンスでどのように実行されたかをより適切に示します。前述のように、80%の精度は75%の予測精度に対して50%の予測精度ではるかに印象的です。上記で説明した予想精度は、クラス分布の歪みの影響を受けやすいため、カッパ統計を使用して予想精度を制御することにより、異なるクラス分布のモデルをより簡単に比較できます。

それは私が持っているすべてについてです。誰かが残されたもの、間違ったもの、またはまだ不明な点に気づいたら、私に知らせてください。そうすれば答えを改善できます。

参考になった参考文献:

カッパの簡潔な説明が含まれています:http : //standardwisdom.com/softwarejournal/2011/12/confusion-matrix-another-single-value-metric-kappa-statistic/

予想精度の計算の説明が含まれています:http : //epiville.ccnmtl.columbia.edu/popup/how_to_calculate_kappa.html


1
セルの予想頻度がrowsum * colsum / Nに等しい理由に関する背景を追加します。これは縮小版であり、最初は方程式が成立する理由が明らかではないためです。これは、同様にカイ二乗テストで使用されます。en.wikipedia.org/wiki/...
Zhubarb

2
これは素晴らしい答えですが、非常に支配的なクラスがカッパの解釈にどのように影響するかについて、もう少し光を当てることができますか(リンク!)たとえば、7つの土地被覆クラスのconfマトリックスがあり、そのうちの1つが支配的です(全データの〜70%)。私はこの「全体的なエラー」を推測しますか?
サム

2
ただのランダムなコメント:あなたの説明はウィキペディアのページよりもずっと明確です:)
R.Falque

1
予想される精度については、次のように考える方が簡単な場合があることに注意してください。 「グラウンドトゥルース」は、何かを犬と分類します。同様に、ML分類子(17/30)の予想される割合の猫、(13/30)予想される割合の犬。相関のない分類子を想定すると、(15/30)*(17/30)+(15/30)*(13/30)= .5(犬または猫として)。したがって、0.5時間の合意は偶然です。
ClownInTheMoon

1
確かに、アノテーターの比較は本来の意図です。しかし、科学の歴史には、何らかのフォーミュラなどがその産卵プールから別のフォーミュラに飛び出し、世界をより良い場所にしたケースが散らばっています。そうは言っても、おそらくあなたのケースに応じて、使用するより良いメトリックがあるでしょう。最終決定を下す前に、候補指標の長所と短所を理解する必要があります。AUPRCは、たとえば、場合によってはより良い方法かもしれません。
rbx

14

rbxには素晴らしい答えがあります。ただし、これは少し冗長です。ここに、カッパメトリックの背後にある私の要約と直観があります。


カッパは、分類器のパフォーマンス、特に不均衡なデータセットに関する重要な指標です。

たとえば、クレジットカード詐欺の検出では、応答変数の周辺分布は大きく歪んでいるため、測定値として精度を使用しても役に立ちません。つまり、特定の不正検出の例では、トランザクションの99.9%が非不正トランザクションになります。すべてのトランザクションに対して常に詐欺ではないという単純な分類器を使用できますが、それでも精度は99.9%になります。

一方、カッパは、応答変数の周辺分布を考慮することにより、この問題を「修正」します。カッパを使用すると、前述の簡単な分類器には非常に小さなカッパがあります。

平易な英語では、ターゲット分布での推測と比較して、クラシエがどれだけ優れているかを測定します。


1
最後の段落は「平易な英語では、ターゲット分布との推測と比較して分類器がどれだけ優れているかを測定する」と読むべきだと感じています。
シルバーフィッシュ

8

Cohenのカッパの値がどの程度強いかは、たとえば、使用される1カテゴリまたはコードの数がカッパ影響を与えることや、各コードが入力される確率など、いくつかの要因に依存します。

「たとえば、85%の正確なコードとオブザーバーが与えられた場合:

value of kappa   number of codes
0.49             2
0.60             3 
0.66             5 
0.69             10"

さて、等確率のコードはないが、異なる「基本レート」がある場合はどうでしょうか?

2つのコードの場合、Brucknerらのカッパプロットのように見えるだろうここに画像の説明を入力してください

...それにも関わらず(... Wikipediaの引用を続ける)、マグニチュードガイドラインが文献に登場しました。おそらく最初はランディスとコッホでした。

 <0 as indicating no agreement
 0.00–0.20 as slight, 
 0.21–0.40 as fair, 
 0.41–0.60 as moderate, 
 0.61–0.80 as substantial, and 
 0.81–1 as almost perfect agreement. 

ただし、この一連のガイドラインは決して一般に受け入れられているわけではありません。ランディスとコッホはそれを支持する証拠を提供せず、代わりに個人的な意見に基づいた。これらのガイドラインは役立つよりも有害である可能性があることに注意してください。フライスの同様にarbitrary意的なガイドラインはカッパを特徴付ける

>0.75 as excellent, 
 0.40 to 0.75 as fair to good, and 
<0.40 as poor."

(ウィキペディアの引用を終了)

Bakeman et al。が元々提供していたコードの数を説明するためのFalliObs Windowsプログラムの(見つけにくい)アップグレード用。従っComKappa3へのリンクを。プログラムの説明は、カッパの標準誤差を推定できるため、得られたカッパのヌル分布に対する有意性をテストできることを示しています(Bakeman&Gottman、1997; Fleiss、Cohen、&Everitt、1969)。他のカッパ対策の詳細については、行動の流れの分析を参照してください。12

同様の質問のバイナリ分類子評価するためのCohenのカッパ統計の使用も参照してください。

1 Bakeman、R .; Quera、V .; マッカーサー、D。ロビンソン、BF(1997)。「シーケンシャルパターンを検出し、誤りのあるオブザーバーを使用して信頼性を判断する」。心理学的方法。2:357–370。doi:10.1037 / 1082-989X.2.4.357

2 Robinson BF、Bakeman R. ComKappa:カッパおよび関連する統計を計算するためのWindows 95プログラム。行動研究の方法。1998; 30:731-2。


1

あなたの質問に答えるために(平易な英語で:-)):

Kappaは分類器の予測パフォーマンスの評価にどのように役立ちますか?それは何を伝えますか?!!

結果を次のように解釈できるように、カッパを2人の個人間の一致の尺度と見なす必要があります。

Poor agreement = 0.20 or less
Fair agreement = 0.20 to 0.40
Moderate agreement = 0.40 to 0.60
Good agreement = 0.60 to 0.80
Very good agreement = 0.80 to 1.00

6
この尺度を盲目的に適用せずに、rbxの回答を読んでください。「カッパ統計の標準化された解釈はありません。...ランディスとコッホは0-0.20を軽度、0.21-0.40を中程度、0.41-0.60を中程度とみなします、0.61〜0.80は実質的、0.81〜1はほぼ完璧であるフリースは、0.75を超えるカッパを優秀、0.40〜0.75を公正〜善、0.40未満を貧弱とみなします。カッパ統計を解釈する際には、少なくとも2つの考慮事項を考慮する必要があります。」これらの考慮事項は、RBXの答えで説明されている
joelostblom
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.