グラウンドトゥルースとは


29

Machine Learningのコンテキストでは、Ground Truthという用語が頻繁に使用されるのを見てきました。私はよく検索して、ウィキペディアで次の定義を見つけました。

機械学習では、「グラウンドトゥルース」という用語は、教師あり学習手法に対するトレーニングセットの分類の精度を指します。これは、研究仮説を証明または反証するために統計モデルで使用されます。「グラウンドトゥルースティング」という用語は、このテストの適切な客観的(証明可能な)データを収集するプロセスを指します。ゴールドスタンダードと比較してください。

ベイジアンスパムフィルタリングは、教師あり学習の一般的な例です。このシステムでは、アルゴリズムはスパムと非スパムの違いを手動で学習します。これは、アルゴリズムのトレーニングに使用されるメッセージのグラウンドトゥルースに依存します。グラウンドトゥルースの不正確さは、結果として生じるスパム/非スパム判定の不正確さと相関します。

ポイントは、私が本当にそれが意味するものを得ることができないということです。ことで、ラベルがそれぞれに使用データオブジェクトまたはターゲット関数それぞれにラベルを与え、データオブジェクト、または多分何か他のもの?

回答:


25

グラウンドトゥルースは、トレーニングおよびテストの例でターゲット変数について測定したものです。

ほとんど常に、これをラベルと同じように安全に扱うことができます。

場合によっては、ラベルとまったく同じではありません。たとえば、データセットを拡張する場合、グランドトゥルース(実際の測定値)と拡張された例が割り当てたラベルにどのように関連するかには微妙な違いがあります。ただし、この区別は通常問題ではありません。

グラウンドトゥルースは間違っている可能性があります。これは測定値であり、エラーがある場合があります。一部のMLシナリオでは、基礎となる客観的な真実を定義するのが難しい主観的な測定も可能です。たとえば、専門家の意見や分析など、自動化を望んでいます。トレーニングするMLモデルは、トレーニングとテストに使用されるグラウンドトゥルースの品質によって制限されます。これは、Wikipediaの引用の説明の一部です。また、MLについて公開されている記事に、データの収集方法の完全な説明を含める必要があるのもこのためです。


トレーニング中に、フィーチャから(たとえば、スコアマップから)取得した情報を使用して、gt(たとえば、セグメンテーション問題など)を変更または作成できますか?
アレックス

@Alex:通常はありません。1つの修正された出力または半自動化されたプロセスが、パイプラインの次のアルゴリズムのグランドトゥルースを生成する状況があります。ただし、何らかのルールを介して独自のターゲットを修正するアルゴリズムを参照している場合、それは通常、新しいグラウンドトゥルースとは見なされません。代わりに、グラウンドトゥルースがトレーニング用に提供される元のセグメンテーションになります。賢い自動化された改良は、代わりにモデルの一部になります。
ニールスレーター

人間とのやり取り、または元の非画像データ(たとえば、3Dモデルを使用していくつかのソース画像が生成されるため、はるかに優れた「真の」セグメンテーションを作成できる)を参照する改良は、新しい根拠です。1番目のモデルを構築するために使用される第1世代のグランドトゥルースと、2番目のモデルが同じアーキテクチャである場合でも、反復を経て第2モデルを構築するために使用される第2世代のグラウンドトゥルースのアイデアを分離したい場合がありますフィードバックに関するトレーニングを受けています。
ニールスレーター

「フィードバックのトレーニング」-近いが正確ではない。FCNモデルを見た場合、最後のレイヤーはスコアマップであり、gtマップとともにlog softmax loss関数にプラグインされます。私がやることは、スコアマップを取得し、そこからいくつかのデータ(たとえば、argmaxバイナリBLOBの数)を抽出し、(何らかの方法で)損失関数にプラグインする前にgtマスクを変更します。これは合法ですか?
アレックス

@Alex:それはあなたのモデルの一部であり、新しい根拠ではありません。新しいモデルの目的は、結合された機能を学習することであると勝手に決定しない限り。その場合、それは新しいモデルのグランドトゥルースです-ただし、自動化された方法で元の測定から変更されているため、このデータの複雑なソースに最も確実に注意する必要があります。
ニールスレーター

2

グラウンドトゥルース:それが、モデルに予測させたい現実です。

ノイズがあるかもしれませんが、このグラウンドトゥルースの原因となっているデータの基になるパターンをモデルに学習させたいと思います。実際には、グラウンドトゥルースにもノイズがあり、100%の精度が得られるモデルはないため、モデルはグラウンドトゥルースを予測することはできませんが、可能な限りモデルを近づけたいと考えています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.