Machine Learningのコンテキストでは、Ground Truthという用語が頻繁に使用されるのを見てきました。私はよく検索して、ウィキペディアで次の定義を見つけました。
機械学習では、「グラウンドトゥルース」という用語は、教師あり学習手法に対するトレーニングセットの分類の精度を指します。これは、研究仮説を証明または反証するために統計モデルで使用されます。「グラウンドトゥルースティング」という用語は、このテストの適切な客観的(証明可能な)データを収集するプロセスを指します。ゴールドスタンダードと比較してください。
ベイジアンスパムフィルタリングは、教師あり学習の一般的な例です。このシステムでは、アルゴリズムはスパムと非スパムの違いを手動で学習します。これは、アルゴリズムのトレーニングに使用されるメッセージのグラウンドトゥルースに依存します。グラウンドトゥルースの不正確さは、結果として生じるスパム/非スパム判定の不正確さと相関します。
ポイントは、私が本当にそれが意味するものを得ることができないということです。ことで、ラベルがそれぞれに使用データオブジェクトまたはターゲット関数それぞれにラベルを与え、データオブジェクト、または多分何か他のもの?