私が読んだことから:
遠隔監督:
A Distant supervision algorithm usually has the following steps:
1] It may have some labeled training data
2] It "has" access to a pool of unlabeled data
3] It has an operator that allows it to sample from this unlabeled
data and label them and this operator is expected to be noisy in its labels
4] The algorithm then collectively utilizes the original labeled training data
if it had and this new noisily labeled data to give the final output.
自己訓練:
自己学習( Yates、Alexander、et al。 "Textrunner:ウェブ上のオープンな情報抽出。" Human Language Technologies Proceedings:The Annual Conference of the North American Chapter of the Association of the Association of Computational Linguistics:Demonstrations。Association for Computational Linguistics、 2007.):
学習者は2つのステップで動作します。まず、独自のトレーニングデータに自動的にポジティブまたはネガティブのラベルを付けます。次に、このラベル付きデータを使用して、単純ベイズ分類器をトレーニングします。
弱い監督(Hoffmann、Raphael、et al。「重複する関係の情報抽出のための知識ベースの弱い監督。」第49回計算言語学協会の年次会議の議事録:人間言語技術-ボリューム1.計算言語学協会、2011年。):
多くの場合「弱」または「遠隔」監督と呼ばれるより有望なアプローチは、データベースの内容を対応するテキストにヒューリスティックに一致させることにより、独自のトレーニングデータを作成します。
ラベル付けヒューリスティックが訓練された分類器であり、ラベル付けフェーズと分類器トレーニングフェーズの間にループがあるという点で、自己訓練は少し異なるように見えることを除いて、すべて同じように聞こえます。ただし、ヤオ、リミン、セバスチャンリーデル、アンドリューマッカラム。「ラベル付きデータなしの集合的なクロスドキュメント関係抽出。」2010年自然言語処理の経験的方法に関する会議の議事録。Association for Computational Linguistics、2010。遠隔監督==自己訓練==弱い監督であると主張。
また、他の同義語はありますか?