遠隔監視、自己訓練、自己監視学習、および弱い監視の間に違いはありますか？

私が読んだことから：

A Distant supervision algorithm usually has the following steps: 
1] It may have some labeled training data 
2] It "has" access to a pool of unlabeled data 
3] It has an operator that allows it to sample from this unlabeled 
   data and label them and this operator is expected to be noisy in its labels 
4] The algorithm then collectively utilizes the original labeled training data
    if it had and this new noisily labeled data to give the final output.

自己訓練：

ここに画像の説明を入力してください

自己学習（ Yates、Alexander、et al。 "Textrunner：ウェブ上のオープンな情報抽出。" Human Language Technologies Proceedings：The Annual Conference of the North American Chapter of the Association of the Association of Computational Linguistics：Demonstrations。Association for Computational Linguistics、 2007.）：

学習者は2つのステップで動作します。まず、独自のトレーニングデータに自動的にポジティブまたはネガティブのラベルを付けます。次に、このラベル付きデータを使用して、単純ベイズ分類器をトレーニングします。

弱い監督（Hoffmann、Raphael、et al。「重複する関係の情報抽出のための知識ベースの弱い監督。」第49回計算言語学協会の年次会議の議事録：人間言語技術-ボリューム1.計算言語学協会、2011年。）：

多くの場合「弱」または「遠隔」監督と呼ばれるより有望なアプローチは、データベースの内容を対応するテキストにヒューリスティックに一致させることにより、独自のトレーニングデータを作成します。

ラベル付けヒューリスティックが訓練された分類器であり、ラベル付けフェーズと分類器トレーニングフェーズの間にループがあるという点で、自己訓練は少し異なるように見えることを除いて、すべて同じように聞こえます。ただし、ヤオ、リミン、セバスチャンリーデル、アンドリューマッカラム。「ラベル付きデータなしの集合的なクロスドキュメント関係抽出。」2010年自然言語処理の経験的方法に関する会議の議事録。Association for Computational Linguistics、2010。遠隔監督==自己訓練==弱い監督であると主張。

また、他の同義語はありますか？

— フランク・ダーノンクール
ソース

興味深い質問。これはデータサイエンスに属しているのでしょうか？

— goangit 14年

@goangitおそらく、このウェブサイトの良い部分のように;）

— フランクデルノンクール14年

指定したすべての用語には2つの側面があります。1]トレーニングデータを取得するプロセス2]をトレーニングするアルゴリズム $f$

$f$

従来、教師あり学習に関する機械学習ペーパーでは、トレーニングデータが利用可能であり、その価値が何であるかについて、暗黙的にラベルが正確であり、ラベルにあいまいさがないと想定されていることがわかります。トレーニングデータのインスタンスに与えられます。しかし、遠く/弱い監督の論文では、トレーニングデータには不正確なラベルがあり、作業で通常強調したいのは、不正確なラベルを使用することの明らかな欠点にもかかわらず、良い結果を得るということです（そして、他のアルゴリズムの方法があるかもしれません）不正確なラベルの問題を克服するために、追加のフィルタリングプロセスなどを行うことで、通常、これらの追加プロセスが重要かつ有用であることを論文で強調したいと考えています。これにより、用語「弱い」が生じました。または「距離」は、トレーニングデータのラベルが不正確であることを示します。これは必ずしも分類子の学習面に影響を与えないことに注意してください。これらの人が使用する分類器は、ラベルが正確であり、トレーニングアルゴリズムがほとんど変更されないことを暗黙的にまだ想定しています。

一方、自己訓練はその意味でやや特別です。既に確認したように、独自の分類子からラベルを取得し、修正のためのフィードバックループが少しあります。一般に、学習した分類子がデータ全体に関するトレーニングデータから作成された帰納的推論である「誘導的」アルゴリズムのやや大きな視野の下で、教師付き分類子を研究します。一般的な帰納的推論はアルゴリズムの出力ではありませんが、アルゴリズムはトレーニングデータとテストデータの両方を入力として受け取り、テストデータにラベルを生成します。しかし、人々は、なぜ誘導学習でトランスダクティブ推論を使用して、より大きなトレーニングデータを持つ分類器を取得しないのかを考えました。

うまくいけば、私はあなたをさらに混乱させず、自由にコメントして、必要に応じてさらなる説明を求めてください。

[1]役に立つかもしれない-http ://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/pdf2527.pdf

— テナリラマン
ソース

ありがとう、あなたの答えは非常に興味深いです！自己学習はどうですか？遠い/弱い監督と同じですか？

— フランクデルノンクール14年

はい。ラベルは不正確なソースから個別に取得され、監視された分類器に送られるため、自己学習と遠隔/弱監視の違いは特に見られません。

— テナリラマン14年