クラスタリング方法を理解しようとしています。
私が理解したと思うII:
教師あり学習では、計算前に既知のカテゴリ/ラベルデータが割り当てられます。そのため、これらのクラスターにとって本当に重要なパラメーターを「学習」するために、ラベル、クラス、またはカテゴリーが使用されています。
教師なし学習では、クラスターを認識せずに、データセットがセグメントに割り当てられます。
つまり、どのパラメーターがセグメンテーションに重要であるかさえわからない場合、教師あり学習を好む必要があるということですか?
クラスタリング方法を理解しようとしています。
私が理解したと思うII:
教師あり学習では、計算前に既知のカテゴリ/ラベルデータが割り当てられます。そのため、これらのクラスターにとって本当に重要なパラメーターを「学習」するために、ラベル、クラス、またはカテゴリーが使用されています。
教師なし学習では、クラスターを認識せずに、データセットがセグメントに割り当てられます。
つまり、どのパラメーターがセグメンテーションに重要であるかさえわからない場合、教師あり学習を好む必要があるということですか?
回答:
違いは、教師あり学習では、「カテゴリ」、「クラス」、または「ラベル」が知られていることです。教師なし学習ではそうではなく、学習プロセスは適切な「カテゴリー」を見つけようとします。どちらの種類の学習でも、すべてのパラメーターを考慮して、分類の実行に最適なパラメーターが決定されます。
監視ありまたは監視なしを選択したかどうかは、データの「カテゴリ」が何であるかを知っているかどうかに基づいている必要があります。知っている場合は、教師あり学習を使用してください。わからない場合は、監視なしを使用してください。
多数のパラメーターがあり、どのパラメーターが関連するかわからないため、主成分分析のようなものを使用して、関連するパラメーターを決定できます。
2度以上の監視があることに注意してください。たとえば、2007年の構造発見パラダイムにおける教師なしの知識なしの自然言語処理、Christian Biemannの博士論文の24〜25ページ(6〜7)を参照してください。
学位論文では、自然言語処理のコンテキストで、4度(教師あり、半教師あり、弱教師あり、教師なし)を識別し、違いを説明します。関連する定義は次のとおりです。
教師あり学習では、クラスは事前に知られており、そのクラス、たとえば2つのクラスの良い顧客と悪い顧客も事前にわかっています。新しいオブジェクト(顧客)がその属性に基づいて来ると、顧客は悪い顧客クラスまたは良い顧客クラスに割り当てられます。
教師なし学習では、グループ/クラスはまだ知られていないため、オブジェクト(顧客)が存在するため、同様の購買習慣を持つ顧客をグループ化します。したがって、異なるグループは顧客で構成されます。