教師付きクラスタリングまたは分類?


22

2番目の質問は、Web上のどこかで「教師ありクラスタリング」について話している議論で見つけたということです。私が知る限り、クラスタリングは教師なしです。「分類」に関する違いは何ですか?

それについて話している多くのリンクがあります:

http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf

http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf

http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf

http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf

http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf

http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf

http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

など...


「ウェブ上のどこかでの議論」のリンクを
教えてください


1
「クラスタリング」は「教師なし分類」と同義であるため、「教師ありクラスタリング」は矛盾表現です。ただし、自己組織化マップは、教師なし分類に使用される教師あり手法であり、「教師ありクラスタリング」に最も近いと考えることができます。
ディジオ

私がまだ理解している限りでは、「クラスタリングを使用してデータを整理し、さらに処理できるようにするか、少なくとも分析する準備ができるようにします」ので、クラスタリングで行うことは、データをクラスA、B、 Cなど...そのため、このデータは何らかの方法で監視されます。今では、このデータで何をしたいのか、このデータがどのように分類操作または回帰のいずれに役立つのかという要件に依存します。私が間違っている場合は修正してください。
SAK

回答:


2

私の単純な理解は、指定されたクラスのセットがあり、新しいもの/データセットをそれらの指定されたクラスのいずれかに分類する場合に分類が実行されるということです。

または、クラスタリングには何も開始しないため、すべてのデータ(新しいデータを含む)を使用してクラスターに分割します。

どちらも距離メトリックを使用して、クラスター化/分類の方法を決定します。違いは、分類が以前に定義されたクラスのセットに基づいているのに対し、クラスタリングはデータ全体に基づいてクラスターを決定することです。

繰り返しますが、私の単純な理解は、教師ありクラスタリングはまだデータ全体に基づいてクラスタリングしているため、分類ではなくクラスタリングであることです。

実際には、クラスタリングと分類の両方の背後にある理論が相互に関連していると確信しています。


私は謙虚に同意しません。「分類」は定義上、デフォルトでは監視されたプロセスであり、そうではないことを示唆しています。分類は、教師ありの場合と教師なしの場合に分けられ、後者はクラスタリングと同義です。
ディジオ

15

私はあなた以上に知っているとは思わないが、あなたが投稿したリンクは答えを示唆している。例としてhttp://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdfを取り上げます。基本的には、1)クラスタリングは距離に依存します。2)k-meansを正しく使用するには、慎重に選択した距離が必要です。3)項目セットの形式でのトレーニングデータが目的のパーティションで与えられた場合、k-meansが目的のクラスタリングを生成するように距離測度を学習する構造SVMメソッドを提供します。この場合、トレーニングデータと学習の両方を含む、クラスタリングの監視された段階があります。この段階の目的は、距離関数を学習して、トレーニングデータがアプリケーションドメインにどれだけ似ているかに応じて、この距離でのk-meansクラスタリングの適用が最適になるようにすることです。機械学習とクラスタリングに適切な通常の警告はすべて適用されます。

記事からさらに引用:教師ありクラスタリングは、アイテムセットとこれらのアイテムセットの完全なパーティションで構成されるトレーニングセットを使用して、クラスタリングアルゴリズムを自動的に適応させるタスクです。。それは合理的な定義のようです。


問題は単純です。ラベル付きトレーニングデータのセットから距離測定値を学習し、クラスタリング方法でこの距離測定値を適用したいのはなぜですか。監視された方法を使用しない理由。言い換えると、クラスタリング(つまり、データセットをクラスターに分割する)を行いたいが、すでに完全な望ましい分割があり、それを使用して距離測定を学習し、この学習したデータを使用してこのデータセットにクラスタリングを適用すると仮定します距離。せいぜい、距離測定を学習するために使用したのと同じパーティションを取得します!あなたはすでに持っている
SHN

「このデータにクラスタリングを適用する」と書く場所は、「類似のデータセットにクラスタリングを適用する」の代わりになります。このシナリオです。実験Xでは、データAとBがあります。Aはクラスタリング用で、Bは距離の学習に役立ちます。Bはゴールドスタンダードを設定し、おそらく入手するのに費用がかかります。後続の実験X2、X3では、Aを取得しますが、Bを取得する余裕はありません
。– micans

では、データセットBから「距離を学習する」と言うと、「距離のしきい値を学習する」または「距離メトリック関数を学習する」(一種のパラメーター化された非類似度)を意味しますか?
-shn

1
2番目の「距離メトリック関数の学習」を意味します。ちなみに、上記の簡単なAとBの定式化は、引用された原稿に記載されています。同様の方法で。」
ミカン

1
さて、「教師ありクラスタリング」は、「半教師ありクラスタリング」と呼ばれるものに非常に似ているようです。今まで、私は実際に違いを見ていません。ところで、他のいくつかの論文では、「(半)教師付きクラスタリング」は、同様の方法で将来のデータセットをクラスタリングするために使用される「修正距離関数の作成」を指していない。むしろ、距離関数を変更せずに「クラスタリングアルゴリズム自体を変更する」ことです。
-shn

3

いくつかの定義:

教師ありクラスタリングは、単一のクラスに対して高い確率密度を持つクラスターを識別する目的で、分類された例に適用されます。

教師なしクラスタリングは、特定のオブジェクト関数を使用する学習フレームワークです。たとえば、クラスター内の距離を最小化してクラスターを緊密に保つ関数です。

半教師ありクラスタリングは、クラスタリングプロセスでサイド情報を使用してクラスタリングアルゴリズムを強化することです。

ニューラルネットワークの進歩- ISNN 2010

私はこの分野での初心者ですので、あまり専門用語を使用しなければ、私は理解して道教師クラスタリングは、より少ない。このようなものです:

ではあなたがから始めるクラスタリング監修トップダウン事前定義されたクラスをいくつか使用し、ボトムアップアプローチを使用すると、どのオブジェクトがクラスにより適しているかがわかります。

たとえば、母集団でお気に入りのオレンジの種類に関する調査を実施しました。
多くの種類のオレンジから、特定の「種類」のオレンジが好ましいものであることがわかりました。
しかし、このタイプのオレンジは非常に繊細で、感染、気候変動、その他の環境要因に対して不安定です。
それで、あなたはそれらのin辱に対して非常に抵抗力がある他の種とそれを越えたいです。
次に、研究室に行って、あるタイプのジューシーで甘い味と、別のタイプの耐性能力の原因となる遺伝子をいくつか見つけました。
いくつかの実験を行い、オレンジのサブタイプが100個あるとしましょう。
ここで、説明したプロパティに完全に適合するサブタイプにのみ興味があります。
あなたは再びあなたの母集団で同じ研究を行いたくありません...
あなたは完璧なオレンジであなたが探している特性を知っています。
そのため、クラスター分析を実行し、最適なものを選択します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.