回答:
一般に、分類では、事前定義されたクラスのセットがあり、新しいオブジェクトが属するクラスを知りたいと考えています。
クラスタリングは、一連のオブジェクトをグループ化し、オブジェクト間に何らかの関係があるかどうかを見つけようとします。
データマイニングまたは機械学習の人にこの質問をした場合、彼らは教師あり学習と教師なし学習という用語を使用して、クラスタリングと分類の違いを説明します。では、最初に、監視ありと監視なしのキーワードについて説明します。
教師あり学習: バスケットがあり、いくつかの新鮮な果物が入っており、同じ種類の果物を1か所に配置することがあなたの仕事であるとします。果物がリンゴ、バナナ、チェリー、ブドウであるとします。だから、あなたはあなたの前の仕事から、それぞれの果物の形を知っているので、同じ種類の果物を一箇所に配置するのは簡単です。ここで、以前の作業は、データマイニングでトレーニングされたデータと呼ばれます。つまり、トレーニング済みのデータからすでに物事を学んでいるのです。これは、一部の果物にそのような機能がある場合、それがすべての果物のようにブドウであるという応答変数があるためです。
トレーニングされたデータから取得するこのタイプのデータ。このタイプの学習は、教師あり学習と呼ばれます。このタイプ解決問題は分類に分類されます。だからあなたはすでに物事を学び、自信を持って仕事をすることができます。
監視なし: バスケットがあり、いくつかの新鮮な果物が入っており、同じ種類の果物を1か所に配置することがあなたの仕事であるとします。
今回はその果物について何も知りませんが、初めてこれらの果物を見たので、同じ種類の果物をどのようにアレンジしますか。
あなたが最初にすることはあなたがその果物を手に取り、あなたはその特定の果物の物理的な特徴を選択することです。あなたが色を取ったとしましょう。
次に、色に基づいてそれらを配置し、グループはこのようなものになります。 RED COLOR GROUP:リンゴとチェリーフルーツ。 グリーンカラーグループ:バナナとブドウ。これで、サイズとして別の物理的特性を使用できるようになるため、グループはこのようなものになります。 赤い色と大きなサイズ:リンゴ。 赤い色と小さいサイズ:チェリーフルーツ。 緑の色と大きなサイズ:バナナ。 緑の色と小さいサイズ:ブドウ。仕事はハッピーエンドを行いました。
ここでは、以前に何も学習していません。つまり、列車データも応答変数もありません。このタイプの学習は、教師なし学習として知られています。クラスタリングは、教師なし学習のもとになります。
+分類:新しいデータがいくつか与えられ、それらに新しいラベルを設定する必要があります。
たとえば、企業が見込み客を分類したいとします。新しい顧客が来るとき、彼らはこれが彼らの製品を購入しようとしている顧客であるかどうかを決定しなければなりません。
+クラスタリング:誰が何を買ったかを記録した一連の履歴トランザクションが与えられます。
クラスタリング手法を使用すると、顧客のセグメンテーションを確認できます。
皆さんは機械学習について聞いたことがあると思います。それが何であるかを知っているかもしれません。また、機械学習アルゴリズムを使用した経験のある方もいます。これがどこへ行くのか分かりますか?5年後に絶対に欠かせないテクノロジーに精通している人は少なくない。Siriは機械学習です。AmazonのAlexaは機械学習です。広告とショッピングアイテムの推奨システムは機械学習です。2歳の男の子の簡単な例えで機械学習を理解してみましょう。ちょうど楽しみのために、彼をカイロ・レンと呼びましょう
カイロ・レンが象を見たとしましょう。彼の脳は彼に何を伝えますか?(彼がベイダーの後継者である場合でも、彼には最小限の思考能力があることを思い出してください)。彼の脳は彼に色が灰色である大きな動く生き物を見たと言うでしょう。彼は次に猫を見て、彼の脳はそれが金色の小さな動く生き物であることを彼に話します。最後に、彼は次にライトサーベルを見て、彼の脳は、それが彼が遊ぶことができる非生物であると彼に話します!
この時点での彼の脳は、サーベルが象や猫とは異なることを知っています。サーベルは遊ぶものであり、それ自体では動かないためです。カイロが可動の意味を知らなくても、彼の脳はこれを理解することができます。この単純な現象はクラスタリングと呼ばれます。
機械学習は、このプロセスの数学的バージョンにすぎません。統計を研究する多くの人々は、いくつかの方程式を脳と同じように機能させることができることに気づきました。脳は類似のオブジェクトをクラスター化でき、脳は間違いから学び、脳は物事を識別することを学ぶことができます。
これらはすべて統計で表すことができ、このプロセスのコンピューターベースのシミュレーションは機械学習と呼ばれます。なぜコンピュータベースのシミュレーションが必要なのですか?コンピュータは人間の脳よりも速く重い計算を行うことができるからです。私は機械学習の数学的/統計的部分に行きたいと思いますが、最初にいくつかの概念をクリアしない限り、そこに飛び込むことはできません。
Kylo Renに戻りましょう。カイロがサーベルを手に取り、それで遊んだとしましょう。彼は誤ってストームトルーパーを攻撃し、ストームトルーパーは負傷する。彼は何が起こっているのか理解しておらず、演奏を続けています。次に彼は猫を殴り、猫は怪我をします。今回、カイロは何か悪いことをしたと確信しており、いくらか注意を払おうとします。しかし、彼の悪いサーベルスキルを考えると、彼は象を攻撃し、彼が問題を抱えていることを絶対に確信しています。その後、彼は非常に注意深くなり、フォースの覚醒で見たように故意に父親を殴るだけです!!
間違いから学ぶこの全体のプロセスは、方程式で模倣することができます。ここで、何か間違ったことをする感覚は、エラーまたはコストによって表されます。サーベルで何をしないかを識別するこのプロセスは、分類と呼ばれます。クラスタリングと分類は、機械学習の絶対的な基本です。それらの違いを見てみましょう。
カイロは、動物とライトサーベルを区別しました。なぜなら、彼の脳は、ライトサーベルは一人で動くことができず、したがって異なると判断したからです。決定は存在するオブジェクト(データ)のみに基づいて行われ、外部からのヘルプやアドバイスは提供されませんでした。これとは対照的に、Kyloは最初にオブジェクトを打つことで何ができるかを観察することにより、ライトサーベルに注意することの重要性を区別しました。決定は完全にサーベルに基づいていたのではなく、さまざまなオブジェクトに対して何ができるかによるものでした。要するに、ここでいくつかの助けがありました。
この学習の違いにより、クラスタリングは教師なし学習法と呼ばれ、分類は教師あり学習法と呼ばれます。それらは機械学習の世界では非常に異なり、多くの場合、存在するデータの種類によって決定されます。ラベル付きデータ(または、Kyloの場合、ストームトルーパー、象、猫などの学習に役立つもの)を取得することは、多くの場合容易ではなく、区別するデータが大きい場合は非常に複雑になります。一方、ラベルなしで学習すると、ラベルのタイトルがわからないなど、独自の欠点が生じる可能性があります。カイロが例や助けなしにサーベルに注意することを学ぶなら、彼はそれが何をするか知りません。彼はそれが行われるとは想定されていないことを知っているだろう。それは一種の不完全な類推ですが、あなたはポイントを獲得します!
機械学習を始めたばかりです。分類自体は、連続番号の分類またはラベルの分類です。たとえば、Kyloが各ストームトルーパーの高さを分類する必要がある場合、高さは5.0、5.01、5.011などになる可能性があるため、多くの答えがあります。しかし、ライトサーベルのタイプ(赤、青、緑)のような単純な分類非常に限られた答えがあります。実際、それらは単純な数字で表すことができます。赤は0、青は1、緑は2です。
基本的な数学を知っていれば、0、1、2と5.1、5.01、5.011は異なり、それぞれ離散数と連続数と呼ばれます。離散番号の分類はLogistic Regressionと呼ばれ、連続番号の分類はRegressionと呼ばれます。ロジスティック回帰はカテゴリー分類とも呼ばれるため、この用語を他の場所で読んだときに混乱しないでください。
これは機械学習の非常に基本的な紹介でした。私は次の投稿で統計的な側面について詳しく説明します。修正が必要な場合はお知らせください:)
第二部はこちらに掲載。
私はデータマイニングの新人ですが、私の教科書が言うように、CLASSICIATIONは教師あり学習であり、教師なし学習をクラスタリングすることになっています。教師あり学習と教師なし学習の違いについては、こちらをご覧ください。
例からの学習に基づいて、事前定義されたクラスを新しい観測に割り当てます。
これは、機械学習の主要なタスクの1つです。
一般に「教師なし分類」として却下されていますが、まったく異なります。
多くの機械学習者が教えることとは対照的に、オブジェクトに「クラス」を割り当てることではなく、事前に定義する必要はありません。これは、分類をしすぎた人の非常に限られた見方です。ハンマー(分類子)の典型的な例は、すべてが釘(分類問題)のように見えます。しかし、それが分類の人々がクラスタリングのこつを得ない理由でもあります。
代わりに、構造の発見と考えてください。クラスタリングのタスクは、以前は知らなかったデータ内の構造(グループなど)を見つけることです。新しいことを学べば、クラスタリングは成功しています。あなたがすでに知っている構造だけを得たなら、それは失敗しました。
クラスター分析はデータマイニングの主要なタスクです(機械学習の醜いアヒルの子なので、機械学習者がクラスター化を無視するのを聞かないでください)。
これは文献を上下に反復されてきましたが、教師なし学習はそうです。それは存在しませんが、それは「軍事情報」のようなオキシモロンです。
アルゴリズムが例から学習する(「教師あり学習」である)か、学習しないかのいずれかです。すべてのクラスタリング手法が「学習」である場合、データセットの最小、最大、および平均の計算も「教師なし学習」です。次に、計算はその出力を「学習」しました。したがって、「教師なし学習」という用語はまったく意味がなく、すべてを意味し、何も意味しません。
ただし、一部の「教師なし学習」アルゴリズムは、最適化のカテゴリーに分類されます。たとえば、k-means は最小二乗最適化です。そのような方法はすべて統計に基づいているため、「教師なし学習」というラベルを付ける必要はないと思いますが、代わりに「最適化問題」と呼んでください。より正確で、より意味があります。最適化を含まず、機械学習のパラダイムにうまく適合しないクラスタリングアルゴリズムはたくさんあります。そこで、「教師なし学習」という傘の下で、彼らをそこに押し込むのをやめてください。
クラスタリングに関連する「学習」がいくつかありますが、学習するのはプログラムではありません。彼のデータセットについて新しいことを学ぶことになっているのはユーザーです。
クラスタリングすることにより、抽出したクラスターの数、形状、その他のプロパティなど、希望するプロパティでデータをグループ化できます。一方、分類では、グループの数と形状は固定されています。ほとんどのクラスタリングアルゴリズムは、クラスターの数をパラメーターとして提供します。ただし、適切な数のクラスターを見つける方法はいくつかあります。
まず第一に、多くの回答のようにここに述べます:分類は教師あり学習であり、クラスタリングは教師なしです。これの意味は:
分類にはラベル付けされたデータが必要なので、分類器をこのデータでトレーニングできます。その後、彼が知っていることに基づいて、目に見えない新しいデータの分類を開始します。クラスタリングのような教師なし学習では、ラベル付きデータは使用されません。実際に行われるのは、グループなどのデータに固有の構造を発見することです。
(前の手法に関連する)両方の手法のもう1つの違いは、分類が、出力がカテゴリ依存変数である離散回帰問題の形式であることです。一方、クラスタリングの出力は、グループと呼ばれるサブセットのセットを生成します。これら2つのモデルを評価する方法も、同じ理由で異なります。分類では、精度と再現率を確認する必要があることが多く、過剰適合や過小適合などのことです。これらのことから、モデルがどれほど優れているかがわかります。しかし、クラスタリングでは、通常、どのようなタイプの構造(グループまたはクラスターのタイプ)を持っているのかわからないため、見つけたものを解釈するエキスパートのビジョンとエキスパートが必要です。そのため、クラスタリングは探索的データ分析に属します。
最後に、アプリケーションが両方の主な違いだと思います。単語が言うように、分類は、クラスなどに属するインスタンスを区別するために使用されます。たとえば、男性または女性、猫または犬などです。クラスタリングは、医学的疾患の診断、パターンの発見、等
分類:結果を離散出力で予測=>入力変数を離散カテゴリにマッピング
一般的な使用例:
メールの分類:スパムまたは非スパム
顧客への認可ローン:認可されたローン金額に対してEMIを支払うことができる場合は可能です。彼ができない場合
癌腫瘍細胞の同定:それは重要か非重要か?
ツイートの感情分析:ツイートはポジティブかネガティブかニュートラルか
ニュースの分類:ニュースを定義済みのクラスの1つに分類します-政治、スポーツ、健康など
クラスタリング:同じグループ(クラスターと呼ばれる)内のオブジェクトが他のグループ(クラスター)内のオブジェクトよりも(ある程度の意味で)互いに類似するように、オブジェクトのセットをグループ化するタスクです。
一般的な使用例:
マーケティング:マーケティング目的で顧客セグメントを見つける
生物学:動植物の異なる種間の分類
ライブラリ:トピックと情報に基づいて異なる本をクラスタリングする
保険:顧客、その方針を認め、詐欺を特定する
都市計画:住宅のグループを作成し、地理的な場所やその他の要因に基づいて住宅の価値を調査します。
地震研究:危険地帯を特定する
参照:
クラスタリングは、データ内のグループを見つけることを目的としています。「クラスター」は直感的な概念であり、数学的に厳密な定義はありません。1つのクラスターのメンバーは互いに類似している必要があり、他のクラスターのメンバーとは異なる必要があります。クラスタリングアルゴリズムは、ラベルのないデータセットZを操作し、その上にパーティションを作成します。
クラスとクラスラベルの場合、クラスには同様のオブジェクトが含まれますが、異なるクラスのオブジェクトは異なります。一部のクラスには明確な意味があり、最も単純なケースでは相互に排他的です。たとえば、署名の検証では、署名は本物または偽造されています。特定のシグネチャの観察から正しく推測できない場合でも、真のクラスは2つのうちの1つです。
クラスタリングは、類似した機能を持つオブジェクトが一緒になり、異なる機能を持つオブジェクトが分離するようにオブジェクトをグループ化する方法です。これは、機械学習とデータマイニングで使用される統計データ分析の一般的な手法です。
分類は、オブジェクトが認識され、区別され、データのトレーニングセットに基づいて理解される分類のプロセスです。分類は、トレーニングセットと正しく定義された観測を利用できる教師あり学習手法です。
分類用の1つのライナー:
データを事前定義されたカテゴリに分類する
クラスタリング用の1つのライナー:
データを一連のカテゴリにグループ化する
主な違い:
分類とは、データを取得してそれを事前定義のカテゴリーに入れることであり、クラスター化では、データをグループ化するカテゴリーのセットを事前に把握していません。
結論:
私はあなたがここで見つけることができる同じトピックについて長い記事を書きました:
データマイニングには、「監視あり」と「監視なし」の2つの定義があります。誰かがコンピュータ、アルゴリズム、コードなどに、これはリンゴのようなもので、オレンジのようなものだと言った場合、これは教師あり学習であり、教師あり学習(データセット内の各サンプルのタグなど)を使用してデータ、分類を取得します。しかし、一方で、コンピュータに何が何であるかを見つけさせ、特定のデータセットの機能を区別させ、実際には教師なしで学習する場合、データセットを分類することをクラスタリングと呼びます。この場合、アルゴリズムに供給されるデータにはタグがなく、アルゴリズムは異なるクラスを見つける必要があります。
機械学習またはAIは、主にそれが実行/達成するタスクによって認識されます。
私の意見では、クラスタリングと分類をタスクという概念で考えることで、2つの違いを理解するのに役立ちます。
クラスタリングは物事をグループ化することであり、分類は物事にラベルを付けることです。
男性がすべてスーツで女性がガウンであるパーティーホールにいるとします。
ここで、友達にいくつか質問します。
Q1:ねえ、人々のグループ化を手伝ってくれませんか?
あなたの友人が与えることができる可能な答えは次のとおりです:
1:性別、男性、女性に基づいて人々をグループ化できます
2:彼は服に基づいて人々をグループ化できます、1スーツを着ている他のガウンを着ています
3:髪の色に基づいてグループ化できる
4:年齢グループなどに基づいてグループ化できます。
彼らはあなたの友人がこのタスクを完了することができる多くの方法です。
もちろん、次のような追加の入力を提供することにより、彼の意思決定プロセスに影響を与えることができます。
性別(または年齢層、髪の色、ドレスなど)に基づいてこれらの人々をグループ化するのを手伝ってくれませんか?
Q2:
Q2の前に、いくつかの事前作業を行う必要があります。
情報に基づいた決定を下せるように、友達に教えるか通知する必要があります。それで、あなたがあなたの友人に次のように言ったとしましょう:
髪の長い人は女性です。
短い髪の人は男性です。
Q2。さて、あなたは長い髪の人を指して友達に尋ねます-それは男性ですか、女性ですか?
あなたが期待できる唯一の答えは:女性です。
もちろん、パーティーには長い髪の男性と短い髪の女性がいる可能性があります。しかし、答えはあなたがあなたの友人に提供した学習に基づいて正しいです。2つを区別する方法を友達にもっと教えることで、プロセスをさらに改善できます。
上記の例では、
Q1は、クラスタリングが達成するタスクを表します。
クラスタリングでは、データ(人)をアルゴリズム(友達)に提供し、データのグループ化を依頼します。
さて、グループ化する最良の方法は何かを決定するのはアルゴリズム次第ですか?(性別、色、年齢層)。
繰り返しになりますが、追加の入力を提供することにより、アルゴリズムによる決定に確実に影響を与えることができます。
Q2は分類が達成するタスクを表します。
そこで、あなたはあなたのアルゴリズム(あなたの友人)にトレーニングデータと呼ばれるいくつかのデータ(人)を与え、どのデータがどのラベル(男性または女性)に対応するかを彼に学ばせました。次に、アルゴリズムをテストデータと呼ばれる特定のデータにポイントし、それが男性か女性かを判断するように依頼します。あなたの教えが良いほど、それはより良い予測です。
そして、Q2または分類の事前作業は、モデルを区別する方法を学習できるようにモデルをトレーニングするだけです。クラスタリングまたはQ1では、この事前作業はグループ化の一部です。
これが誰かを助けることを願っています。
ありがとう
分類 -データセットは異なるグループ/クラスを持つことができます。赤、緑、黒。分類は、それらを異なるクラスに分割するルールを見つけようとします。
カスターリング- -データセットにクラスがなく、それらをクラス/グループ化したい場合は、クラスタリングを行います。上の紫色の円。
分類ルールが適切でない場合、テストで誤って分類されるか、urルールが十分に正しくありません。
クラスタリングが良くない場合、外れ値がたくさんあります。データポイントはどのクラスターにも分類できません。
分類とは、データセットのレコードを事前定義されたクラスに分類したり、外出先でクラスを定義したりすることだと思います。価値のあるデータマイニングの前提条件と見なしています。教師なし学習で考えます。つまり、データのマイニング中に探しているものがわからないので、分類は出発点として役立ちます。
反対側のクラスタリングは、教師あり学習に該当します。つまり、どのパラメータを探すべきか、それらの間の相関関係とクリティカルレベルを知っています。統計と数学の理解が必要だと思います