決定木とKNN


13

どのケースでデシジョンツリーを使用し、他のケースではKNNを使用した方が良いですか?

特定のケースでそれらの1つを使用する理由 そして、別のケースで他の?(アルゴリズムではなく、その機能を見ることにより)

これについての説明や参考文献はありますか?


2
KNNは教師なしではありません。おそらく、答えはk-meansについて考えていたのでしょうか?

2
決定木学習も教師なしではありません。en.wikipedia.org/wiki/Supervised_learning
バレンタス

回答:


8

それらは異なる目的に役立ちます。

KNNは監視なし、デシジョンツリー(DT)は監視あり。(KNNは教師あり学習ですが、K-meansは教師なしです。この答えは混乱を招くと思います。)KNNはクラスタリングに使用され、DTは分類に使用されます(両方とも分類に使用されます。

KNNは近傍を決定するため、距離メトリックが必要です。これは、すべての機能が数値でなければならないことを意味します。距離メトリックは、属性間および高次元空間間でスケールを変えることにより影響を受ける場合があります。

一方、DTは、指定された入力ベクトルのクラスを予測します。属性は数値または名義です。

したがって、同様の例を見つけたい場合は、KNNを使用できます。サンプルを分類する場合は、DTを使用できます。


明確化:クラスタリング。ただし、特定の入力ベクトルの周囲にある単一のkサイズのクラスター。すべての機能が数値である必要があるとは限りません。たとえば、Jaccard類似度を使用して、フィーチャが名目上の距離を定義できます。

10
実際、彼らは両方監督されています。監視ありとは、学習者がラベル付きのトレーニングセットにアクセスできることを意味します。教師なしアルゴリズムは、ラベル予測ではなくクラスタリングのようなことを行います。
ヨルダンA

1
あなたはまた、正確にあなたのK隣人の大半をもとにKNNで分類することができます
Jekaterina Kokatjuhha

3
-1 knnk-meansは異なるアルゴリズムであり、この答えは残念ながら(そして誤って)これら2つの手順を逃します。knn監視なしでもクラスタリングにも使用されません!参照してくださいQ:デフk最近傍とkMean
SebNag

@ SebNag、sci-kit learnの「Unsupervised Nearest Neighbors」セクションは実際には変装したk-meansについて話しているだけだと言ってもいいですか?scikit-learn.org/stable/modules/neighbors.htmlそのセクションはknnを使用しているように見えますが、ラベルの知識がないクラスターを決定するために、ある種の距離測定を使用しています。
-Frikster

7

以下のような分類子ディシジョン・ツリー、ベイジアン、バックプロパゲーション、サポートベクターマシンは、のカテゴリの下に来る「イーガー学習者」彼らが最初に分類モデルを構築するため、トレーニングデータセット、実際の[見えない]観察分類することができるようになる前にテストデータセットを。学習したモデルは、以前は見えなかった観測を分類するために「熱心」(空腹に読まれる)になりました。


ただし、KNNベースの分類子は分類モデルを構築しません。トレーニングインスタンス(観測)から直接学習します。分類するためのテスト観測が与えられた後にのみ、データの処理を開始します。したがって、KNNは「Lazy Learner」アプローチのカテゴリに分類されます。

上記の基本的な違いに基づいて、次のことを結論付けることができます。

  1. KNNはその場での学習を実行するため、頻繁にデータベースを検索する必要があり、したがって計算コストが高くなる可能性があります。デシジョンツリー分類子は、インメモリ分類モデルが用意されているため、このようなルックアップを必要としません。

  2. KNNはインスタンスベースの学習を実行するため、適切に調整されたKは、意思決定ツリーのような他の「熱心な」学習者によって簡単にモデル化されない、任意の複雑な決定境界を持つ複雑な決定空間をモデル化できます。

  3. 「熱心な」学習者はバッチで作業し、一度に1つのグループのトレーニング観測をモデリングします。したがって、彼らは漸進的な学習には向いていません。しかし、KNNはインスタンスベースの学習者であるため、当然ながら増分学習(データストリーム)をサポートします。

  4. さらに、KNN分類器は、ベイズ分類器(ゴールドスタンダード)に近いテストエラー率を提供します。ISLRで引用されているように

ベイズのエラー率は、既約のエラーに類似しています


4

セバスチャン・ラシュカのパイソン機械学習から

このようなメモリベースのアプローチ[KNN]の主な利点は、新しいトレーニングデータを収集すると分類器がすぐに適応することです。ただし、欠点は、新しいサンプルを分類するための計算の複雑さが、最悪の場合のトレーニングデータセットのサンプルの数に比例して増加することです。 KDツリーなどの構造。JHフリードマン、JLベントレー、RAフィンケル。対数予想時間で最適な一致を見つけるためのアルゴリズム。ACM Transactions on Mathematical Software(TOMS)、3(3):209–226、1977.さらに、トレーニングステップが含まれていないため、トレーニングサンプルを破棄することはできません。したがって、大規模なデータセットを使用している場合、ストレージスペースが課題になる可能性があります。

ただし、決定木は新しい例を迅速に分類できます。一連のブール比較を実行しているだけです。


2

決定木は分類タスクと回帰タスクの両方に使用できることを付け加えます。一方、DTは、一般的なDT概念のサブタイプである分類ツリーを記述することにより、受け入れられた回答のクラスがより具体的になると予測します。1つのリファレンス(特定の実装を説明する最下層を無視):
決定木の種類 ここから:http : //www.simafore.com/blog/bid/62482/2-main-differences-between-classification-and-regression-trees

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.