私が正しい場合、「教師なし分類」はクラスタリングと同じです。次に、「教師なし回帰」がありますか?ありがとう!
私が正しい場合、「教師なし分類」はクラスタリングと同じです。次に、「教師なし回帰」がありますか?ありがとう!
回答:
私は以前にこの用語に出会ったことがありません。統計のいずれかの領域内で明暗を広げるかどうかはわかりません:機械学習(教師ありと教師なしの区別が問題解決の中心である)と推論統計(回帰、確認分析、NHSTが最もよく使用される)です。
これらの2つの哲学が重なる場合、回帰および関連する用語の大部分は、厳密に監視された設定で使用されます。ただし、教師なし学習の多くの既存の概念は、特に各クラスまたは機能を結果として単純に反復して結果をプールする場合、回帰ベースのアプローチと密接に関連していると思います。この例は、PCAと2変量相関分析です。最適なサブセット回帰を多数の変数に繰り返し適用することにより、構造方程式モデリング(厳密にはEFAの意味で)で想定されているように、非常に複雑な種類のネットワーク推定を実行できます。これは、私には、回帰を伴う教師なし学習問題のように思えます。
私が考えることができる最も近いものは、数年前に発表されたときに人々を興奮させた小さな黒い魔法ですが、私はそれがコミュニティで本当の牽引力を得たとは思わない。著者は、「最大情報係数(MIC)」と呼ばれる統計を作成しました。彼らの方法の背後にある一般的な考え方は、高次元のデータを取得し、各変数をペアで他のすべての変数に対してプロットし、次に各プロットに興味深いウィンドウビニングアルゴリズムを適用して(これらの2つの変数のMICを計算する)、潜在的に2つの変数間の関係。この手法は、単なる線形ではなく、任意に構造化された関係を特定するのに堅牢であると想定されています。
この手法は変数のペアを対象としていますが、多変量関係を調査するために拡張できると確信しています。主な問題は、ますます多くの変数の順列を可能にするため、大幅に多くの変数の組み合わせで手法を実行する必要があることです。おそらくペアだけで時間がかかると思います。リモートの高次元データでもこれを使用しようとすると、変数のペアよりも複雑な関係を考慮すると、手に負えないほど速くなります。
大規模データセットでの新しい関連の検出(2011)の論文を参照してください
この質問は、教師あり手法と教師なし手法の違いを研究しているときに思いつきました。計量経済学の背景から来て、私はモデルで考えることを好みます。それは私が遭遇したほとんどの機械学習文献が方法に焦点を当てているので、私の理解を遅らせました。
私がこれまでに見つけたのは、(監視clustering
なし)とclassification
(監視あり)を厳密に区別する必要があるということです。これらのモデル設計間の関係の継続的な類似性は、principal component analysis
(教師なし)対linear regression
(教師あり)になります。
ただし、クラスタリングと分類の関係は純粋に偶然であると主張します。両方のモデル設計を幾何学的関係を記述するものとして解釈する場合にのみ存在しますが、これは不必要に制限的なものです。私が知っているすべての教師なし手法(k-means、kohonen / neural gas、DBSCAN、PCAなどの弾性マップアルゴリズム)も潜在変数モデルとして解釈できます。クラスタリング手法の場合、これはクラスターに属する状態を状態として表示することになり、状態ダミーを導入することで潜在変数モデルとしてコーディングできます。
潜在変数モデルとしての解釈を考えると、連続的な潜在変数の観点から特徴を説明する、おそらく非線形のモデルを自由に指定できます。