教師なしクラスタリングに人工ニューラルネットワークANNを使用するにはどうすればよいですか?


52

artificial neural network (ANN)予測の誤差を減らすことでフィッティングを改善するために、逆伝播を使用して教師付き方法でをトレーニングする方法を理解しています。ANNは教師なし学習に使用できると聞いたことがありますが、最適化段階を導くための何らかのコスト関数なしでこれを行うにはどうすればよいですか?k-meansまたはEMアルゴリズムでは、各反復が増加するように検索する関数があります。

  • ANNを使用してクラスタリングを実行するにはどうすればよいですか?また、同じ場所でデータポイントをグループ化するためにどのメカニズムを使用しますか?

(さらにレイヤーを追加するとどのような追加機能がもたらされますか?)


NNの教師なし学習全般に興味がありますか、具体的にはニューラルネットワークによる教師なしクラスタリングに興味がありますか?
デニスタラソフ

@DenisTarasov、私は主にNNによる教師なしクラスタリングに興味がありますが、一般的にNNの教師なしNN学習についてはあまり知りません。特定のアプリケーションについて説明する前に、一般的な一般的なNNの教師なし学習の一部を回答に含めるとよいでしょう。
バース

1
自己組織化マップ(SOM)は、クラスタリングに使用されるネットワークの一種です。
カグダスオズゲンク

ANNの教師なし学習–トレーニングセットから統計的特性を抽出します。–教師なし学習はより困難ですが、生物学的にもっともらしいと見なされます-教師は不要です。
ヨナス

回答:


56

ニューラルネットワークは、入力データのより適切な表現を学習するために、教師なし学習で広く使用されています。たとえば、テキストドキュメントのセットが与えられた場合、NNは、結果のベクトルが類似したコンテンツを持つドキュメントで類似するように、ドキュメントから実数値ベクトルへのマッピングを学習できます。これは、たとえば、自動エンコーダーを使用して実現できます。これは、コスト関数として再構成エラー(ID関数からの距離)を使用して、より小さい表現(隠れ層の活性化)から元のベクトルを再構成するように訓練されたモデルです。このプロセスはクラスターを提供しませんが、クラスター化に使用できる意味のある表現を作成します。たとえば、非表示層のアクティベーションでクラスタリングアルゴリズムを実行できます。

クラスタリング:クラスタリング用に特別に設計されたさまざまなNNアーキテクチャがあります。最も広く知られているのは、おそらく自己組織化マップです。SOMは、トポロジーグリッド(通常は長方形)を形成するために接続された一連のニューロンを持つNNです。何らかのパターンがSOMに提示されると、最も近い重みベクトルを持つニューロンが勝者と見なされ、その重みがパターンとその近傍の重みに適合されます。このようにして、SOMはデータクラスターを自然に見つけます。多少関連するアルゴリズムは、神経ガスを成長させています(定義済みのニューロン数に限定されません)。

もう1つのアプローチは、「比較フィールド」と「認識フィールド」の2つの層がある適応共鳴理論です。また、認識フィールドは、比較フィールドから転送されたベクトルに最適な一致(ニューロン)を決定し、横方向の抑制接続も行います。実装の詳細と正確な方程式は、これらのモデルの名前をグーグルで調べることで簡単に見つけることができるため、ここでは説明しません。


15

自己組織化マップを調べます。それらを発明したKohonenはそれらについての本を書きました。R(somkohonen)にはこのためのパッケージがあり、MATLABなどの他の言語での実装があります。


NNがどのようにこれを行うことができ、理論について詳しく説明することができるかについて、いくらか詳しく説明できますか?おそらくディープNN(DNN)を使用する効果も説明できますか?
バース

1
私はここで専門知識をほとんど持っていないのではないかと思います、@ Vass。速度を落とす以外に、レイヤーを追加しても大した効果はないと思います。他の誰かがあなたに理論を与えなければならないでしょう、私はあなたを始めさせたかっただけです。
GUNG -復活モニカ

1
私たちの研究室の学生は、SOMを使用したクラスタリングを実験しました。実行に永遠に時間がかかり、結果は他のアプローチ(この場合は標準的なグラフクラスタリングアルゴリズム)と比較して非常に期待はずれでした。私は、標準の2Dターゲットドメイン(トポロジグリッド)が非常にarbitrary意的な空間であるように見えるという事実に常に戸惑っていました。さらに心配なのは、非常に単純化されており、2つの変数だけで記述されたスペースにデータを圧縮する必要があることです。
ミカン

@micansにはいくつかの利点がありますが、各ノードはプロトタイプにも関連付けられているため、データは2つの変数だけで記述されたスペースに単純に圧縮されません。また、実行が遅い場合は、実装の問題である可能性があります。統計的には、SOM以外の方法がより良い分類結果を達成するはずです。トポロジーの問題に関しては、脳は2Dトポロジーのレイヤーとして組織されているように見えますが、素晴らしい結果を達成しています(または、私は考えたいと思います)。
トムアンダーソン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.