次元削減のための自己組織化マップの使用


8

過去数日間、私は学校でのプロジェクトの自己組織化マップについていくつかの研究を行ってきました。自己組織化マップを使用してデータの次元を削減できることを理解しました。しかし、私はこれがどのように機能するのか理解していません。たとえば、SOMにニューロンの10x10ネットワークがあり、入力が25次元であるとします。したがって、私の理解では、25Dである各ニューロンの特徴ベクトルを作成します。トレーニングが完了するまでに、100個の25Dベクトルが作成されます。これはどのようにしてデータの次元を正確に削減するのですか?ニューロンの位置に関心があるはずですか?

編集:私はすでに自己組織化マップを使用した次元削減の質問を読みましたが、それが私が持っている質問に答えるとは感じません。

回答:


12

自己組織化マップ(SOM)は、データの離散化された次元削減を提供する空間充填グリッドです。

まず、データポイントの高次元空間と、その空間にある任意のグリッドから始めます。グリッドは任意の次元にすることができますが、視覚化が容易なため、通常はデータセットの次元よりも小さく、通常は2Dです。

データセット内の各データについて、最も近いグリッドポイントを見つけ、そのグリッドポイントをデータセットに向かって「引き」ます。また、隣接する各グリッドポイントを最初のグリッドポイントの新しい位置に向けて引っ張ります。プロセスの開始時に、多くの近傍をデータポイントに向けて引っ張ります。プロセスの後半で、グリッドがスペースを埋め始めたら、移動する隣接セルが少なくなり、これは一種の微調整として機能します。このプロセスにより、データスペース内のポイントのセットがスペースの形状に適度に適合しますが、低次元のグリッドとして扱うこともできます。

これは、Kohonenの1990年の論文の1468ページにある 2つの画像でよく説明されているプロセスです。

この画像は、三角形の一様分布の1次元マップを示しています。グリッドは、中央の混乱として始まり、グリッドポイントの数を考えると、徐々に三角形を十分に満たす曲線に引き込まれます。

一次元SOM

この2番目の画像の左側は、左側のサボテンの形状によって定義されたスペースを密に埋めている2D SOMグリッドを示しています。

2DサボテンSOM

2Dスペースの2DグリッドとYouTubeの3Dスペースを使用したSOMプロセスのビデオがあります。

これで、空間内の元のデータポイントのすべてに、1つの最も近い隣人が割り当てられます。したがって、グリッドはデータポイントのクラスターの中心です。グリッドは次元の削減を提供します。

以下は、wikipediaのSOMページからの主成分分析(PCA)を使用した次元削減の比較です。

en.wikipedia.org/wiki/File:SOMsPCA.PNGからのSOM次元削減

一次元のSOMはデータにはるかによく適合し、PCAの77%と比較して93%以上の分散を説明していることがすぐにわかります。ただし、私が知る限り、PCA(追加のディメンションを使用)の場合のように、残りの分散を簡単に説明する方法はありません。離散SOMグリッドの周りにデータをアンラップする適切な方法がないためです。


2

最終的にフィーチャーの次元よりも多くのノードが作成されるという事実にもかかわらず、次元が減少しています。最初は25次元の空間でしたが、今では25次元が2次元で投影されていることに注意してください。SOMは、連続する25次元の空間全体を表すのではなく、その空間の「最も重要な」ポイントを提供します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.