自己組織化マップ(SOM)は、データの離散化された次元削減を提供する空間充填グリッドです。
まず、データポイントの高次元空間と、その空間にある任意のグリッドから始めます。グリッドは任意の次元にすることができますが、視覚化が容易なため、通常はデータセットの次元よりも小さく、通常は2Dです。
データセット内の各データについて、最も近いグリッドポイントを見つけ、そのグリッドポイントをデータセットに向かって「引き」ます。また、隣接する各グリッドポイントを最初のグリッドポイントの新しい位置に向けて引っ張ります。プロセスの開始時に、多くの近傍をデータポイントに向けて引っ張ります。プロセスの後半で、グリッドがスペースを埋め始めたら、移動する隣接セルが少なくなり、これは一種の微調整として機能します。このプロセスにより、データスペース内のポイントのセットがスペースの形状に適度に適合しますが、低次元のグリッドとして扱うこともできます。
これは、Kohonenの1990年の論文の1468ページにある 2つの画像でよく説明されているプロセスです。
この画像は、三角形の一様分布の1次元マップを示しています。グリッドは、中央の混乱として始まり、グリッドポイントの数を考えると、徐々に三角形を十分に満たす曲線に引き込まれます。
この2番目の画像の左側は、左側のサボテンの形状によって定義されたスペースを密に埋めている2D SOMグリッドを示しています。
2Dスペースの2DグリッドとYouTubeの3Dスペースを使用したSOMプロセスのビデオがあります。
これで、空間内の元のデータポイントのすべてに、1つの最も近い隣人が割り当てられます。したがって、グリッドはデータポイントのクラスターの中心です。グリッドは次元の削減を提供します。
以下は、wikipediaのSOMページからの主成分分析(PCA)を使用した次元削減の比較です。
一次元のSOMはデータにはるかによく適合し、PCAの77%と比較して93%以上の分散を説明していることがすぐにわかります。ただし、私が知る限り、PCA(追加のディメンションを使用)の場合のように、残りの分散を簡単に説明する方法はありません。離散SOMグリッドの周りにデータをアンラップする適切な方法がないためです。