高次元データを視覚化する目的は?


23

T-SNE、isomap、PCA、教師付きPCAなど、高次元のデータセットを視覚化するための多くの手法があります。また、データを2Dまたは3D空間に投影する動作を行っているため、 「。これらの埋め込み(多様体学習)メソッドのいくつかをここで説明します

ここに画像の説明を入力してください

しかし、この「きれいな絵」は実際に意味があるのでしょうか?この埋め込まれた空間を視覚化することで、誰かがどのような洞察をつかむことができますか?

この埋め込まれた空間への投影は通常無意味だからです。たとえば、PCAによって生成された主成分にデータを投影する場合、それらの主成分(eiganvectors)はデータセット内のフィーチャに対応しません。それらは独自の機能スペースです。

同様に、t-SNEは、KLの発散を最小限に抑えるためにアイテムが互いに近くにあるスペースにデータを投影します。これはもはや元の機能空間ではありません。(間違っている場合は修正してください。ただし、分類を支援するためにt-SNEを使用するMLコミュニティの大きな努力はないと思います。ただし、これはデータの視覚化とは異なる問題です。)

なぜこれらの視覚化のいくつかについて人々がそんなに大したことをするのか、私は非常に大きく混乱しています。


「きれいな画像」だけではありませんが、高次元データを視覚化する目的は、通常の2/3次元データを視覚化する目的と似ています。たとえば、相関、境界、外れ値。
エリアサ

@eliasah:わかりました。ただし、データを投影するスペースは元のスペースではなくなり、高次元の形状の一部が歪む可能性があります。4次元のブロブがあるとします。2Dまたは3Dに投影すると、構造はすでに破壊されています。
hlin117

イラストのように、データが低次元の多様体にある場合ではありません。この多様体を決定することが、多様体学習の目標です。
エムレ

回答:


9

それは私がより多くの経験を持っている分野であるため、例として自然言語処理を取り上げます。そのため、コンピュータービジョン、生物統計学、時系列など、他の分野で彼らの洞察を共有することを他の人に勧めます。同様の例。

モデルの視覚化は時々無意味になることがあることに同意しますが、この種の視覚化の主な目的は、モデルが実際に人間の直観または他の(非計算)モデルに関連するかどうかを確認するのに役立つと思います。さらに、データに対して探索的データ分析を実行できます。

Gensimを使用してウィキペディアのコーパスから構築された単語埋め込みモデルがあると仮定しましょう

model = gensim.models.Word2Vec(sentences, min_count=2)

その後、少なくとも2回存在するコーパスで表される各単語に対して100次元のベクトルを作成します。したがって、これらの単語を視覚化する場合は、t-sneアルゴリズムを使用して2次元または3次元に減らす必要があります。ここに非常に興味深い特徴があります。

例を挙げましょう:

vector( "king")+ vector( "man")-vector( "woman")= vector( "queen")

http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

ここで、各方向は特定のセマンティック機能をエンコードします。同じことを3Dで行うことができます

https://www.tensorflow.org/versions/master/images/linear-relationships.png
(ソース:tensorflow.org

この例で過去時制がその分詞ごとに特定の位置に配置されている方法を参照してください。性別も同じです。国や首都と同じです。

埋め込み世界という言葉では、より古くて素朴なモデルにはこの特性がありませんでした。

詳細については、このスタンフォードの講義をご覧ください。 単純な単語ベクトル表現:word2vec、GloVe

これらは、セマンティクスを考慮せずに類似の単語を一緒にクラスタリングすることのみに制限されていました(性別や動詞の時制は方向としてエンコードされませんでした)。当然のことながら、より低い次元の方向としてセマンティックエンコーディングを持つモデルはより正確です。さらに重要なことは、それらを使用して各データポイントをより適切な方法で探索できることです。

この特定のケースでは、t-SNEが分類自体を支援するために使用されるとは思わない。これは、モデルの健全性チェックのようなものであり、使用している特定のコーパスの洞察を見つけることもあります。ベクトルが元の特徴空間にないという問題については。リチャード・ソッチャーは、講義(上記リンク)で、低次元ベクトルは統計分布をそれ自身のより大きな表現と共有し、他の統計的特性を共有することで、ベクトルを埋め込む低次元で視覚的に分析できると説明しています。

追加のリソースと画像ソース:

  1. http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

  2. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F

  3. http://deeplearning4j.org/word2vec.html

  4. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F


11

まず、メソッドについての説明は正しいです。ポイントは、埋め込みアルゴリズムは視覚化するだけでなく、基本的に統計データ分析の2つの主要な問題、つまり、次元の呪い低サンプルサイズ問題に対処するために次元を減らし、物理的に理解された特徴と意味があるだけでなく、データ分析にも必要です!

実際、視覚化は埋め込みメソッドのほぼ最後の使用方法です。高次元データを低次元空間に投影すると、高次元で歪んだり、さまざまな特徴の分散に埋め込まれているほとんどの情報をキャプチャした実際のペアワイズ距離(主にユークリッド距離)を保持できます。


10

リチャード・ハミングは、「計算の目的は数値ではなく洞察力である」という文に起因しています。この1973年の学術論文まったく異なるように見えますが、同様の要約統計量を持つ有名なデータセットとは何ですか?)、Francis Anscombeは、「グラフは優れた統計分析に不可欠です」と主張しています。Anscombeのカルテットは長い間人気があります。同じ統計と回帰、低次元、さらにノイズ、外れ値、依存性に関する非常に異なる動作です。以下に示す2次元への11次元のデータの投影は、誤解を招く可能性があります。1つは相関と分散を持ち、2番目(下)は1つの外れ値を除いて完全に一致します。3番目には明確な関係がありますが、線形ではありません。4番目は、変数がしきい値を除き、潜在的に関連していないことを示しています。

ここに画像の説明を入力してください

ブルース・L・ブラウン著の本「生物行動および社会科学のための多変量解析、見つけることができます:

彼の1990年の作品「Drawing Things Together」では、ハードサイエンティストのマインドセットは、グラフィズムに対する強い「執着」の1つであるとラトゥールは主張しています。

3D空間、最大6次元のプロット(空間、色、形状、時間)に制限されているか、10次元を想像するかどうかにかかわらず、人間の視界は限られています。観測可能な現象間の関係:ありません。

さらに、次元の呪いは低次元のパラドックスでさえも整理されており、いくつかを提供します。

有限次元ですべての規範が同等であっても、変数間の関係は誤解を招く可能性があります。これは、あるスペースから別のスペースまでの距離を保持する理由の1つです。このような概念は、信号の低次元埋め込み(圧縮センシング、高次元から低次元ユークリッド空間への点の低歪み埋め込みに関するジョンソンリンデンスタウス補題など)または特徴(分類のための散乱変換)の中心にあります。 。

したがって、視覚化はデータの洞察を得るためのもう1つの助けであり、次元削減などの計算と連動します。

nn

ピザボックスのパラドックス

2次元では、中央の青いボールは小さくなっています。3Dでも。しかし、非常に急速に、中央のボールが大きくなり、その半径は立方体の半径を超えます。この洞察は、たとえばクラスタリングでは不可欠です。


4

声明と議論に基づいて、区別する重要なポイントがあると思います。低次元空間への変換は情報を減らすことがありますが、これは情報を無意味にすることとは異なるものです。次の例えを使用してみましょう。

私たちの世界(3D)の(2D)写真を観察することは、通常の習慣です。視覚化方法では、高次元の空間を見るために異なる「メガネ」のみが提供されます。

視覚化方法を「信頼」するための良いことは、内部を理解することです。私のお気に入りの例はMDS です。最適化ツール(R optimなど)を使用して、独自にこのメソッドを実装することは簡単です。したがって、メソッドの単語がどのように表示されるか、結果のエラーなどを測定できます。

最後に、ある程度の精度で元のデータの類似性を保持した写真を取得します。それ以上ではありませんが、それ以下ではありません。


4

物理学を教えてくれる可能性があるため、高次元のデータを視覚化すると意味がある場合があります。

天体物理学には、PCAによって生成された主成分にデータを投影する少なくとも1つの例があり、それらの主成分は銀河に関する多くの物理的洞察に対応しています。詳細については、http://www.astroml.org/sklearn_tutorial/dimensionality_reduction.html#id2の最後の図を参照してください。

と紙

http://iopscience.iop.org/article/10.1086/425626/pdf

これが基本的な考え方です。著者は、望遠鏡からの多くのスペクトル(例えば10,000)にPCAを適用します。各スペクトルには〜1000の属性があります。このデータセットのディメンションは大きいため、視覚化することは困難です。ただし、PCAの最初の4つのコンポーネントは、スペクトルに関する多くの物理を明らかにしています(上記の論文のセクション4.1から4.4を参照)。


4

ここでの他の素晴らしい答えとは少し異なるアプローチを取っている、「きれいな絵」は千の言葉の価値があります。最終的には、統計的知識が十分にない人や、状況や状況を把握するための時間や関心などを持たない人に結果を伝える必要があります。だからといって、少なくとも一般的な概念や現実の一部を理解するのを助けることができないわけではありません。これが、フリーコノミクスのような本が行うことです-数学、データセットはほとんどありませんが、結果はまだ提示されています。

芸術から、ロシアのリトリートで元Neを見てください。それにもかかわらず、ナポレオン戦争のこの大規模な単純化は大きな意味を伝え、戦争の最も無知な知識を持っている人々でさえ、ロシアの侵略に浸透した残虐性、気候、風景、死、および礼儀を理解することを可能にします。

最終的に、チャートは単なるコミュニケーションであり、良くも悪くも、人間のコミュニケーションはしばしば混同、単純化、簡潔さに焦点を当てています。


3

素晴らしい質問です。James J. ThomasとKristin A. Cookによる「Illuminating the Path、The Research and Development Agenda for Visual Analytics」の第4章では、データ表現とデータ変換について説明しています。私の研究では、PCAと因子分析のコンテキストでこの質問に取り組みました。私の簡単な答えは、視覚化空間から元のデータ空間に移動するデータ変換がある場合、視覚化が役立つということです。これはさらに、視覚分析フレームワーク内で実施されます。


投影された空間から元の空間へのマッピングを持つことは理にかなっています。しかし、他のユースケースはありますか?
hlin117

また、「経路の解明、視覚分析の研究開発アジェンダ」の第4章も参照しました。目に見える部分空間での高次元の視覚化については何も言及していません。
hlin117
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.