アイスクリームの販売と温度のこのPCAプロットを理解する


9

温度とアイスクリームの売上のダミーデータを取得し、K平均(nクラスター= 2)を使用して分類して、2つのカテゴリ(完全にダミー)を区別しています。

今、私はこのデータの主成分分析を行っています。私の目標は、私が見ているものを理解することです。PCAの目的は、次元数を減らし(この場合は明らかにしない)、要素の分散を示すことであることを知っています。しかし、以下のPCAプロットをどのように読みますか。つまり、PCAプロットの温度とアイスクリームについてどのような話をすることができますか?1台目(X)と2台目(Y)のPCはどういう意味ですか?

ここに画像の説明を入力してください


1
これはコメントであるべきですが、担当者が不十分です。以下のリンクは、PCAに関する優れたチュートリアルです。特に、おもちゃの例は、「1つの絵で理解できるほど単純」と「将来の問題の類推として使用できるほど複雑」の間でバランスが取れています。PCAでできることとできないことを明確にするのに役立つと思います。cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
Jason

回答:


18

PCAの目的は次元を減らすことであることを知っています

これは、多くの場合、人々が想定していることですが、実際、PCAは、データを直交的に表現したものにすぎません。この基底は、元のデータと同じ次元を持っています。何も失われていません...まだ。次元削減の部分は完全にあなた次第です。PCAが保証するのは、新しい投影法の上位次元が、データが表現される可能性のある最良の次元であることです。どういう意味ですか?ここで、説明された差異が発生します。kk k

明らかにこの場合ではありません

私はそれについてそれほど確信していません!2番目のプロットから、視覚的には、データからの多くの情報を水平線に投影できるように見えます。2次元の元のプロットではなく、1次元です。Y軸を削除しているため、明らかに一部の情報が失われますが、この情報の損失が許容できるかどうかは、あなたの責任です。

私はそれらをチェックアウトすることをお勧めしますので、PCAは、サイト上にあるものに関連する質問のトンがあり、ここでここではここここで。その後、他にご不明な点がありましたら、投稿してください。サポートさせていただきます。

あなたの実際の質問として:

PCAプロットの温度とアイスクリームについて語れるストーリーは何ですか?

新しい座標軸は元の座標の線形結合なので、基本的には何もありません!PCAは、次のような回答を提供します(数字の構成):

PC1=2.5×ice cream3.6×temperaturePC2=1.5×ice cream+0.6×temperature

役に立ちましたか?多分。しかし、私はそうは思いません:)

編集済み

このリソースを追加します。インタラクティブなグラフはすばらしいので、役立つと思います。

再度編集

最適な 意味を明確にするには:k

PCAは、データが射影されたときに分散が最大になる次元を見つけようとします。データの次元がとすると、最初の PCは、他の次元よりも多くのデータの分散を説明します。それが私が最高の意味していることです。それがあなたに役立つかどうかは別問題です。k k kn>kkk k


6
また、必ず変数をスケーリングしてください。それ以外の場合、売上高(はるかに高い数値)が分散の大部分を説明します。おそらくあなたのPCのユニットがとても違うのでしょう。
フィリップ2009

良い答えですが、「...データが...として表現される可能性のある最高のkkディメンション」という表現は、一般化されすぎている可能性があります。最大分散の方向は、2つのクラスを分離するのに必ずしも役立つとは限りません。どういうわけか、それはしばしばうまくいきますが、PCAが特定の目的に最適な選択をするために何かをするのではありません。
Wayne

「実際のところ、PCAは、データを直交ベースで表現したものにすぎません。」多くの人がこの点を理解していないという事実に常に驚きます...
3x89g2

5

Ilan manの良い答えには、主成分のかなり単純な解釈があると付け加えますが、この単純な2Dの場合は、散布図を見ただけで解釈できたものにはあまり追加されません。

最初のPCは、温度とアイスクリームの消費の加重和(つまり、両方の係数が正である線形結合)です。右側には、アイスクリームがたくさん売れる暑い日があり、左側には、アイスクリームがあまり売れない寒い日があります。そのPCは、分散のほとんどを説明し、取得したグループはこれらの2つの側面に一致します。

2番目のPCは、温度とアイスクリームの消費量が最初のPCで下線が引かれた密接な線形関係からどのように離れるかを測定します。グラフの上部には、同じ温度の他の日に比べてアイスクリームの販売数が多い日があり、下部には、気温に応じて予想よりもアイスクリームの販売数が少ない日があります。そのPCは、差異のほんの一部を説明しています。

つまり、主要なコンポーネントからストーリーを伝えることができますが、PCAがなくても気づくことができるのは、2つの変数だけで同じストーリーです。変数が増えると、PCAは他の方法では気づきにくいストーリーを伝えるため、より便利になります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.