複数の新しいラインで散布図を議論する方法は?


11

2つの変数を測定しましたが、散布図は複数の「線形」モデルを示唆しているようです。それらのモデルを蒸留しようとする方法はありますか?他の独立変数を識別することは困難であることが判明しました。

2つの変数の散布図

両方の変数は大きく左に歪んでいます(小さな数字に向かって)。これは、私たちのドメインで予想される分布です。ドットの強度は、この< x y >でのデータポイントの量(スケール)を表しますlog10<x,y>

あるいは、ポイントをクラスター化する方法はありますか?

私たちの分野では、これらの2つの変数は線形に相関すると主張されています。私たちは、なぜデータに当てはまらないのかを理解/説明しようとしています。

(注、1700万のデータポイントがあります)

更新:すべての答えに感謝します、ここにいくつかの要求された説明があります:

  • 両方の変数は整数のみであり、対数散布図のパターンの一部を説明しています。
  • 幸い、定義により、両方の変数の最小値は1です。
  • 7M点はである(データの左歪度によって「説明」)<3,1>

要求されたプロットは次のとおりです。

対数散布図: ログログの散布図

(空白は整数値が原因です)

log-log polar: 極座標 θ=y

比率のヒストグラム: 比率のヒストグラム

以来周波数は、対数スケールであるバー7M点であり、他のバーを隠すことになります。1/3


2
このプロットは極座標 どのように見えますか?(これは、の対数取ることをお勧め最初のかもしれないXY)を避けるゼロに小さなオフセットの開始、必要に応じて(プラス、。)全ての行が考えられるそして、原点から放射されるように見えるので-場合は特にθの変動周り線は等分散に見えます。その後、必要なのは、θ次元の点をクラスター化することだけです。(r,θ)XYθθ
whuber

YとXの取得に関係する比率はありますか?離散値のみをとる変数は含まれますか?対数プロットとしてどのように見えますか?
グレン_b-モニカの復帰2014

1
@whuber&Glen_bこれらの変換でプロットを追加しました。
デイビーランドマン

rθθθ

@whuberプロットを更新し、yにthetaを付けました。これはあなたが意味する行ですか?
デービーランドマン14年

回答:


7

YXY/X

X/kkXk値自体は整数であるので、。

Y=0log(Y+constant)またはキューブルートが役立ちます。パターンをより明確に見るのに役立つものはすべて防御可能です。

用語のポイント:統計のゆがみは、より引き伸ばされたテールを参照して説明されます。この用語を逆に考えることは自由です。ここでは、両方の変数が高い値に歪んでいるか、正または右に歪んでいます。

Y=1Y=0)のストライプが良く、あなた何を測定するだけで、あるいは少なくとも最も実用的な、方法とすることができる、工芸品や整数を使用しての二次効果であります測定している(これについては疑問が控えめになっている)。log-logおよびその他のプロットは、離散性を明らかにします。したがって、裁量にもかかわらず、離散性が確認されます。比率1 / 4、1 / 2、1 / 1、および2/1には、顕著なモード(分布のピーク)があります。

前と同じように、科学的な理由なしに異なるストライプを区別してモデリングしたり、別々に処理したりすることはお勧めしません。あなたが持っているものを平均する必要があります。(離散性を抑制するこの種のデータを使用する既知の方法があるかもしれません。あなたの現場の人々が各プロットについて何百万もの点を定期的に測定する場合、これはこれまで見られなかったとは信じ難いです。)

相関は確かに正のはずです。正式な有意性検定は別として、このサンプルサイズでは微小な相関が有意であるとみなされるため、ここではまったく役に立ちませんが、強いと宣言されるかどうかは、あなたの分野の期待と基準の問題です。相関関係を定量的に他の人の結果と比較するのは良い方法です。

詳細:歪度は、依然として統計的な慣習に従って間違った方法で記述されています。これらの変数は右に歪んでいます。その専門用語は、水平のマグニチュード軸を持つヒストグラムを見るときに適合し、歪度はより多くの値を持つ濃度ではなく、より長いテールにちなんで命名されることに注意します。


log-logプロットを追加し、歪度についてより正確にしようとしました。
デイビーランドマン14年

4

Yi=α1+β1Xi+ϵi
mth
Yi=αm+βmXi+ϵi
Mmthpmmpm=1ます。です。

ϵN(0,σ2)

L(α,β,σ)=m=1Mpm1σϕ(Yiα1β1Xiσ)
ϕ3M+1mpm=1,pm0αβpm1Mαβ

ZipmpmZi

L(α,β,σ)=m=1M(exp(δm+γmZi)mexp(δm+γmZi))1σϕ(Yiα1β1Xiσ)

5M+15M1δ,γ ---説明のために多項ロジットを参照してください。

M


2
M

2

一部のデータセットで同様の動作を確認しました。私の場合、複数の異なるラインは、私の処理アルゴリズムの1つでの量子化エラーによるものでした。

つまり、処理されたデータの散布図を見ると、処理アルゴリズムにはいくつかの量子化効果があり、上記のようにデータに依存関係が生じていました。

量子化効果を修正すると、出力がはるかに滑らかになり、まとまりが少なくなりました。

あなたの「線形相関」コメントに関して。あなたが提示したものは、このデータが線形相関があるかどうかを判断するには不十分です。つまり、一部のフィールドでは、相関係数> 0.7は強い線形相関と見なされます。データの大部分が原点に近いことを考えると、データが「従来の知恵」が言うことに対して線形に相関していると考えられます。相関関係は、データセットについてほとんど情報を提供しません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.