2つの変数を測定しましたが、散布図は複数の「線形」モデルを示唆しているようです。それらのモデルを蒸留しようとする方法はありますか?他の独立変数を識別することは困難であることが判明しました。
両方の変数は大きく左に歪んでいます(小さな数字に向かって)。これは、私たちのドメインで予想される分布です。ドットの強度は、この< x 、y >でのデータポイントの量(スケール)を表します。
あるいは、ポイントをクラスター化する方法はありますか?
私たちの分野では、これらの2つの変数は線形に相関すると主張されています。私たちは、なぜデータに当てはまらないのかを理解/説明しようとしています。
(注、1700万のデータポイントがあります)
更新:すべての答えに感謝します、ここにいくつかの要求された説明があります:
- 両方の変数は整数のみであり、対数散布図のパターンの一部を説明しています。
- 幸い、定義により、両方の変数の最小値は1です。
- 7M点はである(データの左歪度によって「説明」)
要求されたプロットは次のとおりです。
対数散布図:
(空白は整数値が原因です)
log-log polar:
比率のヒストグラム:
以来周波数は、対数スケールであるバー7M点であり、他のバーを隠すことになります。