データセットの「線形性」を測定する良い方法は何ですか?


8

2つの変数を関連付ける、経験的に収集されたデータセットがあります。小さな範囲では関係は線形に見えますが、より大きな範囲では明らかにhttp://imgur.com/W7f9pの画像にあるように、2次多項式の関係があります

考えられるさまざまな範囲の直線性の尺度を取得しようとしています。たとえば、20 <x <60または100 <x <120では非常に線形ですが、20 <x <180では非常に線形ではありません。データに直線を当てはめてR ^ 2データ(適合度)を計算しようとしましたが、これは、大きい範囲の直線が小さい範囲の直線よりも良い適合であることを示しています。これはMS Excelにも当てはまる可能性がありますが、画像から、紙の端をポイントに対して保持している場合、より広い範囲が直線的でないことが明らかです。

データセットの「線形性」を測定するより良い方法はありますか?


この質問は、おそらく統計サイトに移行する必要があります(今後移行する予定です)。そこに無料でたくさんの素晴らしい統計ソフトウェアがあります。プログラムRを検索して、試してみてください。

この論文に興味かもしれないncbi.nlm.nih.gov/pubmed/16724492考えはモデルの線形区分に合うようにして(私はそれを読んでいないので、私はもうコメントしていない)斜面の平等をテストすることです
ステファンをローラン

2
データの線形性または基礎となる曲線の線形性に本当に関心がありますか?違いは、データが曲線を不均一にサンプリングする可能性があるため、データに基づく測定値はサンプリングの性質に応じて変化するのに対し、曲線の直線性の推定はサンプリングプログラムの変更の下でより安定することです。また、「線形性」を絶対的な特性として(したがって、測定単位に依存して)考えていますか、それとも曲線の形状の特性ですか(それによって、xとyのアフィン変換では不変です)。
whuber

回答:


6

線形関数の代わりに2次関数を近似します。二次の最大係数の推定値の絶対値は、直線性の賢明な尺度として機能します。データが直線上にある場合はゼロになります。さらに、データがガウスノイズのある線形モデルからのものである場合、ガウスマルコフの定理は、係数推定が不偏であることを保証します。したがって、同じモデル分布からの複数のデータを使用して近似を繰り返した場合、係数の期待値は次のようになります。ゼロ。

もちろん、1回の近似では、通常はゼロになりません。そのため、係数の有意性をテストする必要があります。


なぜそれが線形性の賢明な尺度として機能するのかについて少し詳しく説明してもらえますか?
Lucas Reis

1
@LucasReis:私はいくつかの理論的根拠を追加しました。
Arnold Neumaier

(+1)場所とスケールの変化(従属変数と独立変数の両方)のもとでは、「線形性」の合理的な測定値は不変であるべきだと私は思います。これは、2次項の使用を除外しますが、標準化された変数が回帰で使用される場合、2次項の使用を検討することにはメリットがあるかもしれないことを示唆しています。ただし、2次項は、波のようなパターンなどの直線性からの複雑な逸脱をキャプチャしないことに注意してください。
whuber

@whuber:良い点。Michael Chernickの回答にはこの性質があり、それゆえ私のものよりも好まれます。
Arnold Neumaier

x|ρ|1|rho|0

4

行く1つの方法は、Y軸変数を結果/基準として階層回帰を実行することです。ステップ/ブロック1で予測子としてX変数を入力し、ステップ/ブロック2で積項(Xの2乗またはそれ自体に対する乗算)を入力します。X二乗項は、2次成分を表します。XとXの2乗の標準化された回帰重み(ベータ)は、線形コンポーネントと2次コンポーネントの相対的な「強さ」と、ステップ/ブロック1からステップ/ブロック2へのR-2乗の変化の感覚を与えます。は、2次成分を追加したときに、モデルがデータにどれだけ適合するかを示します。

Chを参照してください。キース、TZ(2005)で8。重回帰とそれ以降。アリン&ベーコン。978-0205326440


1

2つの変数xとyの間の線形性の最良の尺度は、ピアソンの積率相関係数です。絶対値で1に近いほど、フィットは完全な直線に近くなります。ここで、サブリージョンに良好な直線性があると思われる場合は、サブリージョンのそれらのペアについてのみ相関を計算します。その領域外で形状に変化がある場合、すべてのデータが含まれていると、相関関係の低下に現れます。


(+1)en.wikipedia.org/wiki/…はこの概念を説明しています。
Arnold Neumaier

0

標準的な統計ツールは、[-1,1]の間の値であり、ユニットに依存しない相関係数(Michael Chernickの回答を参照)です。相関係数に関連するのは共分散です。共分散は単位の影響を受けますが、解釈が容易になる場合があります。ただし、一般的なケースでは、これらのオプションのどちらも好きではありません。それらは共形変換に依存しないため、私はそれらが好きではありません。直線の水平線または垂直線が、これらの測定の両方によって非線形であると見なされると考えてください。

より優れたユニットレスオプションは、特異値分解(SVD)を使用することです。SVDは、データを全体への寄与の大きさでランク付けされたコンポーネントに分割します。したがって、最大の特異数と2番目に大きい特異数の比は、線形性の指標になります。この方法を使用するには、最初にデータを集中化する必要があることに注意してください(平均X、Y、Zなどの座標をゼロにします)。

例:Pts:1126640.141 233575.2013; 1126630.008 233572.8567; 1126625.829 233572.7434;
1126625.416 233577.3781;

一元化されたポイント:9.792639127 0.656480018; -0.340591673 -1.68817349; -4.519928343 -1.801499913; -4.932119113 2.833193384;

SVD、Dマトリックス:11.86500017 0; 0 3.813448344

特異値の比率3.111357

上記の比率は、データが交差線形である場合に最適な直線の方向に3倍の長さのデータとして大まかに解釈できます。

ユニットがあり、SVDを必要としないユニットのソリューションの場合。パラメータの1つとしてラインの中心を持つラインフィットを実行します。上記の集中型データを使用するのは簡単です。行pt = 0 0(常に集中型データの場合)行方向= -0.999956849 -0.009289783

線の中心から各点へのベクトルは、点の中心座標です。これらのベクトルの線への投影の長さ(ベクトルドットの絶対値、線の方向)、および垂直ベクトルコンポーネントの長さ(ベクトルの線の交差方向の長さ)を求めます。長さ平行、長さ垂直9.798315123、0.565480194; 0.356259742、1.684936621、4.536468847、1.759433021、4.905586534、2.878889448、

平行投影の最大値は、線に沿ったデータのストレッチです。垂直投影の最大長は、非線形性の尺度です。2つの比率は、上記の特異値の比率の近似値です。

注1.線形性のアフィン不変性は不可能です。アフィン変換では、1つを除くすべての座標軸をゼロ近くにスケーリングできる(ポイントのセットを線形にする)ことを検討してください。したがって、共形不変性は私たちにできる最善の方法です。2.これらの方法は、外れ値データに対する信頼性はありません。3.例は2Dですが、N次元に一般化されています。


rは[0,1]ではなく[-1,1]にあると言うつもりだったと思います
mdewey
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.