2つの変数間の任意の非線形関係の強度を測定する方法は?


8

2つのペア変数間の任意の非常に非線形な関係の強さを測定する方法は何ですか?非常に非線形とは、既知のモデルへの回帰によって、合理的または確実にモデル化できない関係を意味します。私は特に時系列に興味がありますが、2変量データで機能するものはすべてここで機能すると思います(2つの時系列をペアのデータポイントのセットとして扱う場合)。

私が知っている2つは、平均二乗差(つまり、平均二乗誤差、1つの時系列を「期待される」値として扱い、もう1つを観測値として扱う)、および距離共分散です。他には何がありますか?

明確化:私は基本的にシリーズ間の依存関係について尋ねています。線形相関または単純な非線形相関(log、exp、trig、その他の単純な分析変換後)はあまり意味がありません。


予測に焦点を当てている場合は、適切なモデルフィットと、単純な多変量線形モデルでさえ導出された予測能力の違いに注意する必要があります。ここに関連するテーマに関する質問を投稿しました:stats.stackexchange.com/questions/25381/…
ロバートキューブリック

非線形モデルは広大な領域です。予測に適用すると、非線形モデリングのすぐ近くにあるパターン認識にも興味があるかもしれません。問題の例を挙げて、質問をより具体的にすることはできますか?
ロバートキューブリック

1
どうやら簡単な答えはありません:) amazon.com/Nonlinear-Series-Analysis-Holger-Kantz/dp/0521529026
Robert Kubrick

1
何を測定しようとしているのかは完全に明確ではありませんが、役立つかもしれない情報をお伝えします。変数のセット間の内部の一貫性/関係を評価するために使用できるCronbackのアルファのような相関測定があります。また、一般的な加法モデル(GAM)などを使用して、関数推定が一定であるかどうかをテストすることもできます。これは、変数間に関係がないことを意味します。この上の議論のために、ここでの回答を参照してください: stats.stackexchange.com/questions/35893/...
StatsStudent

1
@StatsStudentリンクに感謝します。本当に役に立ちます。今のところ、これが最良の回答だと思います。回答に移動して、締め切りまでより良い回答が表示されない場合は、ポイントを差し上げます。
Allen Wang

回答:


2

プレーンな古い線形回帰は、観測のすべてのペアにわたる平均線形トレンドとして、優れたノンパラメトリックな解釈を持っています。バーマン1988、「ヤコビの定理とその一般化」を参照してください。したがって、データを使用するためにデータが線形に見える必要はありません。(広く)単調な傾向は、このように要約できます。

スピアマンランク相関を使用することもできます...


ありがとう、しかし私はそれを知っています、そしてそれは特に私が求めていたものではありません(直線は多かれ少なかれ可能な限り最も単純なモデルなので、それは私の質問に暗示されています)。質問を明確にしました。
naught101

2

2つの離散変数間の「関係の金額」、正式によって測定された相互情報:。共分散/相関はどういうわけか線形関係の量ですが、相互情報量は何らかの形で(あらゆる種類の)関係の量です。Wikipediaのページから画像を貼り付けています。Y I X Y XYI(X,Y)

ここに画像の説明を入力してください

連続変数の場合、情報理論の概念もしばしば定義されますが、管理が難しく、おそらく意味がありません。今のところ気になりたくありません。離散変数に固執しましょう。とにかく、特に情報理論的アプローチでは、(スライスを使用して)離散変数によって連続変数を近似することは理にかなっています。

情報理論的概念の問題は、多くの場合、それらの実行不可能性です。と間の相互情報量を概算できることは、それらの間の任意の非線形関係を見つけることができることと同じです。ほとんどの場合、合理的な範囲をはるかに超えて統計的検出力(データの量)が必要です。、各推定値を計算するには、多数(たとえば1000)のサンプルが必要です。これは、ほとんどの機械学習または統計分析の問題では不可能です。それは一種の論理的です。モデルが「あらゆる可能性」を表現できるようにすると、そのモデルは、あらゆる可能性をカバーするデータ量によってのみ数回トレーニングできます。Y x P Y = y | X = x XYxP(Y=y|X=x)

XY


1

最終的に、単射関数の最も一般的な形式は

f(x)=y

また、その関数の離散化バージョンをデータのモデルとして使用できます。

ya<x<b

モデルの自由度が高いため、この方法は強力ではありません。ただし、これは、データのモデルを記述できる関数のタイプに高度な自由度(および一般性)を必要とする問題にも固有のものです。

より具体的なケースでは、改善を行うことができます。


私が提案したモデルは非常に一般的でした。スプライン、区分線形関数、またはこれらのタイプの一般的な近似関数を使用することもできます。
Sextus Empiricus

1

相関と同様に、計算は高速であるが、たとえば2次関係を検出できる方法である必要があります。

別の回答で述べられたスピアマンの相関は、法案に適合します。データをランクに変換し、ランクのピアソン相関を見つけるだけで計算されます。単調な関連を検出できます。

O(nlogn)O(n))、しかし、それは計算するのに人間の判断を必要とせず、すでに多くの統計ソフトウェアに実装されており、現代のマシンでは、非常に大きなデータセットを除いて、無症候性の複雑さは問題になりそうにありません。


nlog(n)

@ GeoMatt22ああ、リンク先のcs.stackexchangeの回答では、ランキングのステップが考慮されていなかったようです。結局のところ、スピアマン相関はおそらくケンドール相関よりも速くないでしょう。
コディオロジスト2017年

1

何を測定しようとしているのかは完全に明確ではありませんが、役立つかもしれない情報をお伝えします。変数のセット間の内部の一貫性/関係を評価するために使用できるCronbackのアルファのような相関測定があります。また、一般的な加法モデル(GAM)などを使用して、関数推定が一定であるかどうかをテストすることもできます。これは、変数間に関係がないことを意味します。これに関する議論については、ここの回答を参照してください:非線形関連をテストするにはどうすればよいですか?


1

最大情報係数を試してみてください。これは、論文で選択された方法よりも優れており、2つの確率変数間の非線形関係の検出に適しています。


0

コメントできないので、回答を投稿する必要があります。粒度が異なる2つの時系列間のパターンを検出/比較できる単純なアルゴリズムである動的タイムワーピングをご覧ください。 https://en.wikipedia.org/wiki/Dynamic_time_warping


私は時系列だけを正確に調べているのではなく、任意の2つの変数セットの間にある可能性があります。
Allen Wang

2
なるほど、DTWは必ずしも必要なものではありません。相互情報アプローチを適用できないのでしょうか?
reicja 2017年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.