2つのデータセット間の類似性の定量化


12

概要:最適な方法を見つけようとすると、単一の値を使用して、データの2つの位置合わせされたデータセット間の類似性が要約されます。

詳細

私の質問は図で説明するのが一番です。以下のグラフは、2つの異なるデータセットを示しており、それぞれにとのラベルが付いた値がnfありnrます。x軸に沿った点は、測定が行われた場所を表し、y軸の値は結果の測定値です。

各グラフについて、各測定ポイントの類似性nfnr値を要約する単一の数値が必要です。この例では、最初のグラフの結果が2番目のグラフの結果よりも似ていないことが視覚的に明らかです。しかし、違いがそれほど明白でない他のデータがたくさんあるので、これを定量的にランク付けできると便利です。

通常使用される標準的な手法があるかもしれないと思った。統計的な類似性を検索すると、さまざまな結果が得られますが、何を選択するのが最善か、または問題に自分の準備ができているかどうかはわかりません。ですから、簡単な答えがある場合、この質問はここで質問する価値があると思いました。

ここに画像の説明を入力してください


1
多数の対策がリストされているこのペーパーをご覧ください。(users.uom.gr/~kouiruki/sung.pdf)リンクが機能しない場合は、International Journal of Mathematical Models and MethodsのSung-Hyuk Chaによる「確率密度関数間の距離/類似性測度に関する包括的な調査」と呼ばれるリンクが機能しない場合多数の類似性の尺度をレビューする応用科学で。
arie64 16

動的タイムワーピングは、2つの時系列間の類似性を測定するために使用されます。この手法は、ここでタスクを実行できます。このリンクを確認してください:en.wikipedia.org/wiki/Dynamic_time_warping
アマンアナンド

回答:


6

2つの曲線の間の面積が違いを与える場合があります。したがって、sum(nr-nf)(すべての差の合計)は、2つの曲線間の面積の近似値になります。相対にしたい場合は、sum(nr-nf)/ sum(nf)を使用できます。これらは、各グラフの2つの曲線の類似性を示す単一の値を提供します。

編集:上記の差の合計の方法は、これらが別々のポイントまたは観測であり、接続された直線または曲線ではない場合でも役立ちますが、その場合、差の平均も指標になる可能性があり、観測数。


1
これを試して、どのように機能するかを確認します。私はまだそれをより形式化された技術に関連付けることができることを望んでいます。私はユークリッド距離について読んでいますが、それはここのテクニックにかなり似ているようです。また、グラフには接続線がありますが、追加の注意事項として、個々のポイントのみが重要です。実際に曲線を比較するのではなく、測定値だけを比較します。私の質問でそれが明らかだったかどうかはわかりません。
ガブリエル南

ポイントが接続されていなくても動作するはずです。
rnso

1

「類似性」の意味をさらに定義する必要があります。大きさは重要ですか?それとも形だけ?

形状だけが重要な場合は、両方の時系列を最大値で正規化する必要があります(両方とも0から1までです)。

線形相関を探している場合、単純なピアソン相関がうまくいきます-これは本質的に共分散を測定します。

たとえば、線または多項式を時系列に適合させ(本質的に平滑化)、その後、滑らかな多項式を比較する他の手法があります。

周期的な類似性(つまり、時系列に特定の正弦波成分または季節性がある)を探している場合は、最初に時系列成分をトレンドに分解し、季節成分を使用することを検討してください。または、FFTのようなものを使用して、周波数領域のデータを比較します。

それは、「類似」がどうあるべきかについてのさらなる定義なしで私が知っているすべてについてです。それが役に立てば幸い。


0

すべての測定ポイントに(nr-nf)を使用できます。数値(絶対値)が小さいほど、値は類似しています。厳密に言えば、最も科学的なアプローチではありません。ご容赦ください。私はこの分野での正式なトレーニングを受けていません。ビジュアルの数値表現を探しているだけなら、それでいいはずです。


1
ご提案ありがとうございます。私もそれについて考えましたが、問題は相対的な差ではなく絶対的な差によって重み付けされることです。この例では、より類似したデータセットの絶対値も小さくなりましたが、状況が逆になった場合、この手法を使用して誤った解釈を得ることができました。絶対的な差異ではなく、相対的な類似性/差異を要約する必要があります。
ガブリエル南

(nr-nf)/ nfは機能しますか?それはあなたを相対的なものにするでしょう。私は同じような状況に自分自身で対処しているので、本当の答えを見ることに本当に興味があります。
マイクG

それらがすべて同等のスケールである場合、あなたの類似したものが一般的に低いという事実は相対的な値に関するものではなく、類似性の解釈に関するものです。2番目のグラフの値が101〜104の範囲にある場合、それらの類似性の解釈は変わりますか?もしそうなら、あなたはそれを説明する必要があります。y変数が正確に何であるかについての詳細が必要です。
ジョン

@Johnそれは良い点です。これについてもっと考える必要があると思います。yの値はベンチマークの高速化値であり、さまざまな異なる構成の類似性を比較しようとしています。したがって、この答えの提案はうまくいくと思います。数字がどのように見えるかを確認するためだけに試すかもしれません。私はまだ、より正式に受け入れられている統計手法を使用することを好みます(私の問題に対応する手法がある場合)。
ガブリエル南
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.