最強の相関を持つデータポイントのサブセットを選択する自動手順


15

(2つの次元に沿って)最も強い相関を持つ大きなプールからデータポイントのサブセットを選択するための標準的な手順(参照として引用するなど)はありますか?

たとえば、100個のデータポイントがあるとします。X次元とY次元に沿って可能な限り強い相関を持つ40ポイントのサブセットが必要です。

これを行うためのコードの記述は比較的簡単だと思いますが、引用するソースがあるかどうか疑問に思っていますか?


3
「これを行うコードを書くのは比較的簡単だと思います」。あ?そして、あなたはどうしますか?
-user603

3
彼女は「最高のサブセット相関」のようなものを意味していたと思います。サブセットを選択しkk=40彼女の例では)のうちデータポイントあなたのNN=100彼女の例の場合)との相関の推定値を算出ρ(X,Y)彼女は点のサブセットを知ることを意味していること(仮定を最高の線形相関を持つ)。ただし、このプロセスは倍の係数を計算する必要があるため、大きなN場合は計算コストが高くなります。(Nk)
ネスター

1
変数の線形結合を見たい場合は、正準相関が探しています。それ以外の場合、相関機能の選択が重要になる場合があります。X
MånsT

一部の人は私を誤解しているかもしれません。@Néstorは正しいようです。100個のアイテムがあり、それぞれにX値とY値があります。X値とY値の間で可能な限り強い相関関係(線形回帰)を持つ40のサブセットを見つけたい。サーチスペース全体を探索するコードを書くことができますが、そのような方法をサポートするために何を引用しますか?すべての可能なサブセット間で最適な相関を見つけるために何と呼ばれますか?
ジュリー

1
相関を最大化すること、または最小残差分散によって測定されるような最適な回帰線を取得することに興味がありますか?データポイントを選択する場合、2つは同じではありません。
jbowman

回答:


17

あなたの方法は、このウィキペディアの記事で説明されている一般的なカテゴリに当てはまると思います。ウィキペディア以外のものが必要な場合は、他の参照もあります。その記事内のリンクの一部も適用されます。

適用できる他の用語(さらに検索したい場合)には、「データDr」および「データが告白するまでデータを拷問する」が含まれます。

同一のx値またはy値を持たない2つのポイントを選択した場合、常に1の相関を取得できることに注意してください。数年前にChance誌に記事がありましたが、本質的に相関のないxおよびy変数がある場合、xをビンに入れ、ビン内でyを平均して、増加または減少傾向を示す方法を見つけることができます( Chance 2006、Visual Revelations:不幸な結果のビニングを通じてそこにないものを見つける:The Mendel Effect、pp。49-52)。また、中程度の正の相関を示す完全なデータセットでは、負の相関を示すサブセットを選択することができます。これらを考えると、あなたが提案したことを行う正当な理由があっても、あなたは思い付く結論に対して使用する多くの議論を懐疑論者に与えています。


The American Statisticianの記事の名前は何ですか?
想定

1
私は記事をどこで見たのかを思い出しました、それは実際にアメリカの統計学者ではなくチャンスマガジンにありました。上記を修正し、年、タイトル、およびページ番号を含めて、関係者が簡単にコピーを見つけられるようにしました。
グレッグスノー

4

RANSACアルゴリズムは、あなたが望むもののように聞こえます。基本的に、データがインライアとアウトライアの混合で構成されていると想定し、データのサブセットを繰り返しサンプリングし、モデルをそれに適合させ、他のすべてのデータポイントをモデルに適合させようとすることにより、インライアを特定しようとします。こちらがウィキペディアの記事です。

あなたの場合、少なくとも40ポイントに適合する現在の最良のモデルを保存しながらアルゴリズムを繰り返し続けることができるため、絶対的な最良の相関を保証することはできませんが、接近するはずです。


1

これが良い習慣になる状況を想像するのは難しいですが、実際にこれを行う正当な理由があると仮定してみましょう。

ブルートフォースアルゴリズムは、次のようなものです。

  1. Nの全体サンプルのうち、nの可能なすべてのサブサンプルを計算します。ほとんどの統計パッケージには、これを行う置換なしの組み合わせを計算する機能があります。

  2. サブサンプルごとにxとyの相関を推定し、そのセットから最大値を選択します。

この手順の参照に関する元のポスターのコメントを見ました。データセット内のすべての可能な相関の経験的分布を生成し、最大値を選択しているだけなので、誰かがこの手順に特定の名前を持っているかどうかはわかりません。ブートストラップを行うときに同様のアプローチが使用されますが、その場合、経験的な変動に関心がある場合は、最大値に関連付けられた特定のサブサンプルを選択するためにそれらを使用しないでください。


2
N = 100およびn = 40の問題を解決するために必要なほどのCPUサイクルにアクセスできると思いますか?(世界中のすべてのPCをフルタイムで利用できるとしたら、それは約100万年です。)1032N=100n=40
whuber

それについてnarする必要はありません:-p。公正なポイント。
デビッド

申し訳ありませんが...私はそれらの数字が好きです、なぜならそれらは改善されたアルゴリズムのための多くの余地を私たちに与えてくれるからです:-)。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.