(2つの次元に沿って)最も強い相関を持つ大きなプールからデータポイントのサブセットを選択するための標準的な手順(参照として引用するなど)はありますか?
たとえば、100個のデータポイントがあるとします。X次元とY次元に沿って可能な限り強い相関を持つ40ポイントのサブセットが必要です。
これを行うためのコードの記述は比較的簡単だと思いますが、引用するソースがあるかどうか疑問に思っていますか?
(2つの次元に沿って)最も強い相関を持つ大きなプールからデータポイントのサブセットを選択するための標準的な手順(参照として引用するなど)はありますか?
たとえば、100個のデータポイントがあるとします。X次元とY次元に沿って可能な限り強い相関を持つ40ポイントのサブセットが必要です。
これを行うためのコードの記述は比較的簡単だと思いますが、引用するソースがあるかどうか疑問に思っていますか?
回答:
あなたの方法は、このウィキペディアの記事で説明されている一般的なカテゴリに当てはまると思います。ウィキペディア以外のものが必要な場合は、他の参照もあります。その記事内のリンクの一部も適用されます。
適用できる他の用語(さらに検索したい場合)には、「データDr」および「データが告白するまでデータを拷問する」が含まれます。
同一のx値またはy値を持たない2つのポイントを選択した場合、常に1の相関を取得できることに注意してください。数年前にChance誌に記事がありましたが、本質的に相関のないxおよびy変数がある場合、xをビンに入れ、ビン内でyを平均して、増加または減少傾向を示す方法を見つけることができます( Chance 2006、Visual Revelations:不幸な結果のビニングを通じてそこにないものを見つける:The Mendel Effect、pp。49-52)。また、中程度の正の相関を示す完全なデータセットでは、負の相関を示すサブセットを選択することができます。これらを考えると、あなたが提案したことを行う正当な理由があっても、あなたは思い付く結論に対して使用する多くの議論を懐疑論者に与えています。
RANSACアルゴリズムは、あなたが望むもののように聞こえます。基本的に、データがインライアとアウトライアの混合で構成されていると想定し、データのサブセットを繰り返しサンプリングし、モデルをそれに適合させ、他のすべてのデータポイントをモデルに適合させようとすることにより、インライアを特定しようとします。こちらがウィキペディアの記事です。
あなたの場合、少なくとも40ポイントに適合する現在の最良のモデルを保存しながらアルゴリズムを繰り返し続けることができるため、絶対的な最良の相関を保証することはできませんが、接近するはずです。
これが良い習慣になる状況を想像するのは難しいですが、実際にこれを行う正当な理由があると仮定してみましょう。
ブルートフォースアルゴリズムは、次のようなものです。
Nの全体サンプルのうち、nの可能なすべてのサブサンプルを計算します。ほとんどの統計パッケージには、これを行う置換なしの組み合わせを計算する機能があります。
サブサンプルごとにxとyの相関を推定し、そのセットから最大値を選択します。
この手順の参照に関する元のポスターのコメントを見ました。データセット内のすべての可能な相関の経験的分布を生成し、最大値を選択しているだけなので、誰かがこの手順に特定の名前を持っているかどうかはわかりません。ブートストラップを行うときに同様のアプローチが使用されますが、その場合、経験的な変動に関心がある場合は、最大値に関連付けられた特定のサブサンプルを選択するためにそれらを使用しないでください。