十分位数を使用して相関を見つけることは、統計的に有効なアプローチですか?


10

相関関係のない1,449データポイントのサンプルがあります(r二乗0.006)。

データを分析したところ、独立変数の値を正と負のグループに分割すると、各グループの従属変数の平均に有意差があるように見えました。

独立変数値を使用してポイントを10ビン(十分位数)に分割すると、十分位数と平均従属変数値(r-2乗0.27)の間に強い相関があるようです。

私は統計についてあまり知らないので、ここにいくつかの質問があります:

  1. これは有効な統計的アプローチですか?
  2. 最適な数のビンを見つける方法はありますか?
  3. このアプローチの適切な用語は何ですか。
  4. このアプローチについて学ぶためのいくつかの紹介リソースは何ですか?
  5. このデータの関係を見つけるために使用できる他の方法は何ですか?

参照用の十分位数データは次のとおりです。https//gist.github.com/georgeu2000/81a907dc5e3b7952bc90

編集:これはデータの画像です: 業界の勢いは独立変数であり、エントリーポイントの品質は依存しています

業界の勢いは独立変数であり、エントリーポイントの品質は依存しています


うまくいけば、私の回答(特に2-4)は意図された意味で理解されます。
Glen_b-モニカを復活させる14

あなたの目的が独立と扶養家族の間の関係の形を探求することであるならば、これは素晴らしい探査技術です。それは統計学者を怒らせるかもしれませんが、常に業界で使用されています(例えば、信用リスク)。予測モデルを構築している場合は、機能エンジニアリングは適切です。トレーニングセットで行われた場合、適切に検証されています。
B_Miner 2014

結果が「適切に検証されている」ことを確認する方法に関するリソースを提供できますか?
Bセブン

「相関がない(r-2乗0.006)」とは、線形に相関していないことを意味します。おそらく、他にもいくつかの相関関係があります。生データ(依存型独立型)をプロットしましたか?
Emil Friedman

データをプロットしましたが、質問に追加するつもりはありませんでした。何て素晴らしいアイデアなんだ!更新された質問をご覧ください。
B 7

回答:


9

0.相関(0.0775)は小さいですが、(統計的に)0とは大幅に異なります。つまり、実際には相関があり、非常に小さい/弱い(つまり、関係の周りに多くのノイズがある)ようです。

σ/n

xまさにあなたが望んだ結果

3.はい。おそらくこの検索から始めて、おそらく同義語を試してください。

4. これは、開始するには良い場所です。それは非統計学者を対象とした非常に人気のある本です。

5.(より真剣に:)関係を調査する1つの方法として、平滑化(ローカル多項式回帰/カーネル平滑化などによる)をお勧めします。正確には何をしたいかによりますが、データの浚渫の問題を回避する限り、関係の形式がわからない場合に有効なアプローチになります。


人気のある引用があります。その元祖はRonald Coaseのようです。

「データを十分に拷問すれば、自然は常に告白するでしょう。」


ポイント1と2は、OPのアプローチが有効な統計的アプローチではない理由の良い説明ですが、ポイント0(弱い相関)について説得するのに役立つヒューリスティックです。
アサドエブラヒム2014

9

おそらく、探索的ツールの恩恵を受けるでしょう。データをx座標の十分位数に分割することは、その精神で実行されたようです。以下で説明する変更を加えると、これは完全に優れたアプローチです。

多くの二変量探索的方法が発明されました。John Tukey(EDA、Addison-Wesley 1977)によって提案された簡単なものは、彼の「さまよう概略図」です。x座標をビンにスライスし、各ビンの中央値に対応するyデータの垂直箱ひげ図を作成して、箱ひげ図の主要部分(中央値、ヒンジなど)を曲線に接続します(オプションでそれらを平滑化します)。これらの「さまようトレース」は、データの2変量分布の画像を提供し、相関、関係の線形性、外れ値、および限界分布の即時の視覚的評価、ならびに非線形回帰関数のロバストな推定および適合度評価を可能にします。

2k12kk=1,2,3,

さまざまなビンの母集団を表示するには、各ボックスプロットの幅を、それが表すデータ量に比例させることができます。

その結果、さまよっている回路図プロットは次のようになります。データサマリーから作成されたデータは、背景に灰色の点として表示されます。この上に、さまようスケマティックプロットが描かれ、5つのトレースが色付きで、箱ひげ図(外れ値を含む)が白黒で表示されています。

図

x=4x=40.074これらのデータの場合)はゼロに近いです。ただし、「ほとんど相関がない」または「有意ではあるが低い相関」として解釈することを主張すると、平均して気温は快適でした。状況を説明するために、単一の数値では十分ではない場合があります。

同様の目的を持つ代替探索ツールには、データのウィンドウ化された分位のロバストな平滑化と、ある範囲の分位点を使用した分位点回帰のフィットがあります。これらの計算を実行するためのソフトウェアが用意されているため、さまよっている回路図トレースよりも実行が容易になった可能性がありますが、同じような単純な構造、解釈の容易さ、および幅広い適用性はありません。


次のRコードは図を作成し、ほとんどまたはまったく変更せずに元のデータに適用できます。((によってbplt呼び出されたbxp)によって生成された警告を無視します:描画する外れ値がない場合に警告します。)

#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
            xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010", 
     main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
  invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
                     n=b$n[i],
                     conf=b$conf[,i, drop=FALSE],
                     out=b$out[b$group==i],
                     group=1,
                     names=b$names[i]), add=TRUE, 
                boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins, 
                at=x.binmed[i]))
}

colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,], 
                                             method="natural"), col=colors[i], lwd=2))

@EngrStudentコードを実行する前に、この投稿のテキストをお読みください。その警告は言及され、説明されています。
whuber

私はこのベクトルがどこから来ているのか理解していませんc(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6)、これは生成され、データに依存していxますか()?あなたは言及します2^*(-k)が、これは関係ありません。
Maximilian

@Maxそのベクトルは、この特定の例を生成します。
whuber

わかりましたが、数字をどのように処理しましたか?これは明らかに間違っています:k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
マクシミリアン

@Max「明らかに間違っている」という意味を理解することはできません。あなたは私のコードを参照することはできません:チェックとして、私はそれを再実行し、図を細部まで再現しました。
whuber

6

ビニングが問題への科学的アプローチであるとは思いません。それは情報の喪失と恣意的です。ランク(序数、セミパラメトリック)メソッドははるかに優れており、情報を失うことはありません。十分位数ビニングを使用して解決したとしても、データのタイの場合に変位値に使用される定義の数が多いため、この方法は依然として恣意的で再現性がありません。そして、上記の素晴らしいデータ拷問コメントで言及したように、ハワードウェイナーは、同じデータセットから、正の関連付けを生成できるビンを見つける方法と、負の関連付けを生成できるビンを見つける方法を示す素晴らしいペーパーを持っています。

 @Article{wai06fin,
   author =          {Wainer, Howard},
   title =       {Finding what is not there through the unfortunate
    binning of results: {The} {Mendel} effect},
   journal =     {Chance},
   year =        2006,
   volume =      19,
   number =      1,
   pages =       {49-56},
   annote =      {can find bins that yield either positive or negative
    association;especially pertinent when effects are small;``With four
    parameters, I can fit an elephant; with five, I can make it wiggle its
    trunk.'' - John von Neumann}
 }

これは私が疑ったものです。異なる数のビンを選択した場合、探しているものを表示するのに最適な相関関係を見つけることができます。しかし、結果は再現可能ではなく、科学的にも妥当ではありません。ランキングについての紹介リソースを知っていますか?
Bセブン

3
これは非常に極端な立場のように思えます。もちろん、ランクベースのメソッドも情報を失います。それらは実際の値に関するすべての情報を破棄します。では、情報の損失が懸念されるかどうかという問題は、なぜ分析が行われているのかということです。発見と探索の場合は、さまざまなガイド形式のビニングが適切に機能しますが、すべてをランクに置き換えると、関係が不明瞭になり、歪む可能性があります。それが確認または仮説テストのためであるならば、あなたの発言はより一般的に適用可能であり、弁護可能です。
whuber

2
π3πY|X

2

観測されたX(「エントリポイントの品質」)に基づいてデータを十分位数に分割することは、XとYの両方にエラーが発生する状況で、最初にWaldによって提案され、後に他の人によって提案された古い方法の一般化のようです。(Waldはデータを2つのグループに分割しました。Nair &ShrivastavaとBartlettはそれを3つに分割しました。)これは、Hoaglin、Mosteller、Tukeyによって編集された堅牢で探索的なデータ分析についてのセクション5Cで説明されています(Wiley、1983)。しかし、そのような「測定エラー」や「変数モデルのエラー」に関する多くの作業がそれ以来行われてきました。私が見た教科書は、測定誤差: John Buonaccorsi(CRC Press、

散布図では、両方の観測値が確率変数であり、それぞれに測定誤差が含まれているかどうかわからないため、状況が多少異なる場合があります。変数は何を表していますか?


エントリポイントの品質とは、特定の時点における短期間の株価の上昇または下降の度合いです。業界の勢いは、同じ時点での在庫に対する業界の「勢い」の尺度です。仮説は、業界の勢いと株価の将来の価格の間に相関関係があるということです。
B 7

1
通常、縦軸は応答です。目視検査では、実際の相関関係がある場合でも、エントリポイントの品質のばらつきにより、まったく役に立たないことが示されています。しかし、株価を扱っているため、時系列が関係しているため、状況はさらに複雑になります。
Emil Friedman

2

これにはlocalgaussパッケージが非常に便利です。 https://cran.r-project.org/web/packages/localgauss/index.html

パッケージには含まれています

ローカルガウスパラメーターを推定および視覚化するための計算ルーチン。ローカルガウスパラメーターは、2変量データ内の非線形依存性の特徴付けとテストに役立ちます。

例:

library(localgauss)
x=rnorm(n=1000)
y=x^2 + rnorm(n=1000)
lgobj = localgauss(x,y)
plot(lgobj)

結果:

ここに画像の説明を入力してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.