次のプロットのとXの関係は何ですか?私の見解では、負の線形関係がありますが、多くの外れ値があるため、関係は非常に弱いです。私は正しいですか?散布図をどのように説明できますか。
次のプロットのとXの関係は何ですか?私の見解では、負の線形関係がありますが、多くの外れ値があるため、関係は非常に弱いです。私は正しいですか?散布図をどのように説明できますか。
回答:
この質問では、散布図の形式でのみ与えられたデータを評価する方法、散布図を要約する方法、関係が線形に見えるかどうか(およびどの程度か)の概念を扱います。それらを順番に取りましょう。
探索的データ分析(EDA)の原則を使用します。 これらは(少なくとも当初は、鉛筆と紙で使用するために開発されたとき)、データのシンプルで計算しやすい堅牢な要約を強調しています。最も単純な種類の要約の1つは、「典型的な」値を表す中間値など、一連の数値内の位置に基づいています。 ミドルは、グラフィックスから簡単に確実に推定できます。
散布図は数字のペアを示します。各ペアの最初(水平軸にプロット)は、一連の単一の数値を提供します。これは個別に要約できます。
この特定の散布では、y値は、二つのほぼ完全に別々のグループ内にあるように見える以上の値:上部のと等しいもの又は未満下部に。(この印象は、y値のヒストグラムを描くことで確認されますが、これは急激に二峰性ですが、この段階では多くの作業になります。)散布図に目を細めて懐疑論者を招待します。散布図のドットの大きな半径のガンマ補正されたガウスぼかし(つまり、標準の高速画像処理結果)を使用すると、次のようになります。
上のグループと下の2つのグループは非常に明白です。(上のグループは、より少ないドットを含むため、下のグループよりもはるかに明るくなります。)
したがって、y値のグループを個別に要約しましょう。これを行うには、2つのグループの中央に水平線を描画します。データの印象を強調し、いかなる種類の計算も行っていないことを示すために、(a)軸やグリッド線などの装飾をすべて削除し、(b)ポイントをぼかしました。このようにグラフィックを「細目」にすると、データのパターンに関する情報がほとんど失われません。
同様に、私はx値の中央値を垂直線分でマークしようとしました。上のグループ(赤い線)では、ブロブを数えることで、これらの線が実際にグループを水平と垂直の両方の2つの等しい半分に分けることを確認できます。下のグループ(青い線)では、実際にカウントを行うことなく、視覚的に位置を推定しただけです。
交点は2つのグループの中心です。 x値とy値の関係の優れた要約の1つは、これらの中心位置を報告することです。 次に、各グループのデータが各グループ(左右、上下、中心)にどの程度広がっているかを説明することで、この要約を補足します。簡潔にするために、ここでは行いませんが、(大体)描画した線分の長さが各グループの全体的な広がりを反映していることに注意してください。
最後に、2つのセンターを結ぶ(破線)線を描きました。 これは合理的な回帰線です。 データの適切な説明ですか?確かにそうではありません。データがこの線の周りにどのように広がっているか見てください。直線性の証拠でもありますか?線形の記述が非常に貧弱なので、それはほとんど関係ありません。それにもかかわらず、それは私たちの前にある質問なので、それに対処しましょう。
関係は線形の場合、統計的な意味でのいずれかで yの値は、ラインの周りにバランスのとれたランダムに変化または xの値は、行(または両方)の周りにバランスのとれたランダムに変化することが見られます。
前者はここでは当てはまらないようです。y値は2つのグループに分類されるように見えるため、それらの変動は、線の上または下にほぼ対称的に分布するという意味でバランスが取れているようには見えません。(つまり、データを線形回帰パッケージにダンプし、xに対してyの最小二乗適合を実行する可能性を直ちに除外します。答えは関係ありません。)
xのバリエーションはどうですか?それはもっともらしいです:プロットの各高さで、点線の周りの点の水平散布はかなりバランスが取れています。この散布の広がりは、高さが低い(yの値が低い)場合に少し大きくなるように見えますが、おそらくそれはもっと多くのポイントがあるためです。(ランダムなデータが多いほど、その極端な値はより広くなります。)
さらに、上から下にスキャンするとき、回帰直線の周りの水平方向のばらつきが大きく不均衡な場所はありません。これは非線形性の証拠です。(まあ、多分y = 50くらいか、そうするとxの値が大きすぎるかもしれません。この微妙な効果は、データをy = 60の値の周りの2つのグループに分けるさらなる証拠としてとることができます。)
私たちはそれを見てきました
xをyの線形関数といくつかの「素敵な」ランダムな変動として見るのは理にかなっています。
yをxとランダムな変動の線形関数として表示することは意味がありません。
データを高いy値のグループと低いy値のグループに分け、中央値を使用して両方のグループの中心を見つけ、それらの中心を接続することにより、回帰直線を推定できます。
結果の線は下向きの勾配を持ち、負の線形関係を示します。
直線性からの強い逸脱はありません。
それでも、線の周りのx値の広がりはまだ大きいため(最初のx値の全体的な広がりと比較して)、この負の線形関係を「非常に弱い」と特徴付けなければなりません。
2つの楕円形の雲(1つは60を超えるyに、もう1つはyの値が小さい)を形成するとデータを説明する方が便利な場合があります。各クラウド内では、xとyの間に検出可能な関係はほとんどありません。雲の中心は(0.29、90)と(0.38、30)に近い。クラウドは同等のスプレッドを持っていますが、上部のクラウドは下部のクラウドよりもはるかに少ないデータを持っています(おそらく20%ほど)。
これらの結論のうち2つは、弱い否定的な関係があるという質問自体でなされた結論を裏付けています。その他は、これらの結論を補足およびサポートします。
持ちこたえないように思われる質問で引き出された結論の1つは、「外れ値」があるという主張です。より慎重な検査(下図を参照)では、有効に範囲外と見なされる可能性のある個々のポイント、またはポイントの小さなグループでさえも見つけることができません。十分に長い分析を行った後、右中部近くの2つのポイントまたは左下隅の1つのポイントに注意が向けられることがありますが、これらであっても、考慮されるかどうかにかかわらず、データの評価をあまり変更しません外れ。
さらに多くのことが言えます。 次のステップは、それらの雲の広がりを評価することです。ここに示す同じ手法を使用して、2つのクラウドのそれぞれにおけるxとyの関係を個別に評価できます。下の雲のわずかな非対称性(最小のy値でより多くのデータが表示されるようです)は、y値を再表現することで評価および調整することもできます(平方根がうまく機能する可能性があります)。この段階では、範囲外のデータを探すのが理にかなっています。なぜなら、この時点では、説明には一般的なデータ値とその広がりに関する情報が含まれているからです。外れ値は(定義により)中央から離れすぎて、観測された拡散量の観点から説明できません。
この作業は、非常に定量的であるため、データのグループの中間を見つけて簡単な計算を行う以上の作業は必要ないため、データがグラフィカルな形式でのみ使用できる場合でも、迅速かつ正確に実行できます。ここで報告されるすべての結果(定量値を含む)は、グラフィックの上部に明るいマークを付けることができる表示システム(ハードコピーや鉛筆など)を使用して数秒以内に簡単に見つけることができます。
楽しもう!
次に、ランニングラインスムーザーを使用して、破線の95%CIバンドが灰色で下の黒い回帰線を作成しました。以下のグラフは、データの半分の滑らかな範囲を示していますが、より狭い範囲では、ほぼ同じ正確な関係が明らかになりました。付近の傾きのわずかな変化は、非線形最小二乗回帰(赤線)で線形モデルを使用しての傾きの線形ヒンジ関数を追加して近似できる関係を示唆しました。
係数の推定値は次のとおりです。
恐ろしいwhuberは強い線形関係はないと断言しますが、ヒンジ項によって暗示される線からの偏差はの勾配と同じ次数(つまり37.7)なので、強い非線形関係がないことを尊重することに同意しません(つまり、強い関係はありませんが、非線形項はほぼ線形項と同じくらい強い)。
解釈
(従属変数としてのみに関心があると仮定して進めました。)値は、によって非常に弱く予測されます(調整済み = 0.03)。関連付けはほぼ線形で、約0.46で勾配がわずかに減少します。おそらく値の鋭い下限であるため、残差はやや右に傾いています。サンプルサイズ考えると、正規性の違反を許容する傾向があります。値のより多くの観測は、勾配の変化が実際であるか、の減少した分散のアーチファクトであるかを特定するのに役立ちます その範囲で。
グラフで更新する:
(赤い線は、単にX上のln(Y)の線形回帰です。)
コメントの中でラスレンスは書いた:「私はちょうどあなたがスムーズならば、これは、最大保持しているかどうか疑問対配信。偏っ権利です。」対変換は、対称的に分布する残差を持つと間の線よりもわずかに良い近似を与えるため、これは非常に良い提案です。ただし、彼の提案すると線形ヒンジは、直線で記述されていない(変換されていない)と関係を優先します。
これが私の2¢ 1.5¢です。私にとって最も顕著な特徴は、データがYの範囲の底で突然停止し、「バンチアップ」することです。 (潜在的な)床効果と、上部の低密度クラスターがXの範囲の一部にのみ広がるという事実。
「クラスター」は漠然と2変量正規分布であるため、パラメトリック正規混合モデルを試すのは興味深いかもしれません。@Alexisのデータを使用すると、3つのクラスターがBICを最適化することがわかります。高密度の「床効果」が3番目のクラスターとして選択されます。コードは次のとおりです。
library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")
mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
# Gaussian finite mixture model fitted by EM algorithm
# ----------------------------------------------------
#
# Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#
# log.likelihood n df BIC ICL
# -614.4713 170 14 -1300.844 -1338.715
#
# Clustering table:
# 1 2 3
# 72 72 26
さて、これから何を推測しますか?私はそれMclust
が単に人間のパターン認識が間違っているとは思わない。(一方、散布図の私の読み取りはそうかもしれません。)一方、これが事後であることは間違いありません。私は面白いパターンだと思ったものを見て、それをチェックすることにしました。アルゴリズムは何かを見つけますが、親指が確実にスケールするように、そこにあると思われるものだけをチェックしました。これを緩和するための戦略を考案することも可能ですが(@whuberの優れた答えはこちらを参照)、このような場合にこのようなプロセスを実行する方法はわかりません。その結果、私はこれらの結果をたくさんの塩で取ります(私はこのようなことを十分に頻繁に行って、誰かがシェーカー全体を見逃している)。次回会うときにクライアントと考え、話し合うための資料を提供してくれます。これらのデータは何ですか?床効果がある可能性があるということは理にかなっていますか?異なるグループが存在する可能性があるのは理にかなっていますか?これらが本物だとしたら、どれほど意味のある/驚くべき/興味深い/重要なのでしょうか?独立したデータは存在しますか/これらの可能性の正直なテストを実行するためにそれらを便利に入手できますか?等。
見たらすぐに表示されるものを説明しましょう。
の条件付き分布(をIV、をDV として見ると関心が集中することが多い場合)に興味がある場合、では条件付き分布は上位グループ(約70から125の間、平均は100未満のビット)および下位グループ(0から約70の間、平均は約30程度)。各モーダルグループ内で、との関係はほぼフラットです。(大まかな場所の感覚を推測する下に大まかに描かれた下の赤と青の線を参照してください)
次に、これらの2つのグループがで多かれ少なかれ密集している場所を見ると、さらに言うことができます。
以下のために上位グループは、全体の平均値になりれ、完全に消失落ち、そして約0.2未満に、下位グループは、全体の平均より高いを作り、その上よりもはるかに低密度です。
これら二つの効果の間に、それはのように、両者の間の見かけ上負の(しかし、非線形)関係を誘導するに対して減少しているようでが、中心に幅広い、主に平坦領域と。(紫色の破線を参照)
とが何であるかを知ることが重要であることは間違いありません。その場合、の条件付き分布がその範囲の大部分で二峰性になる理由がより明確になる可能性があるためです(実際、実際には2つのグループ分布は、見かけ上の減少関係を誘導します。
これは、純粋に「目で見て」検査に基づいて見たものです。基本的な画像操作プログラム(私が線を描いたようなもの)のようなもので少し遊んでみると、より正確な数字を見つけ出すことができました。データをデジタル化すると(適切なツールを使用するとかなり簡単になりますが、場合によっては少し面倒になります)、そのような印象のより高度な分析を行うことができます。
この種の探索的分析は、いくつかの重要な質問(データを持っているがプロットのみを表示している人を驚かせることがあります)につながる可能性がありますが、そのような検査によってモデルが選択される範囲に注意する必要があります-ifプロットの外観に基づいて選択されたモデルを適用し、同じデータでそれらのモデルを推定すると、同じデータでより正式なモデル選択と推定を使用すると、同じ問題が発生する傾向があります。[これは、探索的分析の重要性をまったく否定するものではありません。どのように実行するかに関係なく、分析の結果に注意する必要があります。]
ラスのコメントへの応答:
[後の編集:明確にするために-私は一般的な予防策として取られたラスの批判に大まかに同意します。戻ってきて、これらを編集して、目でよく確認する偽のパターンと、最悪の事態を回避する方法についてのより広範な解説を作成する予定です。また、この特定のケースで単なるスプリアスではないと思う理由についてもいくつかの正当化を追加できると思います(たとえば、回帰グラフまたは0次カーネルスムースを介して、もちろん、テストするデータが不足しているため、これまでのところ、それは行くことができます;例えば、サンプルが代表的でない場合、リサンプリングでもこれまでのところ私たちを得るだけです。
私たちは偽のパターンを見る傾向があることに完全に同意します。ここと他の場所の両方で頻繁に指摘する点です。
たとえば、残差プロットまたはQQプロットを見るとき、状況がわかっている(物事があるべきところと仮定が成り立たないところの両方)多くのプロットを生成して、どのくらいのパターンがあるべきかを明確にすることをお勧めします無視されます。
プロットがいかに異常であるかを確認するために、QQプロットが24個の他の(仮定を満たす)プロットの中に配置されている例を次に示します。この種のエクササイズは重要です。なぜなら、ほとんどの単純なノイズである小さな揺れをすべて解釈することによって、だまされないようにするためです。
いくつかのポイントをカバーすることで印象を変えることができる場合、私たちはノイズ以外によって生成された印象に依存しているかもしれないとしばしば指摘します。
[ただし、少数ではなく多くの点から明らかな場合、そこにないことを維持するのは困難です。]
whuberの答えの表示は私の印象を裏付けており、ガウスぼかしプロットは二峰性への同じ傾向を拾っているようです。
チェックするデータがこれ以上ない場合は、少なくともインプレッションがリサンプリング(二変量分布をブートストラップし、ほぼ常に存在するかどうかを確認)を生き残る傾向があるかどうか、またはインプレッションが明らかにならない他の操作を確認できます単純なノイズの場合。
1)見かけの双峰性が単なる歪度とノイズ以上のものであるかどうかを確認する方法の1つは、カーネル密度の推定に現れますか?さまざまな変換の下でカーネル密度の推定値をプロットすると、まだ見えますか?ここでは、デフォルトの帯域幅の85%でより対称性の高いものに変換します(比較的小さなモードを特定しようとしているため、デフォルトの帯域幅はそのタスクに最適化されていないため):
プロットは、およびです。垂直線は、およびます。二峰性は減少しますが、それでもかなり見えます。元のKDEでは非常に明確であるため、そこにあることを確認しているようです。2番目と3番目のプロットは、変換に対して少なくともある程度堅牢であることを示唆しています。
2)これが単なる「ノイズ」以上のものであるかどうかを確認する別の基本的な方法です。
ステップ1:Yでクラスタリングを実行する
ステップ2:で2つのグループに分割し、2つのグループを別々にクラスター化し、非常に似ているかどうかを確認します。何も起こっていない場合、2つの半分が同じくらい分割されることは期待されません。
ドットのある点は、前のプロットの「すべて1セット」クラスターとは異なる方法でクラスター化されました。後でさらに行いますが、その位置の近くに水平の「分割」があるかもしれないようです。
回帰図またはNadaraya-Watson推定器(両方とも回帰関数局所推定値)を試します。私もまだ生成していませんが、それらがどのように進むかを見ていきます。おそらく、データがほとんどない最後の部分を除外します。
3)編集:これは、幅0.1のビン(先ほど提案したように、端を除く)の回帰グラフです。
これは、私がプロットについて持っていた元の印象と完全に一致しています。私の推論が正しいことを証明するものではありませんが、私の結論は、regressogramと同じ結果に達しました。
プロットで見たもの、およびその結果の推論が偽りだった場合、おそらくこのようにを識別することに成功すべきではなかったでしょう。
(次に試すのはNadayara-Watson推定量です。時間がある場合、リサンプリングの下でどのようになるかを見るかもしれません。)
4)後で編集:
Nadarya-Watson、ガウスカーネル、帯域幅0.15:
繰り返しますが、これは私の印象と驚くほど一致しています。10個のブートストラップリサンプルに基づくNW推定量は次のとおりです。
広範なパターンがありますが、いくつかのリサンプルは、データ全体に基づいた説明にはっきりと従っていません。左側のレベルの場合は右側よりも不確実性が高いことがわかります-ノイズのレベル(一部は観測値が少なく、一部は広範囲に広がっている)は、中央よりも左。
私の全体的な印象は、おそらく私が単に自分をだましていないということです。なぜなら、さまざまな側面は、単にノイズである場合にそれらを曖昧にする傾向があるさまざまな課題(スムージング、変換、サブグループへの分割、リサンプリング)に適度に立ち上がるからです。一方で、最初の印象とほぼ一致しているが、効果は比較的弱く、左から中央に移動する期待の実際の変化を主張するには多すぎるかもしれないという指摘があります。
わかりました、アレクシスのリードに従ってデータをキャプチャしました。以下は対プロットです。
そして相関関係:
> cor.test(~ x + y, data = data)
Pearson's product-moment correlation
data: x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.33836844 -0.04977867
sample estimates:
cor
-0.1983692
> cor.test(~ x + log(y), data = data)
Pearson's product-moment correlation
data: x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.35551268 -0.06920015
sample estimates:
cor
-0.2170188
相関検定は、おそらく負の依存性を示しています。私は二峰性に納得していません(しかし、それが欠けていることにも納得していません)。
[@whuberがを予測しようとしていた点を見落としていたため、以前のバージョンにあった残差プロットを削除しました。]
Russ Lenthは、Y軸が対数である場合、グラフがどのように見えるか疑問に思いました。Alexisはデータをスクレイピングしたため、対数軸を使用して簡単にプロットできます。
対数スケールでは、二峰性または傾向のヒントはありません。もちろん、ログスケールが意味をなすかどうかは、データが表す内容の詳細に依存します。同様に、whuberが示唆するように、データが2つの母集団からのサンプリングを表すと考えるのが理にかなっているかどうかは、詳細に依存します。
補遺:以下のコメントに基づいて、修正版を以下に示します。
まあ、あなたは正しい、関係は弱いが、ゼロではない。ポジティブだと思います。ただし、単純な線形回帰(OLS回帰)を実行して調べてください。そこで、関係が何であるかを示すxxxの勾配が得られます。そして、はい、あなたは結果を偏らせるかもしれない外れ値を持っています。それに対処できます。クックの距離を使用するか、レバレッジプロットを作成して、関係に対する外れ値の影響を推定できます。
がんばろう
これは家事です。したがって、あなたの質問への答えは簡単です。X上でYの線形回帰を実行すると、次のような結果が得られます。
Coefficient Standard Er t Stat
C 53.14404163 6.522516463 8.147781908
X -44.8798926 16.80565866 -2.670522684
したがって、t変数は99%の信頼度でX変数に対して有意です。したがって、変数が何らかの関係を持っていると宣言できます。
線形ですか?変数X2 =(X-mean(X))^ 2を追加し、再度回帰します。
Coefficient Stand Err t Stat
C 53.46173893 6.58938281 8.11331508
X -43.9503443 17.01532569 -2.582985779
X2 -44.601130 114.1461801 -0.390736951
Xの係数はまだ重要ですが、X2は重要ではありません。X2は非線形性を表します。したがって、関係は線形に見えると宣言します。
上記は宿題用でした。
実生活では、物事はより複雑です。これが学生のクラスに関するデータであったと想像してください。Y-ポンドでのベンチプレス、X-ベンチプレスの前に息を止める時間(分)。学生の性別をお願いします。面白くするために、別の変数Zを追加してみましょう。すべてのY <60に対してZ = 1(女の子)、Y> = 60のときにZ = 0(男の子)としましょう。3つの変数で回帰を実行します。
Coefficient Stand Error t Stat
C 92.93031357 3.877092841 23.969071
X -6.55246715 8.977138488 -0.72990599
X2 -43.6291362 59.06955097 -0.738606194
Z -63.3231270 2.960160265 -21.39179009
何が起こった?!XとYの「関係」はなくなりました!ああ、交絡変数、性別のために関係は偽物だったようです。
物語の教訓は何ですか?「関係」を「説明」するため、またはそもそもそれを確立するために、データが何であるかを知る必要があります。この場合、学生の身体活動に関するデータが伝えられた瞬間、すぐに彼らの性別を尋ね、性別変数を取得せずにデータを分析することさえしません。
一方、散布図を「説明」するように求められた場合は、何でもできます。相関関係、線形近似など。自宅での仕事では、上記の最初の2つのステップで十分です。Xの係数(関係)、次にX ^ 2(線形性)を見てください。X変数の平均値を小さくする(平均値を引く)ことを確認してください。