このプロットの


38

次のプロットのYXの関係は何Xですか?私の見解では、負の線形関係がありますが、多くの外れ値があるため、関係は非常に弱いです。私は正しいですか?散布図をどのように説明できますか。

ここに画像の説明を入力してください


3
何である?何である?どのプロセスで異常値を生成しましたか?それらが実際の測定値ではないと思う理由は何ですか?理論とは何ですか?XY
abaumann

4
コメントありがとうございます。私はこのプロットを本で見ています。Yは従属変数で、Xは独立変数です。理論はありません。xが与えられたYの関係を示す散布図をプロットしました。また、本には、線形または非線形の関係があるかどうかを尋ねる質問がありますか?強いですか、弱いですか?
PSS 14

7
これはタソグラフィーの練習です。これはデイトレーダーの間で非常に人気があり、テクニカル分析と呼ばれています。基本的に、データの性質について何も知らないのは実りのない演習です
Aksakal 14

1
@chlあなたはwhuberへの賞金への寄付で揺れます=)
Cam.Davidson.Pilon 14

3
@Aksakal統計言語は通常、文字列ではなく「関係」を理解します。数値のタプルのセットを記述するものです。たとえば、相関係数は関係を表します。基礎となる変数間の起源、性質、または因果関係については何の意味もありません。「説明する」は通常、より深い意味で理解されていることに同意しますが、質問では関係が非常に強調されているため、「説明する」という文字通りの意味を過度に押し出さないことは公正だと思います。散布図を説明することは茶葉の読み取りに過ぎないことを示唆している、私見。
whuber

回答:


50

この質問では、散布図の形式でのみ与えられたデータを評価する方法、散布図を要約する方法、関係が線形に見えるかどうか(およびどの程度か)の概念を扱います。それらを順番に取りましょう。

グラフィカルデータの評価

探索的データ分析(EDA)の原則を使用します。 これらは(少なくとも当初は、鉛筆と紙で使用するために開発されたとき)、データのシンプルで計算しやすい堅牢な要約を強調しています。最も単純な種類の要約の1つは、「典型的な」値を表す中間値など、一連の数値内の位置に基づいています。 ミドルは、グラフィックスから簡単に確実に推定できます。

散布図は数字のペアを示します。各ペアの最初(水平軸にプロット)は、一連の単一の数値を提供します。これは個別に要約できます。

この特定の散布では、y値は、二つのほぼ完全に別々のグループ内にあるように見える以上の値:上部のと等しいもの又は未満下部に。(この印象は、y値のヒストグラムを描くことで確認されますが、これは急激に二峰性ですが、この段階では多くの作業になります。)散布図に目を細めて懐疑論者を招待します。散布図のドットの大きな半径のガンマ補正されたガウスぼかし(つまり、標準の高速画像処理結果)を使用すると、次のようになります。6060

図0

上のグループと下の2つのグループは非常に明白です。(上のグループは、より少ないドットを含むため、下のグループよりもはるかに明るくなります。)

したがって、y値のグループを個別に要約しましょう。これを行うには、2つのグループの中央に水平線を描画します。データの印象を強調し、いかなる種類の計算も行っていないことを示すために、(a)軸やグリッド線などの装飾をすべて削除し、(b)ポイントをぼかしました。このようにグラフィックを「細目」にすると、データのパターンに関する情報がほとんど失われません。

図

同様に、私はx値の中央値を垂直線分でマークしようとしました。上のグループ(赤い線)では、ブロブを数えることで、これらの線が実際にグループを水平と垂直の両方の2つの等しい半分に分けることを確認できます。下のグループ(青い線)では、実際にカウントを行うことなく、視覚的に位置を推定しただけです。

関係の評価:回帰

交点は2つのグループの中心です。 x値とy値の関係の優れた要約の1つは、これらの中心位置を報告することです。 次に、各グループのデータが各グループ(左右、上下、中心)にどの程度広がっているかを説明することで、この要約を補足します。簡潔にするために、ここでは行いませんが、(大体)描画した線分の長さが各グループの全体的な広がりを反映していることに注意してください。

最後に、2つのセンターを結ぶ(破線)線を描きました。 これは合理的な回帰線です。 データの適切な説明ですか?確かにそうではありません。データがこの線の周りにどのように広がっているか見てください。直線性の証拠でもありますか?線形の記述が非常に貧弱なので、それはほとんど関係ありません。それにもかかわらず、それは私たちの前にある質問なので、それに対処しましょう。

直線性の評価

関係は線形の場合、統計的な意味でのいずれかで yの値は、ラインの周りにバランスのとれたランダムに変化または xの値は、行(または両方)の周りにバランスのとれたランダムに変化することが見られます。

前者はここでは当てはまらないようです。y値は2つのグループに分類されるように見えるため、それらの変動は、線の上または下にほぼ対称的に分布するという意味でバランスが取れているようには見えません。(つまり、データを線形回帰パッケージにダンプし、xに対してyの最小二乗適合を実行する可能性を直ちに除外します。答えは関係ありません。)

xのバリエーションはどうですか?それはもっともらしいです:プロットの各高さで、点線の周りの点の水平散布はかなりバランスが取れています。この散布の広がりは、高さが低い(yの値が低い)場合に少し大きくなるように見えますが、おそらくそれはもっと多くのポイントがあるためです。(ランダムなデータが多いほど、その極端な値はより広くなります。)

さらに、上から下にスキャンするとき、回帰直線の周りの水平方向のばらつきが大きく不均衡な場所はありません。これは非線形性の証拠です。(まあ、多分y = 50くらいか、そうするとxの値が大きすぎるかもしれません。この微妙な効果は、データをy = 60の値の周りの2つのグループに分けるさらなる証拠としてとることができます。)

結論

私たちはそれを見てきました

  • xをyの線形関数といくつかの「素敵な」ランダムな変動として見るのは理にかなっています。

  • yをxとランダムな変動の線形関数として表示することは意味がありませ

  • データを高いy値のグループと低いy値のグループに分け、中央値を使用して両方のグループの中心を見つけ、それらの中心を接続することにより、回帰直線を推定できます。

  • 結果の線は下向きの勾配を持ち、負の線形関係を示します。

  • 直線性からの強い逸脱はありません。

  • それでも、線の周りのx値の広がりはまだ大きいため(最初のx値の全体的な広がりと比較して)、この負の線形関係を「非常に弱い」と特徴付けなければなりません。

  • 2つの楕円形の雲(1つは60を超えるyに、もう1つはyの値が小さい)を形成するとデータを説明する方が便利な場合があります。各クラウド内では、xとyの間に検出可能な関係はほとんどありません。雲の中心は(0.29、90)と(0.38、30)に近い。クラウドは同等のスプレッドを持っていますが、上部のクラウドは下部のクラウドよりもはるかに少ないデータを持っています(おそらく20%ほど)。

これらの結論のうち2つは、弱い否定的な関係があるという質問自体でなされた結論を裏付けています。その他は、これらの結論を補足およびサポートします。

持ちこたえないように思われる質問で引き出された結論の1つは、「外れ値」があるという主張です。より慎重な検査(下図を参照)では、有効に範囲外と見なされる可能性のある個々のポイント、またはポイントの小さなグループでさえも見つけることができません。十分に長い分析を行った後、右中部近くの2つのポイントまたは左下隅の1つのポイントに注意が向けられることがありますが、これらであっても、考慮されるかどうかにかかわらず、データの評価をあまり変更しません外れ。


今後の方向性

さらに多くのことが言えます。 次のステップは、それらの雲の広がりを評価することです。ここに示す同じ手法を使用して、2つのクラウドのそれぞれにおけるxとyの関係を個別に評価できます。下の雲のわずかな非対称性(最小のy値でより多くのデータが表示されるようです)は、y値を再表現することで評価および調整することもできます(平方根がうまく機能する可能性があります)。この段階では、範囲外のデータを探すのが理にかなっています。なぜなら、この時点では、説明には一般的なデータ値とその広がりに関する情報が含まれているからです。外れ値は(定義により)中央から離れすぎて、観測された拡散量の観点から説明できません。

この作業は、非常に定量的であるため、データのグループの中間を見つけて簡単な計算を行う以上の作業は必要ないため、データがグラフィカルな形式でのみ使用できる場合でも、迅速かつ正確に実行できます。ここで報告されるすべての結果(定量値を含む)は、グラフィックの上部に明るいマークを付けることができる表示システム(ハードコピーや鉛筆など)を使用して数秒以内に簡単に見つけることができます。


4
ワオ。これらの2つのグループとその結果の行を見たことはなかったでしょう。そして、私は質問します。
rvl 14

4
@Russ私は、誰かがこの探査に疑問を抱いていると聞いてうれしいです。なぜなら、EDAがユニークまたはポジティブではないからです。私が見ているものを見るのに役立つ別の画像を含めました。同等かそれ以上にpar約的で、有用な説明を含む回答を投稿することをお勧めします。
whuber

12
人間として、私たちはパターンを見つけようとする傾向があります。ここでは、2つの独立したRVがあり、そのうちの1つが歪んでいるような散布図を取得することは非常に妥当だと思います。私はそれの証拠がありません、そして、私は提供する代替分析がありません-関係がほとんどまたはまったくないと言うものを除いて。はい、二峰性が存在する可能性があります。プロセスをさらに観察できれば、何が起こるかがわかります。もっともらしい偽のパターンに反応する傾向を慎重に認識し、認識する必要があると思います。
RVL 14

4
@Russあなたは正しいです。パターンを読みすぎないようにするためには、経験が必要です。私の経験では、150-200ポイントでは、y座標で測定した強い双峰性をランダムに取得することは困難です。このような経験は、最近ではシミュレーションによって簡単かつ迅速に補足することができます。パターンを見たときは、(1)パターンを定量的に特徴付け、(2)より単純な対立仮説に従って生成されたランダムサンプルで探します。パターンが非常に現れる場合、視覚野を非難することができますが、そうでない場合は何かを見つけた可能性があります。
whuber

1
@Russありがとう。これは、私が説明した残差プロットではありませんでした。xとyの役割は逆です。ただし、それでも有益です。異分散性は最も印象的なものです。実際には、2クラスター仮説(異分散性が消失するという仮説)を支持しているようです。心に留めて、私はその仮説については不可知論者です。私がここで書いたものはすべて、データの慎重で堅牢な説明の元の精神に基づいています。任意のこれらのデータの説明として単一の曲線は、原油、おそらく不十分になるだろう。
whuber

31

楽しもう!

まず第一に、私は掻き取ったデータを自分のグラフオフ。

次に、ランニングラインスムーザーを使用して、破線の95%CIバンドが灰色で下の黒い回帰線を作成しました。以下のグラフは、データの半分の滑らかな範囲を示していますが、より狭い範囲では、ほぼ同じ正確な関係が明らかになりました。付近の傾きのわずかな変化は、非線形最小二乗回帰(赤線)で線形モデルを使用しての傾きの線形ヒンジ関数を追加して近似できる関係を示唆しました。X=0.4X

Y=β0+βXX+βcmax(Xθ,0)+ε

係数の推定値は次のとおりです。

Y=50.937.7X26.74436max(X0.46,0)

恐ろしいwhuberは強い線形関係はないと断言しますが、ヒンジ項によって暗示される線からの偏差はの勾配と同じ次数(つまり37.7)なので、強い非線形関係がないことを尊重することに同意しません(つまり、強い関係はありませんが、非線形項はほぼ線形項と同じくらい強い)。Y=50.937.7XX

データで遊ぶ時間

解釈
(従属変数としてのみに関心があると仮定して進めました。)値は、によって非常に弱く予測されます(調整済み = 0.03)。関連付けはほぼ線形で、約0.46で勾配がわずかに減少します。おそらく値の鋭い下限であるため、残差はやや右に傾いています。サンプルサイズ考えると、正規性の違反を許容する傾向があります。値のより多くの観測は、勾配の変化が実際であるか、の減少した分散のアーチファクトであるかを特定するのに役立ちますYYXR2YN=170X>0.5Y その範囲で。

グラフで更新する:ln(Y)

(赤い線は、単にX上のln(Y)の線形回帰です。)

Russ Lenthの提案ごとにグラフで更新。

コメントの中でラスレンスは書いた:「私はちょうどあなたがスムーズならば、これは、最大保持しているかどうか疑問対配信。偏っ権利です。」対変換は、対称的に分布する残差を持つと間の線よりもわずかに良い近似を与えるため、これは非常に良い提案です。ただし、彼の提案すると線形ヒンジは、直線で記述されていない(変換されていない)と関係を優先します。logYXYlogYXYXlog(Y)XYX


1
vs.を滑らかにすると、これが成り立つのかしら。の分布は右に歪んでおり、分布をより対称にする変換は、アイコンのヌル散布図のようには見えません。logYXY
RVL 14

1
@Russバイモーダル分布が歪んで表示され、対数変換を示唆することは古典的です。しかし、ここでのy分布は確かにバイモーダルであり、ログはおそらくそれを再表現するのに有用な方法ではありません。2つのコンポーネントが分離されている場合、下のコンポーネントはまだ正に歪んでおり、平方根は、対称分布を得るためにそれを変換するのに適切な量です。平方根は上位グループの対称性にそれほど影響を与えないため、ルートが適切な選択であることを示しています。しかし、それは二峰性を修正するものではありません。そして、このタイプの滑らかさには問題があります。
whuber

1
アレクシス、私たちの答えでは、私たちは両方とも未定義の方法で「強い」を使用した罪を犯しています。「弱い」という意味は、フレーズの一部で示唆されていました。これは、y値のばらつきに比べて傾きが小さいことを示すためのものでした。その点であなたの分析が異なる結論を出すとは思わない。yの混合モデルにメリットがあるかもしれないという仮説を受け入れると、上のグループではxとyの間に弱いの関係があり、下のグループには関係がないように見えるため、注意が必要だと感じました。
whuber

3
アレクシス、テューキーのEDA本はそれらでいっぱいです。その他の手法(より高度な、数学的な正当化)については、Hoaglin、Mosteller、およびTukey、Robust and Exploratory Data Analysisを参照してください。
whuber

2
@rivuマニュアル。10分または15分のトップスを取りました。各ポイントを最初にポインターで配置し、次に矢印キーを使用して正確に配置しました。
アレクシス14

21

これが私の 1.5¢です。私にとって最も顕著な特徴は、データがYの範囲の底で突然停止し、「バンチアップ」することです。 (潜在的な)床効果と、上部の低密度クラスターがXの範囲の一部にのみ広がるという事実。

「クラスター」は漠然と2変量正規分布であるため、パラメトリック正規混合モデルを試すのは興味深いかもしれません。@Alexisのデータを使用すると、3つのクラスターがBICを最適化することがわかります。高密度の「床効果」が3番目のクラスターとして選択されます。コードは次のとおりです。

library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")

mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
#   Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
#   Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -614.4713 170 14 -1300.844 -1338.715
# 
# Clustering table:
#  1  2  3 
# 72 72 26 

ここに画像の説明を入力してください

さて、これから何を推測しますか?私はそれMclustが単に人間のパターン認識が間違っているとは思わない。(一方、散布図の私の読み取りはそうかもしれません。)一方、これが事後であることは間違いありません。私は面白いパターンだと思ったものを見て、それをチェックすることにしました。アルゴリズムは何かを見つけますが、親指が確実にスケールするように、そこにあると思われるものだけをチェックしました。これを緩和するための戦略を考案することも可能ですが(@whuberの優れた答えはこちらを参照)、このような場合にこのようなプロセスを実行する方法はわかりません。その結果、私はこれらの結果をたくさんの塩で取ります(私はこのようなことを十分に頻繁に行って、誰かがシェーカー全体を見逃している)。次回会うときにクライアントと考え、話し合うための資料を提供してくれます。これらのデータは何ですか?床効果がある可能性があるということは理にかなっていますか?異なるグループが存在する可能性があるのは理にかなっていますか?これらが本物だとしたら、どれほど意味のある/驚くべき/興味深い/重要なのでしょうか?独立したデータは存在しますか/これらの可能性の正直なテストを実行するためにそれらを便利に入手できますか?等。


1
+1探索的分析がどのように自然に興味深い質問につながるかを指摘するため。私は答えでその点をもっと強調したかったのに。(この時点で)本当に3つの異なるグループがあると信じることを推し進めることになると思いますが、クラスターの結果は、xとyの間に負の関係があることを確認し、その関係を要約する有効な方法を示しいます。自動クラスタリングが一般的に有用な探索ツールになる可能性があるのはどの程度かと思いますが、結果を読みすぎないようにしたいのであれば。
whuber

14

見たらすぐに表示されるものを説明しましょう。

の条件付き分布(をIV、をDV として見ると関心が集中することが多い場合)に興味がある場合、では条件付き分布は上位グループ(約70から125の間、平均は100未満のビット)および下位グループ(0から約70の間、平均は約30程度)。各モーダルグループ内で、との関係はほぼフラットです。(大まかな場所の感覚を推測する下に大まかに描かれた下の赤と青の線を参照してください)yxyx0.5Y|xx

次に、これらの2つのグループがで多かれ少なかれ密集している場所を見ると、さらに言うことができます。X

以下のために上位グループは、全体の平均値になりれ、完全に消失落ち、そして約0.2未満に、下位グループは、全体の平均より高いを作り、その上よりもはるかに低密度です。x>0.5x

これら二つの効果の間に、それはのように、両者の間の見かけ上負の(しかし、非線形)関係を誘導するに対して減少しているようでが、中心に幅広い、主に平坦領域と。(紫色の破線を参照)E(Y|X=x)x

ここに画像の説明を入力してください

とが何であるかを知ることが重要であることは間違いありません。その場合、の条件付き分布がその範囲の大部分で二峰性になる理由がより明確になる可能性があるためです(実際、実際には2つのグループ分布は、見かけ上の減少関係を誘導します。YXYXY|x

これは、純粋に「目で見て」検査に基づいて見たものです。基本的な画像操作プログラム(私が線を描いたようなもの)のようなもので少し遊んでみると、より正確な数字を見つけ出すことができました。データをデジタル化すると(適切なツールを使用するとかなり簡単になりますが、場合によっては少し面倒になります)、そのような印象のより高度な分析を行うことができます。

この種の探索的分析は、いくつかの重要な質問(データを持っているがプロットのみを表示している人を驚かせることがあります)につながる可能性がありますが、そのような検査によってモデルが選択される範囲に注意する必要があります-ifプロットの外観に基づいて選択されたモデルを適用し、同じデータでそれらのモデルを推定すると、同じデータでより正式なモデル選択と推定を使用すると、同じ問題が発生する傾向があります。[これは、探索的分析の重要性をまったく否定するものではありません。どのように実行するに関係なく、分析の結果に注意する必要があります。]


ラスのコメントへの応答:

[後の編集:明確にするために-私は一般的な予防策として取られたラスの批判に大まかに同意します。戻ってきて、これらを編集して、目でよく確認する偽のパターンと、最悪の事態を回避する方法についてのより広範な解説を作成する予定です。また、この特定のケースで単なるスプリアスではないと思う理由についてもいくつかの正当化を追加できると思います(たとえば、回帰グラフまたは0次カーネルスムースを介して、もちろん、テストするデータが不足しているため、これまでのところ、それは行くことができます;例えば、サンプルが代表的でない場合、リサンプリングでもこれまでのところ私たちを得るだけです。

私たちは偽のパターンを見る傾向があることに完全に同意します。ここと他の場所の両方で頻繁に指摘する点です。

たとえば、残差プロットまたはQQプロットを見るとき、状況がわかっている(物事があるべきところと仮定が成り立たないところの両方)多くのプロットを生成して、どのくらいのパターンがあるべきかを明確にすることをお勧めします無視されます。

プロットがいかに異常であるかを確認するために、QQプロットが24個の他の(仮定を満たす)プロットの中に配置されている例を次に示します。この種のエクササイズは重要です。なぜなら、ほとんどの単純なノイズである小さな揺れをすべて解釈することによって、だまされないようにするためです。

いくつかのポイントをカバーすることで印象を変えることができる場合、私たちはノイズ以外によって生成された印象に依存しているかもしれないとしばしば指摘します。

[ただし、少数ではなく多くの点から明らかな場合、そこにないことを維持するのは困難です。]

whuberの答えの表示は私の印象を裏付けており、ガウスぼかしプロットは二峰性への同じ傾向を拾っているようです。Y

チェックするデータがこれ以上ない場合は、少なくともインプレッションがリサンプリング(二変量分布をブートストラップし、ほぼ常に存在するかどうかを確認)を生き残る傾向があるかどうか、またはインプレッションが明らかにならない他の操作を確認できます単純なノイズの場合。

1)見かけの双峰性が単なる歪度とノイズ以上のものであるかどうかを確認する方法の1つは、カーネル密度の推定に現れますか?さまざまな変換の下でカーネル密度の推定値をプロットすると、まだ見えますか?ここでは、デフォルトの帯域幅の85%でより対称性の高いものに変換します(比較的小さなモードを特定しようとしているため、デフォルトの帯域幅はそのタスクに最適化されていないため):

ここに画像の説明を入力してください

プロットは、およびです。垂直線は、およびます。二峰性は減少しますが、それでもかなり見えます。元のKDEでは非常に明確であるため、そこにあることを確認しているようです。2番目と3番目のプロットは、変換に対して少なくともある程度堅牢であることを示唆しています。YYlog(Y)6868log(68)

2)これが単なる「ノイズ」以上のものであるかどうかを確認する別の基本的な方法です。

ステップ1:Yでクラスタリングを実行する

ここに画像の説明を入力してください

ステップ2:で2つのグループに分割し、2つのグループを別々にクラスター化し、非常に似ているかどうかを確認します。何も起こっていない場合、2つの半分が同じくらい分割されることは期待されません。X

ここに画像の説明を入力してください

ドットのある点は、前のプロットの「すべて1セット」クラスターとは異なる方法でクラスター化されました。後でさらに行いますが、その位置の近くに水平の「分割」があるかもしれないようです。

回帰図またはNadaraya-Watson推定器(両方とも回帰関数局所推定値)を試します。私もまだ生成していませんが、それらがどのように進むかを見ていきます。おそらく、データがほとんどない最後の部分を除外します。E(Y|x)

3)編集:これは、幅0.1のビン(先ほど提案したように、端を除く)の回帰グラフです。

ここに画像の説明を入力してください

これは、私がプロットについて持っていた元の印象と完全に一致しています。私の推論が正しいことを証明するものではありませんが、私の結論は、regressogramと同じ結果に達しました。

プロットで見たもの、およびその結果の推論が偽りだった場合、おそらくこのようにを識別することに成功すべきではなかったでしょう。E(Y|x)

(次に試すのはNadayara-Watson推定量です。時間がある場合、リサンプリングの下で​​どのようになるかを見るかもしれません。)

4)後で編集:

Nadarya-Watson、ガウスカーネル、帯域幅0.15:

ここに画像の説明を入力してください

繰り返しますが、これは私の印象と驚くほど一致しています。10個のブートストラップリサンプルに基づくNW推定量は次のとおりです。

ここに画像の説明を入力してください

広範なパターンがありますが、いくつかのリサンプルは、データ全体に基づいた説明にはっきりと従っていません。左側のレベルの場合は右側よりも不確実性が高いことがわかります-ノイズのレベル(一部は観測値が少なく、一部は広範囲に広がっている)は、中央よりも左。

私の全体的な印象は、おそらく私が単に自分をだましていないということです。なぜなら、さまざまな側面は​​、単にノイズである場合にそれらを曖昧にする傾向があるさまざまな課題(スムージング、変換、サブグループへの分割、リサンプリング)に適度に立ち上がるからです。一方で、最初の印象とほぼ一致しているが、効果は比較的弱く、左から中央に移動する期待の実際の変化を主張するには多すぎるかもしれないという指摘があります。


1
私は1つの答えに疑問を呈したが、これは私はそれがないものを見つけることですと言っにおける確信しています
RVL

1
反対票を投じようとしましたが、できないと思います。私があなたの答えに本当に反対するからといって、必ずしもそれが議論に貢献しないわけではありません。私はit.pによる個人平均何もないことを確認-票をダウン使用する方法はないよ、とやる
RVL

4
@Russは、下票については心配していません。実際に問題ではありません。それは、私が対処しなければならないことがあることを知らせるという事実以外は、事実です。偽のインターネットポイントを心配するよりも、私たちが反対する理由を(まったくそうする程度に)知ることの方がはるかに重要です。議論する価値のある異議があります。この短い議論でさえ、私は喜んでその10倍の賛成票を払います。理由を言うなら、あなたが同意しないたびに私に投票することをお勧めします。それは何かを学ぶ私のチャンスです。
Glen_b 14

1
@RussLenthでは、下票を再度クリックすることで、下票(または上票)を取り消すことができます。下矢印(または上矢印)の上のホバーテキストで投票がどこにあるかわからない場合は、お知らせします。
アレクシス14

4
+1私は実際にこの分析の多くをしましたが、それらの結果で私の答えを過度に拡張したくありませんでした。あなたはそれを明確で読みやすく、説得力のある形で提示するのに素晴らしい仕事をしました。私が追加したことの1つは、xをyに対して(実際には、滑らかに)回帰することでした(yが「依存」として特徴付けられているにもかかわらず)。yかどうかに関係なく、 1つまたは2つのグループとして扱う必要があります。
whuber

13

わかりました、アレクシスのリードに従ってデータをキャプチャしました。以下は対プロットです。logyxlog(Y)対Xのプロット

そして相関関係:

> cor.test(~ x + y, data = data)

    Pearson's product-moment correlation

data:  x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.33836844 -0.04977867
sample estimates:
       cor 
-0.1983692 

> cor.test(~ x + log(y), data = data)

    Pearson's product-moment correlation

data:  x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.35551268 -0.06920015
sample estimates:
       cor 
-0.2170188 

相関検定は、おそらく負の依存性を示しています。私は二峰性に納得していません(しかし、それが欠けていることにも納得していません)。

[@whuberがを予測しようとしていた点を見落としていたため、以前のバージョンにあった残差プロットを削除しました。]X|Y


2
ちなみに、log(Y)変換を依存関係として取得することは、非線形関係を見つけることと同等であることがわかりました... log(Y)は、私が使ったヒンジ関数よりも残差に対して優れています私の答え...しかし、結論の1つは似ています:と関係は、よりも優れた関数式を持っています。YXY=a+bX
アレクシス14

残差プロット、ありがとう。これはリクエストではありませんが、興味があること、そしておそらくGoFを探索することでより価値があるとわかったのは、この方法ではなく、yの関数としてのxの関係だったことを指摘したいと思います。見ると、Xの残差のプロンプトなど、我々はの非線形再表現を通して何かを学ぶことができるかどうかなど、これまで上がっていないいくつかの追加(多分便利)質問、X(はい、我々はできます)。2集団仮説に関係なく多くのことが言えるか(はい)、私の適合度の堅牢性について(非常に堅牢です)。
whuber

まあ、多分あなたはそのために残差プロットをしたいでしょう。私は他のものに移ります。
rvl 14

5

Russ Lenthは、Y軸が対数である場合、グラフがどのように見えるか疑問に思いました。Alexisはデータをスクレイピングしたため、対数軸を使用して簡単にプロットできます。

ここに画像の説明を入力してください

対数スケールでは、二峰性または傾向のヒントはありません。もちろん、ログスケールが意味をなすかどうかは、データが表す内容の詳細に依存します。同様に、whuberが示唆するように、データが2つの母集団からのサンプリングを表すと考えるのが理にかなっているかどうかは、詳細に依存します。


補遺:以下のコメントに基づいて、修正版を以下に示します。

ここに画像の説明を入力してください


Russ Lenthが彼を投稿してから数分以内にグラフを投稿しました。私は彼を見なかった、または私は私のものを投稿しなかったでしょう。
ハーベイモトルスキー14

推定では(直線的)回帰結果はlog()でより強いことがわかります。Y
アレクシス

9
このグラフィックは、視覚化の選択が不適切な場合の効果の興味深い例を示しています。アスペクト比を縮小し、y軸を必要な限り2倍に延長することにより、ソフトウェアは垂直散乱の視覚的印象を自動的に抑制し、視聴者が何も見えないようにすること。このため、優れた探索は、グラフィカルな表現によって導かれますが、(a)データの動作を抑制するのではなく、明らかにする適切な視覚化方法を使用し、(b)追加の分析でサポートする必要があります(@Glen_bの投稿など) 。
whuber

質問のYの範囲では、Y軸の値の範囲を合理的にするために、対数ベース2がより簡単な選択になります。また、手元のデータに適合しないナイス値1および1,000の上限範囲を防止します。
アンディW 14

1

まあ、あなたは正しい、関係は弱いが、ゼロではない。ポジティブだと思います。ただし、単純な線形回帰(OLS回帰)を実行して調べてください。そこで、関係が何であるかを示すxxxの勾配が得られます。そして、はい、あなたは結果を偏らせるかもしれない外れ値を持っています。それに対処できます。クックの距離を使用するか、レバレッジプロットを作成して、関係に対する外れ値の影響を推定できます。

がんばろう


DGPが非線形ではなく、実際の外れ値だと思う理由は何ですか?
abaumann

まあ、それもそうだろうと思う。しかし、それはわかりにくいです、点はとても散らばっています。
HelgiGuðmundsson14年

OLSで直線性を仮定する理由 ノンパラメトリック回帰FTW!:)
アレクシス14

1
@Alexisは、線形性などの仮定を、ドメイン理論またはモデル検査によって正当化する必要があることを強調する点で正しいです。ただし、このような値が発生した理由を慎重に考慮せずに異常値完全に削除することは、統計分析では非常に一般的なエラーだと思います。
アバウマン14

はい。外れ値は、間違った値などの正当な理由がないと削除できません。ただし、変換は値の分布をより適切に調整し、外れ値を減らすのに役立ちます。はい、私は同意します。正当な理由なく外れ値を削除することは非常に一般的だと思います。
HelgiGuðmundsson14年

1

X / Yデータポイントの方向とそれらの分散を確認することで、質問に対する直感を既に提供しました。要するにあなたは正しい。

正式な用語では、方向は相関記号と呼ばれ、分散は分散と呼ばれます。これらの2つのリンクは、2つの変数間の線形関係を解釈する方法に関する詳細情報を提供します。


0

これは家事です。したがって、あなたの質問への答えは簡単です。X上でYの線形回帰を実行すると、次のような結果が得られます。

    Coefficient Standard Er t Stat
C   53.14404163 6.522516463 8.147781908
X   -44.8798926 16.80565866 -2.670522684

したがって、t変数は99%の信頼度でX変数に対して有意です。したがって、変数が何らかの関係を持っていると宣言できます。

線形ですか?変数X2 =(X-mean(X))^ 2を追加し、再度回帰します。

    Coefficient Stand Err   t Stat
C   53.46173893 6.58938281  8.11331508
X   -43.9503443 17.01532569 -2.582985779
X2  -44.601130  114.1461801 -0.390736951

Xの係数はまだ重要ですが、X2は重要ではありません。X2は非線形性を表します。したがって、関係は線形に見えると宣言します。

上記は宿題用でした。

実生活では、物事はより複雑です。これが学生のクラスに関するデータであったと想像してください。Y-ポンドでのベンチプレス、X-ベンチプレスの前に息を止める時間(分)。学生の性別をお願いします。面白くするために、別の変数Zを追加してみましょう。すべてのY <60に対してZ = 1(女の子)、Y> = 60のときにZ = 0(男の子)としましょう。3つの変数で回帰を実行します。

    Coefficient Stand Error t Stat
C   92.93031357 3.877092841 23.969071
X   -6.55246715 8.977138488 -0.72990599
X2  -43.6291362 59.06955097 -0.738606194
Z   -63.3231270 2.960160265 -21.39179009

何が起こった?!XとYの「関係」はなくなりました!ああ、交絡変数、性別のために関係は偽物だったようです。

物語の教訓は何ですか?「関係」を「説明」するため、またはそもそもそれを確立するために、データが何であるかを知る必要があります。この場合、学生の身体活動に関するデータが伝えられた瞬間、すぐに彼らの性別を尋ね、性別変数を取得せずにデータを分析することさえしません。

一方、散布図を「説明」するように求められた場合は、何でもできます。相関関係、線形近似など。自宅での仕事では、上記の最初の2つのステップで十分です。Xの係数(関係)、次にX ^ 2(線形性)を見てください。X変数の平均値を小さくする(平均値を引く)ことを確認してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.