ピアソンがパラメトリックでスピアマンがノンパラメトリックである理由


19

どうやらピアソンの相関係数はパラメトリックであり、スピアマンのローはノンパラメトリックです。

これを理解するのに苦労しています。私が理解しているように、ピアソンはr x y = c o v X Y として計算されます と我々は彼らのランクですべての値を代入以外スピアマンは、同じ方法で計算されます。

rバツy=covバツYσバツσy

ウィキペディアによると

パラメトリックモデルとノンパラメトリックモデルの違いは、前者には固定数のパラメーターがあり、後者にはトレーニングデータの量に応じてパラメーターの数が増えることです。

しかし、サンプル自体以外のパラメーターは表示されません。いくつかの発言パラメトリック検定は、正規分布を仮定し、するために行くことを言うピアソンは、通常の分散データを前提としないことが、私はピアソンはそれを必要とする理由を見ることができません。

だから私の質問は、統計の文脈でパラメトリックとノンパラメトリックが何を意味するのですか?そして、ピアソンとスピアマンはどうやってそこに収まるのでしょうか?


6
それは良い質問であり、そこには非常に多くの誤報があります。たとえば、パラメトリックテストの方程式と正規分布の仮定は、多くの教科書作家、コース教師、およびインターネットポスターが、混乱している他の人からコピーするだけで、残念ながら頻繁に混乱を招きます。
ニックコックス

5
おそらく、質問の最も単純な正の解決策はこれです。はい、スピアマンの相関は関係の強さを定量化するために推定されるパラメータであり、ピアソンに似ています(ルートでは、あなたが指摘するのと同じ考えです)。いえ、いいえ、スピアマンの相関は分布の特徴を示すパラメーターではありませんが、ピアソンの相関は二変量正規分布のパラメーターです(相関を行う際に行っていることの歴史的だが現在では軽視されている解釈)。「パラメータ」という言葉には複数の意味があることを理解すれば、それはすばらしい区別です。
ニックコックス

@NickCox、答えとしてそれを投稿してみませんか。
リチャードハーディ

5
分布の正規性についてのポイントは、相関を伴う有意性検定を実行する場合にのみ噛みつきます。相関関係を説明的な手段としてのみ使用する場合、非正規性は相関関係の使用に対する障壁になる必要はありません。相関関係は、2つのバイナリ変数が異なる限り、少しでも役立ちます。あなたはまだなど、など、外れ値の影響に注意する必要がある
ニック・コックス

1
まだはっきりと言われていないように見えるので、統計は「パラメトリック」ではないことを強調したいと思います。それは、数字はおいしいと言っているようなものです。形容詞は名詞には適用されません。統計モデルは、パラメトリック(Wikipediaの引用で示されているように)であり、それに基づいたテストと手順でもあります。スピアマンとピアソンの統計は、パラメトリック設定とノンパラメトリック設定の両方で使用できます。詳細については、stats.stackexchange.com / questions / 67204をご覧ください。モデルをパラメトリックにするのは、その状態空間です。
whuber

回答:


17

問題は、最近では「ノンパラメトリック」には2つの異なる意味があることです。ウィキペディアの定義は、スプラインや局所回帰などのノンパラメトリック曲線フィッティングのようなものに適用されます。もう1つの意味はより古く、「配布なし」の線に沿っています。つまり、想定されるデータの配布に関係なく適用できる手法です。後者は、スピアマンのローに適用されるものです。ランク変換により、元の分布が何であっても同じ結果が得られることが示唆されるためです。


2
ノンパラメトリックには2つの意味がありますが、ウィキペディアのコメントは実際に両方に適用されます。ノンパラメトリック回帰では、関係が有限パラメトリックでないことを指します。物事の「分布のない」側では、有限パラメトリックではない分布モデルを指します。
Glen_b-モニカを

1
うーん、ウィキペディアからの引用は私ではありません。他の誰かが追加しました。
香港大井

2
メイン編集-私はそれが1つの詳細が間違っていて、特に有用なものは何も追加しないと信じています-low = repユーザーによって作成され、1人によって拒否されましたが、第三者がそれを改善するために編集しようとしました(これは結果であることに気付いていなかったかもしれません)。その編集を元に戻します。気に入らない編集があるときはいつでもできます。
Glen_b-モニカを復活させる

元の投稿にロールバックしました。同意を求めずに投稿を大幅に変更し、同意するようには聞こえないからです。あなたはそれについて言って何もしていた場合、私の名前の上に「編集した...前」リンクをクリックして、コピー何が前に、その後、編集し、それを貼り付けたものと同様の部品あなたに。
Glen_b -Reinstateモニカ

スピアマンを使用する正当な理由はいつですか?スピアマンを使用する際、ピアソンはどのように役立ちますか?
レオレオポルドヘルツ

3

ピアソンの相関係数がパラメトリックと呼ばれる唯一の理由は、それを使用して多変量正規分布のパラメーターを推定できるからだと思います。たとえば、2変量正規分布には、2つの平均、2つの分散、相関係数の5つのパラメーターがあります。後者は、ピアソン相関係数で推定できます。

ρ


ピアソンの相関係数パラメーターは、その有意性をテストするために正規性を仮定する必要があるという意味ではありませんか?つまり、統計として正規性を想定していませんが、サンプル相関係数の分布を計算してテストするときにデータが正常であると想定していますか?これは正直な質問です。100%間違っている可能性があります。
ムゲン

spermanとkendallで配布の仮定を行う場合、説明してください。
レオレオポルドヘルツ

@mugenピアソン相関の有意性をテストするために正規性を仮定する必要はありません。ピアソン相関の一般的なテストはそうします。別のパラメトリックな仮定を立てて、別のテストを考え出すことができます...または、実際、母集団のピアソン相関がゼロであるというヌルの順列テストを実行して、ノンパラメトリックテストを行うことができます。
Glen_b-モニカを

0

最も簡単な答えは、スピアメンのローテストでは序数データを使用していることです(ランク付けすることはできますが、番号の間隔については何も伝えません。たとえば、アイスクリームの3つのフレーバーは1、2、3とランク付けされていますフレーバーはどれだけではなく好まれました)。順序データは、パラメトリックテストでは使用できません。

ピアソンのr検定では、間隔または比率のデータ(秒、kg、mmなどの固定間隔を持つ数値)を使用します。1mmは5mmよりも小さいだけでなく、正確にどれだけの距離があるかを知っています。このタイプのデータは、パラメトリックテストで使用できます。


1
確かに、序数データでパラメトリックモデル(したがって、パラメトリックテスト)を使用することは可能です。パラメーターの有限数と固定数を使用してこの変数の分布を単純に提案する必要があり、これらのパラメーターと出来上がりに関して適切な仮説があり、パラメトリック検定が存在します。1つまたは両方の変数に2つのカテゴリ(2つの異なる数値、通常は0/1でラベル付け)がある状況で計算されたピアソン相関は、これらの状況で一般的に使用される関連性の尺度になります。
Glen_b-モニカを
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.