非二項名目変数と順序変数または数値変数の相関係数


12

私は問題の答えを見つけるためにこのサイトのすべてのページをすでに読んでいますが、誰も私から正しいものではないようです...

まず、私が扱っているデータの種類について説明します...

300人のユーザーごとに1つずつ、複数の都市名を持つ配列ベクトルがあるとします。また、別の配列ベクトルを使用して、各ユーザーの調査に対するスコアの応答または各ユーザーの継続的な値を取得しています。

これらの2つの変数の相関関係を計算する相関係数が存在するかどうかを知りたいので、名義変数と数値変数

私はインターネットで検索しましたが、いくつかのページでは、偶発係数またはCramerのVまたはLambda係数またはEtaを使用するように提案されています。この測定値のそれぞれについて、名目変数と区間変数または数値変数があるようなデータに適用できると言ってください。問題は、検索して検索し、それらのすべてを理解しようとすることですが、Cramer's Vを除いて、二項公称変数がある場合にそれらを使用するのが合理的である例が書かれている、または見られていることもあります。データのタイプ。他の多くのページでは、代わりに回帰を適用するのが正しいと言っていますが、そうですが、この種類のデータにピアソン/スピアマンのような係数があるかどうかを知りたいだけです。

また、都市はソートできないため、Spearman Correlation coeffを使用するのはそれほど適切ではないと思います。

私はCramer'sVとEtaの関数も自分で作成しました(私はMatlabを使用しています)が、Etaについては係数が統計的に有意であるかどうかを確認するためにp値について話しません...

matlabWorksサイトには、eta ^ 2を計算するように指示する素晴らしいツールボックスもありますが、必要な入力の種類は理解できません。

ここに私のようなテストをした人はいますか?私が使用しているデータの種類を理解するためにさらに詳細が必要な場合は、私に尋ねてください。私はあなたをよりよく説明しようとします。


1
R2

回帰に問題はありませんが、すでにその測定値があるので、相関係数を使用してダブルチェックと同じように別の方法でそれをチェックしたいと思います...回答に感謝
cristis

「数値/序数」変数について具体的なことは何も言っていません。何のためにそれを通常のポーズにするのですか?数値?
ttnphns 2013年

序数の理由私は調査テストからの変数を持っているので、その範囲は-4,4です。間隔としても考えられますが、この種の調査変数はほとんど序数と見なされ、その他は数値であり、具体的には連続です。抽出された特徴。
cristis 2013年

回答:


17

公称vs間隔

名目変数と間隔(「数値」)変数の間の最も古典的な「相関」測定値はEtaで、相関比とも呼ばれ、一元配置分散分析のルートR二乗に等しくなります(p値= ANOVA)。ANOVAのEta(名義が独立、数値が依存)が多変量回帰のピレイのトレース(数値が独立、に対応するダミー変数のセット)に等しいため、Etaは相関のような対称的な関連度として見ることができます。従属として名目)。

より微妙な尺度は、クラス内相関係数(ICC)です。Etaは数値変数に関して(名義変数で定義された)グループ間の違いのみを把握するのに対し、ICCは同時にグループ内の数値間の調整または同意を測定します。つまり、Etaが統計レベル(グループ平均vsグループ分散)で動作している間、ICC(特に元の不偏 "ペアリング" ICCバージョン)は値のレベルのままです。

名義対序数

名義変数と順序変数の間の「相関」測度についての質問はあまり明白ではありません。難易度の理由は、序数スケールがその性質上、間隔スケールまたは名目スケールよりも「神秘的」または「ねじれた」ことです。特に序数データ専用の統計分析がこれまでのところ比較的不十分に定式化されているのも不思議ではありません。

1つの方法は、順序データをランクに変換し、ランクが間隔データであるかのようにEtaを計算することです。このようなEtaのp値=クラスカル・ウォリス分析のp値。このアプローチは、Spearman rhoを使用して2つの序数変数を相関させるのと同じ理由で正当化されているようです。そのロジックは、「スケールの間隔の幅がわからない場合は、可能な単調性を線形化することでゴーディアンノットをカットする:データをランク付けする」です。

別のアプローチ(おそらくより厳密で柔軟)は、序数変数をDVとして、名目変数をIVとして、序数ロジスティック回帰を使用することです。平方根Nagelkerkeさん(回帰のp値)擬似R-正方形はあなたのための別の相関尺度です。順序回帰でさまざまなリンク関数を試すことができることに注意してください。ただし、この関連付けは対称的ではありません。名義は独立していると見なされます。

さらに別のアプローチは、序数データの間隔へのそのような単調な変換を見つけることであるかもしれません-最後から2番目の段落のランク付けの代わりに- あなたのために R(すなわちEta)を最大化します。これはカテゴリー回帰(=最適なスケーリングを伴う線形回帰)です。

さらに別のアプローチは、序数変数を予測子として使用して、CHAIDなどの分類木を実行することです。この手順は、名義予測のカテゴリを区別しない隣接する順序付けされたカテゴリをまとめます(つまり、前の手順とは逆のアプローチです)。その後、あたかも名目変数と名目変数を相関させるかのように、カイ二乗ベースの相関測定(クラマーのVなど)に依存できます。

そして、彼のコメントの@Michaelは、もう1つの方法を提案しています-Freemanのシータと呼ばれる特別な係数。

これで、これらの機会に到達しました。(1)ランク付けしてから、Etaを計算します。(2)順序回帰を使用します。(3)カテゴリー回帰を使用する(順序変数を区間に「最適に」変換する); (4)分類ツリーを使用します(順序付けされたカテゴリの数を「最適に」削減)。(5)Freemanのシータを使用します。


3
PS Jeromy Anglimのブログjeromyanglim.blogspot.ru/2009/10/…に
ttnphns

2
θ

2
@マイケルのおかげで、ここで私は「フリーマンの関連性の測定に関する追加のメモ」という論文を見つけました moreno.ss.uci.edu/22.pdf
ttnphns

1
Freemanのthetaおよび統計を含むRパッケージの詳細については、この相互検証された質問を参照してください。
Sal Mangiafico

@ttnphns申し訳ありませんが、この質問に答えてください。stats.stackexchange.com/ questions / 363543 / …どうもありがとうございました。
ebrahimi

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.