ダミー変数のセンタリングとスケーリング


13

カテゴリ変数と連続変数の両方を含むデータセットがあります。カテゴリ変数を各レベルのバイナリ変数(A_level1:{0,1}、A_level2:{0,1}など)に変換することをお勧めしました-一部の人はこれを「ダミー変数」と呼んでいると思います。

そうは言っても、新しい変数を使用してデータセット全体を中央に配置してスケーリングするのは誤解を招くでしょうか?変数の「オン/オフ」の意味を失うかのようです。

誤解を招く場合、それは連続変数を個別に中央揃えおよびスケーリングし、それをデータセットに再度追加する必要があることを意味しますか?

TIA。


1
ダミー変数のセンタリングおよび/またはスケーリングが許容可能か合理的かは、アプリケーション、計画している分析、およびタスク固有の考慮事項によって異なります。そのため、単一の正しい答えはありません。最も一般的な大まかな定式化では、多くの場合、予測子ダミー変数を使用して大丈夫です。応答ダミー変数を使用したり、クラスタリングや因子分析などの多変量法を使用したりすることは、よくない考えです。
ttnphns

回答:


13

回帰分析で使用するダミー変数を作成する場合、1つを除くカテゴリ変数の各カテゴリはバイナリ変数を取得する必要があります。したがって、たとえばA_level2、A_level3などが必要です。カテゴリの1つにバイナリ変数を含めることはできません。このカテゴリは参照カテゴリとして機能します。カテゴリの1つを省略しないと、回帰分析が正しく実行されません。

SPSSまたはRを使用する場合、これらのソフトウェアパッケージはしばしば2つのレベルのみの変数を因子として解釈するため、データセット全体のスケーリングとセンタリングは一般に問題になるとは思わないが、使用される特定の統計的方法に依存する可能性がある。いずれの場合でも、バイナリ(またはカテゴリ)変数をスケーリングおよびセンタリングすることは意味がないため、これを行う必要がある場合にのみ連続変数をセンタリングおよびスケーリングする必要があります。


2
私の強い気持ちは、OPの質問に本当に答えている答えの唯一の部分はその最後の文であるということです-その部分は説明されていません。あなたはそれらを拡大縮小しないで、その理由を説明しないと言います。一方、トピックは非常に簡単ではありません。
ttnphns

これは、カテゴリー変数をコーディングする1つの方法にすぎません。完全な回答を書く時間はありませんが、「対照」を検索すると役立つ場合があります。関連答えはstats.stackexchange.com/questions/60817/...
user20637

3

Rを使用して、ダミー変数または0または1の変数を0から1の間のスケールのみにスケーリングする場合、これらの変数の値に変更はありません。残りの列はスケーリングされます。

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))

興味深いヒント。共有していただきありがとうございます。私が尋ねてからしばらく経ちましたが、これらの古い投稿から学ぶことができるのは嬉しいです。
user2300643

2

回帰における平均中心化のポイントは、切片をより解釈可能にすることです。つまり、idが回帰モデルのすべての変数の中心を意味する場合、インターセプト(SPSS出力では定数と呼ばれる)は結果変数の全体の平均に等しくなります。最終モデルを解釈するときに便利な場合があります。

ダミー変数のセンタリングを意味するように、回帰モデル(私の場合は3レベルのランダム化ブロック設計マルチレベルモデル)のダミー変数のセンタリングについて私の教授と会話しました。ダミー変数は、実際には回帰係数の解釈を変更しません(ただし、解は完全に標準化されています)。通常、回帰では、実際のユニットレベルの平均中心値-係数のみを解釈する必要はありません。そして、これは本質的には変わりません-ほとんどの場合。彼女は、ダミーのために理解するのが直感的ではない標準化されているため、わずかに変化すると言いました。

警告:教授のオフィスを離れたとき、それは私の理解でした。もちろん、間違っているかもしれません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.