回帰モデルを作成するには、カテゴリー変数をダミー変数に変換して処理する必要があることを学びました。例として、データセットに場所のような変数がある場合:
Location
----------
Californian
NY
Florida
次のように変換する必要があります。
1 0 0
0 1 0
0 0 1
ただし、ダミー変数がいくつあっても、1つのダミー変数を破棄する必要があることが示唆されました。
なぜ1つのダミー変数を破棄する必要があるのですか?
回帰モデルを作成するには、カテゴリー変数をダミー変数に変換して処理する必要があることを学びました。例として、データセットに場所のような変数がある場合:
Location
----------
Californian
NY
Florida
次のように変換する必要があります。
1 0 0
0 1 0
0 0 1
ただし、ダミー変数がいくつあっても、1つのダミー変数を破棄する必要があることが示唆されました。
なぜ1つのダミー変数を破棄する必要があるのですか?
回答:
簡単に言えば、カテゴリカル機能の1つのレベル(ここでは場所)は、回帰のダミーエンコーディング中に参照グループになり、冗長であるためです。私はここでフォームを引用しています。「Kカテゴリまたはレベルのカテゴリ変数は、通常、K-1ダミー変数のシーケンスとして回帰を入力します。これは、レベル平均の線形仮説に相当します。」
これは、この非常に素晴らしいstats.stackexchange回答ですでに説明されています。
YandexによるCourseraの上級コースがあると言われましたが、それでも疑問がある場合は、このトピックについて詳しく説明します。こちらを参照してください。いつでも無料でコースの内容を監査できます。;-)
ダミーのコーディングだけに限定されず、統計的な観点から多くの例を使って詳細な説明が必要な場合は、UCLAからこれを参照してください(R)。
を使用する場合pandas.get_dummies
、パラメーターがあることに注意してください。つまりdrop_first
、最初のレベルを削除して、kのカテゴリーレベルからk-1ダミーを取得するかどうかを指定します。注意してください。default = False
つまり、参照は削除されず、k個のカテゴリレベルからk個のダミーが作成されます。
ユースケースによっては、レベルを下げる必要はありません。
最初のレベルのカテゴリ変数を削除してはいけないのはどの場合ですか?を参照してください。
そして、はるかに一般的な質問
教師あり学習において、相関する特徴を持つことがなぜ悪いのですか?