1つのホットエンコーディングと1つのアウトエンコーディングの違いは何ですか?


13

私はプレゼンテーションを読んでおり、one out out encodingを使用しないことを推奨していますが、1つのhot encodingで大丈夫です。どちらも同じだと思いました。誰もがそれらの違いを説明できますか?


1
(あなたの質問から)脱退が何であるかは明らかではありません。これを編集して、ポインタを与え、2つの理解と、それらが同じであると考える理由を簡単に説明する必要があります。
ショーンオーウェン

回答:


15

彼らはおそらくオーエン・チャンの戦略を参照するために「one one out encoding」を使用しています。

から:https : //www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories

エンコードされた列は、従来のダミー変数ではなく、行自体を除く、このカテゴリレベルのすべての行に対する平均応答です。これにより、直接的な応答リークを回避しながら、カテゴリを1列で表現できるという利点が得られます。

この写真は、アイデアをうまく​​表現しています。 ここに画像の説明を入力してください


あなたの説明は、あなたに感謝wacaxの言及リンクよりも優れている
アラン遺跡

@Dex Groves様、テストのleave_one_outエンコーディングは常に.5ですか?
user7117436

3
こんにちは!写真からわかるように、この特定の例は分類問題に関連しています。誰かが回帰問題内のLOOエンコーディングの経験を持っていますか?主な質問は、ターゲット変数を集約する方法です。私は現在実験を行っており、mean(y)で非常に過剰適合しています。
アレクセイトロフィモフ

1
クラスタリング(監視なし)問題の場合、この種のエンコードを使用できますか?
enneppi

@AlexeyTrofimov-より低い分散で集計を試みます。私は別のビニングを開始したい=>平均(bin_f(Y))(1K、2K、2M、... yの浮動小数点値の小数点以下の場所に丸め大型のy int型の値、またはいくつかのためのような)
モルク
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.