タグ付けされた質問 「categorical-encoding」

カテゴリ変数を数値変数のセットとして表す。カテゴリーデータを処理するために、多くのタイプの分析に必要です。一般的な例は、ダミーコーディング、効果コーディング、ヘルマートコーディング、ユーザー定義のコントラストなどを介した回帰/ ANOVAでのカテゴリカル予測子の使用です。

4
コントラストマトリックスとは
どのような正確に対比行列は(用語、カテゴリ予測と分析に関係する)で、どのように正確にコントラスト行列が指定されていますか?すなわち、列jとiは何ですか、行とは何ですか、そのマトリックスの制約は何ですか?列と行の数は何を意味しますか?私はドキュメントとウェブを調べようとしましたが、誰もがそれを使用しているようですが、どこにも定義はありません。利用可能な定義済みのコントラストをバックワードエンジニアリングできますが、定義はそれなしでも利用できるはずです。 > contr.treatment(4) 2 3 4 1 0 0 0 2 1 0 0 3 0 1 0 4 0 0 1 > contr.sum(4) [,1] [,2] [,3] 1 1 0 0 2 0 1 0 3 0 0 1 4 -1 -1 -1 > contr.helmert(4) [,1] [,2] [,3] 1 -1 …

7
たとえば、性別が通常、1/2ではなく0/1にコーディングされるのはなぜですか?
データ分析のためのコーディングのロジックを理解しています。以下の私の質問は、特定のコードの使用に関するものです。 性別が女性の場合は0、男性の場合は1としてしばしばコード化される理由はありますか? このコーディングが「標準」と見なされるのはなぜですか? これを女性= 1および男性= 2と比較してください。このコーディングに問題はありますか?

3
カテゴリ変数をダミーコードする必要があるのはなぜですか
カテゴリ変数をダミーコードする必要がある理由がわかりません。たとえば、4つの可能な値0,1,2,3を持つカテゴリ変数がある場合、2つの次元で置き換えることができます。変数の値が0の場合、2次元に0,0があり、3の場合、2次元に1,1などがあります。 なぜこれを行う必要があるのか​​分かりませんか?

1
ワンホットエンコーディングを使用するときに列の1つを削除する
私の理解では、機械学習では、データセットに高度に相関する特徴がある場合、同じ情報を効果的にエンコードするため、問題になる可能性があります。 最近、誰かが、カテゴリー変数でワンホットエンコーディングを行うと、相関する機能になるため、そのうちの1つを「参照」として削除する必要があると指摘しました。 たとえば、性別を2つの変数としてエンコードするis_maleとis_female、は完全に負の相関関係にある2つの特徴を生成するため、そのうちの1つを使用し、効果的にベースラインを男性に設定してから、予測アルゴリズムでis_female列が重要かどうかを確認することを提案しました。 それは理にかなっていますが、これが事実である可能性を示唆するオンラインは見つかりませんでしたので、これは間違っているのですか、何か不足していますか? 可能性のある(未回答の)重複:ワンホットエンコードフィーチャの共線性はSVMとLogRegにとって重要ですか?

3
ダミーコーディングとANCOVAで重回帰を使用する場合
私は最近、ANCOVAを使用して2つのカテゴリ変数と1つの連続変数を操作する実験を分析しました。しかし、レビューアーは、ダミー変数としてコード化されたカテゴリー変数を使用した重回帰が、カテゴリー変数と連続変数の両方を使用した実験により適したテストであることを示唆しました。 ANCOVAとダミー変数を使用した重回帰を使用するのが適切な場合と、2つのテストから選択する際に考慮すべき要因は何ですか? ありがとうございました。

2
ロジスティック回帰におけるカテゴリカル予測子の重要性
ロジスティック回帰のカテゴリ変数のz値の解釈に問題があります。以下の例では、3つのクラスを持つカテゴリ変数があり、z値に応じて、CLASS2が関連する場合とそうでない場合があります。 しかし、これはどういう意味ですか? 他のクラスを1つにマージできますか? 変数全体が良い予測子ではないかもしれないということですか? これは単なる例であり、ここでの実際のz値は実際の問題からのものではなく、それらの解釈に問題があるだけです。 Estimate Std. Error z value Pr(>|z|) CLASS0 6.069e-02 1.564e-01 0.388 0.6979 CLASS1 1.734e-01 2.630e-01 0.659 0.5098 CLASS2 1.597e+00 6.354e-01 2.514 0.0119 *

5
SVMまたはニューラルネットワークを使用しているときにカテゴリ変数を数値変数に再コーディングする方法
SVMまたはニューラルネットワークを使用するには、カテゴリ変数を数値変数に変換(エンコード)する必要があります。この場合の通常の方法は、0-1番目のバイナリ値を使用し、k番目のカテゴリ値を(0,0、.. 。、1,0、... 0)(1はk番目の位置にあります)。これを行う他の方法はありますか?特に、0-1表現がニューラルネットワークに多数の追加の次元(入力単位)を導入するようなカテゴリ値(eg10000など)が多数ある場合、これはまったく望ましくない、または予期されないようです? 私は一般的な戦略について尋ねています。

1
LASSOでカテゴリカル予測子を処理する方法
いくつかのカテゴリ変数予測子といくつかの連続予測子を持つLASSOを実行しています。カテゴリ変数について質問があります。私が理解する最初のステップは、それぞれをダミーに分割し、公正な罰則のために標準化してから退行することです。ダミー変数の処理には、いくつかのオプションがあります。 各要因のダミーのうち1つを除くすべてを含め、その1つを参照レベルとして残します。ダミー係数の解釈は、除外された「参照」カテゴリに関連しています。インターセプトは、参照カテゴリの平均応答です。 各要因の変数をグループ化して、それらがすべて除外されるか、すべてが1つだけ含まれるようにします。私はそれが@Glen_bがここで提案していることだと信じています: 通常、はい、あなたはあなたの要因をすべて一緒に保ちます。glmnetなど、これを行うことができるいくつかのRパッケージがあります。 ここで @Andrew Mが示唆するように、すべてのレベルを含めます。 デフォルトのコントラスト関数を変更することもできます。デフォルトでは、各因子の1レベルが除外されます(治療のコーディング)。しかし、投げ縄のペナルティのため、これは識別可能性のためにもはや必要ではなく、実際、選択された変数の解釈をより複雑にします。これを行うには、設定します contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy')) 現在、因子のどのレベルが選択されている場合でも、これらの特定のレベルが重要であり、省略されたすべてのレベルではないことを示唆していると考えることができます。機械学習では、ワンコーディングと呼ばれるこのコーディングを見てきました。 質問: これらの各アプローチでの切片と係数の解釈は何ですか? それらの1つを選択する際の考慮事項は何ですか? ダミー係数のスケールを解除してから、オフからオンへの変化として解釈しますか?

2
回帰における定性的変数コーディングは「特異点」につながります
「品質」という独立変数があります。この変数には、応答の3つのモダリティ(低品質、中品質、高品質)があります。この独立変数を多重線形回帰に導入したいと思います。バイナリ独立変数(ダミー変数、0/ をコーディングできます1)がある場合、それを多重線形回帰モデルに導入するのは簡単です。 しかし、応答の3つのモダリティを使用して、この変数を次のようにコーディングしようとしました。 Bad quality Medium quality High quality 0 1 0 1 0 0 0 0 1 0 1 0 しかし、多重線形回帰を行おうとすると問題がありMedium qualityますNA:モダリティは私に与えます: Coefficients: (1 not defined because of singularities) この変数「品質」を3つのモダリティでどのようにコーディングできますか?因子(factorin R)として変数を作成する必要がありますが、この因子を多重線形回帰に導入できますか?

2
名義/カテゴリデータの「ダミー変数」と「インジケータ変数」
「ダミー変数」と「インジケータ変数」は、0/1コーディングのカテゴリのメンバーシップを記述するために頻繁に使用されるラベルです。通常0:カテゴリーのメンバーではない、1:カテゴリーのメンバー。 2014年11月26日にscholar.google.com(引用符で囲む)をすばやく検索すると、「ダミー変数」が約318,000の記事で使用され、「インジケーター変数」が約112,000の記事で使用されていることがわかります。「ダミー変数」という用語は、インデックス付き記事で「ダミー変数」をより多く使用することに貢献している可能性が高い「バインド変数」の非統計数学でも意味を持ちます。 私のトピックにリンクされた質問: これらの用語は常に(統計内で)同義語ですか? これらの用語のいずれかが、他の形式のカテゴリコーディング(たとえば、エフェクトコーディング、ヘルマートコーディングなど)に容認できる形で適用されていますか? ある用語を他の用語よりも優先する統計的または懲戒的な理由は何ですか?

2
Rでダミーコーディングの代わりにエフェクトコーディングで回帰を行う方法は?
現在、カテゴリ変数/因子変数のみを独立変数として持つ回帰モデルに取り組んでいます。私の従属変数はロジット変換比です。 Rは、「ファクター」タイプであるダミーをコーディングする方法を自動的に認識するため、Rで通常の回帰を実行するだけでかなり簡単です。ただし、このタイプのコーディングでは、各変数の1つのカテゴリがベースラインとして使用されるため、解釈が難しくなります。 私の教授は、代わりにエフェクトコーディング(-1または1)を使用するように言っています。これは、インターセプトに大平均を使用することを意味するためです。 誰もそれを処理する方法を知っていますか? 今まで私は試しました: gm <- mean(tapply(ds$ln.crea, ds$month, mean)) model <- lm(ln.crea ~ month + month*month + year + year*year, data = ds, contrasts = list(gm = contr.sum)) Call: lm(formula = ln.crea ~ month + month * month + year + year * year, data = ds, contrasts = …

1
カテゴリ変数(R内)で使用できるさまざまなタイプのコーディングと、それらをいつ使用しますか?
線形モデルまたは混合モデルを近似する場合、カテゴリーまたはノミナルバリベールを、ダミーコンディング(Rデフォルト)やエフェクトコーディングなど、パラメーターが推定される多くの変数に変換するために使用できるさまざまなタイプのコーディングがあります。 相互作用がある場合、エフェクトコーディング(偏差またはコントラストコーディングと呼ばれることもあります)が好ましいと聞きましたが、可能なコントラストはどのようなもので、どのタイプのコントラストを使用するのですか? コンテキストはを使用したRでの混合モデリングですが、lme4より広範な応答は問題ないと思います。申し訳ありませんが、同様の質問を逃した場合。 編集:2つの有用なリンクがあります:効果コーディングと説明されたダミーコーディング。

2
GLMでのダミー(手動または自動)変数の作成について
因子変数(レベルMとFの性別など)がglm式で使用されている場合、ダミー変数が作成され、関連する係数(たとえば、genderM)とともにglmモデルの要約に表示されます。 この方法で因子を分割するためにRに依存する代わりに、因子が一連の数値0/1変数(たとえば、genderM(1はM、0はF))、genderF(1はF、0はM)そして、これらの変数は、glm式で数値変数として使用されますが、係数の結果は異なりますか? 基本的に問題は次のとおりです。Rは因子変数と数値変数を操作するときに異なる係数計算を使用しますか? フォローアップの質問(上記で回答されている可能性があります):Rにダミー変数を作成させる効率だけでなく、一連の数値0,1変数として係数を再コーディングし、代わりにモデルでそれらを使用することで問題はありますか?

3
ワンホットエンコーディングが必要なアルゴリズムは何ですか?
順序付けされていないカテゴリ変数にワンホットエンコーディングをいつ使用するか、いつ使用しないかはわかりません。アルゴリズムが距離メトリックを使用して類似性を計算するときはいつでもそれを使用します。順序付けされていないカテゴリカル機能をワンホットエンコードする必要があるアルゴリズムのタイプと、そうでないアルゴリズムについて、一般的な経験則を教えてください。

2
曜日などに基づく回帰
正しい方向に進むには少し助けが必要です。統計を調べてから専門用語が変わったようですが、久しぶりです。 次のような自動車関連データのセットがあるとします。 A町からB町までの移動時間 A町からB町までの距離 エンジンの大きさ ドライバーの靴のサイズ 車のメーカーとモデル 曜日 所要時間を予測したい。 時間と距離の間には強い相関関係があり、おそらくエンジンのサイズとは弱い相関関係があると思います(靴のサイズとは相関関係がない)おそらく重回帰分析/分散分析が使用するツールです。しかし、Sunday = 1、Monday = 2などとしてコーディングするだけで非常に間違っていると感じるので、どのように曜日を含めるのですか? たとえば、Excelの回帰ツールを使用した後、結果をどのように解釈しますか?おそらくRが1に近い場合、これは適切です(ただし、データ項目が多い場合は、小さいながらも重要であるかのように見えます)。しかし、一部のソースは、SDのように見えるr-2乗を参照しているため、ゼロに近い値が適切です。また、t Stat、P値、F、および有意Fも表示されます。誰かが良いリファレンスソースを推薦できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.