タグ付けされた質問 「categorical-encoding」

カテゴリ変数を数値変数のセットとして表す。カテゴリーデータを処理するために、多くのタイプの分析に必要です。一般的な例は、ダミーコーディング、効果コーディング、ヘルマートコーディング、ユーザー定義のコントラストなどを介した回帰/ ANOVAでのカテゴリカル予測子の使用です。

3
バイナリデータのインジケーター変数:{-1,1}対{0,1}
実験/ランダム化比較試験のコンテキストで、2値の処理割り当てインジケーターを使用した処理と共変量の相互作用に興味があります。TTT 特定の方法/ソースに応じて、治療された被験者と治療されていない被験者について、それぞれT={1,0}T={1,0}T=\{1,0\}とT = \ {1、-1 \}の両方を確認しT={1,−1}T={1,−1}T=\{1, -1\}ました。 {1,0}{1,0}\{1,0\}または\ {1、-1 \}を使用するときの経験則はあります{1,−1}{1,−1}\{1, -1\}か? 解釈はどのように異なりますか?

3
ロジスティック回帰(SPSS)で非バイナリのカテゴリ変数を処理する方法
多くの独立変数を使用してバイナリロジスティック回帰を実行する必要があります。それらのほとんどはバイナリですが、一部のカテゴリ変数には3つ以上のレベルがあります。 そのような変数に対処する最良の方法は何ですか? たとえば、可能な値が3つある変数の場合、2つのダミー変数を作成する必要があるとします。次に、段階的な回帰手順では、両方のダミー変数を同時にテストするか、別々にテストする方が良いですか? SPSSを使用しますが、よく覚えていないので、SPSSはこの状況にどのように対処しますか? さらに、順序カテゴリカル変数の場合、順序スケールを再作成するダミー変数を使用するのは良いことですか?(例えば、プット4状態順序変数のための3つのダミー変数を用いた0-0-0レベルに対して、レベルについて2、レベルについて3及びレベルについて4、代わりに、、および4つのレベルのために)。1111-0-02221-1-03331-1-14440-0-01-0-00-1-00-0-1


4
Pythonを使用して列にカテゴリカルデータがあるかどうかを統計的に証明する方法
すべてのカテゴリー変数を見つける必要があるpythonのデータフレームがあります。int型もカテゴリ型になる可能性があるため、列の型のチェックは常に機能するとは限りません。 したがって、列がカテゴリカルであるかどうかを識別するための正しい仮説検定方法を見つけるのに助けを求めます。 私はカイ二乗検定の下で試しましたが、これで十分かどうかはわかりません import numpy as np data = np.random.randint(0,5,100) import scipy.stats as ss ss.chisquare(data) お知らせ下さい。

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


4
n-1変数を使用してダミー変数を実装する方法は?
4つのレベルを持つ変数がある場合、理論的には3つのダミー変数を使用する必要があります。実際には、これは実際にどのように実行されますか?0-3を使用しますか、1-3を使用し、4を空白のままにしますか?助言がありますか? 注:Rで作業します。 更新:ADに対応する1〜4を使用する1つの列を使用するとどうなりますか?それはうまくいくか、問題を引き起こしますか?

1
コントラストのダミーコーディング:0、1対1、-1
二分変数の2つの異なるコントラストの違いを理解するために、あなたの助けを求めています。 このページ:http : //www.psychstat.missouristate.edu/multibook/mlt08.htm「Dichotomous Predictor Variables」の下で、二分予測子をコーディングする方法は2つあります。コントラスト0,1またはコントラスト1、-1を使用します。 。私はここで区別をある程度理解しています(0、1はダミーコーディングで、1、-1は1つのグループに追加され、他のグループから減算されます)。しかし、回帰で使用するものを理解していません。 たとえば、性別(m / f)とアスリート(y / n)の2つの二項予測因子がある場合、両方でコントラスト0、1、または両方で1、-1を使用できます。2つの異なるコントラストを使用する場合、主効果または相互作用効果の解釈はどうなりますか?セルのサイズが異なるかどうかに依存しますか?

2
なぜ治療コーディングはランダムな傾きと切片の間の相関をもたらすのですか?
実験的処理変数に2つのレベル(条件)がある被験者内および項目内の要因計画を考えます。をm1最大モデルとm2非ランダム相関モデルにします。 m1: y ~ condition + (condition|subject) + (condition|item) m2: y ~ condition + (1|subject) + (0 + condition|subject) + (1|item) + (0 + condition|item) Dale Barr はこの状況について次のように述べています。 編集(2018年4月20日):Jake Westfallが指摘したように、次のステートメントはこの Webサイトの図1および2に示されているデータセットのみを参照しているようです。ただし、基調講演は変わりません。 偏差コーディング表現(条件:-0.5 vs. 0.5)m2では、被験者のランダムな切片が被験者のランダムな傾きと無相関である分布が可能です。最大モデルのみm1が、2つが相関している分布を許可します。 治療コーディング表現(条件:0対1)では、被験者のランダム切片が被験者のランダムな傾きと無相関であるこれらの分布は、無作為相関モデルを使用してフィッティングできません。治療コード表現における勾配と切片。 なぜ治療コーディングは 常に ランダムな傾きと切片の間に相関関係が生じますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.