タグ付けされた質問 「categorical-data」

カテゴリー(名義とも呼ばれる)データは、カテゴリーと呼ばれる限られた数の可能な値を取ることができます。カテゴリー値は「ラベル」であり、「測定」ではありません。個別だが順序付けられたデータ型には[ordinal-data]タグを使用してください。

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
ダミー変数トラップの問題
すべての独立変数(約400)がダミー変数である大規模なOLS回帰を実行しています。すべてが含まれている場合、完全な多重共線性(ダミー変数トラップ)があるため、回帰を実行する前に変数の1つを省略する必要があります。 私の最初の質問は、どの変数を省略すべきかということです。少数にしか存在しない変数よりも、多くの観測に存在する変数を省略する方がよいことを読んだことがあります(たとえば、ほとんどすべての観測が「男性」または「女性」で、少数のみが「不明」の場合"、"男性 "または"女性 "のいずれかを省略します)。これは正当化されますか? 変数を省略して回帰を実行した後、すべての独立変数の全体的な平均が0であることを知っているので、省略した変数の係数値を推定できます。この事実を使用して、すべての変数の係数値をシフトします。含まれる変数、および省略された変数の推定値を取得します。次の質問は、省略された変数の係数値の標準誤差を推定するために使用できる同様の手法があるかどうかです。元々省略されていた変数の係数の標準誤差推定値を取得するには、別の変数を省略して(そして最初の回帰で省略した変数を含めて)回帰を再実行する必要があるためです。 最後に、(ゼロ付近に再センタリングした後)取得する係数推定値が、省略されている変数に応じてわずかに異なることに気づきました。理論的には、いくつかの回帰を実行し、それぞれ異なる変数を省略してから、すべての回帰からの係数推定値を平均する方が良いでしょうか?


4
2つの製品を区別する統計テストを開発する
顧客調査からのデータセットがあります。製品1と製品2の間に有意差があるかどうかを確認するために統計テストを展開したいと思います。 これは、顧客のレビューのデータセットです。 料金は非常に悪い、悪い、いい、良い、とても良いからです。 customer product1 product2 1 very good very bad 2 good bad 3 okay bad 4 very good okay 5 bad very good 6 okay good 7 bad okay 8 very good very bad 9 good good 10 good very good 11 okay okay 12 very good good …

1
個人的な問題に関する調査方法
私の統計学者の友人は、デリケートな問題を扱った調査で正直な回答を得るために使用された興味深いテクニックについて私に話しました。私はメソッドの一般的な要点を思い出しましたが、誰かが詳細を知っていて、どこかで参照されているのではないかと思っています。 その話は、フロリダAMAが医師の間の薬物使用を評価したかったということでした。彼らは1つのダイでアンケートを送りました。IIRC、指示は「サイコロを振る。薬物を服用したか6を獲得したことがある場合は6を書き留め、それ以外の場合は何が出てきた場合も書き留める」のようなものでした。誰かが医者の質問票を引いて6を見て、薬物を服用していないと言っても、たまたま6を出してしまったのではないかという考えです。

2
因子と連続共変量の間の相互作用をどのようにプロットしますか?
同じグラフに、連続予測子とカテゴリカルモデレーター間の相互作用をプロットしたいと思います。両方がカテゴリカル(因子相互作用)である場合の方法は知っていますが、一方が連続的​​でもう一方がカテゴリカルである場合の方法はわかりません。

2
カテゴリー名義変数間のカテゴリー間の相関
2つのカテゴリー名義変数(両方とも5つのカテゴリー)を持つデータセットがあります。これらの2つの変数からカテゴリ間の潜在的な相関関係を特定できるかどうか(およびその方法)を知りたいのですが。 言い換えると、たとえば変数1のカテゴリの結果が変数2の特定のカテゴリと強い相関を示すかどうか。5つのカテゴリを持つ2つの変数があるため、すべてのカテゴリの相関分析の合計は25の結果になります。 (少なくともそれが私が望むように/期待するように機能する場合)iiijjj 私は問題を具体的な質問に定式化しようとしました: 質問1:カテゴリ変数を値(カテゴリ)ごとに5つの異なるダミー変数に転送するとします。これと同じ手順を2番目の変数に対しても実行します。次に、ダミーの1.iと2.i(たとえば)の相関関係を調べたいと思います。通常の相関係数手順を使用してこの手順を実行するのは統計的に正しいですか?この手順から得られる相関係数は、2つのダミー変数間の相関関係について適切な洞察を提供しますか? 質問2:質問1で説明されている手順が有効な手順である場合、この分析を2つ(またはそれ以上)のカテゴリ名義変数のすべてのカテゴリに対して一度に実行する方法はありますか? 私が使用しているプログラムはSPSS(20)です。

1
カテゴリカルデータのペナルティ付き方法:因子のレベルを組み合わせる
ペナルティモデルは、パラメーターの数がサンプルサイズ以上のモデルを推定するために使用できます。この状況は、カテゴリデータまたはカウントデータの大きなスパーステーブルの対数線形モデルで発生する可能性があります。これらの設定では、他の因子との相互作用の観点からそれらのレベルが区別できない因子のレベルを組み合わせることにより、テーブルを折りたたむことが望ましいまたは役立つこともよくあります。2つの質問: LASSOやエラスティックネットなどのペナルティモデルを使用して、各要素内のレベルの折りたたみ性をテストする方法はありますか? 最初の質問に対する答えが「はい」の場合、レベルの崩壊とモデル係数の推定が1つのステップで発生するように設定できますか?

1
カテゴリー変数と連続変数の間の相互作用の係数の解釈
連続変数とカテゴリー変数間の相互作用の係数の解釈について質問があります。これが私のモデルです: model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), data=base_708) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 21.4836 2.0698 10.380 < 2e-16 *** lg_hag 8.5691 3.7688 2.274 0.02334 * raceblack -8.4715 1.7482 -4.846 1.61e-06 *** racemexican -3.0483 1.7073 -1.785 0.07469 . racemulti/other -4.6002 2.3098 -1.992 0.04687 * pdg 2.8038 0.4268 6.570 1.10e-10 *** sexfemale 4.5691 1.1203 …

2
混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ
以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコード これが私のRコードです: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 


1
複雑な式なしで、Rにブラッドリー–テリー–ルースモデルを適合させる方法は?
Bradley–Terry–Luce(BTL)モデルは、であると述べていますここで、はオブジェクトが「より良い」と判断される確率です。重い、など、オブジェクトよりも、、および、およびパラメータです。pj i= l o g私トン− 1(δj- δ私)pj私=log私t−1(δj−δ私)p_{ji} = logit^{-1}(\delta_j - \delta_i)p私はjp私jp_{ij}jjj私私iδ私δ私\delta_iδjδj\delta_j これは、家族=二項式のglm関数の候補のようです。ただし、式は「Success〜S1 + S2 + S3 + S4 + ...」のようになります。ここで、Snはダミー変数です。つまり、オブジェクトnが比較の最初のオブジェクトの場合は1、それが-1の場合です。 2番目、それ以外の場合は0。その場合、Snの係数は対応するます。d電子リットルのt Aんdeltaんdelta_n これは、少数のオブジェクトだけで管理するのはかなり簡単ですが、非常に長い式になり、オブジェクトごとにダミー変数を作成する必要が生じる可能性があります。もっと簡単な方法があるのか​​なと思います。比較される2つのオブジェクトの名前または数が変数(因子?)Object1およびObject2であり、オブジェクト1がより適切であると判断された場合、Successは1であり、オブジェクト2がそうである場合、0です。

4
n-1変数を使用してダミー変数を実装する方法は?
4つのレベルを持つ変数がある場合、理論的には3つのダミー変数を使用する必要があります。実際には、これは実際にどのように実行されますか?0-3を使用しますか、1-3を使用し、4を空白のままにしますか?助言がありますか? 注:Rで作業します。 更新:ADに対応する1〜4を使用する1つの列を使用するとどうなりますか?それはうまくいくか、問題を引き起こしますか?

2
範囲データを連続として扱うときのベストプラクティス
豊富さがサイズに関連しているかどうかを調べています。サイズは(もちろん)連続していますが、存在量は次のようなスケールで記録されます。 A = 0-10 B = 11-25 C = 26-50 D = 51-100 E = 101-250 F = 251-500 G = 501-1000 H = 1001-2500 I = 2501-5000 J = 5001-10,000 etc... AからQ ... 17レベル。考えられるアプローチの1つは、各文字に番号を割り当てることであると考えていました:最小、最大、または中央値(つまり、A = 5、B = 18、C = 38、D = 75.5 ...)。 潜在的な落とし穴は何ですか-したがって、このデータをカテゴリカルとして扱う方が良いでしょうか? 私はいくつかの考えを提供するこの質問を読みました-しかし、このデータセットの重要な点の1つは、カテゴリーが均一ではないことです-したがって、カテゴリーとして扱うことは、AとBの違いは、 BとC ...(対数を使用して修正できます-Anonymouseに感謝) 最終的に、他の環境要因を考慮した上で、サイズを存在量の予測因子として使用できるかどうかを確認したいと思います。予測も範囲になります。サイズXと係数A、B、Cが与えられた場合、存在量Yは最小値と最大値の間になると予測します(1つ以上のスケールポイントにまたがる可能性があると思います:最小Dより大きく、最小Max F …

3
変量効果はカテゴリ変数にのみ適用できますか?
この質問は愚かに聞こえるかもしれませんが... ランダムな効果はカテゴリ変数(個人ID、人口IDなど)にのみ適用できることは正しいです。たとえば、はカテゴリ変数です。xixix_i yiyiy_i〜βxiβxi\beta_{x_i} βxiβxi\beta_{x_i}〜Norm(μ,δ2)Norm(μ,δ2)Norm(\mu, \delta^2) しかし、原則から、ランダム効果は連続変数(高さ、質量など)に適用できませんと言います。ziziz_i yiyiy_i〜α+β⋅ziα+β⋅zi\alpha + \beta \cdot z_{i} それでは、制約できない係数が1つしかないからです。論理的に聞こえるかもしれませんが、なぜそれが統計文献に記載されていないのでしょうか。ありがとう!ββ\beta EDIT:しかし、どのような場合、私制約よう〜?それはランダム効果ですか?しかし、これはに課した制約とは異なります -ここでは変数を制約しますが、前の例では係数を制約しました!それは私にとって大きな混乱のように見えます...とにかく、は既知の値であるため、この制約を置くことはあまり意味がありません。ziziz_iziziz_iNorm(μ,δ2)Norm(μ,δ2)Norm(\mu, \delta^2)βxiβxi\beta_{x_i}ziziz_i

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.