タグ付けされた質問 「categorical-data」

カテゴリー(名義とも呼ばれる)データは、カテゴリーと呼ばれる限られた数の可能な値を取ることができます。カテゴリー値は「ラベル」であり、「測定」ではありません。個別だが順序付けられたデータ型には[ordinal-data]タグを使用してください。

2
連続変数とカテゴリ変数が混在するデータのクラスタリング
人間の行動のいくつかの側面を表すデータがあります。私はそれを(監視なしで)ある種の行動プロファイルにクラスター化したいと考えています。現在、私の変数の一部はカテゴリカル(2つ以上のカテゴリを持つ)であり、一部は連続的です(ほとんどはパーセンテージです)。いくつかの変数はさらに複雑で、1つのカテゴリーにはさらに連続的であり、もう1つのカテゴリーにはそのような追加データはありません。 私の質問は、このデータを分類する方法についてです。それを扱う(一般的な?)アプローチは何ですか? コードや何かは必要ありませんが、この課題への対処方法をさらに理解するのに役立つ参照や指示が必要です。 そのRような分析を容易にする関数を知っていれば、それはすばらしいことですが、それは必須ではありません。 ありがとう。

2
ダミー変数の正規化
私のデータは、いくつかの連続測定と、測定が行われた年を表すいくつかのダミー変数で構成されています。今、私はデータを使ってニューラルネットワークを学びたいです。したがって、ダミー変数を含むすべての変数をzScoreで正規化しています。ただし、ダミー変数を正規化するとその範囲が変更されるため、これが妥当な方法であるかどうか疑問に思います。これは、分布が異なる場合に比較可能性を低くするためです。一方、ダミー変数を正規化しないと、ネットワーク出力への影響が最適化されない可能性があるため、疑わしいかもしれません。 ダミー変数を処理し、それらを正規化(zScore)するか、そのままにしておくための最良のアプローチは何ですか?

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
カテゴリー応答変数予測
次の種類のデータ(Rでコード化)があります。 v.a = c('cat', 'dog', 'dog', 'goat', 'cat', 'goat', 'dog', 'dog') v.b = c(1, 2, 1, 2, 1, 2, 1, 2) v.c = c('blue', 'red', 'blue', 'red', 'red', 'blue', 'yellow', 'yellow') set.seed(12) v.d = rnorm(8) aov(v.a ~ v.b + v.c + v.d) # Error v.bまたはの値にの値v.cを予測する能力があるかどうかを知りたいのですがv.a。私は(上記のように)分散分析を実行しますが、私の応答変数は序数ではないため(カテゴリカルであるため)、意味がありません。私は何をすべきか?

2
glmnetでカテゴリ変数をグループ化する
次の適合を検討してください。 fit3a=glmnet(x,g4,family="multinomial",type.multinomial="grouped") どの列xがカテゴリー/多項式であるかを示すにはどうすればよいですか?グループ化された変数のインデックスを指定するオプションはありますか? ドキュメントでは、オプションtype.multinomialについて次のように説明しています。 「グループ化」されている場合、グループ化されたなげなわペナルティが変数の多項係数に使用されます。これにより、すべてが一緒に私たちの外にあります。デフォルトは「グループ化されていない」です。

1
コントラストのダミーコーディング:0、1対1、-1
二分変数の2つの異なるコントラストの違いを理解するために、あなたの助けを求めています。 このページ:http : //www.psychstat.missouristate.edu/multibook/mlt08.htm「Dichotomous Predictor Variables」の下で、二分予測子をコーディングする方法は2つあります。コントラスト0,1またはコントラスト1、-1を使用します。 。私はここで区別をある程度理解しています(0、1はダミーコーディングで、1、-1は1つのグループに追加され、他のグループから減算されます)。しかし、回帰で使用するものを理解していません。 たとえば、性別(m / f)とアスリート(y / n)の2つの二項予測因子がある場合、両方でコントラスト0、1、または両方で1、-1を使用できます。2つの異なるコントラストを使用する場合、主効果または相互作用効果の解釈はどうなりますか?セルのサイズが異なるかどうかに依存しますか?

3
2つの母集団で同じカテゴリ変数をテストするにはどうすればよいですか?
次のようなデータがあります。 ID Status 01 A 02 G 03 E ... ... 100 G あなたはアイデアを理解していると思います。2つの異なる母集団(コホート)からのこのデータがあり、ある母集団の状態変数の分布を別の母集団の分布と比較したいと思います。私が回答している質問は次のようなものです。あなたがこれ以上知らなければ、これらは同じ母集団からのものである可能性がありますか?確かではありませんが、これは人のカイ二乗を実行する必要があることを意味します。また、テストを実行できるように変数を変換する方法もわかりません。(私は特にこれをRで行う方法を知りたいです。)

4
R:lm()を使用した因子の平均と平均の標準誤差の計算と直接計算の編集
因子を含むデータを扱う場合、Rを使用してlm()関数で各グループの平均を計算できます。これにより、推定平均の標準誤差も得られます。しかし、この標準誤差は、手作業による計算から得られるものとは異なります。 ここに例があります(Rの2つのグループ間の違いを予測するここから取得) 最初にlm()で平均を計算します。 mtcars$cyl <- factor(mtcars$cyl) mylm <- lm(mpg ~ cyl, data = mtcars) summary(mylm)$coef Estimate Std. Error t value Pr(>|t|) (Intercept) 26.663636 0.9718008 27.437347 2.688358e-22 cyl6 -6.920779 1.5583482 -4.441099 1.194696e-04 cyl8 -11.563636 1.2986235 -8.904534 8.568209e-10 切片は、最初のグループである4気筒車の平均です。直接計算によって平均を取得するには、これを使用します。 with(mtcars, tapply(mpg, cyl, mean)) 4 6 8 26.66364 19.74286 15.10000 平均値の標準誤差を取得するには、サンプルの標準偏差を計算し、各グループの観測数で割ります。 with(mtcars, tapply(mpg, …

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

3
ペア周波数の独立性のテスト
これが基本的でも冗長でもないことを願っています。私はガイダンスを求めて探していましたが、これまでのところ、どのように進めるかはまだわかりません。 私のデータは、対談者のペア間の会話で使用される特定の構造のカウントで構成されています。私がテストしたい仮説は次のとおりです。一方の話者によるこの構造のより頻繁な使用は、もう一方の話者による構造の周波数を増加させる傾向があります(つまり、これはプライミング効果の証拠かもしれません)。 したがって、2つのベクトルがあります。スピーカーAのカウントとスピーカーBのカウントは列であり、それらが並んでいる場合、各行は次のような特定の会話を表します。 AB 0 1 0 2 1 0 3 1 0 2 2 0 2 1 約420の会話(行)があります。このデータには多くのゼロがあります。 このデータを分析する最良の方法は何でしょうか?私はRを使用しています。 これは頻度(カウント)のプロットです。x軸は話者Aによる使用数、y軸は話者Bによる使用数です。話者を区別することは、その話者Aが最初に話したことだけを意味し、特別な理由はありません。それ以外の場合、話者Aと話者Bの違いは基本的に無意味です。 有効なXHTML http://phonematic.com/convplot.jpg そして、これは、各会話の各話者が話す文章の数に関連する頻度です。: 有効なXHTML http://phonematic.com/rs_plot.jpg (私は何のヒットもない会話、つまり{0,0}を捨てたことを言及しなければなりません。)

3
マルチレベルのカテゴリカルデータの分布の分散
現在、さまざまな特性(都市など)を持つ大規模なデータセットを分析しています。私は、データ全体でどの程度の差異があったか、またはほとんどなかったかを示すメジャーを見つけたかったのです。これは、単純に異なる要素の数を数えるよりもはるかに便利です。 たとえば、次のデータについて考えます。 City ---- Moscow Moscow Paris London London London NYC NYC NYC NYC 4つの異なる都市があることがわかりますが、分布がどれほどあるかはわかりません。私が思いついた「式」の1つは、各要素の合計データセットの割合の合計を取ることでした。この場合は、になります(2/10)^2 + (1/10)^2 + (3/10)^2 + (4/10)^2。私にはこれに対する実際の数学的証明はありませんが、それについて考えました。 この場合、たとえば、10要素のセットで、9が同じで1が異なる場合、その数はになります(9/10)^2 + (1/10)^2。しかし、それが半分であるならば、それはそうなるでしょう(5/10)^2 + (5/10)^2。 似たような公式や研究分野について意見を求めたかったのです。いくつかのグーグル検索で本当に何も見つけることができませんでした。

1
出力の離散化によって回帰モデルを分類モデルに削減すると、モデルが改善されるのはなぜですか?
回帰問題では、出力がビン/カテゴリ/クラスターに離散化され、ラベルとして使用される場合、モデルは分類モデルに縮小されます。 私の質問は、この削減を行うことの背後にある理論的または応用的な動機は何ですか?テキストから位置を予測する私の特定の実験では、回帰ではなく分類として問題をモデル化すると、改善が見られます。 私の特定のケースでは、出力は2dですが、これについてのより一般的な説明を探しています。 更新: 入力がBoWテキストで、出力が座標であると想定します(ジオタグ付きTwitterデータの場合など)。回帰では、二乗誤差損失を使用して、与えられたテキストの緯度/経度を予測します。トレーニングの緯度/経度のポイントをクラスター化し、各クラスターをクラスと仮定すると、分類モデルのクロスエントロピー損失を最適化することでクラスを予測できます。 評価: 回帰の場合、予測された場所と金の場所の間の平均距離。 分類のために、予測されたクラスターの中央のトレーニングポイントとゴールドの場所の間の平均距離。

3
整数データ:カテゴリーまたは連続?
整数予測子データをカテゴリカル(したがってエンコードが必要)または連続として扱う必要があるかどうか疑問に思っています。たとえば、特定の予測子の範囲Xがすべて1〜230の整数である場合、それを連続変数として扱うことができますか、それをエンコードして、230(またはおそらく229)の新しいダミー変数を取得する必要がありますか?分析の最終目標は、回帰または分類を実行することです。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.