タグ付けされた質問 「categorical-data」

カテゴリー(名義とも呼ばれる)データは、カテゴリーと呼ばれる限られた数の可能な値を取ることができます。カテゴリー値は「ラベル」であり、「測定」ではありません。個別だが順序付けられたデータ型には[ordinal-data]タグを使用してください。


3
ワンホットエンコーディングが必要なアルゴリズムは何ですか?
順序付けされていないカテゴリ変数にワンホットエンコーディングをいつ使用するか、いつ使用しないかはわかりません。アルゴリズムが距離メトリックを使用して類似性を計算するときはいつでもそれを使用します。順序付けされていないカテゴリカル機能をワンホットエンコードする必要があるアルゴリズムのタイプと、そうでないアルゴリズムについて、一般的な経験則を教えてください。

2
多くのレベルの因子を持つモデルを近似するためにRに長い時間がかかるのはなぜですか?
多くのレベルを持つ因子をもつモデルに適合させ、そのモデルを適合させるにはRに非常に長い時間がかかります。どうしてこれなの? たとえば、プレーヤーの給与を予測するために回帰を当てはめ、すべてのプレーヤーのそれぞれの国籍の因子予測子を含めると、プレーヤーの給与のモデルをプレーヤーの給与のような継続的な予測子に当てはめるよりも時間がかかりますハイツ。

1
属性が名目である場合、個人にとって最適な距離関数は何ですか?
名義(順序付けされていないカテゴリ)属性の場合に使用する個人間の距離関数がわかりません。私はいくつかの教科書を読んでいて、それらはSimple Matching関数を提案していますが、一部の本は、名義をバイナリ属性に変更してJaccard係数を使用するべきだと提案しています。ただし、名義属性の値が2でない場合はどうなりますか?その属性に3つまたは4つの値がある場合はどうなりますか? 名義属性にはどの距離関数を使用すればよいですか?

2
非二項名目変数と順序変数または数値変数の相関係数
私は問題の答えを見つけるためにこのサイトのすべてのページをすでに読んでいますが、誰も私から正しいものではないようです... まず、私が扱っているデータの種類について説明します... 300人のユーザーごとに1つずつ、複数の都市名を持つ配列ベクトルがあるとします。また、別の配列ベクトルを使用して、各ユーザーの調査に対するスコアの応答または各ユーザーの継続的な値を取得しています。 これらの2つの変数の相関関係を計算する相関係数が存在するかどうかを知りたいので、名義変数と数値変数 私はインターネットで検索しましたが、いくつかのページでは、偶発係数またはCramerのVまたはLambda係数またはEtaを使用するように提案されています。この測定値のそれぞれについて、名目変数と区間変数または数値変数があるようなデータに適用できると言ってください。問題は、検索して検索し、それらのすべてを理解しようとすることですが、Cramer's Vを除いて、二項公称変数がある場合にそれらを使用するのが合理的である例が書かれている、または見られていることもあります。データのタイプ。他の多くのページでは、代わりに回帰を適用するのが正しいと言っていますが、そうですが、この種類のデータにピアソン/スピアマンのような係数があるかどうかを知りたいだけです。 また、都市はソートできないため、Spearman Correlation coeffを使用するのはそれほど適切ではないと思います。 私はCramer'sVとEtaの関数も自分で作成しました(私はMatlabを使用しています)が、Etaについては係数が統計的に有意であるかどうかを確認するためにp値について話しません... matlabWorksサイトには、eta ^ 2を計算するように指示する素晴らしいツールボックスもありますが、必要な入力の種類は理解できません。 ここに私のようなテストをした人はいますか?私が使用しているデータの種類を理解するためにさらに詳細が必要な場合は、私に尋ねてください。私はあなたをよりよく説明しようとします。

2
glmnet:多項式パラメーター化を理解する方法は?
次の問題:glmnet()を使用して、1つ(または複数)のカテゴリ変数でカテゴリ応答変数を予測したい。 ただし、glmnetが提供する出力を理解することはできません。 では、まず2つの関連するカテゴリ変数を生成しましょう。 データを生成する p <- 2 #number variables mu <- rep(0,p) sigma <- matrix(rep(0,p^2), ncol=p) sigma[1,2] <- .8 #some relationship .. diag(sigma) <- 1 sigma <- pmax(sigma, t(sigma)) n <- 100 set.seed(1) library(MASS) dat <- mvrnorm(n, mu, sigma) #discretize k <- 3 # number of categories d <- apply(dat, …

2
2つの名義変数間の相関測定をどのようにして見つけますか?
人々が自分の出身国を表すために特定のスマイリーを使用するものを選択し、出身国に入る調査が行われました。テキスト応答を数値に再コーディングしました。 人々がどこから来たのかと彼らが選択した表現との間の相関のレベルをチェックするために、どのような形式の分析を使用する必要があります(できればSPSS)。

2
曜日などに基づく回帰
正しい方向に進むには少し助けが必要です。統計を調べてから専門用語が変わったようですが、久しぶりです。 次のような自動車関連データのセットがあるとします。 A町からB町までの移動時間 A町からB町までの距離 エンジンの大きさ ドライバーの靴のサイズ 車のメーカーとモデル 曜日 所要時間を予測したい。 時間と距離の間には強い相関関係があり、おそらくエンジンのサイズとは弱い相関関係があると思います(靴のサイズとは相関関係がない)おそらく重回帰分析/分散分析が使用するツールです。しかし、Sunday = 1、Monday = 2などとしてコーディングするだけで非常に間違っていると感じるので、どのように曜日を含めるのですか? たとえば、Excelの回帰ツールを使用した後、結果をどのように解釈しますか?おそらくRが1に近い場合、これは適切です(ただし、データ項目が多い場合は、小さいながらも重要であるかのように見えます)。しかし、一部のソースは、SDのように見えるr-2乗を参照しているため、ゼロに近い値が適切です。また、t Stat、P値、F、および有意Fも表示されます。誰かが良いリファレンスソースを推薦できますか?

2
カテゴリー変数間の共線性
連続予測子に関して共線性については多くありますが、カテゴリカル予測子についてはそれほど多くはありません。以下に示すこのタイプのデータがあります。 最初の要因は遺伝的変数(対立遺伝子数)、2番目の要因は疾患カテゴリーです。明らかに遺伝子は病気に先行し、診断につながる症状を示す際の要因です。ただし、タイプIIまたはIIIの二乗和を使用した定期的な分析は、SPSSを使用した心理学で一般的に行われるように、効果を逃します。タイプIの二乗和分析では、次数に依存するため、適切な次数を入力するとそれが検出されます。さらに、タイプIIまたはIIIで十分に特定されていない、遺伝子に関連しない疾患プロセスの余分なコンポーネントがある可能性があります。以下のanova(lm1)とlm2またはAnovaを参照してください。 データの例: set.seed(69) iv1 <- sample(c(0,1,2), 150, replace=T) iv2 <- round(iv1 + rnorm(150, 0, 1), 0) iv2 <- ifelse(iv2<0, 0, iv2) iv2 <- ifelse(iv2>2, 2, iv2) dv <- iv2 + rnorm(150, 0, 2) iv2 <- factor(iv2, labels=c("a", "b", "c")) df1 <- data.frame(dv, iv1, iv2) library(car) chisq.test(table(iv1, iv2)) # quick …

2
コミュニティごとに個別の回帰を実行する必要がありますか、それともコミュニティを単に集約モデルの制御変数にできますか?
DVとして連続資産インデックス変数を使用してOLSモデルを実行しています。私のデータは、地理的に近い3つの類似したコミュニティから集約されています。それにもかかわらず、コミュニティを制御変数として使用することが重要だと思いました。結局のところ、コミュニティは1%レベルで有意です(tスコアは-4.52)。コミュニティは、3つの異なるコミュニティのうちの1つに対して、1,2,3としてコード化された名義/カテゴリ変数です。 私の質問は、この重要度の高さは、集合体としてではなく、コミュニティに対して個別に回帰を行うべきであることを意味するかどうかです。それ以外の場合は、コミュニティを制御変数として使用して、本質的にそうしていますか?

2
Rの順序付けられたカテゴリカルデータ間の相関関係を(視覚的に)すばやく評価しますか?
アンケートのさまざまな質問への回答間の相関関係を探しています(「うーん、質問11への回答が質問78の回答と相関しているかどうかを見てみましょう」)。すべての回答はカテゴリ型です(そのほとんどは「非常に不幸」から「非常に満足」までの範囲です)が、いくつかの回答は異なるセットです。それらのほとんどは序数と見なすことができるので、ここでこのケースを考えてみましょう。 私は商用統計プログラムにアクセスできないので、Rを使用する必要があります。 Rattle(Rのフリーウェアデータマイニングパッケージ、非常に気の利いたもの)を試してみましたが、残念ながらカテゴリカルデータはサポートされていません。私が使用できるハックの1つは、「非常に不幸」ではなく数値(1..5)を含む調査のコード化されたバージョンをRにインポートして、それらが数値データであるとラトルに信じさせることです。 私は散布図を作成し、ドットサイズを各ペアの数値の数に比例させることを考えていました。グーグルで検索した後、http: //www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/を見つけましたが、(私にとって)非常に複雑に見えます。 私は統計学者ではありませんが(プログラマーです)、この件について少し読んだことがあります。私が正しく理解していれば、ここではスピアマンのrhoが適切でしょう。 だから、急いでいる人のための質問の短いバージョン:Rでスピアマンのローをすばやくプロットする方法はありますか?プロットは、数値の行列よりも簡単です。これは、目を簡単に見ることができ、材料にも含めることができるためです。 前もって感謝します。 PS私はこれをメインのSOサイトに投稿するか、ここに投稿するかについてしばらく考えました。両方のサイトでR相関を検索した後、このサイトは質問により適していると感じました。

6
Rのdata.frame内の因子のすべての一意の組み合わせの要約統計を見つける方法は?[閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 2年前休業。 data.frame内の因子の一意の組み合わせごとに、data.frame内の変数の要約を計算したいと思います。これを行うにはplyrを使用する必要がありますか?apply()ではなくループを使用しても問題ありません。したがって、それぞれの固有の組み合わせを見つけるだけで十分です。

4
複数のカイ2乗検定
2 x 2 x 6の表に分類されたデータがあります。寸法responseをAと呼びましょうB。モデルを使用して、データにロジスティック回帰を適合させますresponse ~ A * B。そのモデルの逸脱の分析は、用語とその相互作用の両方が重要であることを示しています。 ただし、データの比率を見ると、Bこれらの重要な影響の原因となっているのはわずか2レベル程度です。どのレベルが犯人であるかを確認するためにテストしたいと思います。現在、私のアプローチは、2 x 2のテーブルで6つの2乗検定を実行しresponse ~ A、それらの検定からのp値を(ホルム調整を使用して)多重比較のために調整することです。 私の質問は、この問題へのより良いアプローチがあるかどうかです。より原理的なモデリング手法、または複数のカイ二乗検定比較手法はありますか?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
線形回帰でバイナリ/二分独立予測子の残差分析を実行するにはどうすればよいですか?
マネージドファンドのリターンを予測するために、Rで以下の多重線形回帰を実行しています。 reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) ここでは、GRIとMBAのみがバイナリ/二分予測です。残りの予測子は連続です。 このコードを使用して、バイナリ変数の残差プロットを生成しています。 plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) plot(rawdata$MBA, reg$residuals) abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 私の質問: 連続予測子の残差プロットを検査する方法は知っていますが、独立変数がバイナリの場合、等分散性などの線形回帰の仮定をどのようにテストしますか? 残差プロット:

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.