タグ付けされた質問 「categorical-data」

カテゴリー(名義とも呼ばれる)データは、カテゴリーと呼ばれる限られた数の可能な値を取ることができます。カテゴリー値は「ラベル」であり、「測定」ではありません。個別だが順序付けられたデータ型には[ordinal-data]タグを使用してください。

2
Rを使用して「並列セット」プロットを作成することはできますか?
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 Tormodの質問(ここに投稿)のおかげで、Parallel Setsプロットに出会いました。 これは、どのように見えるかの例です:( タイタニックデータセットの視覚化です。たとえば、生き残っていない女性のほとんどが3番目のクラスに属していたことを示しています...) Rでそのようなプロットを再現できるようになりたいです。それは可能ですか? ありがとう、タル

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
名義/カテゴリデータの「ダミー変数」と「インジケータ変数」
「ダミー変数」と「インジケータ変数」は、0/1コーディングのカテゴリのメンバーシップを記述するために頻繁に使用されるラベルです。通常0:カテゴリーのメンバーではない、1:カテゴリーのメンバー。 2014年11月26日にscholar.google.com(引用符で囲む)をすばやく検索すると、「ダミー変数」が約318,000の記事で使用され、「インジケーター変数」が約112,000の記事で使用されていることがわかります。「ダミー変数」という用語は、インデックス付き記事で「ダミー変数」をより多く使用することに貢献している可能性が高い「バインド変数」の非統計数学でも意味を持ちます。 私のトピックにリンクされた質問: これらの用語は常に(統計内で)同義語ですか? これらの用語のいずれかが、他の形式のカテゴリコーディング(たとえば、エフェクトコーディング、ヘルマートコーディングなど)に容認できる形で適用されていますか? ある用語を他の用語よりも優先する統計的または懲戒的な理由は何ですか?

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
連続データとバイナリデータを線形SVMと混合しますか?
だから私はSVMで遊んでいますが、これが良いことかどうか疑問に思います: 一連の連続フィーチャ(0〜1)と、ダミー変数に変換した一連のカテゴリフィーチャがあります。この特定のケースでは、測定の日付をダミー変数にエンコードします。 データを取得する期間は3つあり、3つの機能番号を予約しました。 20:21:22: そのため、データの取得期間に応じて、異なる機能に1が割り当てられます。その他は0になります。 SVMはこれで適切に動作しますか、これは悪いことですか? SVMLightと線形カーネルを使用します。

1
glmnetロジスティック回帰は、ダミー変数を必要とせずに因子(カテゴリ)変数を直接処理できますか?[閉まっている]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新することがありますので、話題のクロス検証済みのため。 閉じた3年前。 私は関数でLASSO法を使用してRにロジスティック回帰を構築していますcv.glmnet選択するlambdaとglmnet、最終的なモデルのため。 私はすでに自動モデル選択に関するすべての欠点を知っていますが、とにかくそれをする必要があります。 私の問題は、ファクター(カテゴリ)変数をモデルに含める必要があることです。ダミー変数を大量に作成せずにそれを行う方法はありますか?この変数はほとんどすべて文字列であり、数値ではありません。


2
連続データからカテゴリカルへの移行は常に間違っていますか?
データの設定方法について読んだとき、私がよく遭遇することの1つは、いくつかの連続したデータをカテゴリデータに変換することは良い考えではないということです。しきい値が十分に決定されていない場合、間違った結論を下す可能性が非常に高いからです。 しかし、私は現在いくつかのデータ(前立腺がん患者のPSA値)を持っていますが、一般的なコンセンサスは、あなたが4歳未満の場合、おそらくそれを持っていない、あなたが上にいる場合は危険にさらされ、 10と20を超えると、おそらくそれがあります。そんな感じ。その場合、連続PSA値を0〜4、4〜10、および> 10のグループに分類することは依然として間違っていますか?または、いわばしきい値が「十分に決定」されているので、実際には大丈夫ですか。

3
変数の1つがカテゴリカルである場合、相関があまり役に立たないのはなぜですか?
これはちょっとした内臓検査です。この概念をどのように誤解しているかを確認してください。 私は相関関係の機能的理解を持っていますが、その機能的理解の背後にある原則を本当に自信を持って説明するために、ちょっとした把握を感じています。 私が理解しているように、統計的相関(用語のより一般的な使用法とは対照的に)は、2つの連続変数とそれらが同様の方法で上昇または下降する傾向があるかどうかを理解する方法です。 たとえば、1つの連続変数と1つのカテゴリ変数で相関を実行できない理由は、2つの間の共分散を計算する ことができないためです。なぜなら、定義によりカテゴリ変数は平均を求めることができず、したがって、最初の統計分析のステップ。 そうですか?

2
Rでダミーコーディングの代わりにエフェクトコーディングで回帰を行う方法は?
現在、カテゴリ変数/因子変数のみを独立変数として持つ回帰モデルに取り組んでいます。私の従属変数はロジット変換比です。 Rは、「ファクター」タイプであるダミーをコーディングする方法を自動的に認識するため、Rで通常の回帰を実行するだけでかなり簡単です。ただし、このタイプのコーディングでは、各変数の1つのカテゴリがベースラインとして使用されるため、解釈が難しくなります。 私の教授は、代わりにエフェクトコーディング(-1または1)を使用するように言っています。これは、インターセプトに大平均を使用することを意味するためです。 誰もそれを処理する方法を知っていますか? 今まで私は試しました: gm <- mean(tapply(ds$ln.crea, ds$month, mean)) model <- lm(ln.crea ~ month + month*month + year + year*year, data = ds, contrasts = list(gm = contr.sum)) Call: lm(formula = ln.crea ~ month + month * month + year + year * year, data = ds, contrasts = …

1
SVM(サポートベクターマシン)のカテゴリデータと連続データを混在させることはできますか?
私のようなデータセットがあります +--------+------+-------------------+ | income | year | use | +--------+------+-------------------+ | 46328 | 1989 | COMMERCIAL EXEMPT | | 75469 | 1998 | CONDOMINIUM | | 49250 | 1950 | SINGLE FAMILY | | 82354 | 2001 | SINGLE FAMILY | | 88281 | 1985 | SHOP & HOUSE | …

1
カテゴリ変数(R内)で使用できるさまざまなタイプのコーディングと、それらをいつ使用しますか?
線形モデルまたは混合モデルを近似する場合、カテゴリーまたはノミナルバリベールを、ダミーコンディング(Rデフォルト)やエフェクトコーディングなど、パラメーターが推定される多くの変数に変換するために使用できるさまざまなタイプのコーディングがあります。 相互作用がある場合、エフェクトコーディング(偏差またはコントラストコーディングと呼ばれることもあります)が好ましいと聞きましたが、可能なコントラストはどのようなもので、どのタイプのコントラストを使用するのですか? コンテキストはを使用したRでの混合モデリングですが、lme4より広範な応答は問題ないと思います。申し訳ありませんが、同様の質問を逃した場合。 編集:2つの有用なリンクがあります:効果コーディングと説明されたダミーコーディング。

2
順序データまたは名義データのカテゴリをマージ/削減する方法は?
名義データまたは順序データのカテゴリ数を減らす方法を見つけるのに苦労しています。 たとえば、いくつかの名義因子と順序因子を持つデータセットで回帰モデルを構築するとします。このステップには問題はありませんが、名目上の特徴がトレーニングセットに観測されていないが、その後検証データセットに存在するという状況に遭遇することがよくあります。これは、モデルに(これまでに)目に見えないケースが存在する場合、当然、エラーにつながります。カテゴリを組み合わせたいもう1つの状況は、単純に観測値の少ないカテゴリが多すぎる場合です。 だから私の質問は: 以前の実世界の背景情報に基づいて多くの名義(および順序)カテゴリを組み合わせることが最善かもしれないと思いますが、体系的な方法(Rできればパッケージ)が利用可能ですか? どのようなガイドラインと提案、カットオフしきい値などを作成しますか? 文献で最も人気のあるソリューションは何ですか? 小さな名義カテゴリを新しい「OTHERS」カテゴリに結合する以外の戦略はありますか? 他にも提案がある場合は、お気軽にご連絡ください。

8
偶数と奇数を区別するためにニューラルネットワークをトレーニングする
質問:数字自体を入力としてのみ使用して、奇数と偶数を区別するようにNNをトレーニングすることは可能ですか? 次のデータセットがあります。 Number Target 1 0 2 1 3 0 4 1 5 0 6 1 ... ... 99 0 100 1 2つの入力ニューロン(変数が1つ、もう1つがバイアスニューロン)、隠れ層の9つのニューロン、非常に単純な遺伝的アルゴリズムを使用して1つの出力ニューロンでNNをトレーニングしました。各エポックで、2組の重み「ファイト" 互いに対して; エラーが最も大きいものが失われ、勝者の修正バージョンに置き換えられます。 このスクリプトは、AND、OR、XOR演算子などの単純な問題を簡単に解決しますが、奇数と偶数を分類しようとすると行き詰まります。今のところ、100のうち53の数字を特定するのが最善で、数時間かかりました。入力を正規化してもしなくても、違いはないようです。 不正行為をしたい場合は、データを前処理して、%2を入力としてNNにフィードすることもできますが、それはしたくありません。NNは、モジュロ演算子を含むすべての関数を近似できる必要があります(信じています)。私は何を間違えていますか?

1
カテゴリカルデータを使用した負の二項GLMからの.L&.Q出力の解釈
私は負の二項GLMを実行しただけで、これが出力です。 Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 14.720 < 2e-16 *** method.L -0.6828 0.1637 -4.171 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.