タグ付けされた質問 「ordinal-data」

大きさ順に並べることができるカテゴリ値を持つが、カテゴリ間の正確な距離(間隔)が未定義または不明のデータ。

8
順序データに使用する適切な基本統計とは何ですか?
私はいくつか持っている順序データの調査の質問から得られたし。私の場合、それらはリッカートスタイルの応答です(強く同意しない、同意しない、中立、同意する、強く同意します)。私のデータでは、それらは1-5としてコード化されています。 ここで手段が意味することはあまりないと思うので、どのような基本的な要約統計量が役に立つと考えられますか?

8
カテゴリデータを連続として扱うのは理にかなっていますか?
離散データと連続データに関するこの質問に答える際、カテゴリデータを連続データとして扱うことはほとんど意味がないと断言しました。 一見すると自明のように思えますが、直観はしばしば統計の貧弱なガイドであり、少なくとも私の場合はそうです。だから今私は疑問に思う:それは本当ですか?または、カテゴリデータから連続体への変換が実際に役立つ分析が確立されていますか?データが序数である場合、違いが生じますか?


6
Amazonの「平均評価」は誤解を招くものですか?
私が正しく理解していれば、1-5のスケールでの本の評価はリッカートスコアです。つまり、私にとって3は、他の誰かにとって必ずしも3であるとは限りません。これは通常のスケールのIMOです。順序スケールを実際に平均するべきではありませんが、モード、中央値、パーセンタイルを確実に取ることができます。 人口の大部分が上記の統計よりも平均を理解しているので、ルールを曲げることは「大丈夫」ですか?研究コミュニティは、リッカートスケールベースのデータの平均を取ることを強く非難しますが、大衆でこれを行うことは問題ありません(実際に言えば)?この場合の平均を取ることは、そもそも誤解を招くかもしれませんか? Amazonのような会社が基本的な統計情報を手探りすることはまずないと思われますが、そうでない場合は、ここで何が欠けていますか?順序尺度は、平均を取ることを正当化するための順序の便利な近似であると主張できますか?どんな理由で?

7
2つの順序変数間の関係のグラフ
2つの順序変数間の関係を示す適切なグラフは何ですか? 私が考えることができるいくつかのオプション: ランダムジッタを追加した散布図で、ポイントが互いに隠れないようにします。どうやら標準グラフィック-Minitabではこれを「個別値プロット」と呼んでいます。私の意見では、データがインターバルスケールからのものであるかのように、順序レベル間の一種の線形補間を視覚的に促進するため、誤解を招く可能性があります。 散布図は、サンプリング単位ごとに1つのポイントを描画するのではなく、ポイントのサイズ(面積)がそのレベルの組み合わせの頻度を表すように適合されています。実際にそのようなプロットを見たことがあります。読みづらい場合もありますが、ポイントは規則的に間隔を空けた格子上にあり、データを視覚的に「間引く」というジッター散布図の批判をある程度克服します。 特に、変数の1つが従属変数として扱われる場合、独立変数のレベルでグループ化されたボックスプロット。従属変数のレベルの数が十分に高くない場合はひどいように見える可能性があります(ウィスカが欠けているか、さらに中央値の視覚的な識別が不可能なさらに悪化した四分位で非常に「フラット」)が、少なくとも中央値と四分位数に注意を引きます順序変数の関連する記述統計。 頻度を示すヒートマップを含むセルの値の表または空白のグリッド。視覚的には異なりますが、散布図と概念的には類似しており、ポイントエリアに周波数が表示されます。 他のアイデア、またはどのプロットが望ましいかについての考えはありますか?特定の序数対序数プロットが標準とみなされる研究分野はありますか?(私は、周波数ヒートマップがゲノミクスで広まっていることを思い出すようですが、名目対名義の方が多いと思われます。)良い標準参照の提案も大歓迎です。Agrestiから何かを推測しています。 プロットで説明したい場合は、偽のサンプルデータのRコードが続きます。 「運動はあなたにとってどれほど重要ですか?」1 =まったく重要ではない、2 =やや重要でない、3 =重要でも重要でもない、4 =やや重要、5 =非常に重要。 「10分以上のランニングをどのくらい定期的に受けますか?」1 =しない、2 = 2週間に1回未満、3 = 1週間または2週間に1回、4 =週に2回または3回、5 =週に4回以上。 「頻繁に」を従属変数として扱い、「重要性」を独立変数として扱うことが自然な場合、プロットが2つを区別する場合。 importance <- rep(1:5, times = c(30, 42, 75, 93, 60)) often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1 rep(1:5, times = c(10, …

1
順序データまたはバイナリデータの因子分析またはPCAはありますか?
主成分分析(PCA)、探索的因子分析(EFA)、および確認的因子分析(CFA)を完了し、リッカートスケール(5レベルの応答:なし、少し、いくつか、..)変数。次に、Lavaanを使用して、変数をカテゴリカルとして定義するCFAを繰り返しました。 データが通常の順序である場合、どのタイプの分析が適切で、PCAおよびEFAに相当するかを知りたいと思います。そして、バイナリのとき。 また、このような分析のために簡単に実装できる特定のパッケージまたはソフトウェアの提案も歓迎します。

6
5ポイントのリッカートアイテムのグループの違い
この質問に続いて:5ポイントのリッカート項目(例:人生に対する満足度:不満に満足)で、2つのグループ(例:男性と女性)の中心傾向の違いをテストしたいと想像してください。t検定はほとんどの目的に対して十分に正確であると思いますが、グループ平均間の差のブートストラップ検定は多くの場合、信頼区間のより正確な推定値を提供します。どの統計検定を使用しますか?

1
順序データを出力するようにニューラルネットワークを設定する方法は?
出力変数が序数である場所を予測するために、ニューラルネットワークを設定しています。3つの可能な出力A <B <Cを使用して以下に説明します。 ニューラルネットワークを使用してカテゴリデータを出力する方法は非常に明白です。出力は最後の(通常は完全に接続された)レイヤーのソフトマックスであり、カテゴリごとに1つであり、予測カテゴリは最大の出力値を持つものです(これは多くの一般的なモデルのデフォルト)。序数値には同じ設定を使用しています。ただし、この場合、出力は意味をなさないことがよくあります。たとえば、AとCのネットワーク出力は高くてもBは低くなります。これは順序値には当てはまりません。 これには、出力をAの1 0 0、Bの1 1 0、Cの1 1 1と比較して損失を計算するというアイデアがあります。正確なしきい値は、別の分類器(たとえば、ベイジアンを使用して後で調整できます。 )しかし、これは、特定の間隔スケールを規定することなく、入力の順序付けの本質的なアイデアを捉えているようです。 この問題を解決する標準的な方法は何ですか?さまざまなアプローチの長所と短所を説明する研究や参考文献はありますか?

4
順序変数の平均を計算する
多くの場所で、順序変数の平均を計算することは不適切であると読んでいます。なぜそれが不適切なのか、直観を得ようとしています。一般に、順序変数は正規分布していないため、平均を計算すると不正確な表現になるためだと思います。順序変数の平均を計算するのが不適切である理由について、より詳細な理由を誰かに教えてもらえますか?


3
順序カテゴリ変数を独立変数として処理する方法
ロジットモデルを使用しています。私の従属変数はバイナリです。ただし、カテゴリ変数であり、応答を含む独立変数があります1.very good, 2.good, 3.average, 4.poor and 5.very poor。したがって、それは序数です(「定量的カテゴリ」)。モデルでこれを処理する方法がわかりません。を使用していgretlます。 [@ttnphnsからの注記:モデルはロジットであるとの質問がありますが(依存関係はカテゴリカルであるため)、重要な問題-順序独立変数-は基本的に類似しており、依存カテゴリカルまたは定量的です。したがって、この問題は、たとえばロジスティック回帰または他のロジットモデルと同様に、線形回帰にも同様に関連しています。]


4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
順序変数と連続変数の間の相関を正しく評価する方法は?
以下の間の相関関係を推定したいと思います。 順序変数:被験者は、6種類の果物に対する好みを1〜5のスケール(非常に不快なものから非常においしいものまで)で評価するよう求められます。平均して、被験者はスケールの3ポイントのみを使用します。 連続変数:同じ被験者にこれらの果物をすばやく特定するように依頼します。これにより、6つの果物の平均精度が得られます。 Spearman rhoはこれらのデータを分析するための最良の方法であるか、および/または私が検討できる他の良い方法はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.