タグ付けされた質問 「ordinal-data」

大きさ順に並べることができるカテゴリ値を持つが、カテゴリ間の正確な距離(間隔)が未定義または不明のデータ。

2
異なるリンク関数を使用した順序ロジスティック回帰
4つの明確で順序付けられたカテゴリを持つ結果変数を考​​えてみます。これは、順序ロジスティック回帰を使用して、共変量がラダーを1つ「ステップ」上に移動するときの共変量の効果を推定するのに適しているようです。 しかし、主題はカテゴリー全体に特に均等に分散しているため、疑問が生じます。 ORが相対リスクを概算するための「まれな結果の仮定」は、通常のロジスティック回帰で依然として真実ですか? もしそうなら、相対リスクを直接推定するようにリンク関数を変更することは可能ですか?また、そのような場合の収束の問題に対処するために、ロバストな標準誤差を持つポアソン近似のようなものを使用することはまだ可能ですか?

3
ランク付けされたデータを比較する方法は?
ランク付けされたデータの分析方法について質問があります。 データは次のようになります。HIVに感染している4つのグループと、同じ村に住んでいる他の16人のグループに、HIVに感染している人の12の課題を重要度に応じてランク付けするよう依頼しました。(fe身体的健康-社会的受容-精神的健康-...)特定の課題に対するHIV感染者の認識が他の人と異なるかどうかは、どうすればわかりますか? 別の質問:すべての回答者(120)は、最も困難な5つの課題のリストから個別に選択するように求められました。HIV感染者が他の人とは異なる課題を選択しているかどうかは、どうすればわかりますか? 調査結果を提示する最良の方法は何ですか?統計的検定はありますか?クラスカルウォリスは可能ですか?私はずっとインターネットを探していましたが、行き詰まっています。

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
名義属性を持つ順次データの分析のためのデータマイニングアプローチ
経験豊富なデータマイナーへの質問: このシナリオを考えると: N個のショッピングカートがあります 各ショッピングカートには、無限に大きいセットからの任意の数のMアイテムが入っています(私が持っている現在のデータ量では、その任意の数は約1500に達する可能性があります)。 各カートが満たされる順序は重要です 買い物客の地理位置情報などの他の属性もありますが、アルゴリズムをより簡単にするために、これらの属性を破棄することができます(現在は除外しています)。 する必要がある: 特定の時点で、各カートに注文されたアイテムのセットのみが与えられている場合、クラスラベルの事前の知識がなくても「類似した」カートを識別します 一定量のデータが収集され、データが処理されてラベルが割り当てられたら、将来の目に見えないデータをすばやく処理できる分類子を作成します 最初のアプローチ: これまでのところ、私のアプローチは最初の点に焦点を当ててきました。私の方法では、k平均クラスタリングを使用し、カート間のハミング距離を計算して生成された距離行列を使用して、データの順次的な性質を処理します。このように、[りんご、バナナ、梨]は[梨、りんご、バナナ]とは異なりますが、[りんご、バナナ、梨]は[りんご、バナナ、カモシカ]とそれほど異なりません。kの適切な値は、シルエット係数の調査を通じて決定されます。これから生成されたクラスターは理にかなっているように見えますが、私のデータセットがスケーリングするため、私のメソッドの実行時間は明らかに禁止されます。 質問: 誰かがこの問題について初心者のデータマイナーに何か提案をすることはありますか? 詳細情報を含む編集: n-gram機能を使用してペアで比較することを検討する提案を見つけました。これについて私が懸念しているのは順序です。n-gramモデルが使用されている場合、シーケンスの順序は維持されますか?また、この方法ではパフォーマンスの問題が発生する可能性が高くなります。

3
複数のリッカートアイテムの中央値の違いをテストする方法は?
アンケート調査では、雪、滑りやすさなどのさまざまな冬の気候要因が、歩行や自転車の動作の選択にどのように影響するかについて、回答者に態度を示すように依頼しました。500人の個人と回答で構成されるサンプルは、非常に否定的から非常に肯定的(通常の尺度)までの5段階の評価形式でした。 さまざまな質問に対する回答を比較したい場合、データは序数であるため、中央値は適切なツールだと思います。比較するということは、差の確率が有意であるかどうかを示すためのさまざまな統計的検定があることを知っています(t検定または非パラメトリック検定など)。しかし、ここで説明した種類のデータに対してこれらのテストを使用できるかどうか、少し混乱しています。 中央値の比較に使用する検定統計量はありますか? または、適切であれば、データを間隔スケールに転送する必要がありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.