タグ付けされた質問 「ordinal-data」

大きさ順に並べることができるカテゴリ値を持つが、カテゴリ間の正確な距離(間隔)が未定義または不明のデータ。

4
Rのブラントテスト[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 6か月前に閉鎖されました。 順序ロジスティック回帰の並列回帰の仮定をテストする際、いくつかのアプローチがあることがわかりました。私は、グラフィカルなアプローチ(Harrellの本で詳述されている)とRの順序パッケージを使用して詳述されたアプローチの両方を使用しまし た。 ただし、個々の変数と全体モデルの両方に対して、Brantテスト(Stataから)も実行したいと思います。私は周りを見回しましたが、Rで実装されているのが見つかりません RにBrantテストの実装はありますか?

2
アンケートの序数データを適切な間隔データに変換する方法は?
順序レベルのデータを間隔レベルに変換する簡単な方法はありますか(逆の方法で行うのと同じように)?また、ExcelまたはSPSSで実行可能ですか? データがある、たとえば:序数レベルで10の質問(0-5スケール、0 = "not at all"、5 = "all the time"など)、それらを適切に処理できるように変換したいパラメトリックテスト用の間隔レベルデータ(正規分布、問題外のノンパラメトリックテスト)。 答えに非常に感謝します!

3
離散的な順序応答からの因子スコア
序数の離散変数がある場合に、因子スコアを推定する原則的な方法はありますか。 私が持っている序、ディスクリート、変数を。各応答の根底にある連続正規分布変数であると仮定すると、n × nの多項相関行列を計算できます。次に、このマトリックスで因子分析を実行し、各変数の因子負荷を取得できます。nnnn × nn×nn\times n 因子負荷と変数を組み合わせて因子スコアを推定するにはどうすればよいですか。スコアを推定する一般的な方法では、順序データを間隔として扱う必要があります。 リンク関数を理解するために、ポリコリック相関の根底を掘り下げる必要があると思います。

2
序数と連続確率変数の間の関連の強さのノンパラメトリック測定
私はそれを受け取ったのでここに問題を投げています。 2つの確率変数があります。1つは連続(Y)で、もう1つは離散で序数(X)として処理されます。クエリと共に受け取ったプロットの下に置きます。 データを送ってくれた人は、 XとYの関連性の強さを測定したいと考えています。データを生成したプロセスについての仮定が前に詰め込まれていないアイデアを探しています。これは、関係の強さをテストするための非パラメトリックな方法を見つけることではなく(ブートストラップなど)、それを測定する非パラメトリックな方法を見つけることに注意してください。 一方、データポイントが多いため、効率は問題になりません。

2
非二項名目変数と順序変数または数値変数の相関係数
私は問題の答えを見つけるためにこのサイトのすべてのページをすでに読んでいますが、誰も私から正しいものではないようです... まず、私が扱っているデータの種類について説明します... 300人のユーザーごとに1つずつ、複数の都市名を持つ配列ベクトルがあるとします。また、別の配列ベクトルを使用して、各ユーザーの調査に対するスコアの応答または各ユーザーの継続的な値を取得しています。 これらの2つの変数の相関関係を計算する相関係数が存在するかどうかを知りたいので、名義変数と数値変数 私はインターネットで検索しましたが、いくつかのページでは、偶発係数またはCramerのVまたはLambda係数またはEtaを使用するように提案されています。この測定値のそれぞれについて、名目変数と区間変数または数値変数があるようなデータに適用できると言ってください。問題は、検索して検索し、それらのすべてを理解しようとすることですが、Cramer's Vを除いて、二項公称変数がある場合にそれらを使用するのが合理的である例が書かれている、または見られていることもあります。データのタイプ。他の多くのページでは、代わりに回帰を適用するのが正しいと言っていますが、そうですが、この種類のデータにピアソン/スピアマンのような係数があるかどうかを知りたいだけです。 また、都市はソートできないため、Spearman Correlation coeffを使用するのはそれほど適切ではないと思います。 私はCramer'sVとEtaの関数も自分で作成しました(私はMatlabを使用しています)が、Etaについては係数が統計的に有意であるかどうかを確認するためにp値について話しません... matlabWorksサイトには、eta ^ 2を計算するように指示する素晴らしいツールボックスもありますが、必要な入力の種類は理解できません。 ここに私のようなテストをした人はいますか?私が使用しているデータの種類を理解するためにさらに詳細が必要な場合は、私に尋ねてください。私はあなたをよりよく説明しようとします。

2
データのタイプ(名義/順序/間隔/比率)は、変数のタイプと本当に見なされるべきですか?
だから例えばここに私が標準的な教科書から得た定義があります 変数-母集団またはサンプルの特性。例:テストの銘柄または銘柄の価格 データ-実際の観測値 したがって、2列のレポートの場合[名前| 収入]列名は変数であり、実際の観測値{dave | 100K}、{jim | 200K}がデータになります それで、[名前]列が名目データであり、[収入]が比率データであると言えば、ほとんどの教科書のように、データのタイプではなく変数のタイプとしてそれをより正確に説明しませんか?これはセマンティクスかもしれないと私は理解しています。しかし、私はここで何かが足りないのではないかと恐れています。

3
ロジスティック回帰(SPSS)で非バイナリのカテゴリ変数を処理する方法
多くの独立変数を使用してバイナリロジスティック回帰を実行する必要があります。それらのほとんどはバイナリですが、一部のカテゴリ変数には3つ以上のレベルがあります。 そのような変数に対処する最良の方法は何ですか? たとえば、可能な値が3つある変数の場合、2つのダミー変数を作成する必要があるとします。次に、段階的な回帰手順では、両方のダミー変数を同時にテストするか、別々にテストする方が良いですか? SPSSを使用しますが、よく覚えていないので、SPSSはこの状況にどのように対処しますか? さらに、順序カテゴリカル変数の場合、順序スケールを再作成するダミー変数を使用するのは良いことですか?(例えば、プット4状態順序変数のための3つのダミー変数を用いた0-0-0レベルに対して、レベルについて2、レベルについて3及びレベルについて4、代わりに、、および4つのレベルのために)。1111-0-02221-1-03331-1-14440-0-01-0-00-1-00-0-1

2
成長チャートを作成する最良の方法
私は5から15歳(5、6、7のみなど、2.6歳のような小数値はありません)の負ではなく、継続的である健康変数のチャート(成長チャートと同様)を作成する必要があります50〜150の範囲(この範囲外の数個の値のみ)。90、95、99パーセンタイル曲線を作成し、これらのパーセンタイルのテーブルも作成する必要があります。サンプルサイズは約8000です。 私は次の可能な方法をチェックして見つけました: 分位点を見つけて、レス法を使用して、これらの分位点から滑らかな曲線を取得します。滑らかさの程度は「スパン」パラメータで調整できます。 LMS(Lambda-Mu-Sigma)メソッドを使用します(RでgamlssまたはVGAMパッケージを使用するなど)。 分位回帰を使用します。 各年齢グループの平均とSDを使用して、その年齢のパーセンタイルを推定し、パーセンタイル曲線を作成します。 それを行う最良の方法は何ですか?「最良」とは、そのような成長曲線を作成するための標準的な方法であり、すべての人に受け入れられる理想的な方法を意味します。または、いくつかの制限があるかもしれませんが、受け入れ可能でより速い方法である、実装がより簡単で単純な方法。(たとえば、パーセンタイル値でloessを使用すると、gamlssパッケージのLMSを使用するよりもはるかに高速です)。 また、そのメソッドの基本的なRコードになります。 ご協力いただきありがとうございます。

2
ロジスティック回帰と順序独立変数
私はこの投稿を見つけました: はい。係数は、順序予測子の変化の増分ごとの対数オッズの変化を反映します。この(非常に一般的な)モデル仕様では、予測子がその増分全体で線形的な影響を与えると想定しています。仮定をテストするために、順序変数を単一の予測子として使用するモデルと、応答を離散化して複数の予測子として処理するモデルを比較できます(変数が名目である場合と同様)。後者のモデルの結果が大幅に良くならない場合は、各増分を線形効果があるものとして扱うのが妥当です。 – @ dmk38 10年12月12日5:21 この主張を裏付ける公開されたものをどこで見つけられるか教えていただけませんか?私はデータを使用していますが、ロジスティック回帰で順序独立変数を使用したいと考えています。

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 


4
2つの製品を区別する統計テストを開発する
顧客調査からのデータセットがあります。製品1と製品2の間に有意差があるかどうかを確認するために統計テストを展開したいと思います。 これは、顧客のレビューのデータセットです。 料金は非常に悪い、悪い、いい、良い、とても良いからです。 customer product1 product2 1 very good very bad 2 good bad 3 okay bad 4 very good okay 5 bad very good 6 okay good 7 bad okay 8 very good very bad 9 good good 10 good very good 11 okay okay 12 very good good …

1
順序付けられたデータの相関係数:ケンドールのタウvsポリコリックvsスピアマンのrho
順序付けられた測定を使用して管理する場合、研究者は通常ポリコリック相関を扱います。(例えば、因子分析を行う前に行列を作成する場合。)なぜそうするのですか? ケンドールタウの順位相関係数とスピアマンの順位相関係数も、順序付けられたデータに適しています。 これらの相関係数の「賛成」と「反対」の点は大歓迎です。

5
量的データ、質的データ、またはその両方の公称、序数、およびバイナリですか?
私はデータ型を取り巻いていて、いくつかの助けが必要です: 上記の画像(ここから取得)を見ると、次のようなデータ型があります。 定量的(離散、連続) 定性的(名詞(N)、序数(O)、二項(B))。 しかし、次の写真(ここから)を見ると、カテゴリは次のとおりです。 定量的(離散(NOB)) 定性 1つの画像は定性的にNOBがあり、もう1つの画像は定性的にNOBです。どちらが正しいか?

1
ECDFの信頼区間
ドボレツキー-キーファー-ウォルフォウィッツの不等式は次のとおりです。 、Pr (sup | F^ん(x )− F(x )| > ε )≤ 2 のexp(− 2 n ϵ2)Pr(sup|F^n(x)−F(x)|>ϵ)≤2exp⁡(−2nϵ2)Pr(\text{sup}|\hat{F}_n(x)-F(x)|>\epsilon)\leq 2\exp(-2n\epsilon^2) そして、経験的に決定された分布関数が、経験的なサンプルが抽出される分布関数にどれだけ近いかを予測します。この不等式を使用して、我々は信頼区間を描画することができ(CIさん)の周りにあるF N(X )(関数ecdf)。しかし、これらのCIはECDFのすべての点の周囲で距離が等しくなります。F^ん(x )F^n(x)\hat{F}_n(x) ECDFの周りにCIを構築する別の方法はありますか? 順序付き統計について読むと、順序付き統計の漸近分布は次のようになります。 さて、最初に、これらの記号の付いたインデックスは何を意味しますか?n pnpnp 主な質問:ECDFにCIを提供するために、この方法をデルタ法(下記参照)と一緒に使用できますか?つまり、ECDFは順序付けられた統計の関数です。しかし、同時にECDFはノンパラメトリック関数なので、これは行き止まりですか? 我々はそれを知っている及び ヴァー(F N(X ))= F (X )(1 - F (X ))E(F^ん(x ))= F(x )E(F^n(x))=F(x)E(\hat{F}_n(x))=F(x)Var (F^ん(x ))= F(x )(1 − F(x ))んVar(F^n(x))=F(x)(1−F(x))n\text{Var}(\hat{F}_n(x))=\frac{F(x)(1-F(x))}{n} ここで何が得られているのかが明確になり、助けに感謝します。 編集: デルタ方法:あなたは、ランダムな変数の順序がある場合は満たしますバツんXnX_n …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.