タグ付けされた質問 「reliability」

一定の条件下で同様の結果が得られる場合、測定の信頼性は高いと言えます。信頼性と妥当性を混同しないでください(タグwikiを参照)。独自のタグインターレイターを持つインターレイター信頼性には使用しないでください

4
公開されたリッカート尺度の項目数を有効に減らすことはできますか?
[フィードバックに応じて行われた編集-感謝:-)] どー!さらに編集!ごめんなさい! こんにちは- 私は、モラールや他のそのような問題について公表された尺度を使用してヘルスケアスタッフに送信される調査で、かなりラフで準備が整ったデータ収集を行っています。 唯一のことは、スケールは調査の他のすべてのものと比べてかなり長いことです。私は、各サブスケールを半分にカットし、アイテムの半分だけを使用することでサイズを縮小したいと考えています。私の直感では、サブスケールは相互に相関しているため、これで問題ありません。出版基準の調査には理想的ではありませんが、組織内の事実を少しでも発見しても問題ありません。 これを行うことの有効性、落とし穴、または他の何かについて誰かが何か考えを持っているのではないかと思いました。私の同僚には説得力のあるものが必要なので、特に参考文献はありがたいです。 どうもありがとう、クリスB 編集- はい、それは既知の心理測定特性を持つ検証済みのスケールです。 一次元であり、サブスケールがあります。 アイテムレベルではなく、サブスケールレベルと合計レベルで作業します。 30アイテム、おそらく約40-60個人。 乾杯!

2
外れ値を検出するためのIQRの精度
プロセスの実行時間を分析するスクリプトを書いています。それらの分布はわかりませんが、プロセスが「長すぎる」かどうかを知りたいです。これまでのところ、最後の実行時間の3つの標準偏差(n> 30)を使用してきましたが、データが正常でない場合(これは正常ではないように見える)、これは有用なものではないと言われました。私は次のような異常値テストを見つけました: IQR = Q3-Q1である四分位範囲を見つけます。Q3は3番目の四分位数、Q1は最初の四分位数です。次に、次の2つの数値を見つけます。 a)Q1-1.5 * IQR b)Q3 + 1.5 * IQR <aまたは> bの場合、ポイントは異常値です 私のデータは2秒、3秒、2秒、5秒、300秒、4秒などの傾向があります。ここで、300秒は明らかに異常値です。 どちらの方法が良いですか?IQR法または標準偏差法?

2
スピアマンブラウンの予言式は、さまざまな困難の問題の影響を受けますか?
スピアマンブラウンの予言式の結果は、難易度の異なるテスト問題を抱えていることや、評価が簡単または難しい評定者にどのように影響されますか。尊敬されているテキストの1つは、SBが影響を受けると述べていますが、詳細は示していません。(下の引用を参照してください。) Guion、R. M(2011)。人事決定の評価、測定、予測、第2版。477ページ 「スピアマンブラウン方程式を使用して評価者をプールすることで信頼性を高めることができます。単一の評価の信頼性が.50の場合、2、4、または6つの並列評価の信頼性は約.67、.80になります。 、およびそれぞれ.86」(Houston、Raymond、&Svec、1991、p。409)。統計的推定は、すべてが想定どおりに進んだ場合に予想されるものの「平均的」な声明であることを単語がおおよそ認識しているため、この引用が好きです。それを超えて、手術の言葉は平行しています。たとえば、1つの評価者が体系的に寛容である場合、評価の平均化(またはSpearman-Brownの使用)は、単に想定に適合しません。エッセイがそれぞれ2つの評価者によって評価され、一方がもう一方より寛容である場合、問題は、難易度が等しくない(非並行形式)の2つの多肢選択テストを使用する問題に似ています。異なる(不等)テストフォームに基づくスコアは比較できません。したがって、それは寛大で難しい評価者を混合することです。プールされた評価の信頼性は、古典的なテスト理論のスピアマンブラウン方程式によって誤って推定されます。各裁判官が構成を少し異なるように定義すると、問題はさらに悪化します。」

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
クラス内相関係数対F検定(一元配置分散分析)?
クラス内相関係数と一元配置分散分析について少し混乱しています。私が理解しているように、どちらも、グループ内の観測値が他のグループの観測値とどの程度類似しているかを示しています。 誰かがこれをもう少しよく説明できますか、そしておそらく各方法がより有利である状況を説明できますか?

1
コンセンサスランキングの信頼性を測定する方法(Kemenny-Snellブックの問題)
仮定専門家がそれぞれの組ランク付けするように依頼された順序または優先的にオブジェクトを。ランキングでの同点を許可しましょう。kkknnn John KemenyとLaurie Snellは、1962年の著書「社会科学における数学モデル」で、次の問題を解決することを提案しています。 プロジェクト。 人の専門家によるコンセンサスランキングの信頼性の尺度を作成します。たとえば、これは、単一のエキスパートのランキングを変更することによって引き起こされる可能性のある最大の変更に基づいている場合があります。(複数のコンセンサスランキングの可能性に注意を払う必要があります。)特定の可能な最も信頼できるコンセンサスと最も信頼できないコンセンサスに関するいくつかの定理を証明します。111kkkkkk この本は、ランキングの表記とランキングの集計方法を示しています(つまり、多くの「個人」から1つの「集団」ランキングを取得します)。しかし、上記の問題に対する答えはありません。 まず、ケンドールの一致係数WWWについて考えましたが、適切ではないようです。どんなアイデアでも大歓迎です!


1
スケールの信頼性の測定(Cronbachのアルファなど)とコンポーネント/要素の負荷の関係は何ですか?
心理学の研究のように、理論的には少数のスケールで構成されている一連のアンケート項目のスコアを含むデータセットがあるとします。 ここでの一般的なアプローチは、クロンバッハのアルファなどを使用してスケールの信頼性を確認し、スケールの項目を集計してスケールスコアを形成し、そこから分析を続けることです。 しかし、因子分析もあります。これは、すべてのアイテムスコアを入力として受け取り、それらが一貫した因子を形成していることを通知します。負荷や共同性などを調べることにより、これらの要素がどの程度強力であるかを知ることができます。私にはこれは同じようなもののように聞こえますが、はるかに詳細です。 スケールの信頼性がすべて優れていても、EFAはどのアイテムがどのスケールに適しているかを修正することがありますよね?あなたはおそらくクロスローディングを取得するでしょうし、単純なスケール合計よりも派生因子スコアを使用する方が理にかなっているかもしれません。 これらのスケールを後の分析(回帰やANOVAなど)に使用する場合、信頼性が維持される限り、スケールを集計する必要がありますか?または、CFAのようなものです(スケールが適切な要素として保持されるかどうかをテストするテスト。これは、「信頼性」と同じものを測定しているようです)。 私は両方のアプローチを個別に教えられてきたので、それらがどのように一緒に使用できるか、どちらがどのコンテキストに適しているかなど、それらがどのように関連しているかは本当にわかりません。この場合、優れた研究実践のための決定木はありますか?何かのようなもの: 予測されたスケールアイテムに従ってCFAを実行する CFAが適切な適合を示している場合は、因子スコアを計算し、それらを分析に使用します。 CFAの適合性が低い場合は、代わりにEFAを実行し、探索的アプローチ(または何か)を実行します。 因子分析と信頼性テストは、実際には同じことへの別のアプローチですか、それとも私はどこかで誤解していますか?

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
可変数の評価を使用してRの評価者間の信頼性を計算していますか?
ウィキペディアでは、評価者間の信頼性を確認する1つの方法は、変量効果モデルを使用してクラス内相関を計算することです。クラス内相関の例では、 σ2ασ2α+σ2ϵσα2σα2+σϵ2\frac{\sigma_\alpha^2}{\sigma_\alpha^2+\sigma_\epsilon^2} モデルから Yij=μ+αi+ϵijYij=μ+αi+ϵijY_{ij} = \mu + \alpha_i + \epsilon_{ij} 「Yここでijは jは番目 Iで観察番目のグループ、μはα、未観測全体平均でiは iがグループ内のすべての値で共有未観測ランダム効果であり、ε ijは未観測ノイズ項です」。 特に私のデータでは、評価者がすべてのものを評価しておらず(ほとんどが20+を評価しています)、さまざまな回数(通常は3〜4)の評価が行われているため、これは特に魅力的なモデルです。 質問0:その例の「グループi」(「グループi」)は、評価されているもののグループですか? 質問#1:評価者間の信頼性を求めている場合、評価者と評価対象の2つの項を持つ変量効果モデルは必要ありませんか?結局のところ、両方とも可能なバリエーションがあります。 質問#2:このモデルをRで最もよく表現するにはどうすればよいですか? ているかのように見えます。この問題は、見栄えの良い提案があります。 lmer(measurement ~ 1 + (1 | subject) + (1 | site), mydata) 私は見てカップルの 質問、およびLMEのための「ランダム」パラメータの構文は、私には不透明です。lmeのヘルプページを読みましたが、「ランダム」の説明は例がなければ理解できません。 この質問は質問の長い リストにいくぶん似ていますが、これが最も近い質問です。ただし、ほとんどの場合、Rについては詳しく説明されていません。


3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

2
内部因子構造は良好ですが、Cronbachの不良ですか?
私はCFAを実行しており、1次元スケールの適切なインデックス(CFI = .99、RMSEA = .01)を取得しています。ただし、内部整合性をテストすると、Cronbachの s()が悪くなります。外れ値の削除からアイテムの削除まですべてを試しましたが、それでも同じ問題が発生します。αα\alphaα = .6α=.6\alpha = .6 SEMに測定が信頼できることを示すものがあるかどうか疑問に思っていますか? クロンバックの(または内部一貫性)が信頼性を測定するかどうかについては議論があることを知っていますが、私の分野ではクロンバックのを心理測定の良さの尺度として報告する必要があるため、内部一貫性をあるものとして示す方法を見つける必要がありますこの対策には十分です。αα\alphaαα\alpha

1
複数の評価者、参加者ごとに異なる評価者、および経時変化の可能性がある評価者間信頼性を実行する方法は?
参加者は2回評価され、2つの評価は3年で区切られていました。ほとんどの参加者について、評価は異なる評価者によって行われましたが、一部(10%未満)では、同じ評価者が両方の評価を行いました。合計8人の評価者がおり、2つの評価者が両方の時点で評価を行っていました。 さて、評価は仮想の「正しい」値を持つ能力の側面のものだったので、評価者間の絶対的な合意は一貫性よりも重要です。ただし、評価は3年間隔で行われたため、能力に実際の変更があった可能性があります(おそらく変更されていました)。 この場合、信頼性の最良のテストは何でしょうか? 私はクラス内相関に傾いていますが、ICC1はこれらのデータで実行できる最善の方法ですか?

2
コーエンのカッパは2つの判断にのみ使用できますか?
私はコーエンの河童を使用して、2人の裁判官間の同意を計算しています。 次のように計算されます。 P(A )− P(E)1 − P(E)P(あ)−P(E)1−P(E) \frac{P(A) - P(E)}{1 - P(E)} ここで、は一致の割合、は偶然の一致の確率です。P (E )P(A )P(あ)P(A)P(E)P(E)P(E) 次のデータセットの場合、期待される結果が得られます。 User A judgements: - 1, true - 2, false User B judgements: - 1, false - 2, false Proportion agreed: 0.5 Agreement by chance: 0.625 Kappa for User A and B: -0.3333333333333333 両方の裁判官があまりよく合意していないことがわかります。ただし、次の両方の裁判官が1つの基準を評価する場合、カッパはゼロと評価されます。 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.