タグ付けされた質問 「reliability」

一定の条件下で同様の結果が得られる場合、測定の信頼性は高いと言えます。信頼性と妥当性を混同しないでください(タグwikiを参照)。独自のタグインターレイターを持つインターレイター信頼性には使用しないでください

1
Cohenのカッパ分散(および標準誤差)の計算
Kappa()統計は、2人の評価者間の一致を測定するために、コーエン[1]によって1960年に導入されました。しかし、その分散はかなり長い間矛盾の原因でした。κκ\kappa 私の質問は、大きなサンプルでどの分散計算を使用するのが最適かについてです。私は、Fleiss [2]によってテストおよび検証されたものが正しい選択であると信じていますが、これが正しいと思われる唯一の公開されたものではないようです(かなり最近の文献で使用されています)。 現在、漸近の大きなサンプル分散を計算する2つの具体的な方法があります。 Fleiss、Cohen、Everittが公開した修正済みメソッド[2]。 Colgaton、2009 [4](106ページ)の本に記載されているデルタ方式。 この混乱の一部を説明するために、ここに強調鉱山のFleiss、CohenおよびEveritt [2]による引用があります。 多くの人間の努力は、最終的な成功が達成される前に繰り返される失敗に呪われています。エベレスト山のスケーリングはその一例です。北西航路の発見は2番目です。kappaの正しい標準誤差の導出は3番目です。 そのため、ここで何が起こったのかを簡単に要約します。 1960:Cohenは、論文「名目スケールの一致係数」[1]を発行し、と呼ばれる2人の評価者間の偶然修正された一致の尺度を紹介します。ただし、彼は分散計算の誤った式を公開しています。κκ\kappa 1968年:エヴァーリットはそれらを修正しようとしますが、彼の式も間違っていました。 1969:Fleiss、CohenおよびEverittは、論文「KappaおよびWeighted Kappaの大きなサンプル標準誤差」[2]で正しい式を公開しています。 1971:Fleiss は、同じ名前で別の統計(ただし、別の統計)を公開しますが、分散の式は正しくありません。κκ\kappa 1979:Fleiss NeeとLandisは、Fleissの修正された式を公開しています。κκ\kappa 最初に、次の表記法を検討します。この表記は、ドットが置かれている次元のすべての要素に加算演算子が適用されることを意味します。 pi.=∑j=1kpij pi.=∑j=1kpij\ \ \ p_{i.} = \displaystyle\sum_{j=1}^{k} p_{ij} p.j=∑i=1kpij p.j=∑i=1kpij\ \ \ p_{.j} = \displaystyle\sum_{i=1}^{k} p_{ij} これで、カッパを次のように計算できます。 κ^=po−pc1−pe κ^=po−pc1−pe\ \ \ \hat\kappa = \displaystyle\frac{p_o-p_c}{1-p_e} その中で po=∑i=1kpii po=∑i=1kpii\ \ \ p_o …

3
データはどの分布に従うのですか?
私には1000個のコンポーネントがあり、これらが障害をログに記録した回数と、障害をログに記録するたびにデータを収集してきたとしましょう。要するに、私はこれらの1000個のコンポーネントのそれぞれの修復時間(秒単位)を記録しています。データはこの質問の最後に記載されています。 これらすべての値を取得descdistし、fitdistrplusパッケージからRでカレンとフレイのグラフを作成しました。私の希望は、修復の時間が特定のディストリビューションに従っているかどうかを理解することでした。boot=500ブートストラップされた値を取得するためのプロットを次に示します。 このプロットは、観測がベータ分布に該当することを示していることがわかります(または、その場合、何が明らかになっているのでしょうか?) ?(私はこれらの結果の背後にある実用的な現実世界の直観を探しています)。 編集: packageのqqPlot関数を使用したQQplot car。最初に、fitdistr関数を使用して形状とスケールのパラメーターを推定しました。 > fitdistr(Data$Duration, "weibull") shape scale 3.783365e-01 5.273310e+03 (6.657644e-03) (3.396456e+02) 次に、私はこれをしました: qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03) 編集2: 対数正規QQplotで更新します。 私のデータは次のとおりです。 c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L, 540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 3049L, 129067L, 21806L, 456L, 22745L, 198L, 44568L, …

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
Joel Spolskyの「Hunting of the Snark」は、有効な統計コンテンツ分析を投稿していますか?
最近コミュニティ速報を読んでいるなら、StackExchangeネットワークのCEOである Joel SpolskyによるStackExchange公式ブログへの投稿であるThe Hunting of the Snarkを見たことがあるでしょう。彼は、外部ユーザーの観点から「友好性」を評価するために、SEのコメントのサンプルで実施された統計分析について議論しています。コメントはStackOverflowからランダムにサンプリングされ、コンテンツアナリストはAmazonのMechanical Turkコミュニティのメンバーでした。これは、手頃な料金で小規模で短いタスクを行う労働者に企業をつなぐ仕事の市場です。 少し前まで、私は政治学の大学院生であり、私が受講したクラスの1つは統計コンテンツ分析でした。クラスの最終プロジェクトは、実際その全体的な目的は、ニューヨークタイムズの戦争報告の詳細な分析を行い、アメリカ人が戦争中のニュース報道について行った多くの仮定が正確であったかどうかをテストすることでした(ネタバレ:彼らがない)。このプロジェクトは巨大でとても楽しいものでしたが、最も苦痛だったのは「トレーニングと信頼性のテストフェーズ」で、これは完全な分析を行う前に発生しました。これには2つの目的がありました(詳細な説明、およびコンテンツ分析統計文献のインターコーダー信頼性基準への参照については、リンクされたペーパーの9ページを参照)。 すべてのコーダー、つまりコンテンツの読者が、同じ定性的な定義でトレーニングされたことを確認します。ジョエルの分析では、これは誰もがプロジェクトが「友好的」と「非友好的」をどのように定義したかを正確に知っていることを意味しました。 すべてのコーダーがこれらのルールを確実に解釈したことを確認します。つまり、サンプルをサンプリングし、サブセットを分析し、定性的評価のペアワイズ相関が非常に類似していることを統計的に示しました。 信頼性テストは、3〜4回やらなければならなかったので痛いです。-1-がロックダウンされ、-2-が十分なペアワイズ相関を示すまで、完全な分析の結果は疑わしいものでした。有効または無効であることを証明できませんでした。最も重要なことは、最終的なサンプルセットの前に信頼性のパイロットテストを行う必要があったことです。 私の質問はこれです:ジョエルの統計分析にはパイロットの信頼性テストがなく、「友好性」の運用上の定義を確立しませんでした。最終データは、彼の結果の統計的妥当性について何か言うほど信頼できるものでしたか? 1つの観点から、インターコーダーの信頼性と一貫した運用定義の価値に関するこの入門書を検討してください。同じソースの詳細から、パイロットの信頼性テストについて読むことができます(リストの項目5)。 Andy W.の彼の答えの提案に従って、Rのこのコマンドシリーズを使用して、ここで入手可能なデータセットのさまざまな信頼性統計を計算しようとしています(新しい統計を計算すると更新されます)。 記述統計はこちら パーセント契約 (許容差= 0):0.0143 パーセント契約(許容差= 1):11.8 クリッペンドルフのアルファ: 0.1529467 また、別の質問でこのデータのアイテム応答モデルを試しました。

2
順序データまたは間隔データの評価者間信頼性
順序データまたは間隔データに最適な評価者間信頼性方法はどれですか? 「一致の共同確率」または「カッパ」は、名目上のデータ用に設計されていると思います。「ピアソン」と「スピアマン」は使用できますが、主に2人の評価者に使用されます(ただし、3人以上の評価者に使用できます)。 順序データまたは間隔データに適した他の尺度、つまり3人以上の評価者はいますか?

2
アンケートの信頼性の評価:次元、問題のある項目、およびalpha、lambda6またはその他のインデックスを使用するかどうか?
実験に参加している参加者のスコアを分析しています。製品に対する参加者の態度を推定することを目的とした6つの項目で構成されるアンケートの信頼性を推定したいと思います。 Cronbachのアルファを計算し、すべてのアイテムを単一のスケールとして扱い(アルファは約0.6)、一度に1つのアイテムを削除しました(最大アルファは約0.72)。アイテムの数と基礎となる構造の次元によっては、アルファが過小評価および過大評価される可能性があることを知っています。それで、PCAも行いました。この分析により、分散の約80%を説明する3つの主成分があることが明らかになりました。だから、私の質問は、今どのように進めることができるかについてのすべてですか? これらの各次元でアルファ計算を実行する必要がありますか? 信頼性に影響するアイテムを削除しましたか? さらに、Webで検索すると、信頼性の別の尺度があることがわかりました。guttmanのlambda6です。 このメジャーとアルファの主な違いは何ですか? ラムダの良い値は何ですか?

2
ROC曲線下の精度と面積
診断システムのROC曲線を作成しました。曲線の下の面積は、AUC = 0.89とノンパラメトリックに推定されました。最適なしきい値設定(ポイント(0、1)に最も近いポイント)で精度を計算しようとすると、診断システムの精度は0.8になりました。これはAUCよりも低い値です。最適なしきい値とはかけ離れた別のしきい値設定で精度を確認すると、精度は0.92になりました。最適なしきい値設定での診断システムの精度を、別のしきい値での精度よりも低く、曲線の下の領域よりも低くすることは可能ですか?添付の写真をご覧ください。

3
Cronbachのアルファ値の記述子はどこから来ますか(例:貧弱、優秀)?
Cronbachのアルファ値を次のように記述することはかなり一般的なようです: α≥0.9すばらしい 0.7≤α<0.9良い 0.6≤α<0.7許容範囲 0.5≤α<0.6悪い α<0.5許容できない これらの値はどこから来たのですか?これらを説明するオリジナルの研究記事が見つかりません。 編集:私はそれが単に慣習に基づいているだけであり、これらを概説する古典的な研究記事がないことを90%確信しています。

4
信頼性の低い/混乱した/無効な研究またはモデルが悪用された公衆衛生政策研究のケーススタディとは何ですか?
データが混同されている現在の公衆衛生問題に関する文献レビューを起草しています。 無効または交絡した関係または推論が公衆衛生政策および法律で意図的または誤って採用された公衆衛生/疫学教育で使用される一般的な歴史的事例研究とは何ですか? 法律によって要求されなければならないエアバッグ最終的にシートベルトを決定し、1960年とその後の証拠に基づく、政府主導の研究の自動車致死サージが良い例であるHOW統計的に強力な推論やモデルによって駆動されるべき公衆衛生政策。 私は反対のタイプのケースの例をもっと探しています(政策を急いで作るのは悪い科学です)。しかし、他に何もなければ、公衆衛生の利益を成功させるための強力な研究の前の例と同様の事例をもっと知りたいと思います。 これらを例として使用し、エビデンスに基づいた統計的公衆衛生研究が政策立案にとって重要であることを示したいと思います。

1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

2
イベント時間に関する不確実性を伴う時系列のイベントに対する評価者間の信頼性
時系列でイベントを識別しようとする複数の独立したコーダーがいます-この場合、対面の会話のビデオを見て、特定の非言語的行動(たとえば、頭のうなずき)を探し、それぞれの時間とカテゴリをコーディングしますイベント。このデータは、高いサンプリングレート(30フレーム/秒)の離散時系列または連続時系列のどちらかが扱いやすい方として合理的に扱うことができます。 評価者間信頼性の尺度を計算したいのですが、イベントがいつ発生したかについて不確実性があると予想しています。つまり、たとえば、あるコーダーが、他のコーダーが考えていたよりも4分の1秒遅れて特定の動きが始まったことをコーディングすることを期待しています。これらが役立つ場合、これらはまれなイベントです。通常、イベント間で少なくとも数秒(数百のビデオフレーム)。 これらの種類の同意と不一致の両方に注目する評価者間信頼性を評価する良い方法はありますか?(1)評価者は、発生したイベント(ある場合)に同意しますか?(2)発生時に同意しますか?後者は私にとって重要です。なぜなら、私はこれらのイベントのタイミングを、人々が何を言っているかなど、会話で起こっている他の事柄と比較して見ることに興味があるからです。 私の分野での標準的な実践は、物事をタイムスライス、たとえば1/4秒程度に分割し、各コーダーがタイムスライスごとに報告するイベントを集計してから、コーエンのカッパまたは同様の尺度を計算することです。しかし、スライスの継続時間の選択はアドホックであり、イベントの時間の不確実性についてはよくわかりません。 私がこれまでに持っていた最も良い考えは、ある種の信頼性曲線を計算できるということです。2つのイベントが同時にコーディングされていると見なすウィンドウのサイズの関数としてのカッパのようなもの。でも、そこからどこに行くのかよく分からないけど...

2
アンケートからの無駄な質問の特定
アンケートを作成しています。その信頼性と妥当性を改善するために、統計的手法を使用したいと思います。 答えが常に同じである質問を排除したい。これは、ほぼすべての参加者がこれらの質問に対して同じ回答をしたことを意味します。 今、私の質問は: 使用の文脈とは無関係に、答えが常に同じであるような役に立たない質問の専門用語は何ですか? そのような質問を識別する方法は何ですか?

2
因子分析、内部一貫性、およびアイテム応答理論を組み合わせて使用​​して、アイテムの数を減らす方法は?
私は経験的にアンケートを作成している最中であり、この例では任意の数字を使用して説明します。文脈のために、私は不安障害を持つ個人で一般的に特定される思考パターンを評価することを目的とした心理学的アンケートを作成しています。アイテムは、「オーブンがオフになっていることを確認できないため、オーブンを繰り返しチェックする必要があります」のように見えます。 1つまたは2つの要素で構成される20の質問(5点リッカート)があります(実際には、10のスケールで構成される200の質問があり、各スケールは2つの要素で構成されることに注意してください)。約半分の項目を消去して、2つの要因のいずれかに10の質問を残します。 探索的因子分析(EFA)、内部整合性(クロンバッハのアルファ)、アイテム応答理論(IRT)のアイテム特性曲線に精通しています。これらのメソッドのいずれかを使用して、単一のスケール内でどのアイテムが「悪い」かを判断する方法がわかります。それぞれの方法が異なる質問に答えることに感謝しますが、それらは同様の結果につながる可能性があり、どの「質問」が最も重要かはわかりません。 始める前に、これらの各メソッドで何をしているのかを個別に確認してください。 EFAを使用して、要因の数を特定し、それぞれの要因で最も負荷が少ない(たとえば<.30とする)項目、または実質的に要因間で相互に負荷をかける項目を削除します。 内部整合性を使用して、「アルファがアイテムを削除した場合」の悪いアイテムを削除します。スケール内の1つの因子を想定して行うことも、初期EFAの後に因子の数を特定し、その後各因子に対してアルファを実行することもできます。 IRTを使用して、(5リッカート)応答オプションに沿って関心のある要因を評価しないアイテムを削除します。私はアイテムの特性曲線を目撃します。基本的には、リッカートスケールのオプション1から潜在スコアに沿って最大5までの45度の角度の線を探します。1つの因子を仮定してこれを行うことも、最初の EFAの後に因子の数を特定し、その後各因子の曲線を実行することもできます。 どのアイテムが「最悪」であるかを最も適切に特定するために、これらの方法のどれを使用するかわかりません。広義の最悪の場合は、信頼性または有効性のいずれかの観点から項目が測定値を損なうように使用します。どちらも私にとって同様に重要です。おそらく私はそれらを一緒に使用することができますが、どうすればいいのかわかりません。 私が今知っていることを進めて、ベストショットを与えるとしたら、次のようにします。 EFAを実行して、多くの要因を特定します。また、他の分析でどのように動作するかに関係なく、負荷が大きくないアイテムが必要ないため、それぞれの要因で負荷が低いアイテムを削除します。 IRTを実行し、EFAから残っている場合は、その分析によって判断された不良アイテムも削除します。 CronbachのAlphaを報告するだけで、アイテムを削除する手段としてそのメトリックを使用しないでください。 一般的なガイドラインは大歓迎です! また、おそらく回答できる特定の質問のリストもあります。 因子負荷に基づいてアイテムを削除することと、Chronbachのアルファに基づいてアイテムを削除することの実際的な違いは何ですか(両方の分析に同じ因子レイアウトを使用すると仮定)? どちらを先にすればいいですか?EFAとIRTを1つの要素で行い、両方とも削除する必要がある異なるアイテムを特定すると仮定すると、どの分析を優先する必要がありますか? Chronbachのアルファを報告しますが、これらの分析をすべて行うことに苦労しているわけではありません。IRTだけを行うと、何かが足りなくなるだけでなく、EFAだけでも同じように感じます。

3
フィットした曲線の信頼性は?
当てはめられた曲線の不確実性または信頼性を推定したいと思います。それが何であるかわからないので、私は探している正確な数学的量を意図的に挙げていません。 ここで、(エネルギー)は従属変数(応答)であり、(ボリューム)は独立変数です。ある物質のエネルギー-体積曲線を見つけたいのですが。そこで、量子化学のコンピュータープログラムを使用していくつかの計算を行い、いくつかのサンプルボリューム(プロットの緑の円)のエネルギーを取得しました。V E (V )EEEVVVE(V)E(V)E(V) 次に、これらのデータサンプルをBirch–Murnaghan関数で近似しました: これは4つのパラメータ:。また、これは正しいフィッティング関数であると想定しているため、すべてのエラーはサンプルのノイズに起因するだけです。以下では、フィットされた関数が関数として記述されます。E 0、V 0、B 0、B ' 0(E)VE(E| V)= E0+ 9 V0B016⎧⎩⎨[ (V0V)23− 1 ]3B』0+ [ (V0V)23− 1 ]2[ 6 − 4 (V0V)23] ⎫⎭⎬、E(E|V)=E0+9V0B016{[(V0V)23−1]3B0′+[(V0V)23−1]2[6−4(V0V)23]}, \mathbb{E}(E|V) = E_0 + \frac{9V_0B_0}{16} \left\{ \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^3B_0^\prime + \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^2 \left[6-4\left(\frac{V_0}{V}\right)^\frac{2}{3}\right]\right\}\;, E0、V0,B0,B′0E0,V0,B0,B0′E_0, V_0, B_0, B_0'(E^)(E^)(\hat{E})VVV ここでは、結果を確認できます(最小二乗アルゴリズムに適合)。y軸の変数はで、x軸の変数はです。青い線はフィットで、緑の円はサンプルポイントです。VEEEVVV この近似曲線の信頼性の測定(ボリュームに応じて)が必要になりました。これは、遷移圧力やエンタルピーなどの追加の量を計算する必要があるためです。E^(V)E^(V)\hat{E}(V) 私の直感は、近似曲線が中央で最も信頼できることを教えてくれます。したがって、このスケッチのように、サンプルデータの終わり近くで不確実性(たとえば、不確実性の範囲)が増加するはずです。 しかし、私が探しているこのような測定値は何ですか?どのように計算できますか? 正確には、実際には1つのエラーソースしかありません。計算されたサンプルは、計算上の制限によりノイズが多くなります。したがって、データサンプルの密なセットを計算すると、それらはでこぼこの曲線を形成します。 望ましい不確実性の推定値を見つけるための私の考えは、学校で学習するときにパラメーターに基づいて次の「誤差」を計算することです(不確実性の伝播): ΔE0、ΔV0、ΔB0ΔB'0ΔE(V)=(∂E(V)∂E0ΔE0)2+(∂E(V)∂V0ΔV0)2+(∂E(V)∂B0ΔB0)2+(∂E(V)∂B′0ΔB′0)2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√ΔE(V)=(∂E(V)∂E0ΔE0)2+(∂E(V)∂V0ΔV0)2+(∂E(V)∂B0ΔB0)2+(∂E(V)∂B0′ΔB0′)2 \Delta …

2
オメガ対アルファの信頼性
オメガとアルファの信頼性の主な違いは何ですか? 次の図に示すように、オメガの信頼性は階層的因子モデルに基づいており、アルファは平均のアイテム間の相関を使用しています。 私が理解していないのは、どのような条件で、オメガ信頼性係数がアルファ係数よりも高くなるか、またはその逆ですか? サブファクターと変数の間の相関がより高い場合、オメガ係数もより高くなると仮定できますか(上の図に示されているように)? アドバイスは大歓迎です!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.