タグ付けされた質問 「quality-control」

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

8
人々にデータをよりよく世話させるにはどうすればよいですか?
私の職場には非常に幅広い分野の従業員がいるため、さまざまな形でデータを生成しています。その結果、各チームはデータを保存する独自のシステムを開発しました。AccessデータベースまたはSQLデータベースを使用するものもあります。一部のチーム(私の恐怖)は、ほぼ完全にExcelスプレッドシートに依存しています。多くの場合、データ形式はプロジェクトごとに変わります。場合によっては、それを「システム」と呼ぶのはあまりにも親切です。 これに伴う問題は、すべてのプロジェクトのデータを消去するために新しいコードを作成する必要があることです。これは高価です。スプレッドシートを手動で編集する人は、データの再現性と監査をほぼ不可能にします。さらに悪いことに、データが失われたり、不正確になったりする可能性があります。 私は会社の役員とこれらの問題について話し合う機会を与えられました。私は彼に何を伝えるべきかを考え出す必要があります。私たちには問題があり、これを正しくすることでより良い科学とお金の節約が可能になると彼を説得したと思います。問題は、何を目指すべきか、そしてどのようにそこに到達するかです。 すなわち: 論文の作成から公開まで追跡できるように、データをどのように保存する必要がありますか?(データベースは中央サーバーに保存されていますか?) データベース形式を標準化するにはどうしますか? データの世話をする方法について人々を教育するための良いリソースはありますか?(原則として、職業衛生士と爆発物のエンジニアはデータオタクではないため、非技術的なコンテンツが優先されます。)

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
なぜベイジアン統計が統計的プロセス制御でより一般的ではないのですか?
ベイジアン対頻繁な議論の私の理解は、その頻繁な統計です: 客観的である(または主張する) または少なくとも公平 異なる仮定を使用する異なる研究者は、依然として定量的に比較可能な結果を​​得ることができます 一方、ベイジアン統計 事前知識を使用できるため(他の理由の中でも)、「より良い」予測(つまり、予想損失の低減)を行うと主張する 必要な「アドホック」選択が少なくなり、(少なくとも原則として)現実世界で解釈される事前/モデル選択に置き換えられます。 それを考えると、ベイジアン統計はSPCで非常に人気があると予想していました。プロセスの品質を管理しようとする工場の所有者であれば、主に予想される損失を気にします。競合他社よりも多くの/より良い事前知識を持っているので、それを減らすことができれば、さらに良いです。 しかし、SPCについて私が読んだ事実上すべてがしっかりと頻繁に行われているようです(つまり、事前分布なし、すべてのパラメーターのポイント推定、サンプルサイズ、p値などのアドホックな選択) 何故ですか?SPCがペンと紙を使用して行われた1960年代に、頻度統計がより良い選択であった理由がわかります。しかし、それ以来、なぜ誰もが異なる方法を試しなかったのでしょうか?

2
データベースの品質保証および品質管理(QA / QC)ガイドライン
バックグラウンド 私は一次文献からデータベースへのデータの入力を監督しています。特に、ユーザーが実験計画を解釈し、グラフィックと表からデータを抽出し、結果を標準化された単位に変換する必要があるため、データ入力プロセスはエラーが発生しやすくなります。 データは、Webインターフェイスを介してMySQLデータベースに入力されます。これまでに、20を超える変数、100を超える種、および500を超える引用からの1万を超えるデータポイントが含まれています。可変データだけでなく、各データポイントに関連付けられた種、研究の場所など、ルックアップテーブルに含まれるデータの品質のチェックを実行する必要があります。 データ入力が進行中のため、QA / QCを断続的に実行する必要があります。データはまだ公開されていませんが、今後数か月以内に公開する予定です。 現在、私のQA / QCには3つの手順が含まれています。 2人目のユーザーが各データポイントをチェックします。 外れ値の各変数のヒストグラムを視覚的に検査します。 ユーザーは、誤った結果が得られた後に疑わしいデータを報告します。 ご質問 このデータベースの堅牢なQA / QC手順の開発に使用できるガイドラインはありますか? 最初のステップは最も時間がかかります。これをより効率的にするためにできることはありますか?

3
非常に低いエラー率を確認する方法
センサーのエラー率が非常に低い(1,000,000回の試行でエラーが1つ以下)ことをテストして実証しようとすることに直面しています。実験を行う時間は限られているため、約4,000回を超える試行を取得することはできません。センサーが要件を満たしていないことを示す問題はありません。4,000回の試行で1つのエラーでも、0.000001を超える下限でエラー率の95%信頼区間が得られるためです。ただし、それが要件を満たしていることを示すことは問題です。4,000回の試行でエラーが0であっても、下限は0.000001より大きくなります。任意の提案をいただければ幸いです。

2
外れ値の検出に関する問題
Andrew Gelmanはブログ投稿でこう書いています: ステップワイズ回帰は、外れ値の検出や円グラフなど、これらの1つです。統計学者の間では人気が高いように見えますが、統計学者はちょっと冗談だと考えています。 円グラフへの参照を理解しましたが、Gelmanによると、統計学者が異常値の検出を軽視しているのはなぜですか?それは人々が彼らのデータを過剰に剪定することを引き起こすかもしれないということだけですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.