タグ付けされた質問 「experiment-design」

変化が存在する場合の情報収集演習の構成方法の研究。

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
ITTとATEの違いは何ですか?
影響評価に使用できるさまざまな推定量を理解できません。治療意図(ITT)の推定者は、コンプライアンスに関係なく、プログラムのない対象者とプログラムの対象者の違いを比較することを知っています。しかし、平均治療効果(ATE)も同じことを測定すると思いました。ただし、ATEはコンプライアンスを考慮しているようです。したがって、適格で治療を受けている人と、適格ではない人との結果を比較します。これは正しいです?


1
ラテン語の正方形では、行、処理、列が直交していると言われている理由
私は常に幾何学の分野で「直交」を聞いてきました(私もネイティブスピーカーではないことに注意してください)。ラテン語の四角形(教科書からの引用)について、次のことが理解できません。 すべての処理(ABCD)は、各行に1回表示されます。したがって、処理と行は直交しています。...行と列は処理に直交しています。 12341ABCD2BCDA3CDAB4DABC12341ABCD2BCDA3CDAB4DABC\begin{matrix}\,&1&2&3&4\\1&A&B&C&D\\2&B&C&D&A\\3&C&D&A&B\\4&D&A&B&C\end{matrix} ここで直交性とはどういう意味ですか?

1
高度な実験に関する優れた最新の本/リソースは何ですか?
私は、実験計画と統計分析のより困難なケースのいくつかをカバーするリソース(1冊である必要はありません)を探しています。カバーしたいケースのいくつか: 1.ランダム化の単位が分析の単位と異なる場合 例:Mの売り手とNの買い手でeコマースプラットフォームを実行しています。売り手レベルの扱いを紹介したいが、買い手が購入する確率に関心があります。一般的なバイヤーは、セッション中に複数の店舗を訪問します。 2.結果変数が大きく歪んでいる 例:コールセンターを運営していて、エージェントに連絡する前に顧客IDを入力するように顧客に要求したいと思います。通話の平均時間を減らしたいと思います。通話の分配は非常にゆがんでいます。 3.治療グループの分布が異なる 例:コールセンターは同じですが、私の扱いは短い通話の場合ははるかに良く機能し、長い通話の場合はやや悪くなります。これを分析する正しい方法は何ですか? 4.治療自体により、グループのバランスが崩れる 例:1.と同じeコマースプラットフォームですが、さまざまなランキングメカニズムを試してみたいと思います。売り手は、より有利なランキングポジションに割り当てられることにより、価格を上げたり、在庫を増やしたり、マーケティング戦略を変更したりすることができます。

1
実験計画の大学院コースは何をカバーすべきですか?
農学と生態学の上級の大学院生のために実験計画のコースを提案するように頼まれました。私はそのようなコースを受講したことがなく、このコースの名前が「Beyond one-way ANOVA」であることがわかり、農業分野の実験に関する統計の上級大学院コースで学んだ教材(例: RCBD、ラテン方陣、コントラスト、反復測定、および共変量)。たぶん、「実験結果の分析」ではなく「実験デザイン」という名前に戸惑っています。 私はそのようなコースに何が含まれるべきかについていくつかのアイデアを持っています、そしてこれが学生のニーズを満たす統計カリキュラムにどのように統合されるかについてのフィードバックをいただければ幸いです。 たとえば、線形および2次関数で回帰モデルを比較するように教えるときに、連続変数の分類を強制するANOVAで線形および2次の対比を使用するように生徒に教えることは想像できません。2番目のケースでは、実験的に定義された離散値ではない要因を処理する方法も学習します。どちらかと言えば、2つのアプローチを比較します。 「実験デザイン」のコースを教えるとしたら、適用する統計モデルに依存せず、他の問題にさらに広く適用される基本的な概念を強調したいと思います。これにより、学生は最新の統計的アプローチをより柔軟に使用できるようになります。 既存のコースでカバーされていないように見える関連概念の一部は次のとおりです。 階層モデルと混合モデル(ANOVAと親族を1つの例として理解しています) モデル比較(コントラストを置き換えるためなど) 「因子」としてブロックの代わりに空間モデルを使用する レプリケーション、ランダム化、およびIID 仮説検定、p-ハッキング、パターン認識の違い。 シミュレーションによる電力分析(たとえば、シミュレーションされたデータセットからのパラメーターの回復)、 事前登録、 発表された研究および科学的原理からの事前知識の使用。 現在そのようなアプローチを取っているコースはありますか?そのような焦点を当てたテキスト本はありますか?

1
実験の(最適な)統計的計画のための優れた、有用で特徴的な実験
代替の有効な設計戦略よりも、実験計画を適用できる現象が多くあります。実験を適切に設計するには多くの方法がありますが、これは当てはまるはずです。 さまざまな種類の最適な実験計画の価値とニュアンスを実際に示す最良の「問題」は何ですか?(A、D、E、C、V、phi、...) 本、リンク、記事、参考資料、または少なくとも経験に基づいた良い意見を提供できますか?

3
ランダム割り当て:なぜわざわざ?
ランダム割り当ては、治療を潜在的な結果から独立させることができるため、価値があります。それが、平均治療効果の公平な推定につながる方法です。しかし、他の割り当てスキームも、治療の潜在的な結果からの独立性を体系的に保証することができます。では、なぜランダムな割り当てが必要なのでしょうか。別の言い方をすれば、不偏推論につながる非ランダム割り当て方式よりもランダム割り当ての利点は何ですか? ましょう各要素が0(治療に割り当てられていない単位)または1(治療に割り当てられた単位)である処置の割り当てのベクトルです。JASAの記事で、Angrist、Imbens、およびRubin(1996、446-47)は、場合、処理割り当てはランダムであると述べていすべての\ mathbf {c}および\ mathbf {c'}に対して、\ iota ^ T \ mathbf {c} = \ iota ^ T \ mathbf {c '}である場合、\ iotaはaすべての要素が1に等しい列ベクトル。ZZ\mathbf{Z}Z私ZiZ_icPr (Z = c)= Pr (Z = c』)Pr(Z=c)=Pr(Z=c′)\Pr(\mathbf{Z} = \mathbf{c}) = \Pr(\mathbf{Z} = \mathbf{c'})cc\mathbf{c} ι T C = ι T C ' ιc』c′\mathbf{c'}ιTc = ιTc』ιTc=ιTc′\iota^T\mathbf{c} = \iota^T\mathbf{c'}ιι\iota 言い換えると、処理へのm個の割り当てを含む割り当てのベクトルが、処理へのm個の割り当てを含む他のベクトルと同じである場合、割り当てZ私ZiZ_iはランダムであるという主張です。メートルmmメートルmm ただし、治療の割り当てからの潜在的な結果の独立性を確保するには、研究の各ユニットが治療への割り当ての確率が等しいことを確認するだけで十分です。そして、ほとんどの治療割り当てベクトルが選択される確率がゼロであっても、それは簡単に起こります。つまり、ランダムでない割り当てでも発生する可能性があります。 …


1
データを再シャッフルする必要がありますか?
入手するのにかなり高額だった生物学的サンプルのセットがあります。これらのサンプルを一連のテストに通して、予測モデルの構築に使用されるデータを生成します。この目的のために、サンプルをトレーニングセット(70%)とテストセット(30%)に分けました。モデルを正常に作成し、テストセットに適用して、パフォーマンスが「最適ではない」ことを発見しました。実験家は、より良いモデルを作成するために生物学的試験を改善したいと考えています。新しいサンプルを入手できない場合は、サンプルを再シャッフルして新しいトレーニングと検証セットを作成するか、元の分割を使用することを提案してください。(この分割が問題のある分割だったことを示すものはありません)。

3
交絡変数をどうするか?
実験をする必要があります。まず、現状について説明させてください。私が働いている会社は映画館です。映画を待っている人々がゲームをすることによって時間を過ごすことができるゲームセクションがあります。プリペイド会員カードを使用してのみ支払うことができます。残念ながら、このゲームセクションは十分な売上を生み出していません。原因を見つけようとしています。 私の仮説は、現金を支払いにすれば売り上げが増えるというものです。 私の計画は、実験グループと対照グループを持つことです。実験グループは現金支払いを受け入れますが、対照グループは受け入れません。両方のグループの売上高は、実験の前後に集計されます。 これについての難しいことは、「現金支払い」要因を他の要因から分離する方法を見つけることができないことです: 映画館で上映されている映画が良ければもっと多くの人が来て、売り上げも増えるでしょう 各映画館には1つのゲームセクションしかありません。2つのセクションに分割することはできません(1つは現金を受け入れ、もう1つは受け入れません)。 いくつかのサイトが現金を受け入れ、他のいくつかが受け入れない場合、訪問者が異なり、ゲームユニットの数が異なるため、結果を直接比較することはできないと思います。 私はこの「現金支払い」変数を分離するための提案、またはおそらく別のアプローチを完全に探しています。

1
実験におけるラテン方格の望ましい特性と望ましくない特性?
ざっと検索すると、ラテン方格が実験計画にかなり広く使用されていることがわかります。私の博士号の間、私はラテン語の四角形のさまざまな理論的性質を(組み合わせ論の観点から)研究しましたが、ラテン語の四角形が実験計画に特に適している理由は何ですか? ラテン方陣は、「方向」が異なる2つの要素がある状況を統計学者が効率的に研究できるようにするのに優れていることを理解しています。しかし、使用できる他の多くの手法があると私はかなり確信しています。 特にラテン系の正方形について、実験の設計に非常に適しており、他の設計にはないものは何ですか? さらに、何十億ものラテン語の正方形から選択できます。どのラテン語の正方形を選択しますか?ランダムに1つを選択することが重要であることは理解していますが、他のラテン語の四角形よりも実験の実行に適さないものもあります(たとえば、循環グループのCayleyテーブル)。これは次の質問を提起します。 ラテン方格のどの特性が望ましく、ラテン方格のどの特性が実験計画に望ましくないですか?

2
実験で制御変数を使用していますか?
治療群への割り当てがランダムな状況で、ベースライン共変量をいくつも制御する必要があるのはなぜですか? 私の理解では、治療をランダムに割り当てると、治療変数が厳密に外因性になり、適切に反事実と見なすことができるコントロールグループが作成されます。私が考えることができる唯一の例外は、サンプルサイズが小さい場合であり、そのランダムな割り当ては依然として不均衡なグループを生成する可能性があります。 どんな考えでも大歓迎です。ありがとう!

1
統計的に有意になるまで分割テストを実行することが「悪いこと」になるのはなぜですか?(またはそれは?)
「A / Bテストを実行しない方法」についての記事を読みました。 そして、私はまだ著者の推論が正確に何であるかを理解していません。誰かが私のためにそれを馬鹿にできますか? 時間の経過とともに分割テストの結果を読むと、誤解を招くのではないかと思います。私はそれを他の人に説明できるほど十分に理解したいと思っています。 何か助けは?

1
すでにランダム割り当てを実行しているのに、実験デザインでブロッキングが必要なのはなぜですか
私はコースラのデューク統計コースの最初の部分を通過し、実験計画におけるブロッキングの概念が浮かび上がります。私が正しく理解している場合、ブロッキングとは、結果に影響を与える可能性のある変数に基づいて被験者をグループに分けることを指します。 しかし、すでにランダムな割り当てを実行している場合、ブロッキング変数のすべての「値」が異なる処理グループで等しく表現されるべきではありませんか?もしそうなら、なぜ私たちはブロッキングに悩むのですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.