タグ付けされた質問 「experiment-design」

変化が存在する場合の情報収集演習の構成方法の研究。

1
(参考資料)単に記憶するだけでなく、実験計画モデルをどのように導き出すか?
私が取っているMSレベルの統計手法クラスでは、実験計画のためのさまざまな線形モデルについて学びました。たとえば、 ランダム化完全ブロック設計(RCBD)モデルの場合、 ます(はブロックを表し、は処理を表します)、ブロック効果を表す(固定)治療効果、一部分布以下。I J β τ ε I J N(0 、σ 2 ε)Y私はj= μ + β私+ τj+ ε私はj、Yij=μ+βi+τj+εij,Y_{ij} = \mu + \beta_i + \tau_j + \varepsilon_{ij}\,,私iijjjββ\betaττ\tauε私はjεij\varepsilon_{ij}N(0 、σ2ε)N(0,σε2)\mathcal{N}(0, \sigma^2_{\varepsilon}) このモデルのように直感的に理解できるように、方程式を覚えるだけでなく、1レベル深く掘り下げて、このモデルがどのように派生するかを理解したいと思います。 質問: RCBDや他の実験計画モデルのこの方程式を導き出す情報源を誰かに紹介してもらえますか? 回答による編集:これを尋ねる理由は、ChristansenのPlanes Answers to Complex Questions(付録G)で、単純なランダムサンプリング方程式、完全にランダム化された設計方程式およびランダム化された完全なブロック設計方程式、「ランダム化理論に基づいたより適切なモデルへの適切な近似」として。以前、彼は述べています、Y I J = μ I + E I J Y I J = α …

1
なぜ人々は、多くの場合の決定を最適化
セイ私はランダムベクトルきたとΣ ≠は、σ 2 Iを。すなわち、元素Y(所定のX βは)相関しています。Y∼N(Xβ,Σ)Y∼N(Xβ,Σ)Y\sim N(X\beta,\Sigma)Σ≠σ2IΣ≠σ2I\Sigma\neq\sigma^2 IYYYXβXβX\beta 天然の推定量ある(X ' Σ - 1 X )- 1 X ' Σ - 1 Y、およびVAR (β)= (X ' Σ - 1 X )- 1ββ\beta(X′Σ−1X)−1X′Σ−1Y(X′Σ−1X)−1X′Σ−1Y(X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1}Yvar(β^)=(X′Σ−1X)−1var(β^)=(X′Σ−1X)−1\text{var}(\hat{\beta})=(X'\Sigma^{-1}X)^{-1} 設計コンテキストにおいて、実験者は異なることになるデザインをいじることができ及びΣ従って異なるVAR (β)。最適なデザインを選択するには、私は人々は、多くの場合、最小化への決定しようとしていることがわかり(X " Σを- 1 X )- 1、この背後にある直感は何ですか?XXXΣΣ\Sigmavar(β^)var(β^)\text{var}(\hat{\beta})(X′Σ−1X)−1(X′Σ−1X)−1(X'\Sigma^{-1} X)^{-1} その要素の合計を最小化しないのはなぜですか?

1
(ひねりを加えた)市場調査の実験を設計する方法は?
たとえば、1000人の見込み客がいるオークションを考えてみましょう。これらの見込み客(年齢、性別、人種、収入、学業成績など)に関する情報に基づいて、製品の売り上げをその一部、たとえば250に「入札」することができます(入札コストは無視してください)。適切なサブセットを選択する可能性を最大化するには、おそらくロジスティック回帰を使用して構築された当社の製品の「好感度」のモデルを使用します。私はこの部分をうまく通り抜けることができます。 ただし、製品の好感度のモデルを構築するには、市場調査を行い、一般の人々から募集する可能性のある主題について製品の売り込みをテストする必要があります。これは実際にはかなりコストがかかります。さらに、それはおそらく、見込み客が引き出されている人口の人口統計に合わせる必要があります。たとえば、要因計画では、実際には、たとえば1000人の見込み客の中でネイティブアメリカンとの出会いが非常に少なく、原則として、彼らにまったく売り込まないことを選択します。(悲しいが本当。) そのような実験はどのように設計されるべきですか?具体的には、設計変数はすべてカテゴリーおよび順序の要素であり、入札比率は入力パラメーター(上記の例では1/4)であり、募集できる対象の最大数も同様です。実験計画と無作為抽出のいくつかの組み合わせが適切であるように思われるかもしれませんが、私はすべての合理的な提案と指針に寛容です。 また、エフェクトサイズが小さく、サンプルの募集プールが小さいため、市場調査で統計的に有意な回帰係数が得られる可能性は低いことにも注意してください。そして、実験計画を過度に最適化することはおそらく愚かなことであり、合理的ではない非常識な手順で十分です。

2
分割プロットについて
誰かが分割プロットの背後にある直感を説明できますか? 私が理解していることから、それは本質的に制限されたランダム化です。しかし、私はまだそれを完全に理解していません。誰かがそれをより明確にするために私に与えることができるリソースまたは例はありますか?

2
ユーザー設定のテスト
M1とM2の2つの方法を比較するユーザーテストを生成しました。私は40のテストケースを生成し、テストケースの各メソッドの結果を20人の個人に並べて表示します。個人は、どのメソッドからどのような結果が得られたかがわかりません。各テストケースについて、M1によって計算された結果が優れているか、M2が優れているか、それとも同等に優れているかを各人が言わなければなりません。 M1がM2よりも良いかどうか知りたい。すべての結果を合計して、3-Dヒストグラムを生成し、M1に投票し、同点に投票し、M2に投票します。 M1とM2を2次元ヒストグラムとしてのみ見た場合。M1とM2が同等に優れていれば、このヒストグラムは均一になることを知っています。次に、テストを実行します。χ2χ2\chi^2 モデル化の方法がわからないのは同点投票です。私が考えた2つのオプションは次のとおりです。 カイ2乗検定の基本は、ヒストグラムが相互に排他的であり、合計が1になることです。引き分けの票は2つに分割され、M1とM2のそれぞれに追加されます(引き分けは削除されます)ようですが、これはあまり原則的ではないようです。 もう1つのオプションは、関連付けを無視することです。「1つに追加」プロパティを壊すため、欠陥があるようです。たとえば、(M1:2、ties:98 M2:0)の場合、両方の方法の差は統計的に有意ではありません。 他に何ができますか?私はこれを間違って見ていますか?これは、ユーザーの投票をモデル化するときに人々が直面する一般的な問題のようです。絆をモデル化する正しい方法は何ですか?

3
不確実性と感度分析
次の問題があります。 スカラーの入力(次元ベクトル)、順序付けられた整数と順序付けされていない整数(つまり、ラベル)、および1つまたは複数の出力が与えられると、私は推定したいと思います。xxxnnnyyy どの入力が出力を最もよく説明しています。 1つの入力の変動が出力の変動をどの程度意味します。 これは非常に広い分野である不確実性と感度分析に関連していると思われます。私の問題に関連するアプローチを持つメソッド/リソースを知っていますか?

1
ランダム化にもかかわらずベースラインに有意差が存在するRCTを分析する方法は?
私は、RでANCOVAを使用して二重盲検プラセボ対照RCTを分析しています。この場合、治療が行われる前に予測される「治療効果」が示されます。 研究の目的は、病気の治療が特定の行動を減らすかどうかを決定することです。病気と行動の両方を持つ人々は、50-50の治療とプラセボ対照群に無作為に割り付けられました。 予測されたように、介入とベースラインの病状との間に有意な相互作用がありました(「介入」を除くすべての変数は間隔です。これは、治療と対照群を識別する2レベルの因子変数です)。 MODEL 1: Call: lm(formula = follow_up_behavior ~ baseline_behavior + baseline_disease * intervention, data = d) Estimate Std. Error t value Pr(>|t|) (Intercept) 11.28464 0.51177 22.050 <2e-16 *** baseline_behavior 0.77872 0.05112 15.234 <2e-16 *** baseline_disease 0.36726 0.23110 1.589 0.1146 interventiontreatment 0.74738 0.70254 1.064 0.2895 baseline_disease:interventiontreatment -0.64681 0.31374 -2.062 …

1
私が見ている問題の種類を理解するのを手伝ってくれる人はいますか?これが仮説検定として分類されるかどうかわからない
この質問が明確でない場合はご容赦ください。適切な用語を使用しているかどうかはわかりません。 さまざまな環境で何度も実験を行いました。だから私のデータは次のようになります: Environment1 1.2 2.1 1.1 1.5 1.6 Environment2 4.2 2.6 3.5 2.5 2.9 Environment3 7.2 4.6 5.3 4.5 1.6 Environment4 0.0 0.0 1.2 15.0 0.0 Environment5 3.2 2.4 7.2 5.5 6.6 Environment6 23.2 32.1 18.1 1.5 19.6 実験がEnvironment4(低すぎて変動が激しい)とEnvironment5(高すぎる)で適切に行われなかったことははっきりと(またはおそらく私の直感では)わかりますが、これを証明する方法がわかりません。私は仮説を用いた仮説テストに依存することになっていますか? 実験は、環境4および6では適切に行われませんでした。 そして、これを証明するためにいくつかの手順を使用しますか?またはこれを示す標準的な方法はありますか?誰かが私にこの種の問題に取り組む方法を助けてくれませんか?私はRを使用しています。

2
結果にある程度の良さを主張するために、シミュレーションのサンプルサイズを計算するにはどうすればよいですか?
私は統計の初心者なので、頭の悪い質問をする場合は事前に謝罪してください。質問への回答を検索しましたが、トピックの多くが具体的すぎるか、現在理解しているトピックをすぐに超えてしまいます。 完全にシミュレーションすることが不可能になる大規模なデータセットを含むシミュレーション作業があります。最小のデータセットの場合、完全な実行では、合計9180900テストからの結果の次の分布が示されます。 結果/頻度: 0 7183804 1 1887089 2 105296 3 4571 4 140 数字の意味は関係ありません。重要なのは、私が持っているより大きなデータセットは何十億ものテストに拡張され、実行するには時間がかかりすぎるということです。ワークロードを制限する必要があります。 完全なテストセットからサンプリングして、サンプルの分布を導き出し、徹底的なシミュレーションの結果がほぼ同じ分布を示すと(ある程度の範囲内で)推測できるはずだと思います。実行されるテストには固有のバイアスがないため、入力を一様にランダムに選択すると、有効なサンプルが提供されます。 私がまだ理解していないのは、サンプルサイズを選択する方法です。特に、分布は奇妙な尾を示し、サンプリングが小さすぎると低い周波数が失われるのではないかと心配しています。(「4」の140回の出現は、人口の0.0015%にすぎません!) それで、私の質問は、結果である程度の良いことを主張できるサンプルサイズを計算する最良の方法は何ですか? または、私は間違った質問をしていますか?

1
分割-分割-プロット設計とlme
堆積物微生物活動に対する乾燥の影響を評価するために、データセットを作成しています。目的は、乾燥の影響が堆積物の種類や堆積物内の深さによって異なるかどうかを判断することです。 実験計画は次のとおりです 。最初の要素Sedimentは、3種類の堆積物(コードSed1、Sed2、Sed3)に対応します。 堆積物の種類ごとに、3つのサイト(Sed1の3サイト、Sed2の3サイト、Sed3の3サイト)でサンプリングが行われました。サイトはコード化されています:Site1、Site2、...、Site9。 次の要素は水文学です。各サイト内で、サンプリングはドライプロットとウェットプロットで実行されます(コード化されたDry / Wet)。 前の各プロット内で、サンプリングは2つの深さで実行されます(D1、D2)3つ組で。 合計n = 108サンプル= 3堆積物* 3サイト* 2水文学* 2深度* 3複製があります。 私はRのlme関数(lnmeパッケージ)を次のように使用します。 Sediment<-as.factor(rep(c("Sed1","Sed2","Sed3"),each=36)) Site<-as.factor(rep(c("Site1","Site2","Site3","Site4","Site5","Site6","Site7","Site8","Site9"),each=12)) Hydrology<-as.factor(rep(rep(c("Dry","Wet"),each=6),9)) Depth<-as.factor(rep(rep(c("D1","D2"),each=3),18)) Variable<-rnorm(108) mydata<-data.frame(Sediment,Site,Hydrology,Depth,Variable) mod1<-lme(Variable~Sediment*Hydrology*Depth, data=mydata, random=~1|Site/Hydrology/Depth) 比較可能なスプリットスプリットプロットデザインとその分析の例を次の場所で見つけました:http : //www3.imperial.ac.uk/portal/pls/portallive/docs/1/1171923.PDF これがこれらのデータを分析する正しい方法であることを誰かが確認できますか? ランダムな構造は私の実験計画に従って正しく指定されていると思いますか?

3
計量経済学における回帰と因果関係
一般に、回帰では、線形回帰では、特にパラメータに関する因果解釈が許可される場合があります。少なくとも計量経済学の文献では、因果解釈が許可されている場合だけではなく、それほど明確ではありません。あなたが見ることができる議論のために:回帰と因果関係:6つの計量経済学の教科書の重要な調査 -陳と真珠(2013)。 統計モデルで因果関係を適切に処理するための最良の方法は、たとえば(間もなく)説明するように、構造的因果モデルを使用することです:Trygve Haavelmo and Emergence of Causal Calculus – Pearl 2012 feb。 ただし、現在、これらは基礎計量経済学モデル(クラシック多重線形回帰)の標準的な方法ではありません。実際、「真のモデル」または「データ生成プロセス」の概念が頻繁に使用され、明示的な因果関係の意味を持つ場合があります。とにかく因果関係だけを考えたい。したがって、「真のモデル」の対応するサンプルを推定すると、パラメーターに関する因果解釈を実現できます。 上記の考慮事項を念頭に置いて、私の試みは把握することです (現在の計量経済学の教科書の)「真のモデル」の概念と(パールの)構造因果モデル間のリンク…もしあれば。 以前のポイントと、実験室で使用されているランダム化制御実験の概念との間のリンクは、 計量経済観測研究の参照ポイントになる場合があります(それと同じくらい優れています)。たとえば、ストックとワトソン(2013)はそれについて多くの議論をしています(特にキャップ13)。さらに、Pearl 2012の2月14日には、この点に強く関連する「構造主義者」と「実験主義者」の間の議論のレビューがあります。 この2つのポイントについて、できるだけ簡単なシナリオで説明していただけますか?

1
外れ値の検出:精度再現率曲線の下の領域
外れ値検出アルゴリズムを比較したいと思います。rocの下の領域または精度再現率曲線の下の領域が、使用する尺度であるかどうかはわかりません。 matlabでのクイックテストで奇妙な結果が得られます。完璧な分類のためにROCとPRの値を取得しようとします。 % true labels outlier = 1; normal = 0; % 99% normal data 1% outlier label = normal*ones(1000,1); label(1:10) = outlier; % scores of the algorithm % assume the prediction is perfect score = label; [~,~,~,AUC] = perfcurve(label,score,outlier) % AUC = 1 [~,~,~,PR] = perfcurve(label,score,outlier, 'xCrit', 'reca', 'yCrit', …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.