調査員は、いくつかのデータセットの複合分析を作成したいと考えています。一部のデータセットには、治療AとBのペアの観測値があります。他のデータセットには、ペアになっていないAとBのデータがあります。このような部分的にペアになったデータのt検定の適応、または尤度比検定のリファレンスを探しています。私は(今のところ)等分散の正規性を仮定し、Aの母平均は各研究(およびB)でも同じであると仮定します。
調査員は、いくつかのデータセットの複合分析を作成したいと考えています。一部のデータセットには、治療AとBのペアの観測値があります。他のデータセットには、ペアになっていないAとBのデータがあります。このような部分的にペアになったデータのt検定の適応、または尤度比検定のリファレンスを探しています。私は(今のところ)等分散の正規性を仮定し、Aの母平均は各研究(およびB)でも同じであると仮定します。
回答:
GuoとYuanは、SamawiとVogelのプールt検定に由来する最適なプールt検定と呼ばれる代替方法を提案します。
参照へのリンク:http : //citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.865.734&rep=rep1&type=pdf
この状況に対する複数のオプションを備えた素晴らしい読み物。
コメントが初めてなので、他に何か追加する必要がある場合はお知らせください。
ペアのペアとペアの分散を知っている場合(通常はかなり小さい)、グループ平均の差の2つの推定値の最適な重みは、個々の分散に反比例する重みを持つことです。平均の差の推定。
[編集:分散が推定されるとき、これはグレイビル・ディール推定量と呼ばれることがわかります。かなりの数の論文がありました。こちらです
分散を推定する必要があるため、多少の困難が生じます(分散推定の結果の比率はFであり、結果の重みはベータ分布を持ち、結果の統計はやや複雑です)が、ブートストラップを検討しているため、これは心配は少ない。
通常の効率の損失がほとんどない、何らかの意味でより良い(または分散比で遊んでいるので、非正規性に対して少なくともより堅牢な)別の可能性は、シフトオフの組み合わせ推定値に基づいていますペアおよび非ペアのランク検定-いずれの場合も、ペアごとのクロスサンプル差の中央値に基づくペアなしの場合、およびペアごとのペア平均差の中央値から外れたペアの場合のホッジス・レーマン推定の一種。繰り返しますが、2つの最小分散の重み付き線形結合は、分散の逆数に比例した重みを持ちます。その場合、おそらくブートストラップではなく順列(/ランダム化)に傾くでしょう-しかし、ブートストラップの実装方法によっては、同じ場所で終わる可能性があります。
どちらの場合でも、分散を強化/分散比を縮小することができます。重量に見合った適切な球場に入るのは良いことですが、通常の場合、わずかに堅牢にすることで効率をほとんど失うことはありません。---
以前に頭の中で十分に整理されていなかった追加の考え:
この問題はBehrens-Fisher問題と明確に類似していますが、さらに困難です。
重みを修正した場合は、Welch-Satterthwaite型の近似値を強打できます。問題の構造は同じです。
私たちの問題は、重みを最適化したいということです。これは、重みが固定されていないことを意味します-そして実際、統計量を最大にする傾向があります分子、分母を最小化しようとしています; 2つは独立していません)。
これは、カイ2乗近似を悪化させ、近似のdfにほぼ確実に影響を与えると予想されます。
[この問題はなんとかであれば、そこにもちょうどかもしれないあなたが状況のこれらのセットでのみペアデータ、これらの他のセットでのみ不対を使用する場合は、ほぼ同様に行うことができます」と言うでしょう親指の良いルールも判明条件と残りの部分では、この固定重量スキームは通常最適に非常に近いです」-しかし、私はそのチャンスを待って息を止めません。そのような決定規則は、それぞれの場合に間違いなく真の重要性に何らかの影響を与えるでしょうが、その効果がそれほど大きくない場合、そのような経験則は、人々が既存のレガシーソフトウェアを使用する簡単な方法を与えるので、そのような状況のユーザー向けに、そのようなルールを特定してください。]
---
編集:自己への注意-戻って、「重複サンプル」テスト、特に重複サンプルt検定の作業の詳細を記入する必要があります
---
ランダム化テストはうまくいくはずです-
データがペアになっている場合、ペア内のグループラベルをランダムに並べ替えます
データはペアになっていないが、共通の分布があると想定される場合(nullの下)、グループの割り当てを変更します。
(後で追加)
おそらく関連する論文:
Derrick、B.、Russ B.、Toher、D。、およびWhite、P.(2017)、
「ペアの観測と独立した観測の両方を含む2つのサンプルの平均の比較に関する検定統計量」、
Journal of Modern Applied Statistics Methods、5月、Vol。16、No。1、137-157。
doi:10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm
ここにいくつかの考えがあります。私は基本的に、この問題にはBehrens-Fisher問題と明確な類似性があるというGreg Snowの結論にたどり着きました。手を振らないように、まずいくつかの表記法を紹介し、仮説を形式化します。
各観測は、患者効果と治療効果の合計です。対応するランダム変数は
次の自然なステップは考慮することです
この時点で、Behrens Fisher問題に対して提案された解決策をプラグインして、問題の解決策を得ることができると思います。
私の最初の考えは混合効果モデルでしたが、それはすでに議論されているので、これ以上は言いません。
私のもう一つの考えは、すべての被験者についてペアのデータを測定できたかもしれないが、コスト、エラー、またはすべてのペアがないという別の理由で理論的に可能であった場合、ペアのない被験者の測定されていない効果を扱うことができるということです欠損データとして、EMアルゴリズムや多重代入のようなツールを使用します(1回の治療でのみ被験者を測定した理由が他の治療での結果に関連する場合を除き、ランダムに欠損することは妥当と思われます)。
最尤法を使用して(被験者ごとの利用可能なデータに基づいてファクタリングされた尤度を使用して)データに2変量正規分布を当てはめるだけの方が簡単な場合があり、平均と異なる平均との分布を比較する尤度比検定を実行します。
私の理論の授業から長い時間が経っているので、これらが最適性に関してどのように比較されるかわかりません。
ランダム効果が方法である可能性があるため、患者との混合モデリングが考えられます。混合モデリングでは、ペアの場合の相関構造と、ペアのない場合の部分的な欠損を考慮することができます。
gls
で機能nlme4
。パッケージを