多くの場合、助成金は、提案されたサンプルサイズをサポートするために電力分析を必要とします。プロテオミクス(およびほとんどの-omics)では、数十のサンプル(たぶん100ですが、ありそうもない)で測定された数百から数千の機能/変数があります。また、これらの測定単位の一部(たとえば、タンパク質のスペクトル数)は正規分布していないことがわかっているため、分析にはノンパラメトリック検定を使用します。単一の測定とt検定を仮定して決定されたサンプルサイズの検出力を見てきましたが、これは完全に正しいとは思いません。特にスペクトルカウントのもう1つの問題は、100のフィーチャのそれぞれが非常に異なるスケールであり、エラーが大きく異なることです(値が大きいほどエラーが少なくなります)。[この問題は、限界倍数変更モデル、Mutch et al。、2002でうまく説明されています]
FDRのいくつかの仮定と許容可能な倍率変化を考慮して、提案されたサンプルサイズの検出力を決定する適切な方法は何ですか?ここでツールを使用して、次のことを判断できました。
- 300遺伝子
- 3誤検知
- 1.4倍の違い
- 0.8の望ましい出力
- 0.7 stdev
グループあたり49のサンプルサイズが必要です。
これは、50v50の設計を提案していること、1.4倍の変更がかなり受け入れられていること、1%のFDRが適切であること、そしてこの実験ではおそらく300のタンパク質を測定することを知っているので便利でした。この検出力またはサンプルサイズの計算の問題は引き続き発生するため、参照アプローチを導入するとよいでしょう。
編集: 私は同僚が、Wald検定が後に続く尤度関数を使用して負の二項分布からスペクトルカウントをモデル化することを提案した場所を読みました。基本的には、予備データを使用してタンパク質の分散の推定値を取得し、各分位点についてグループ間の検出可能な倍数変化を計算します。FDR(アルファ)入力もあります。そのため、80%を超える検出力とサンプルサイズを設定すると、25%の最小分散、50%の小さい分散、25%の最大分散の検出可能な倍数変化を決定できます。問題は、彼らがどうやってこれをしたのか私が知らないことです。このアプローチを共有することで、考えられる答えがだれにでも役立つかどうかはわかりません。