SDが平均より大きく、負でないスケール


9

私の研究室で実行したい研究と非常によく似た研究を報告する記事を受け取りました。しかし、関心のある変数である期間について、SDは平均よりも大きいことに気付きました...これは分単位で測定される期間であるため、負になることはなく、これは私には非常に奇妙に見えます。これは報告された2つの研究で起こりました、以下は1つです。

それを超えて、これは混合デザインです。コントロールv処理(グループ間)、およびTime1、Time2、Time3(繰り返し測定)。ここに平均(SD)があります、N> 200

                       Time1                Time2                  Time3 
Control               15.1 (14.6)          14.4 (14.8)            13.3 (15.7)
Treatment             14.8 (13.2)          10.0 (12.2)            8.2 (9.9)

...彼らは分散分析を実行し、p <.001を報告しました。

これを電力分析の基礎として使用して、私たちの研究のサンプルサイズを決定するように依頼されました。これはデータが通常ではないか異常値を持っていることを示していると確信しており、これに基づいてサンプルサイズを決定するのに不安があります。私はちょうどベースから外れていますか?


これらはSDであり、95%の信頼区間ではなく、3 * SDに近いと確信できますか?それらのSDは平均とほぼ同じサイズのようです。これらのエラーにどのような影響が含まれていたのか、あるいは統計が何なのかさえわからないので、サンプルサイズが何であるかを言うのは本当に難しいです。統計を数えるだけの場合、つまりポアソン分布は、SDの平均が1 / Sqrt(N)のようになるはずです。ただし、これはN = 1(または多くても数個)を意味します。これらの統計について詳しく教えていただけますか?
Dave31415 14年

また、正規分布には、完全に独立した平均とSDがあります。多分あなたはポアソン分布を意味したと思います。
Dave31415 14年

2
負ではない期間では、通常、歪んだ分布が予想されます。平均に匹敵するSDは完全に可能であり、驚くべきことではありません。他の計算でどのような分布が最も適切であると想定されるかは、詳細情報なしではアドバイスできませんが、私は最初の推測としてポアソンを選択せず​​、ガンマまたは対数正規を選択します。
Nick Cox

@NickCoxが指摘しているように、w /持続時間SDが平均よりも大きくなかった場合(打ち切りがない場合)は驚かれることでしょう。ワイブル分布を検討することもできます。電力分析はおそらくシミュレーションベースでなければなりません。別の見方をすると、ANOVAはそのようなデータでは無効であったと思います。
ガン-モニカの回復

1
非負数のデータセットの、変動係数(平均に対する標準偏差の比)はと同じ大きさの値を取り、極端な場合に最大値が発生します。1つを除いてすべての数値が場合(詳細については、この質問を参照してください)。したがって、平均を超える標準偏差は、多くの説明を必要とする例外的なケースと見なされるべきではありません。nO(n)0
Dilip Sarwate、2014年

回答:


5

標準偏差が非負または厳密に正のデータで平均を超える可能性があります

データのケースは、標準偏差が平均に近いこととして説明します(すべての値が大きくなるわけではなく、より大きい値は一般的に近いものになります)。非負のデータの場合、それはデータが歪んでいることを明確に示します(たとえば、変動係数= 1のガンマ分布は指数分布になるため、データがガンマの場合、指数に近い場所に見えます)。

ただし、そのようなサンプルサイズでは、ANOVAは特にそれによって悪影響を受けることはありません。プールされた分散の推定値の不確実性はかなり小さいので、CLT(平均)とSlutskyの定理(分母の分散推定)の間では、ANOVAはおそらく適切に機能します。 llには漸近的なカイ2乗があり、分母の自由度が大きいANOVA-Fが適切な近似になります。(つまり、妥当なレベルのロバスト性を備えている必要があります。また、平均値が定数からそれほど離れていないため、パワーは不均一分散性によってあまり悪影響を受けてはなりません)

とはいえ、スタディのサンプルサイズが小さい場合は、別のテスト(おそらく順列テスト、またはGLMに基づくスキューデータに適したテスト)を使用することをお勧めします。テストの変更により、直線ANOVAの場合よりもやや大きなサンプルサイズが必要になる場合があります。

元のデータを使用して、適切なモデル/分析で電力分析を行うことができます。元のデータがない場合でも、分布についてより妥当な仮定(おそらくそれらのさまざまなもの)を作成し、パワーカーブ全体(またはより簡単に言えば、タイプIのエラー率と任意の効果サイズでのパワーのみ)を調査できます興味があります)。さまざまな合理的な仮定を使用できます。これにより、もっともらしい状況下でどのような能力を達成できるか、およびサンプルサイズをどれだけ大きくする必要があるかがわかります。


4

あなたはデータが正常でないと結論するのは正しいです。データが正常である場合、観測値の約16%が平均から標準偏差を差し引いた値よりも小さいと予想されます。SDが平均よりも大きい場合、この数は負であり、負の数はあり得ないため、表示されているものが正規分布データと一致しません。SD値は可能ですが、分布が非常に右に歪んでいる場合のみです(これは期間で一般的です)。

データが正常であると仮定してサンプルサイズを選択することは良い考えではないことに同意しますが、プロセスについてさらに詳しく調べ、正しい歪んだ分布(1つの可能性としてのガンマ分布)を見つけることができれば、それは妥当な仮定です。次に、それを使用してサンプルサイズを決定できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.