重要でない結果を「トレンド」として解釈する


16

最近、2人の異なる同僚が、私には不適切と思われる条件の違いについての一種の議論を使用しました。これらの同僚は両方とも統計を使用しますが、統計学者ではありません。私は統計の初心者です。

どちらの場合も、実験では2つの条件の間に大きな違いはなかったため、操作に関してこれらのグループについて一般的な主張をするのは誤りであると主張しました。「一般的な主張をする」とは、「グループAはグループBよりもXを使用する頻度が高い」と書くようなものです。

私の同僚は、「大きな違いはないが、トレンドはまだある」と「大きな違いはないが、まだ違いがある」と反論しました。私にとって、これらはどちらも偏見のように聞こえます。つまり、「差異」の意味を「偶然以外の結果の可能性が高い差異」(統計的有意性)から「任意の非差異」に変更しました。 -グループ間の測定値の差はゼロ」。

同僚の反応は正しかったですか?彼らが私を追い越したので、私は彼らとそれを取り上げませんでした。


私はこれらの記事が役に立ったと評価していない重要なまだわずかSignficant
user20637

回答:


26

これは素晴らしい質問です。答えはコンテキストに大きく依存します。

一般に、私はあなたが正しいと言います:「グループAはグループBよりもXをより頻繁に使用しました」のような修飾されていない一般的な主張をすることは誤解を招きます。次のようなことを言う方が良いでしょう

実験グループAでは、グループBよりもXを頻繁に使用しましたが、これが一般集団でどのように機能するかは非常に不明確です

または

グループAは実験ではグループBよりもXを13%頻繁に使用しましたが、一般集団の差の推定は明確ではありません:妥当な値の範囲は、グループBよりも5%少ない AからX 21%を使用するAまでですグループBよりも頻繁に

または

グループAはグループBよりも13%頻繁にXを使用しましたが、その差は統計的に有意ではありませんでした(95%CI -5%〜21%; p = 0.75)

一方、この特定の実験では、グループAはグループBよりもXを頻繁に使用したという同僚は正しいです。しかし、特定の実験の参加者を気にすることはほとんどありません。彼らはあなたの結果がより大きな母集団にどのように一般化されるかを知りたいです、そしてこの場合、一般的な答えは、ランダムに選択されたグループAがランダムに選択されたグループBよりも多かれ少なかれXを使用するかどうか自信を持って言うことができないということです

Xの使用量を増やすために治療Aと治療Bのどちらを使用するかを今日選択する必要がある場合、他の情報やコストの違いなどがない場合、Aを選択するのが最善の策です。しかし、あなたがおそらく正しい選択をしていると安心したければ、より多くの情報が必要でしょう。

「Xの使用法にグループAとグループBの違いはない」、または「グループAとグループBは同じ量のXを使用する」と言うべきではないことに注意してください。これは、実験の参加者(AがXを13%以上使用した)または一般集団のどちらにも当てはまりません。最も現実世界の状況で、あなたは本当に存在しなければならないことを知っているいくつかの A対Bの効果(どのようにわずかに関係なく)。どちらの方向に行くのか分からないだけです。


5
美しい反応、ベン!最初のサンプルステートメントの要旨を反映するために、2番目のサンプルステートメントを明確にするために修正できるのではないかと思います。「グループAはグループBよりも X人口は明確ではありませんでした差異のもっともらしい範囲は、グループBよりも5%少ない頻度でAからグループBよりも21%多い頻度でAになりました。」
イザベラGhement

3
おかげで、部分的に組み込まれました(簡潔さ/明快さと正確さのバランスをとろうとしています...)
ベンボルカー

8
+1統計的証拠がない場合、多くの人々が、観察された差異は、集団で起こっていることの反対になる可能性があることに気付かないと思います!
デイブ

@Dave:「統計的証拠」(?統計学的に有意なp値)の存在は、「観察された差異は非常によく、人口で何が起こっているの逆であってもよい」場合でも
boscovich

@boscovich確かに、統計を行っているときは絶対に話をしていましたが、それは取るに足らないp値の意味であると思います。つまり、あなたは人口で何が起こっているのか全く分かりません。少なくとも、有意なp値があれば、何かを知っていることを示唆する証拠の確立されたしきい値に達しました。しかし、方向を誤認した場合、有意なp値を取得することは間違いなく可能です。そのエラーは時々発生するはずです。
デイブ

3

それは難しい質問です!

まず最初に、統計的有意性を判断するために選択できるしきい値は任意です。ほとんどの人が5% p値を使用しているという事実は、他のどの値よりも正確ではありません。そのため、ある意味で、統計的有意性を黒白の主題ではなく「スペクトル」と考える必要があります。

帰無仮説H0があると仮定します(たとえば、グループABは変数Xに対して同じ平均を示すか、変数Y母平均は5未満です)。帰無仮説は、「傾向なし」の仮説と考えることができます。H 0反証 できるかどうかを確認するためにいくつかのデータを収集します(帰無仮説は決して「真である」と証明されません)。サンプルでは、​​いくつかの統計を作成し、最終的にp値を取得します。簡単に言えば、p値は、純粋なチャンスが得た結果と同等(またはそれ以上)の結果を生み出す確率であり、もちろんH 0H0ppH0 真実である(つまり、傾向がない)。

「低い」p値が得られた場合、チャンスが結果として結果を生み出すことはめったにないと言うため、H0を拒否しますH0が偽である可能性があるという統計的に有意な証拠があります)。「高い」p値を取得した場合、結果は実際の傾向ではなく運の結果である可能性が高くなります。H0が真であるとは言いませんが、それを拒否するためにはさらなる研究が必要です。

p23%23%23%H0:=0.5% p

XβH0: β=0β0

β=0

4%

このあまりにも冗長な説明があなたのアイデアを整理するのに役立つことを願っています。要約すると、あなたは絶対に正しいということです!調査、ビジネス、その他のいずれのレポートであっても、ほとんど証拠に裏付けられていない野生の主張でレポートを埋めるべきではありません。トレンドがあると本当に思っているが、統計的有意性に達していない場合は、より多くのデータで実験を繰り返してください!


1
ことを指摘して1 任意の有意性閾値は任意である( -あなたが得るすべてはより良い確率であると暗に試料中の結果から、一般的な集団についての絶対的な主張を推測することはできません)。
ピーター-モニカの復活

0

有意な効果とは、起こりそうにない異常を測定したことを意味します(帰無仮説、効果の欠如が真である場合はほとんどありません)。そして結果として、それは高い確率で疑わなければなりません(この確率はp値と等しくなく、先の信念にも依存しますが)。

実験の品質に応じて、同じ効果サイズを測定できますが、異常ではない場合があります(帰無仮説が真の場合、起こりそうな結果ではありません)。

効果を観察しても有意ではない場合、実際にはそれ(効果)はまだ存在する可能性がありますが、有意ではありません(測定は、帰無仮説が高い確率で疑われる/拒否されることを示していません)。より確実にするには、実験を改善し、より多くのデータを収集する必要があることを意味します。

したがって、二分法効果と無効果の代わりに、次の4つのカテゴリを選択する必要があります。

4つのカテゴリー

2つの片側t検定手順(TOST)を説明するhttps://en.wikipedia.org/wiki/Equivalence_testの画像

あなたはカテゴリーDにいるようで、テストは決定的ではありません。あなたの同僚は、効果があると言うのは間違っているかもしれません。ただし、効果がないと言うのも同様に間違っています!


p

@ David、p値はより正確には「帰無仮説が真であるという条件付きエラーを起こす確率」(またはそのような極端な結果を見る確率)の尺度であり、そうではないことに完全に同意します「帰無仮説が間違っている確率」を直接表現します。ただし、p値はこの「公式」の意味で使用されることを意図したものではないと感じています。p値は、結果が示していることを表現するために、帰無仮説に疑問を発現するために使用される異常と異常....私たちはヌルを疑うする必要があり
セクストス・エンペイリコス

....あなたの場合、まれなケース(お茶の試飲の女性のように)を提供することによってヌル効果に挑戦する(コインを予測できないという考えに挑戦する)ことを示すとき、私たちは本当にヌルに疑いを持つべきです仮説。実際には、これに適切なp値を設定する必要があり(実際、偶然にnullに挑戦する可能性があるため)、1%レベルは使用しません。nullを疑う可能性が高い場合は、p値と1対1で同等にすべきではありません(確率はよりベイズの概念であるため)。
セクストゥスエンピリカス

私はこの誤解を取り除くためにテキストを修正しました。
セクストゥスエンピリカス

0

彼らはp値対「トレンド」の定義を主張しているように聞こえます。

ランチャートにデータをプロットすると、トレンドが表示される場合があります。時間の経過とともに上昇または下降するトレンドを示すプロットポイントの実行です。

しかし、統計を行うと.. p値はそれが重要でないことを示唆しています。

p値にはほとんど意味がありませんが、一連のデータのトレンド/ランを見るには、非常にわずかなトレンドである必要があります。

ですから、もしそうなら、私はp値に頼るでしょう.IE:わかりました、はい、データにトレンド/ランがあります..しかし、統計はそれがさらに追求する価値がないことを示唆するほどわずかであり、重要ではありませんの分析。

取るに足らない傾向とは、研究のある種の偏りに起因する可能性のあるものです。たぶん非常にマイナーなものです。

私がグループのマネージャーだった場合、重要でないトレンドを掘り下げるために時間とお金を無駄にするのをやめ、より重要なトレンドを探すように伝えます。


0

この場合、彼らは彼らの主張の正当性がほとんどなく、すでに持っている結論に達するために統計を悪用しているように思えます。しかし、p-valカットオフにそれほど厳しくなくてもよい場合があります。これ(統計的有意性とpvalカットオフの使用方法)は、Fisher、Neyman、およびPearsonが統計検定の基礎を最初に構築して以来激怒している議論です。

モデルを構築していて、含める変数を決定しているとします。潜在的な変数の予備調査を行うために、少しのデータを収集します。現在、ビジネスチームが本当に関心を持っているこの1つの変数がありますが、予備調査では、変数が統計的に有意ではないことが示されています。ただし、変数の「方向」は、ビジネスチームが期待したものに一致し、重要性のしきい値を満たしていませんでしたが、近いものでした。おそらく、結果と正の相関があると疑われ、正のベータ係数を取得しましたが、pvalは.05カットオフをわずかに上回っていました。

その場合は、先に進んで含めることができます。これは一種の非公式のベイジアン統計です-これは有用な変数であるという強い事前の信念があり、それに対する最初の調査はその方向でいくつかの証拠を示しました(しかし、統計的に有意な証拠ではありません!)それをモデルに保持します。おそらく、より多くのデータがあれば、関心の結果とどのような関係があるのか​​がより明確になるでしょう。

別の例として、新しいモデルを構築し、前のモデルで使用された変数を見る場合があります。モデルからの連続性を維持するために、限界変数(重要なカスプにある変数)を引き続き含めることができます。モデルに。

基本的に、あなたが何をしているのかに応じて、これらの種類の事柄にますます厳しくなる理由があります。

一方、統計的有意性は実際的な有意性を示唆する必要がないことに留意することも重要です!このすべての中核にあるのはサンプルサイズであることを忘れないでください。十分なデータを収集すると、推定値の標準誤差は0に縮小します。これにより、たとえ実際の世界の差がどれほど大きくなくても、どんなに小さな「統計的に有意」な差が生じます。たとえば、特定のコインが頭に着弾する確率が.500000000000001であったとします。これは、理論的には、コインが公正ではないと結論付ける実験を設計できることを意味しますが、すべての意図と目的のために、コインを公正なコインとして扱うことができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.