結果を「ほぼ」または「ある程度」重要と呼ぶのは間違っていますか?


13

同様の質問に対する一般的なコンセンサス、結果を「非常に重要」と呼ぶのは間違っていますか?「非常に重要」は、事前に設定された重要度のしきい値をはるかに下回るp値を持つ関連付けの強度を記述するための有効な方法ですが、非特異的ではあります。ただし、しきい値をわずかに上回る p値の記述についてはどうでしょうか。私は、「ある程度重要」、「ほぼ重要」、「重要に近づく」などの用語を使用する論文を見てきました。私はこれらの用語が少し希望的でウォッシュなものであり、場合によっては否定的な結果の研究から意味のある結果を引き出す境界線の不誠実な方法だと思います。これらの用語は、p値のカットオフを「見逃す」結果を説明するのに受け入れられますか?


3
「協会の強さ」を説明するために「重要性」を修飾することを提案した人はいなかった。後者は、エフェクトサイズの尺度に似ています。とにかく、より詳しいリストはこちらをご覧ください。
Scortchi -復活モニカ

1
@Scortchi-私の理解では、非常に小さなp値は非常に重要であり、問​​題の変数とターゲットの間の強い関連を意味します。これは、大きなエフェクトサイズ、大量のデータ、またはその両方の結果です。p値が大きい場合、変数とターゲット間の関連付けをサポートする証拠は弱いです。また、あなたのリンクでそのリストが大好きです。
原子力王

9
小さな効果サイズで非常に小さなp値を取得することは、「強い関連」とはほとんど言えません。それは検出可能な関連のみです。
whuber

2
学術論文ではなく、業界でこれらのフレーズを頻繁に使用している人を見てきました。
アクサカル

1
おそらくあなたの不快感は、p値(またはサンプルから派生した他の数値)が何かの鋭い尺度であると信じることから来るでしょう。
エリックタワーズ

回答:


14

「重要度」を認めてから十分に公平(「ある程度重要」、「かなり重要」)にしたいが、「ほぼ重要」などのしきい値の考えにまだ結婚していることを示唆するフレーズは避けたい場合、「重要性に近づいている」、または「重要性の頂点」(ブログProbable Errorの「まだ重要ではない」からの私のお気に入り)、あなたは必死に見えたくない場合。


9
(+1)リンク。しかし、そこにある詩的な創造性のハイライトは、「重要性の瀬戸際でぐらつくこと(p = 0.06)」だと思います。
アレコスパパドプロス

1
@AlecosPapadopoulos:あなたは正しいですが、「従来の有意水準でいちゃつく」と「統計的有意性に近づいた」ことは称賛に値します。「準重要」は、おそらく別のカテゴリの勝者です。
Scortchi-モニカの復職

4
確かに最初の2つは映画「Statistical Gigolo」(従来のレベルで浮気する人)からの最初のものであり、2つ目は映画「Dying on the Tail」からのものです。 (p-value)死にかけているヒーローの上にホバリング(統計的有意性)。
アレコスパパドプロス

1
個人的には、言い回しの中で「重要」という言葉を捨てて、p = 0.06を「かなり面白い」と呼びました。正しく、または誤って、シックスシグマコース内でp値に最初に出会ったとき、インストラクターは、0.05 <= 0.1の場合、正しいラベルは「より多くのデータが必要」であると示唆しました、すべての「ビッグデータ」シナリオとはまったく異なる
ロバートデグラフ

6

私の観点からは、重要性テストを実行することが実際に何を意味するのかという問題に要約されます。有意性検定は、帰無仮説を棄却するか、棄却しないかのどちらかを決定する手段として考案されました。フィッシャー自身が、その(任意の)決定を行うための悪名高い0.05ルールを導入しました。

基本的に、有意性テストのロジックは、ユーザーがデータを収集する前に帰無仮説(従来は0.05)を拒否するためのアルファレベルを指定する必要があるということです。有意性テストの完了後、p値がアルファレベルより小さい場合、ユーザーはnullを拒否します(そうでない場合は拒否しません)。

効果を非常に重要であると宣言できない理由(たとえば、0.001レベル)は、発見するよりも強力な証拠を見つけることができないためです。したがって、テスト前にアルファレベルを0.05に設定した場合、p値がどれだけ小さいかに関係なく、0.05レベルでのみ証拠を見つけることができます。同様に、0.05のこの任意の基準を選択したため、「ある程度重要」または「重要性に近づいている」効果について話すこともあまり意味がありません。有意性テストのロジックを非常に文字通り解釈すると、0.05より大きいものは有意ではありません。

「重要性に近づく」などの用語は、出版の見込みを高めるためによく使用されることに同意します。しかし、一部の科学における現在の出版文化は依然として0.05の「聖杯」に大きく依存しているため、著者がそのことを非難できるとは思わない。

これらの問題のいくつかについては、次で説明します。

Gigerenzer、G.(2004)。マインドレス統計。Journal of Socio-Economics、33(5)、587-606。

Royall、R.(1997)。統計的証拠:尤度パラダイム(Vol。71)。CRCプレス。


1
フィッシャーの有意性検定にアルファレベルを追加すると、フィッシャーの科学哲学とネイマン/ピアソンのアプローチが混ざり合っています。
-RBirkelbach

5

この滑りやすい斜面は、帰無仮説有意性検定(NHST)のために、Fisher対Neyman / Pearsonフレームワークを呼び戻します。一方で、結果が帰無仮説(たとえば、効果の大きさ)の下にある可能性がどれだけ低いかを定量的に評価したいと考えています。一方、1日の終わりには、結果が偶然によるものであるかどうかに関する個別の決定が必要です。最終的に私たちが成し遂げたのは、満足のいくものではない一種のハイブリッドなアプローチです。

ほとんどの学問分野では、従来の有意性のpは0.05に設定されていますが、これがなぜそうでなければならないのかについての根拠は本当にありません。私が論文をレビューするとき、方法論が健全であり、すべての分析、図などを含む全体像が一貫した信じられるストーリーを語っていれば、著者が0.06有意または0.07とさえ呼んでもまったく問題ありません。問題が発生するのは、作成者が小さなエフェクトサイズの些細なデータからストーリーを作成しようとするときです。逆に、従来のp <0.05の有意性に達した場合でも、テストが実際に意味があるとは完全に「信じていない」可能性があります。私の同僚はかつて言った:「あなたの統計はあなたの数字で既に明らかであるものを単にバックアップするべきである。」

それはすべて言った、私はVasilevが正しいと思います。パブリケーションシステムが破損しているため、p値を含める必要があるため、「重要」という言葉を真剣に受けとめる必要があります。ピアレビューでいつでも戦うことができますが、最初にそこに到達する必要があります。


5

通常、2つのp値自体の違いは重要ではありません。したがって、p値が0.05、0.049、0.051であるかどうかは関係ありません...

関連の強さの尺度としてのp値に関して:p値は、直接関連の強さの尺度ではありません。p値とは、パラメーターが0であると仮定した場合に、観測したデータと同じくらいの極端またはより極端なデータを見つける確率です(帰無仮説に興味がある場合-Nick Coxのコメントを参照)。ただし、これは多くの場合、研究者が関心を持っている量ではありません。多くの研究者は、「パラメータが選択されたカットオフ値よりも大きくなる確率はどうですか」などの質問に答えることに興味があります。これがあなたが興味を持っているものであるなら、あなたはあなたのモデルに追加の以前の情報を組み込む必要があります。


6
私はこの精神に同意しますが、小さな活字には常に完全な警戒が必要です。「パラメータが0であると仮定した場合」:多くの場合、常にではありません。P値は、他の仮説でも計算できます。また、「想定」については「hypothesised」をお読みください。
ニックコックス

あなたはまったく正しいです-私は私の答えを編集します!
–RBirkelbach

3

p<αp>α(もちろん、効果の強さではありません)。このような「継続主義者」にとって、「ほぼ重要」は、中程度のp値を持つ結果を説明する賢明な方法です。問題は、人々がこれらの2つの哲学を混ぜ合わせた場合、またはさらに悪いことに、両方が存在することを知らない場合に発生します。(ちなみに、人々はこれらのマップをNeyman / PearsonとFisherにきれいに想定していることが多いのですが、そうではありません。この件に関するブログ投稿の詳細については、https//scientistseessquirrel.wordpress.com/2015/11/16/is-nearly-significant-ridiculous/をご覧ください。


1

技術的に見れば、統計的に重要なものはほとんどないと言う傾向があります。許容レベルを設定すると、有意性の統計的検定が設定されます。サンプリング分布の考え方に戻る必要があります。許容レベルが0.05であり、p値が0.053になった場合、使用したサンプルがその統計を生成したのは偶然です。同じ結果が得られない可能性のある別のサンプルを取得することもできます。その発生の可能性は、サンプルの統計ではなく、設定された許容レベルに基づいていると思います。母集団パラメーターに対してサンプルをテストしており、サンプルには独自のサンプリング分布があることに注意してください。したがって、私の意見では、何かが統計的に重要であるかそうでないかです。


0

p値は均一に分布します [01]H0 したがって、p値が0.051の結果を取得することは、p値が1の結果を取得することと同じです。データを取得する前に有意水準を設定する必要があるため、すべてのp値に対してnullを拒否します p>α。nullを拒否しないので、p値が均一に分布していると仮定する必要があります。高い値または低い値は本質的に意味がありません。

これは、p値が下で均一に分布していないため、nullを拒否する場合のまったく異なる話です。 H1 しかし、分布はパラメータに依存します。

たとえば、Wikipediaを参照してください。


私はあなたについてきません。はい、連続分布では、正確に0.051の結果が得られる可能性は、正確に1の結果が得られる可能性と等しく、ゼロです。ただし、仮説検定では、少なくとも観測さた値と同じくらい極端な値が見られる可能性を調べます。少なくとも1という極端なp値を常に見つけることができますが、0.051という極端なp値を見る可能性ははるかに低くなります。何がその違いを「意味のない」ものにしますか?
原子力王

ヌルの下では、区間[0.999,1]でp値を観察するのと同じように、区間[0.05,0.051]でp値を観察する可能性があります。しきい値に近いp値を観察することは、0に対して拒否領域の外側にある他のp値を観察するための証拠ではありません。
サント

0.05のap値を呼び出すものもあれば、0.01または0.1をしきい値として使用するものもあります。したがって、同じ分析を行って0.03のp値を見つけた3人の研究者のうち、2人はそれを有意と呼び、1人はそうではない可能性があります。すべての人が0.91のp値を見つけた場合、それを有意と呼ぶ人はいません。しきい値に近いp値は、nullを拒否するのに十分な証拠があるとみなす個人が増えることを意味します。なぜp = 0.051とp = 1がH1のサポートに関して見分けがつかないのかわかりません-一部の人々はp = 0.051でH1を正当にサポートするでしょう。誰もp = 1ではそうしません。
原子力王
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.