「科学者は統計的有意性に反する」とはどういう意味ですか?(自然の中でのコメント)


61

Nature ScientistsのCommentのタイトルは、統計的有意性に反して始まります。

バレンティン・アムライン、サンダー・グリーンランド、ブレイク・マクシェーン、および800人以上の署名者は、誇大広告の主張の終了と、おそらく重大な影響の却下を求めています。

その後、次のようなステートメントが含まれます。

繰り返しますが、P値、信頼区間、またはその他の統計的手段の禁止を提唱するのではなく、それらをカテゴリ的に扱うべきではありません。これには、統計的に有意であるかどうかの二分法と、ベイズ因子などの他の統計的尺度に基づく分類が含まれます。

下の画像は、一方の効果が「除外」され、もう一方の研究がそうではないため、2つの研究が一致しないとは言っていないことを理解できると思います。しかし、この記事は私が理解できる以上に深く掘り下げているようです。

終わりに向かって、4つのポイントで要約があるようです。統計を書くのではなく読む人にとって、これらをさらに簡単な言葉で要約することは可能ですか?

互換性の間隔について話すときは、4つのことを念頭に置いてください。

  • 最初に、間隔がデータと最も互換性のある値を与えるという仮定が与えられているからといって、それ以外の値が互換性がないということではありません。互換性が低いだけです...

  • 第二に、仮定を考えると、内部のすべての値がデータと等しく互換性があるわけではありません

  • 第三に、0.05のしきい値のように、間隔の計算に使用されるデフォルトの95%はそれ自体が任意の規則です...

  • 最後に、そして最も重要なことは、謙虚であることです。互換性評価は、間隔の計算に使用される統計的仮定の正確さにかかっています...


自然:科学者は統計的有意性に反する


13
基本的に、彼らはさらに多くの誤検知で研究論文を埋めたいと思っています!
デビッド

12
Gelmanのブログの議論を参照してください:statmodeling.stat.columbia.edu/2019/03/20/…。明らかに、この記事はいくつかの有効なポイントを提起しますが、ゲルマンが引用したように、この記事に対して(そして、別に、それの「請願」の側面に対して)Ioannidisによって提起されたコメントを参照してください。
アメーバは

3
ただし、これは新しい概念ではありません。メタ分析は50年間の大半にわたって行われており、コクランは過去25年間、医療/ヘルスケア研究(目標と結果の標準化が容易な場合)のメタ分析を行ってきました。
グレアム

4
基本的に、この問題は多次元の問題である「不確実性」を1つの数値に減らすことを試みています。
MaxW

4
基本的に、見つけたときに「XとYが関連していない」の代わりに「XとYの関連性の証拠は見つからなかった」と人々が述べた場合、この記事は存在しません。p>α
Firebug

回答:


65

最初の3つのポイントは、私が知る限り、単一の引数のバリエーションです。

科学者は多くの場合、不確実性の測定値(たとえば)を次のような確率分布として扱います12±1

一様確率分布

実際に、彼らははるかにのように見える可能性が高いときですこのここに画像の説明を入力してください

元化学者として、数学以外のバックグラウンドを持つ科学者(主に非物理化学者と生物学者)の多くが、不確実性(またはエラーと呼ばれるエラー)がどのように機能するかを本当に理解していないことを確認できます。彼らは、学部の物理学でそれらを使用しなければならなかった時間を思い出し、場合によっては複数の異なる測定を通じて複合誤差を計算する必要さえありましたが、実際にそれらを理解しませんでした。私もこれに罪を犯し、すべての測定値間隔内になければならないと仮定しました。つい最近(そして学外)、誤差測定値は通常、絶対的な限界ではなく、特定の標準偏差を参照していることがわかりました。±

したがって、記事内の番号付きポイントを分類するには:

  1. 実際の(ガウス分布の可能性が高い)確率はゼロではないため(CIの外側の測定値はまだ発生する可能性があります(または、その問題のどこでも、遠くに行くと小さくなりますが)。後の値が実際に1つのsdを表す場合、データポイントがそれらの範囲外になる可能性は32%です。±

  2. 分布は均一ではなく(最初のグラフのように平坦な上部)、ピークがあります。エッジよりも中央で値を取得する可能性が高くなります。それは、単一のダイスではなく、サイコロの束を転がすようなものです。

  3. 95%は任意のカットオフであり、2つの標準偏差とほぼ正確に一致します。

  4. この点は、一般的な学問的誠実さに関するコメントです。私は博士号取得中に、科学は抽象的な力ではなく、科学をしようとする人々の累積的な努力であるということに気付きました。これらは、宇宙についての新しいことを発見しようとしている人々ですが、同時に子供たちに食事を与え、仕事を続けよとしているのです。現実には、科学者は真実興味深い発見に依存しています。なぜなら、興味深い結果は出版物にはならないからです。

ような任意のしきい値は、特に統計を完全に理解しておらず、結果に合格/不合格のスタンプが必要な人の間では、しばしば永続的です。そのため、人々は「なるまでテストを再度実行する」という冗談を言うこともあります。特に、博士号/助成金/雇用が結果に乗っている場合、これらのわずかな結果が、分析で目的の現れるまでは非常に魅力的です。p<0.05p<0.05p=0.0498

そのような慣行は、科学が全体として有害である場合があります。特に、広く行われている場合は、すべてが自然の目にある無意味な数を追求することになります。実際、この部分は、科学者が自分のデータと仕事について正直であることを奨励しています。


26
以下のための+1は、「...公開または滅びるが遊びである。実際には、科学者たちは興味のない結果が出版物にはなりませんので、真と面白いの両方である発見に依存しています。」これは「公開または滅びる」方法についての交渉は学界全体のエラー/バイアスを配合につながることが戻って数年出てきた興味深い論文がありました:ほとんど公開された調査結果がFalseである理由(Ioannidis、2005)
J.テイラー

4
「実際の(ガウス分布の可能性が高い)不確実性」には同意しません–ガウス分布はもう1つの単純化です。中央極限定理のおかげで、ハードリミットモデルよりも幾分正当化されますが、実際の分布は一般的にいまだに異なっています。
leftaroundabout

1
@leftaroundabout実際の分布はおそらく異なる可能性がありますが、値が物理的に不可能でない限り、確率は数学的にゼロではない可能性があります。
ゲリット

3
@leftaroundaboutは、不確実性はガウス分布である可能性が高いと言っているので、本質的に単純化されていません。事前分布について説明します。これは、他のサポートデータが存在しない場合にCLTによって最高の事前分布として正当化されますが、分布に関する不確実性を表現することで、分布がガウス分布ではない可能性があるという確認が既に存在します。
ウィル

7
@inisfreeあなたはとても間違っています。多くの科学分野(先ほど述べた化学や生物学など)では、基本的な算術演算に加えて、ほとんどゼロの数学を使用しています。数学の読み書きができないほとんどの優秀な科学者がいますが、そのうちのいくつかに会いました。
インゴリフ

19

あなたが含む記事と図の多くは非常に単純なポイントを作ります:

効果の証拠の欠如は、それが存在しないという証拠ではありません。

例えば、

「我々の研究では、シアン化物を与えられたマウスは統計的に有意に高い率で死亡しなかった」という主張は「シアン化物はマウスの死に影響を及ぼさない」という証拠ではない。

2匹のマウスにシアン化物を与え、そのうちの1匹が死んだと仮定します。2匹のマウスの対照群では、どちらも死にません。サンプルサイズが非常に小さいため、この結果は統計的に有意ではありません()。したがって、この実験では、マウスの寿命に対するシアン化物の統計的に有意な効果は示されていません。シアン化物はマウスに影響を与えないと結論付ける必要がありますか?明らかにそうではありません。p>0.05

しかし、これは著者が科学者が日常的に犯していると主張する間違いです。

たとえば、図では、赤い線はごく少数のマウスでの研究から生じ、青い線はまったく同じ研究であるが多くのマウスで生じた可能性があります。

著者は、効果のサイズとp値を使用する代わりに、科学者が発見と多かれ少なかれ互換性のある可能性の範囲を代わりに説明することを示唆しています。2匹のマウスの実験では、シアン化物が非常に有毒であることと、まったく有毒でないことの両方に適合していることを示す必要があります。100マウスの実験では、ポイント推定値がの致死の信頼区間範囲を見つけることができます。[60%,70%]65%。次に、この用量がマウスの65%を殺すという仮定と結果との互換性が最も高いと書きますが、結果は60から70の割合とやや互換性があり、結果の互換性は低くなりますその範囲外の真実で。(これらの数値を計算するためにどのような統計的仮定を行うかについても説明する必要があります。)


4
「証拠の欠如は不在の証拠ではない」という包括的な声明には同意しません。消費電力の計算により、特定のサンプルサイズが与えられた場合に、特定のサイズの影響を有意とみなす可能性を判断できます。効果サイズが大きいと、ゼロとは大きく異なるとみなすために必要なデータが少なくなりますが、効果が小さいと、サンプルサイズが大きくなります。あなたの研究が適切に強化されていて、まだ有意な効果が見られない場合、その効果は存在しないと合理的に結論付けることができます。十分なデータがある場合、有意でないことは実際に効果がないことを示す可能性があります。
原子力王

1
@NuclearWang True。ただし、パワー分析が事前に行われ、正しい仮定と正しい解釈で行われた場合のみ(つまり、パワーは予測するエフェクトサイズの大きさにのみ関係します。 "80%パワー」は、ゼロ効果を正しく検出する確率が80%であることを意味しません)。さらに、私の経験では、「効果なし」を意味する「重要ではない」の使用は、二次的な結果またはまれなイベントにしばしば適用されます。最後に、ベータは通常>>アルファです。
ブライアンクラウス

9
@NuclearWang、私は誰も「証拠の欠如は決して欠如の証拠ではない」と主張しているとは思わない。
usul

それは、人々が同等性などのテストの訓練を受けていないようです。
アレクシス

19

私が試してみます。

  1. 信頼区間(互換性区間の名前を変更)は、データと最も互換性のあるパラメーターの値を示します。しかし、それは区間外の値がデータと絶対に互換性がないという意味ではありません。
  2. 信頼性(互換性)間隔の中央付近の値は、間隔の両端付近の値よりもデータとの互換性が高くなります。
  3. 95%は単なる慣例です。90%または99%またはany%の間隔を計算できます。
  4. 信頼性/互換性の間隔は、実験が適切に行われた場合、事前に設定された計画に従って分析が行われ、データが分析方法の仮定に準拠している場合にのみ役立ちます。不正なデータを不適切に分析している場合、互換性の間隔は意味がありません。

10

偉大なXKCDはこの漫画を少し前に作成し、問題を説明しました。結果が単純に仮説を証明するものとして扱われた場合-そして、あまりにも頻繁にそうである場合-証明された20の仮説のうち1つが実際に間違っています。場合同様、とする反証仮説を次に1 20における真の仮説が誤って拒否されます。P値は、仮説が真か偽かを示すものではなく、仮説がおそらく真か偽かを示すものです。参照された記事は、あまりにも一般的な素朴な解釈に反発しているようです。P>0.05P < 0.05P<0.05


8
(-1)P値は、仮説がおそらく真か偽かを示しません。そのためには事前の配布が必要です。たとえば、このxkcdを参照してください。この混乱を招く問題のある手振りは、多数の仮説に対して同様の事前分布を持っている場合、p値が真または偽の確率に比例することです。しかし、データを見る前に、いくつかの仮説は他の仮説よりもはるかに可能性が高いです!
クリフAB

3
この効果は軽視すべきではありませんが、参考記事の重要な点とはほど遠いものです。
RM

6

TL; DRは - それは物事が無関係であることを証明するために根本的に不可能です。統計は、物事関連していることを示すためにのみ使用できます。この十分に確立された事実にもかかわらず、人々は頻繁に統計的有意性の欠如を誤解して関係の欠如を暗示しています。


優れた暗号化方法は、攻撃者が知る限り、保護されたメッセージとの統計的な関係を露呈しない暗号文を生成する必要があります。攻撃者が何らかの関係を判断できる場合、暗号文を見るだけで保護されたメッセージに関する情報を取得できるためです。これはBad Thing TMです。

ただし、暗号文とそれに対応する平文は100%相互に決定します。したがって、たとえ世界の最高の数学者がどんなに一生懸命努力しても重要な関係を見つけることができなくても、関係はただそこにあるのではなく、完全かつ完全に決定論的であることは明らかです。この決定論は、関係を見つけることが不可能だとわかっている場合でも存在します

それにもかかわらず、次のようなことをする人がいます。

  1. 彼らが「反証」したい関係を選んでください。

  2. 関係の疑いを検出するには不十分な調査を行ってください。

  3. 統計的に有意な関係がないことを報告してください。

  4. 関係の欠如にこれをねじります。

これは、メディアが何らかの関係の存在を反証すると(誤って)報告するあらゆる種類の「科学的研究」につながります。

これに関する独自の研究を設計したい場合、それを行うための方法がたくさんあります。


  1. 怠zyな研究:最も簡単な方法は、断然、信じられないほど怠けていることです。質問でリンクされている図からのようです:。簡単に取得できます単にサンプルサイズを小さくし、多くのノイズやその他のさまざまな怠thingsなものを許可します。実際には、収集すべてのデータを、あなたはすでに行われています!

    'Non-significant' study(high P value)"

  2. 遅延分析:
    なんらかの愚かな理由で、ピアソン相関係数がと「相関がない」と考える人もいます。それは非常に限られた意味で真実です。しかし、ここで注意すべきいくつかのケースがあります:。これは、「線形」関係ではないかもしれませんが、より複雑な関係があることは明らかです。そして、それは「暗号化」レベルの複雑さである必要はありませんが、むしろ「実際にはほんのわずかな波線」または「2つの相関関係がある」などです。0

  3. 怠zyな答え:
    上記の精神で、私はここでやめるつもりです。へ、怠け者になろう!

しかし、真剣に、記事はそれをうまく要約しています:

何を止めなければならないかを明確にしましょう:P値が0.05などのしきい値よりも大きいため、または同等に、信頼区間にゼロが含まれているために、「差なし」または「関連付けなし」と結論付けることはできません。


+1は、あなたが書いたものが真実であり、考えさせるものである原因です。しかし、私の謙虚な意見では、特定の仮定の下で2つの量が合理的に無相関であることを証明できます。あなたはそれらについての特定の分布を仮定などによって最初のスタートをoffcourseする必要がありますが、これは物理学の法則、または統計に基づくことができる(例えば、容器内の気体の分子の速度はようにガウスかであることが予想されます)
NTG

3
@ntgええ、このようなもののいくつかの言い方を知るのは難しいので、私は多くを省きました。一般的な真実は、特定の関係が存在しないことを一般的に実証することはできますが、何らかの関係が存在することを反証することはできないということです。ソートのように、2つのデータ系列が無関係であることを確立することはできませんが、単純な線形関数によってそれらが確実に関連していないように見えることを確立できます。
ナット

1
-1 "tl; dr-物事が無関係であることを証明することは基本的に不可能です":同等性テストは、任意の効果サイズ内に効果がないことの証拠を提供します。
アレクシス

2
@Alexis同等性テストを誤解していると思います。同等性テストを使用して、特定の関係、たとえば線形関係がないことを証明できますが、関係がないことを証明することはできません。
Nat

1
@Alexis統計的推論は、あるモデルのコンテキスト内で特定の効果サイズより大きい効果が存在しないことを示す証拠を提供します。おそらく、モデルは常に知られていると仮定しているのでしょうか?
Nat

4

この問題の教訓的な紹介のために、Alex Reinhartはオンラインで完全に入手でき、No Starch Pressで編集された本(詳細な内容を含む)を執筆しました:https : //www.statisticsdonewrong.com

高度な数学な​​しで問題の根本を説明し、シミュレートされたデータセットの例を使用した特定の章があります。

https://www.statisticsdonewrong.com/p-value.html

https://www.statisticsdonewrong.com/regression.html

2番目のリンクでは、グラフィカルな例がp値の問題を示しています。P値は、多くの場合、データセット間の統計的差異の単一の指標として使用されますが、それだけでは明らかに十分ではありません。

より詳細な答えを得るために編集してください:

多くの場合、研究は、物理的測定(特定の実験中の加速器内の粒子数など)または定量的指標(薬物検査中に特定の症状を発症する患者数など)の正確なタイプのデータを再現することを目的としています。どちらの状況でも、ヒューマンエラーやシステムの変動(同じ薬物に対して異なる反応をする人)など、多くの要因が測定プロセスに干渉する可能性があります。これが、可能であれば実験がしばしば数百回行われ、理想的には数千人の患者のコホートで薬物検査が行われる理由です。

その後、データセットは、統計を使用して最も単純な値(平均、標準偏差など)に削減されます。モデルをその平均値と比較する際の問題は、測定値が真の値の指標にすぎず、個々の測定値の数と精度に応じて統計的に変化することです。どの測度が同じである可能性が高く、どの測度が同じではないかについて、適切な推測を与える方法がありますが、確実性があります。通常のしきい値は、2つの値が異なると間違っている可能性が20分の1未満であれば、それらを「統計的に異なる」と見なすことです(それは意味です)。P<0.05

これは、Natureの記事に示されている奇妙な結論につながります。2つの同じ測定値は同じ平均値を与えますが、研究者の結論はサンプルのサイズによって異なります。これ、および統計的な語彙と習慣からの他の比tropは、科学においてますます重要になっています。問題のもう1つの側面は、人々が統計ツールを使用することを忘れがちであり、サンプルの統計力を適切に検証せずに効果について結論を下す傾向があることです。

他の例として、有名な研究の適切な統計力をチェックしなかった人々によって多くの効果が当然と見なされたという事実のために、最近、社会科学と生命科学は真の複製危機を経験しているしかし、これは別の問題です)。


3
単なるリンクではありませんが、この回答には「リンクのみの回答」の顕著な特徴がすべて含まれています。この回答を改善するには、回答自体にキーポイントを組み込んでください。理想的には、リンクのコンテンツが消えても、答えは答えとして役立つはずです。
RM

2
p値と基本レートの誤り(リンクに記載)について、Veritasium はベイジアントラップと呼ばれるこのビデオを公開しました。
jjmontes

2
申し訳ありませんが、できるだけ早く回答の改善と開発を試みます。私のアイデアは、好奇心reader盛な読者に役立つ資料を提供することでもありました。
G.クラビエ

1
@ G.Clavierと自称統計初心者と好奇心reader盛な読者は感謝しています!
uhoh

1
@uhohそれを読んでうれしい。:)
G.クラビエ

4

私にとって、最も重要な部分は次のとおりです。

... [著者]は、P値が大きい場合や間隔が広い場合でも、ポイントの推定値について議論し、その間隔の制限について議論することをお勧めします。

言い換えると、推定値(中心および信頼区間)の議論に重点を置き、「帰無仮説検定」に重点を置きます。

これは実際にどのように機能しますか?多くの研究は、効果サイズの測定に要約されます。たとえば、「0.97から1.33の範囲の95%CIで1.20のリスク比を測定しました」。これは研究の適切な要約です。最も可能性の高い効果のサイズと測定の不確実性をすぐに確認できます。この要約を使用すると、この研究を他の類似の研究とすばやく比較でき、理想的にはすべての結果を加重平均で組み合わせることができます。

残念ながら、そのような研究は「リスク率の統計的に有意な増加を発見できなかった」と要約されることがよくあります。これは、上記の研究の有効な結論です。ただし、これらの種類の要約を使用して研究を簡単に比較することはできないため、これは研究の適切な要約ではありません。どの研究で最も正確な測定値が得られたかわからず、メタスタディの発見がどのようなものであるかも直観できません。また、信頼区間が大きすぎて象を隠すことができるため、研究が「有意でないリスク比の増加」を主張する場合、すぐには見つかりません。


それは、帰無仮説に依存します。たとえば、を拒否すると、任意の小さなよりも大きな効果がないことの証拠が得られます。H0:|θ|ΔΔ
アレクシス

1
はい、でもなぜそのような仮説を議論するのが面倒なのでしょうか?測定された効果サイズを述べるだけで、最良/最悪の場合の影響について説明できます。これは、例えば、陽子と反陽子の間の質量と電荷の差を測定する場合など、物理学で通常行われる方法です。著者は、帰無仮説を定式化することを選択することもできます(おそらく、あなたの例に従うために、絶対差はあるよりも大きいと考えられます)。θ±δθΔ
マーティンJH

3

科学者だけでなく、統計学者が立ち上がり、「有意性」と値の緩やかな使用に反対しているのは「有意」です。アメリカ統計学者の最新号は、この問題に完全に専念しています。特に、Wasserman、Schirm、およびLazarによる主幹編集を参照してください。 P


リンクありがとうございます!それは目を見張るものです。私はこれについてそれほど多くの考えと議論があったことを知りませんでした。
uhoh

2

いくつかの理由で、p値が実際に問題になっているのは事実です。

しかし、それらの弱点にもかかわらず、シンプルさや直感的な理論などの重要な利点があります。したがって、全体的にNatureCommentに同意しますが、統計的有意性を完全に捨てるのではなく、よりバランスのとれた解決策が必要だと思います。以下にいくつかのオプションを示します。

1.「新しい発見の主張について、統計的有意性のデフォルトのP値のしきい値を0.05から0.005に変更する」。私の見解では、ベンジャミンらは、より高い水準の証拠を採用することに対する最も説得力のある議論を非常にうまく扱った。

2.第2世代のp値を採用しますこれらは、古典的なp値に影響を与える問題のほとんどに対する合理的な解決策のようです。Blume氏がここで述べているように、第2世代の p値は「統計分析の厳密性、再現性、透明性の向上」に役立つ可能性があります。

3. p値を「観測された関係または主張が真実であるという確実性の定量的尺度-「信頼性指標」-として再定義します。これにより、分析の目標を有意性の達成からこの信頼度の適切な推定に変えることができます。

重要なことは、「統計的有意性 または「確信」(それが何であれ)のしきい値に達しない結果は依然として重要であり、厳密な方法で重要な研究質問に対処する場合、主要なジャーナルでの出版に値する」

それは、p値の誤用の背後にある主要なジャーナルによって、p値への執着を緩和するのに役立つと思います


あなたの答えをありがとう、これは役に立ちます。Blume等を読むのに時間を費やします。第二世代のp値、非常に読みやすいと思われます。
uhoh

1
@uhoh、私の答えがあなたの質問に役立つことを嬉しく思います。
クランツ

1

言及されていないことの1つは、エラーまたは有意性は実際の物理的測定値ではなく、統計的推定値であるということです。これらは利用可能なデータとその処理方法に大きく依存します。考えられるすべてのイベントを測定した場合のみ、エラーと重要度の正確な値を提供できます。通常、これはそうではありません。

したがって、エラーまたは有意性の推定値、この場合は任意のP値は、定義上不正確であり、基礎研究を説明するために信頼されるべきではありません。–正確に。実際、何が表されているのか、エラーがどのように推定され、データの品質管理のために何が行われたのかを知らずに、結果について何かを伝えることは信頼すべきではありません。たとえば、推定誤差を減らす1つの方法は、外れ値を削除することです。これが統計的に行われる場合、エラーに含まれる可能性の低い実際の測定値ではなく、外れ値が実際のエラーであることを実際にどのように知ることができますか?エラーを減らすことで、結果の重要性をどのように改善できますか?推定値の近くの誤った測定はどうですか?彼らは改善します エラーであり、統計的有意性に影響を与える可能性がありますが、間違った結論につながる可能性があります!

さらに言えば、私は物理モデリングを行い、3シグマ誤差が完全に物理的でないモデルを自分で作成しました。つまり、統計的には、完全にばかげた価値をもたらす1000のイベントが1つ(まあ...それよりも頻繁にありますが、私は脱線します)です。私のフィールドでの3つの間隔誤差の大きさは、1 cmの可能な限り最良の推定値が時々1メートルになることとほぼ同じです。ただし、これは実際に、私の分野の物理的、経験的データから計算された統計的な+/-間隔を提供する場合に受け入れられた結果です。確かに、不確実性の間隔の狭さは尊重されますが、公称誤差間隔が大きくなる場合でも、多くの場合、最良の推定値の値はより有用な結果です。

サイドノートとして、私はかつて千の外れ値のうちの1つについて個人的に責任がありました。計測する予定のイベントが発生したときに、機器のキャリブレーションを行っていました。残念ながら、そのデータポイントはこれらの100倍の外れ値の1つであったはずなので、ある意味では、それらは起こり、モデリングエラーに含まれています。


「可能性のあるすべてのイベントを測定した場合のみ、正確な測定値を提供できます。」うーん。だから、精度は絶望的ですか?また、無関係です?精度とバイアスの違いを拡大してください。不正確な推定値は偏っているか、偏っていないか?それらが偏っていない場合、それらは少し有用ではありませんか?「たとえば、エラーを減らす1つの方法は、外れ値を削除することです。」うーん。サンプルの分散は減りますが、「エラー」ですか?「...名目上のエラー間隔が大きくなる場合でも、多くの場合、最良の推定値の値はより有用な結果です」良い事前分布が悪い実験よりも優れていることを否定しません。
ピーターレオポルド

コメントに基づいてテキストを少し変更しました。つまり、エラーの統計的測定値は、いわば、可能な限りすべての個別のテストが利用可能でない限り、常に推定値であるということです。これはめったに起こりません。ただし、たとえば、一定数の人々をポーリングする場合(nbは、大勢の群衆や一般集団からのサンプルではありません)を除きます。
Geenimetsuri

1
私は統計学者ではなく統計学を使用する開業医です。p値の基本的な問題は、自分が何を理解していないのかを、実質的な重要性と混同していることです。したがって、勾配が大きいかどうかに関係なく、p値を使用して、どの勾配が重要であるかを判断するように求められました。同様の問題は、変数を使用して変数の相対的な影響を判断することです(これは私にとって重要ですが、回帰文献ではほとんど注目されていません)。
user54285
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.