一般的な統計上の罪とは何ですか?


227

私は心理学の大学院生であり、統計学でますます独立した研究を進めるにつれて、正式な訓練が不十分であることにますます驚いています。個人的な経験と中古の経験の両方は、学部および大学院の訓練における統計的厳密性の不足が心理学のどこにでもあることを示唆しています。そのため、私のような独立した学習者にとっては、「統計的罪」のリストを作成し、卒業生に標準的な実践として教えられた統計的実践を表にし、実際には優れた(より強力な、または柔軟な、または堅牢な、など)現代の方法または率直に無効であることが示されています。他の分野でも同様の状況が発生する可能性があることを予想して、分野間の統計的な罪のリストを収集できるコミュニティwikiを提案します。


5
「罪」はおそらく炎症性であり、統計分析のいくつかの側面は白黒ではないことを知っています。私の意図は、一般的に教えられている実践が明らかに明らかに不適切である場合を勧誘することです。
マイクローレンス

5
必要に応じて、生物学/生命科学の学生をミックスに追加することもできます;)
nico

1
?...多分生命科学統計罪にそれを改称...または何か他のものより具体的な
ジョン

1
@whuber良い答えがいくつかあったので、両方をマージしました。

1
こんにちは@アマンダ、話の内容をここで示していただけますか?誰もがリックロールされる可能性を好みません。
naught101

回答:


118

データを見ない(プロットする)こと。


+1よくやった!私はこれがまだ言及されていないことにショックを受けています。
whuber

1
非常に重要です!
deps_stats

1
おそらく最も一般的なものです。
カルロスチネリ14年

115

p値のほとんどの解釈は罪深いです!p値の従来の使用法にはひどい欠陥があります。私の意見では、仮説検定と有意性検定の教育への標準的なアプローチを疑問視しているという事実。

ハラーとクラウスは、統計インストラクターは学生と同じくらいp値を誤解する可能性が高いことを発見しました。(彼らの論文でテストを受けて、あなたがどうするかを見てください。)Steve Goodmanは、尤度を支持してp値の従来の(誤った)使用を破棄する良いケースを作ります。ハバードの論文も一見の価値があります。

ハラーとクラウス。重要な誤解:生徒が教師と共有する問題。Methods of Psychological Research(2002)vol。7(1)1-20ページ(PDF

ハバードとバヤリ。古典統計的検定における証拠の対策(Pさん)対エラー(α年代)の混乱。The American Statistician(2003)vol。57(3)

良い男。証拠に基づく医療統計に向けて。1:P値の誤り。Ann Intern Med(1999)vol。130(12)pp。995-1004(PDF

以下も参照してください。

Wagenmakers、EJ。p値の一般的な問題に対する実用的な解決策。Psychonomic Bulletin&Review、14(5)、779-804。

p値の名目上「正しい」解釈でさえ、実験者の選択により不正確にされたいくつかの明確なケースの場合。

更新(2016):2016年、米国統計協会はp値に関する声明を発表しましたこちらをご覧ください。これは、ある意味で、心理学ジャーナルが約1年前に発行し「p値の禁止」への対応でした。


2
@Michael(+1)抄録へのリンクを追加し、PDFを作成しませんでした。気にしないでください。
chl

7
+1ですが、いくつかの重要なコメントをしたいと思います。オープニングラインに関しては、一つはちょうど同様に言ってもいい「ほとんどすべて」の解釈(測定理論的な意味での)任意の一つだけが正しいですので、明確に定義された概念が間違っています。第二に、「従来の使用法」と「標準的なアプローチ」を言うとき、何を参照しますか?これらのあいまいな参照は、ストローマンのように聞こえます。たとえば、統計教育に関する文献で見つけられるものと一致していません。
whuber

4
@Whuber Goodmanの論文をご覧ください。それは薬理学の分野での私の経験とよく一致しています。方法は、「P <0.05が統計的に有意である場合の結果」といい、結果はp <0.05の場合は+、p <0.01の場合は++、p <0.0001の場合は+++で表示されます。このステートメントは、ネイマンとピアソンの誤り率の制御を意味しますが、pの異なるレベルの使用は、p値が帰無仮説に対する証拠の強度の指標であるフィッシャーのアプローチを示唆します。グッドマンが指摘するように、エラー率を制御し、証拠の強度を同時に評価することはできません。
マイケルルー

8
@Michaelこの種のレポートには、より寛容な別の解釈があります。たとえば、著者は読者が重要な独自のしきい値を適用したい場合があることを認識している可能性があるため、p値にフラグを立てて支援します。あるいは、著者は起こりうる複数比較の問題を認識しており、ボンフェローニのような調整で異なるレベルを使用する場合があります。おそらく、p値の悪用の責任の一部は、著者ではなく読者の足元に置かれるべきです。
whuber

4
@Whuber私は完全に同意しますが、ごく一部のケース(「完全」の制限されたバージョン)であなたが示唆することだけが真実です。p値は正確な値ではなく、1つ、2つ、または3つの星レベルで報告されるように指定しているジャーナルがあるため、これらのジャーナルは結果に対する責任を共有します。ただし、その誤った考慮された要件とp値の明らかに単純な使用の両方は、私の棚にあるいくつかの導入統計テキストのエラー率と証拠の違いの明確な説明の欠如の結果かもしれません。
マイケルルー

73

予測モデルで作業しているときに遭遇した最も危険なトラップは、テストデータセットを「最終的な」パフォーマンス評価専用にするために早期に予約しないことです。

パラメーターの調整、事前選択、学習アルゴリズム停止基準の選択の際にテストデータを何らかの方法で使用する機会がある場合、モデルの予測精度を過大評価するのは本当に簡単です...

この問題を回避するには、新しいデータセットで作業を開始する前に、データを次のように分割する必要があります。

  • 開発セット
  • 評価セット

次に、開発セットを「トレーニング開発セット」と「テスト開発セット」に分割し、トレーニング開発セットを使用してさまざまなパラメーターでさまざまなモデルをトレーニングし、テスト開発セットのパフォーマンスに応じてベストを選択します。クロス検証を使用してグリッド検索を実行することもできますが、開発セットでのみです。モデルの選択が100%完了していない間は、評価セットを使用しないでください。

モデルの選択とパラメーターに確信が持てたら、選択したモデルの「実際の」予測精度を把握するために、評価セットで10倍の交差検証を実行します。

また、データが一時的なものである場合は、タイムコードで開発/評価の分割を選択するのが最適です。「予測するのは難しい-特に将来について」。


5
原則としてこれに同意しますが、小さなデータセット(多くの場合20〜40のケースしかない)の場合、個別の評価セットの使用は実用的ではありません。入れ子になった交差検証はこれを回避できますが、小さなデータセットで悲観的な推定につながる可能性があります
-BGreene

11
一般的に、データ分割の信頼性を確保するには膨大なデータセットが必要です。そのため、ブートストラップを使用した厳格な内部検証が非常に魅力的です。
フランクハレル

特に、開発セットが過去のデータであり、評価セットが将来のデータである場合。すべてのモデルを調整した後、開発セット全体で固定パラメーターを使用して最終モデルをトレーニングし、それを使用して評価セット全体を予測しないのはなぜですか。実際のシナリオでは、とにかく説明する方法で将来のデータを相互検証することはできないため、関連するすべての過去のデータを使用します。
デビッドエルンスト

64

統計(仮説検定)の代わりにデータマイニング(仮説発見)を行ったときにp値を報告します。


2
あなた(または誰か)が詳しく説明できますか?
アントワーヌ嚢


複数の仮説検定のために修正されたp値はどうですか(ボンフェローニ法のフレーバーまたはより高度な修正を使用)?データマイニングのコンテキストであっても、それでいいと思う傾向がありますか?
アントワーヌ嚢

私は一般的な考え方が好きですが、後者が前者のサブセットである場合、統計を仮説検定と同一視するのは歪みです。
rolando2

46

仮説のテストH 1μ 0 (ガウス設定など)H0:μ=0H1:μ0

モデル内のを正当化する(つまり、「H 0は拒否されない」と「H 0は真」を混合する)。μ=0H0H0

そのタイプの(非常に悪い)推論の非常に良い例は、2つのガウスの分散が等しいかどうかをテストする前に、それらの平均が等しいかどうかを仮定して分散が等しいかどうかをテストする場合です。

別の例は、正規性を正当化するために正規性をテストする場合(非正規性に対して)に発生します。すべての統計学者は、それが人生であることをしましたか?それはbaaadです:)(そして、非ガウス性に対する堅牢性をチェックするように人々をプッシュする必要があります)


6
同じ論理(「H1を支持する証拠がない」を「H1がないことの証拠」とする)は、本質的にすべての適合度テストの根底にあります。また、「テストは重要ではなかったため、因子Xの影響はなく、変数Yの影響はないと結論付けることができます」と人々が述べるときに、推論はしばしば現れます。テストの検出力に関する推論(たとえば、特定の関連する効果サイズが与えられた場合に特定の検出力に到達するためのアプリオリの推定)を伴う場合、罪はそれほど深刻ではないと思います。
カラカル

H0H1H0

すばらしいです!!はい、これは私が狂わせる...
jpillow

3
H1

2つの片側テストによる@DocBucketsの同等性テストは、電力ベースのアプローチよりも厳密です。ただし、実際の等価性について説明できる最小の関連するエフェクトサイズを設定する必要があります。
デビッドエルンスト

46

気になるいくつかの間違い:

  1. 偏りのない推定量は、偏りのある推定量よりも常に優れていると仮定します。

  2. R2R2

  3. 相関の解釈/適用が正しくありません。

  4. 標準誤差のないレポートポイントの見積もり。

  5. より堅牢でパフォーマンスの良いノン/セミパラメトリックメソッドが利用可能な場合、ある種の多変量正規性(線形判別分析など)を想定したメソッドを使用します。

  6. 何らかの関係がある証拠の量の尺度としてではなく、予測変数と応答の間の強度の尺度としてp値を使用します。


5
これらを個別のオプションに分解しますか?
ラッセルピアス

41

分析を「単純化」するか、連続予測子の効果の非線形性の「問題」を解決するための連続予測子変数の二分法。


18
得られた結果が間違っていないので、これは本当に「罪」だとは思わない。ただし、多くの有用な情報が破棄されるため、良い方法ではありません。
ロブハインドマン

2
これらの線に沿って、極端なグループ設計を使用すると効果サイズが過大評価され、平均または中央分割を使用すると効果サイズが過小評価されます。
ラッセルピアス

2
2つ以上の異なる母集団が存在する場合、これは罪ではありません。分離可能なクラスまたはサブポピュレーションがある場合、離散化することは理にかなっています。非常に簡単な例:サイト/場所/都市/国または緯度/経度のインジケータを使用する方がいいでしょうか?
イテレーター

3
+1にすると、二分法のカットオフを選択し始めると重大な罪になり、ある種の差異が最適化されてからテストされます。
エリック

5
@Iteratorは、(2つ以上のカテゴリに)集計する実際の理由に到達し始めます。これは、分散が有意にそれらのカテゴリに区分されていると考える先験的な理論的理由あるためです。たとえば、1兆個程度のセルのコレクションが個人を構成する、または地球上のここでの連続した24時間の期間が1つの単位として有意義に解釈されると仮定して、これを常に行います。しかし、arbitrarily意的に集約すると、情報(「統計的検出力」など)が「除外」されるだけでなく、現象間の関係に関する(深刻な)バイアスが生じる可能性があります。
アレクシス14年

41

本当に質問に答えているわけではありませんが、このテーマに関する本全体があります。

フィリップI.グッド、ジェームズウィリアムハーディン(2003)。統計の一般的なエラー(およびそれらを回避する方法)。ワイリー。ISBN 9780471460688


6
+1この本が出てきたらすぐに読むようにしました。統計上の間違いを犯す機会がたくさんあるので、それらを作成するに指摘してもらうことにいつも感謝しています!
whuber


41

儀式化された統計。

この「罪」は、その妥当性に関係なく、教えられたことを適用することです。なぜなら、それは物事が行われる方法だからです。それは、機械があなたのためにあなたの統計を選択することを可能にする1つ上のレベルの暗記による統計です。

例は、控えめなt検定とANOVAツールキットにすべてを適合させようとする統計レベルの学生の入門です。または、または、質問されていることを考慮してください。

この罪のバリエーションには、理解できないコードを使用して、自分だけが理解できる出力を生成することが含まれますが、「5番目の列、約8行下」または探している答えは何でも知っています。


6
残念ながら、統計的な推論に興味がない場合、または時間やリソースが不足している場合、この儀式は非常に魅力

私にとって、エピグラードの説明は、推論に過度に関心を持ち、反射、発見、因果関係の考慮などのことを無視する人のことです。
rolando2

35

多分、モデル選択後の段階的回帰やその他の形式のテストです。

既存の関係の背後にアプリオリな仮説を持たずにモデリングのために独立変数を選択すると、他の間違いの中でも論理的な誤aや偽の相関関係が生じる可能性があります。

有用な参考文献(生物学的/生物統計学的観点から):

  1. Kozak、M.、&Azevedo、R.(2011)。段階的な変数選択を使用してシーケンシャルパス分析モデルを構築することは意味がありますか?Physiologia plantarum、141(3)、197–200。doi:10.1111 / j.1399-3054.2010.01431.x

  2. Whittingham、MJ、Stephens、P.、Bradbury、RB、およびFreckleton、RP(2006)。なぜ生態学と行動に段階的なモデリングを使用するのですか?Journal of animal ecology、75(5)、1182–9。doi:10.1111 / j.1365-2656.2006.01141.x

  3. Frank Harrell、Regression Modeling Strategies、Springer 2001。


32

会議の論文や雑誌で驚くほどの量が見られるのは、複数の比較(たとえば、2変量相関)を行ってから、すべてのp <.05を「有意」として報告することです(現時点ではその正誤を無視します)。

心理学の卒業生についてあなたが何を言っているか知っています。心理学の博士号を取得しましたが、まだ本当に勉強しているだけです。それはかなり悪いです、私たちがそれを使うつもりなら、心理学は定量的データ分析をより真剣に受け止める必要があると思います(明らかに、そうすべきです)


9
これは特に重要です。ラマダンが母親が断食していた赤ちゃんにとって悪いかどうかについての研究を読んだことを覚えています。もっともらしい(食物が少なく、出生時体重が少ない)ように見えたが、それから付録を見た。数千の仮説、およびそれらの数パーセントが「重要な」範囲にありました。「ラマダンが2、4、6か月目だと子供には悪い」などの奇妙な「結論」が出ます。
カルロス

29

探索的であるが、確証的なふりをしている。これ、分析戦略(モデルの適合、変数選択など)をデータ駆動型または結果駆動型に変更しているが、これを公然と述べておらず、「最良」(つまり最小のp値)結果のみを報告する場合に発生する可能性があります唯一の分析でした。これは、Chris Beeleyが行った複数のテストが科学レポートで高い偽陽性率をもたらす場合にも関係します。


26

私が非常に頻繁に見て、常にギアを磨くのは、あるグループの統計的に重要な主効果と別のグループの統計的に重要でない主効果が重要な効果xグループ相互作用を意味するという仮定です。


24

特に疫学と公衆衛生では、関連の相対的測定値(ハザード比、オッズ比またはリスク比)のグラフを報告する際に対数目盛の代わりに算術を使用します。

詳細はこちら



23

相関は因果関係を意味しますが、これは帰無仮説を受け入れるほど悪くはありません。


しかし、時には...因果関係の潜在的な方向には、非常に異なる確率があります。私は確かに年齢と身長の相関関係が身長または何らかの介在変数によって引き起こされる可能性があるとは考えません。また、これは行動科学のトレーニングが一般的に非常に敏感なものだと思います。
ジョン

確かに、から何かを推測するA and B are correlated通常は見A causes BなくB causes A...(と忘れるC原因となるAB
アンドレホルズナー

12
Googleは$ 65B年間の違いを気にしませ...作る
ニール・マクギガン

5
私はあなたのポイントに同意し、それらはすべて有効です。しかし、Googleの利益は、相関=>因果関係を示唆していますか?
suncoolsu

3
Googleはそのすべてを、因果関係をまったく気にせずに稼いでいます。実際、なぜそうなるのでしょうか?予測は事です...
共役前

23

ANOVAを使用したレートデータ(精度など)の分析。これにより、レートデータが実際に二項分布しているときに、ガウス分布誤差があると仮定します。 Dixon(2008)は、この罪の結果についての議論と、より適切な分析アプローチの調査を提供しています。


4
これにより、分析の能力はどの程度低下しますか?どのような条件で最も問題になりますか?多くの場合、ANOVAの仮定からの逸脱は、重要な程度で結果に実質的に影響しません。
マイケルルー

ANOVA手続きの代替手段は何ですか?
ヘンリック

@Michael Lew&Henrik:このエントリを更新して、Dixon(2008)へのリンクを追加しました
Mike Lawrence

2
しかし、要するに、値の範囲が制限されており、ガウスの仮定を満たすことができないため、観測される確率が低いか高い場合に最も問題になります。
ラッセルピアス

これは、二項への通常の近似と同じくらい悪いだけです-各ケースがレートの計算に使用される分母によって重み付けされるという条件で、うまくいくはずです。10%未満および90%を超えるレートでは、パフォーマンスが低下すると予想されます。
確率論的

18

現在よく使用されているのは、効果の分散にのみ関連する場合、反復測定デザインの未加工のパフォーマンス値の周りに95%の信頼区間をプロットすることです。たとえば、信頼区間を持つ反復測定計画の反応時間のプロットでは、誤差項は反復測定ANOVAのMSEから導出されます。これらの信頼区間は、賢明なものを表すものではありません。絶対的な反応時間については何も表明していません。エラー項を使用して、効果に関する信頼区間を生成できますが、ほとんど行われません。


レビュアーがこのあまりにも一般的な慣行を要求することを思いとどまらせるために引用できる標準的な記事はありますか?
ラッセルピアス

私が知っている唯一の批判はBlouin&Riopelle(2005)ですが、彼らは問題の核心に到達しません。私は通常、それらを表示しないことを主張しませんが、Masson&Loftusのエフェクトグラフのように正しいことをします(2003、図4、右パネルを参照してください... )。
ジョン

明確にするために、これらのCIの問題は、条件の違いに関して推論的な理由で純粋に使用されるため、PLSDよりもさらに悪いことです。実際、私はそれらを好みます。少なくとも彼らは正直だ。
ジョン

17

マイケルルーの言うことの多くに関連することができますが、尤度比を優先してp値を放棄すると、結果の実質的な意味を与えるために必要な効果のサイズよりも確率的な結果を強調するという、より一般的な問題を見逃します。このタイプのエラーはすべての形状とサイズで発生し、最も陰湿な統計上の間違いであることがわかりました。J.コーエンとM.オークスなどを参考にして、これに関する記事をhttp://integrativestatistics.com/insidious.htmで書いています


3
私は実際、尤度比(LR)が効果サイズが達成するすべてを達成するのではなく、また容易に解釈可能なスケール(データはZのX倍のYの証拠を含む)をどのように達成するかについては不明です。効果のサイズは通常、説明された変動と説明されていない変動の比率の何らかの形であり、(ネストされた場合)LRは効果を持つモデルと影響されないモデルの間の説明されない変動の比率です。少なくとも、エフェクトサイズとLRの間に強い相関関係があるべきではありません。もしそうであれば、尤度比スケールに移行すると何が失われますか?
マイクローレンス

マイク-あなたは私に興味を持っていますが、あなたのポイントはグループ間の平均差と同じくらい簡単にエフェクトサイズに拡張されますか?これらは、素人でも簡単に解釈でき、信頼区間を割り当てることもできます。
rolando2

ああ、エフェクトサイズとは、絶対的なエフェクトサイズを意味します。これは、それ自体は無意味ですが、相対的なエフェクトサイズへの変換(前述の可変性の尺度で除算することによって)または計算によって意味のある値にすることができます絶対効果サイズの信頼区間。上記の私の議論は、LRと相対効果サイズのメリットに適用されます。効果の実際の値が重要な場合(予測など)に効果CIを計算するのに役立つ可能性がありますが、私はLRを、効果について/効果について証拠について話すためのより直感的な尺度としてまだ待機しています。
マイクローレンス

LRの使用とCIの使用はコンテキストによって異なる可能性が高いと思いますが、これは次のように便利に要約できます。一方、CIは、理論が十分に洗練され、予想される効果の範囲を含む微妙な予測を可能にする、または逆に、効果の大きさの異なる範囲が異なる理論をサポートする場合の科学のより進んだ段階で優先される場合があります。最後に、任意のモデルから生成された予測にはCIが必要です。
マイクローレンス

0|β|=1|β|>1|β|1β=0β0

15

エラーが正規分布し、治療間で一定の分散があるという仮定をテストしない。これらの仮定は常にテストされるとは限らないため、実際には不適切な場合に最小二乗モデルのフィッティングがおそらく使用されます。


11
データが非正規または不均一分散の場合、最小二乗推定の不適切な点は何ですか?完全に効率的ではありませんが、それでも公平で一貫しています。
ロブハインドマン

3
データが不均一分散の場合、回帰モデルは分散が大きい領域のサンプルの誤差を最小限に抑えようとし、分散の低い領域のサンプルではそれほど難しくないため、サンプル予測から非常に精巧になります。これは、非常にひどく偏ったモデルになる可能性があることを意味します。また、予測のエラーバーが間違っていることも意味します。
ディクランMarsupial

6
いいえ、偏りはありませんが、説明した理由でより効率的な方法を使用した場合よりも分散は大きくなります。はい、予測間隔が間違っています。
ロブハインドマン

4
はい(統計空間ではなく口語でバイアスを使用して、モデルが特徴空間の高分散領域での観測に系統的にバイアスをかけていることを意味しました-culpa!)-より高い分散が意味すると言う方が正確です有限のデータセットを使用して貧弱なモデルを取得する可能性が高くなります。それはあなたの質問に対する合理的な答えのようです。公平性をそれほど快適なものとは本当に思っていません。重要なのは、モデルが実際に持っているデータを適切に予測し、分散がより重要であることです。
ディクランマースピアル

14

学部生の私のイントロサイコメトリックスコースでは、少なくとも2週間かけて段階的回帰の実行方法を教えました。段階的回帰が良いアイデアである状況はありますか?


6
「良いアイデア」は状況に依存します。予測を最大限にしたい場合、それは恐ろしいアイデアではありませんが、過剰なフィッティングにつながる可能性があります。それが避けられないいくつかのまれなケースがあります-モデル選択を導く理論がありません。段階的な回帰を「罪」とは見なしませんが、理論がモデル選択を推進するのに十分な場合にそれを使用します。
ラッセルピアス

20
おそらく、罪は段階的回帰によって得られたモデルに対して統計的検定を行っているのでしょう。
ロブハインドマン

3
相互検証を使用し、外挿しない場合は問題ありません。p値は無意味なので、公開しないでください。
ニールマクギガン

私は、段階的回帰を使用するプロジェクトに取り組んでいます。理由は、D >> Nであり、Dは次元であり、Nはサンプルサイズであるため(すべての変数を含む1つのモデルを使用して除外)、特徴のサブセットは互いに非常に相関しているため、統計的に原理的な方法が必要ですおそらく2〜3個の「最適な」機能を選択します。少なくとも、ある程度保守的な修正を行わない限り、P値を報告するつもりはありません。
-dsimcha

12

私の古い統計の教授には、外れ値を処理するための「経験則」がありました。散布図に外れ値が見られる場合は、親指で隠してください:)


これは、それほどひどくないWinsorizationに似ています。
アリB.フリードマン

12

これはあなたが探しているものよりもポップ統計の答えの方が多いかもしれませんが、

データが非常に歪んでいる場合に、位置の指標として平均を使用します。

あなたとあなたの聴衆があなたが話していることを知っていれば、これは必ずしも問題ではありません、これは一般的にそうではなく、中央値は多くの場合、何が起こっているかをよりよく理解する可能性があります。

私のお気に入りの例は平均賃金であり、これは通常「平均賃金」として報告されます。国の所得/富の不平等に応じて、これは賃金の中央値とは大きく異なる可能性があり、人々が実際の生活のどこにいるかについてより良い指標を提供します。たとえば、オーストラリアでは、不平等が比較的低いため、中央値は平均よりも10〜15%低くなっています。米国では、差ははるかに大きく、中央値は平均の70%未満であり、ギャップは拡大しています。

「平均」(平均)賃金について報告すると、正当なレベルよりも真っ赤な絵になり、また、多くの人々に「普通の」人々ほど稼いでいないという誤った印象を与える可能性があります。


それがここでの分析トレンドに適用されるとして、この半関連の議論があります:tamino.wordpress.com/2012/03/29/...
naught101

2
これは単に歪度に関連しているのではなく、分散を考慮しない限り、中心傾向の平均またはその他の尺度では十分ではないという一般的な問題です。たとえば、2つのグループの中央値が等しいが、1つの母集団の四分位範囲が100倍の場合。中央値を見るだけで、実際には非常に異なる場合に、それらは「同じ人口分布」であると言うでしょう。...問題を作成する複数のモードは言うまでもありません
probabilityislogic

しかし、いくつかの目的のために意味関連しています:賃金は広範な変数であり、賃金の合計は意味があることを意味します。一部の(サブ)グループの総賃金収入が関連する質問の場合、平均は正しいことです。合計は中央値からではなく平均値から回収できます。
はKjetil BはHalvorsenの

@kjetilbhalvorsen:なぜ合計を使用しないのですか?
naught101

n

10

p値は帰無仮説が真である確率であり、(1-p)は対立仮説が真である確率であり、帰無仮説を棄却できないということは、対立仮説が偽などであることを意味します。


1
1

興味深いことに、それについて読むための参考文献をください。
ディクラン有袋類

2
(ここに行きます)[ ece.uvic.ca/~bctill/papers/mocap/Aitkin_1997.pdf] 個人的には興味深いと思いますが、尤度比の事後分布がなぜ興味。
確率の

10

@dirkanと同様の方法-帰無仮説が真であることの証拠の正式な尺度としてのp値の使用。いくつかの優れたヒューリスティックで直感的に優れた機能がありますが、対立仮説を参照していないため、本質的に証拠の不完全な尺度です。データがnullの下ではありそうにない(小さなp値につながる)一方で、データは対立仮説の下ではさらにありそうにない場合があります


私は自分のことを考えるのに苦労したくないので、私は答えていません。しかし、私は役立つと思う。GoodとHardinによる「統計の一般的なエラーとその回避方法」という本があります。たくさんの素晴らしい例を見つけることができます。それはすでに第4版に入っている人気のある本です。
マイケルチャーニック

また、Chapman&Hall / CRCの「医学研究における実践統計」に関するAltmanの本には、出版された論文で発生した多くの統計的罪が明らかにされている医学文献に関する章があります。
マイケルチャーニック


9

仮説検定で統計/確率を使用して、「絶対的な真実」を測定します。統計は単にこれを行うことはできません。それらは、統計パラダイムの「外部」から指定する必要がある代替案の決定にのみ使用できます。「帰無仮説は統計によって真であることが証明されている」などの文は、単に間違っています。統計は、「対立仮説と比較して、帰無仮説がデータによって支持されている」ことしかわかりません。その後、帰無仮説または代替案のいずれかが真でなければならないと仮定した場合、「帰無は真である」と言うことができますが、これはデータによって示されるものではなく、仮定の些細な結果にすぎません。


9

α=0.05

@ogriselの回答と同様(またはほぼ同じ)で、グリッド検索を実行し、最良の結果のみを報告します。


別の漫画にリンクするつもりだったと思いますが、それは不滅のものです。
rolando2

おそらく、当時考えていたことを十分に覚えていれば:xkcd.com/882
Andrew

8

(少し運が良ければ、これは議論の余地があるでしょう。)

科学実験の統計分析へのネイマンピアソンアプローチの使用。または、さらに悪いことに、Neyman-PearsonとFisherの不明確なハイブリッドを使用します。


無知で申し訳ありませんが、科学実験(の結果)の分析のためのネイマンピアソンの構造の何が問題になっていますか?
アンドレホルツナー

@Andreこの発言は、このスレッドの他の場所で@Michael Lewによって提供された別の発言(stats.stackexchange.com/questions/4551/…)と密接に関連していると思います。
whuber

8

フローチャートのリクエストと取得:変数のレベルと探している関係の種類を言い、矢印に従ってブランド名テストまたはブランド名統計を取得するグラフィカルなもの。神秘的な「パラメトリック」パスと「ノンパラメトリック」パスで提供されることもあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.