タグ付けされた質問 「hypothesis-testing」

仮説検定では、データがランダムな変動の影響ではなく、特定の仮説と矛盾しているかどうかを評価します。

16
正規性テストは「本質的に役に立たない」ですか?
元同僚はかつて次のように私に主張した: 通常、nullの下で、漸近的またはほぼ正常なランダム変数を生成するプロセスの結果に正規性テストを適用します (「漸近的」部分は大きくできない量に依存します)。安価なメモリ、ビッグデータ、高速プロセッサの時代では、正規性テストでは、大きなサンプル(非常に大きなものではないが)の正規分布のヌルを常に拒否する必要 があります。したがって、逆に、正規性テストは、おそらくより低いパワーとタイプIレートの制御が少ないと思われる小さなサンプルにのみ使用する必要があります。 これは有効な引数ですか?これはよく知られた議論ですか?正規性よりも「ファジーな」帰無仮説のよく知られたテストはありますか?

16
統計的検定におけるp値とt値の意味は何ですか?
統計コースを受講してから仲間の学生を助けようとした後、頭を大きく叩くような刺激を与える1つの主題が統計仮説テストの結果を解釈していることに気付きました。学生は、与えられたテストに必要な計算を実行する方法を簡単に学びますが、結果を解釈することに夢中になっているようです。多くのコンピューター化されたツールは、「p値」または「t値」の観点からテスト結果を報告します。 統計の最初のコースを受講する大学生に次の点をどのように説明しますか: テスト対象の仮説に関して、「p値」とはどういう意味ですか?高いp値または低いp値を探す必要がある場合はありますか? p値とt値の関係は何ですか?

8
Facebookは終了しますか?
最近、この論文は多くの注目を集めました(例えばWSJから)。基本的に、著者はFacebookが2017年までにメンバーの80%を失うと結論付けています。 彼らは、疫学でよく使用されるコンパートメントモデルであるSIRモデルの外挿に基づいて主張しています。彼らのデータは「Facebook」のGoogle検索から得られ、著者はMyspaceの終miseを利用して結論を​​検証します。 質問: 著者は「相関は因果関係を暗示するものではない」という間違いを犯していますか?このモデルとロジックはMyspaceで機能していたかもしれませんが、どのソーシャルネットワークでも有効ですか? 更新:Facebookが反撃 「相関は因果関係に等しい」という科学的原則に沿って、私たちの研究は、プリンストンが完全に消滅する危険があることを明確に示しました。 私たちは、プリンストンや世界の空気供給がすぐにどこかへ行くとは考えていません。私たちはプリンストン(と空気)が大好きです」と、「すべての研究が平等に作成されているわけではありません。また、いくつかの分析方法はかなりおかしな結論に導く」という最後のリマインダーを追加します。

14
大規模なデータセットは仮説検定に不適切ですか?
では最近の記事のAmstatニュース宣言します- 、作者(マーク・ファン・デル・ラーンとシェリー・ローズは)我々は十分に大きなサンプルサイズのために、効果なしの帰無仮説が真であるすべての研究-を含むものがあることを知っている」と述べました統計的に有意な効果。」。 まあ、私はそれを知りませんでした。これは本当ですか?大規模なデータセットに対して仮説検定は価値がないということですか?

8
ASAは
すでにp値としてタグ付けされた複数のスレッドがあり、それらについての多くの誤解が明らかになっています。10か月前、p値を「禁止」した心理学雑誌pppについてのスレッドがありましたが、現在は米国統計協会(2016)の分析では「値の計算で終わるべきではない」と言われています。ppp 米国統計協会(ASA)は、値の適切な使用と解釈の根底にあるいくつかの広く合意された原則を明確にする正式な声明から科学界が利益を得ることができると考えています。ppp 委員会は、値の可能な代替手段または補足として他のアプローチをリストします。ppp 値の一般的な誤用および誤解を考慮して 、一部の統計学者はp値を他のアプローチで補完するか、さらには置き換えることを好み ます。これらには、信頼性、信頼性、予測間隔など、テストよりも推定を重視する方法が含まれます。ベイジアン法; 尤度比やベイズ因子などの証拠の代替手段。意思決定理論モデリングや誤発見率などの他のアプローチ。これらの測定とアプローチはすべて、さらなる仮定に依存していますが、効果のサイズ(および関連する不確実性)または仮説が正しいかどうかにより直接対処する場合があります。pppppp それでは、値後の現実を想像してみましょう。ASAは、p値の代わりに使用できるいくつかのメソッドをリストしていますが、なぜより良いのですか?すべての人生でp値を使用した研究者にとって、実際の代替物となるのはどれですか?私が質問のこの種のことを想像するだろう後に表示されたpので、多分のは、一歩先にそれらのことを試してみましょう、-values現実。すぐに適用できる合理的な代替手段は何ですか?このアプローチが主任研究者、編集者、または読者を説得するのはなぜですか?pppppppppppp このフォローアップブログエントリが示唆しているように、値はそのシンプルさにおいて無敵です。ppp p値には、保持する帰無仮説の下での統計の振る舞いの統計モデルのみが必要です。「良い」統計(p値の構築に使用される)を選択するために対立仮説のモデルが使用される場合でも、この代替モデルは、p値が有効であり、有用です(つまり、実際の効果を検出するためのパワーを提供しながら、希望するレベルでタイプIエラーを制御します)。対照的に、尤度比、効果サイズ推定、信頼区間、ベイジアン法などの他の(驚くほど有用な)統計的手法はすべて、テストされたヌルの下だけでなく、より広い範囲の状況を保持するための仮定モデルを必要とします。 それとも、それとも真実ではないのでしょうか? 私は知っていますが、これは広範ですが、主な質問は簡単です:代替として使用できる値に代わる最良の(そしてなぜ)実際の代替物は何ですか?ppp ASA(2016)。統計的有意性と値に関するASAステートメント。PPP アメリカの統計学者。(印刷中)

9
これは本当にp値がどのように機能するのですか?年間100万件の研究論文を純粋なランダム性に基づいて作成できますか?
私は統計学は非常に新しく、値を含む基本を理解することを学んでいます。しかし、今私の頭の中には大きな疑問符があり、私の理解が間違っていることを願っています。これが私の思考プロセスです。ppp 世界中のすべての研究は、「無限の猿の定理」の猿にやや似ていませんか?世界には23887の大学があると考えてください。各大学に1000人の学生がいる場合、それは毎年2300万人の学生です。 毎年、各生徒が仮説検定を使用して少なくとも1つの調査を行うとしましょう。α = 0.05α=0.05\alpha=0.05 それは、すべての研究サンプルがランダムな母集団から引き出されたとしても、それらの約5%が「帰無仮説を無効として拒否する」ことを意味しません。ワオ。それについて考えてください。これは、「重要な」結果のために年間約100万件の研究論文が発行されていることです。 これが機能する場合、これは怖いです。それは、私たちが当たり前と考える「科学的真実」の多くは、純粋なランダム性に基づいていることを意味します。 Rコードの単純なチャンクが私の理解をサポートしているようです: library(data.table) dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value)) dt[p<0.05,] だから、成功する上でこの記事し -fishingは:私は減量を支援チョコレートを考えることに何百万人をだまさ。方法は次のとおりです。ppp これで本当にすべてですか?これは「科学」がどのように機能するはずなのか

7
t検定とノンパラメトリック検定のどちらを選択するか(例:小さいサンプルのウィルコクソン)
特定の仮説は、スチューデントのt検定(2サンプルの場合の不等分散のウェルチ補正を使用)、またはウィルコクソンのペアの符号付きランク検定、ウィルコクソン-マン-ホイットニーU検定などのノンパラメトリック検定を使用して検定できます。またはペアサインテスト。特にサンプルサイズが「小さい」場合、どのテストが最も適切であるかについて、原則的な決定を下すにはどうすればよいでしょうか。 入門教科書や講義ノートの多くは、正常にチェックされている「フローチャート」アプローチ与える( -のいずれかinadvisedly -によって、より広く正常試験によって、またはQQプロットまたは同様の)間で決定するのt検定またはノンパラメトリック検定。対応のない2標本t検定では、ウェルチの補正を適用するかどうかを決定するために、分散の均一性をさらにチェックする場合があります。このアプローチの1つの問題は、適用するテストの決定が観測データに依存する方法と、選択したテストのパフォーマンス(電力、タイプIエラー率)にどのように影響するかです。 もう1つの問題は、小さなデータセットで正規性を確認するのがいかに難しいかです。正式なテストでは消費電力が少ないため、違反は検出されない可能性がありますが、QQプロットでデータを目立たせるのは同様の問題です。たとえば、分布が混在しているが、その混合の1つのコンポーネントから観測値が得られなかった場合など、重大な違反であっても検出されない可能性があります。が大きい場合とは異なり、中央極限定理のセーフティネット、および検定統計量とt分布の漸近正規性に頼ることはできません。nnn これに対する原則的な応答の1つは「安全第一」です。小さなサンプルで正規性の仮定を確実に検証する方法がないため、ノンパラメトリック法に固執します。別の方法は、理論的に(たとえば、変数はいくつかのランダム成分の合計でCLTが適用される)または経験的に(たとえば、が大きい以前の研究では変数が正常であることを示唆する)、そのような根拠が存在する場合にのみt検定を使用する根拠を考慮することです。しかし、これは通常、おおよその正規性を正当化するだけであり、自由度が低い場合、t検定の無効化を回避するために必要な正常性の程度を判断するのは困難です。nnn t検定またはノンパラメトリック検定を選択するほとんどのガイドは、正規性の問題に焦点を当てています。しかし、小さなサンプルでもいくつかの副次的な問題が発生します。 「無関係なサンプル」または「対応のない」t検定を実行する場合、ウェルチ補正を使用するかどうか?一部の人々は、分散の等価性のために仮説検定を使用しますが、ここでは低電力になります。また、SDが(さまざまな基準で)「合理的に」近いかどうかをチェックします。母集団の分散が等しいと考える正当な理由がない限り、小さなサンプルに対して常にウェルチ補正を使用する方が安全ですか? メソッドの選択をパワーとロバスト性のトレードオフと見なす場合、ノンパラメトリックメソッドの漸近効率に関する主張は役に立ちません。「ウィルコクソン検定は、データが実際に正常であればt検定の約95%の能力を持ち、データがそうでなければはるかに強力であるため、ウィルコクソンを使用するだけ」という経験則が時々耳にされますが、 95%が大きなのみ適用される場合、これは小さなサンプルに対する欠陥のある推論です。nnn 変換されたデータが(十分に)正規分布に属しているかどうかを判断するのが難しいため、小さなサンプルでは、変換がデータに適切かどうかを評価することが非常に困難または不可能になる場合があります。QQプロットで、ログを取るとより合理的に見える非常に正に歪んだデータが明らかになった場合、ログデータにt検定を使用しても安全ですか?大きなサンプルではこれは非常に魅力的ですが、が小さいと、そもそも対数正規分布を期待する根拠がない限り、おそらく先延ばしになるでしょう。nnn ノンパラメトリックの仮定をチェックするのはどうですか? 一部の情報源は、ウィルコクソン検定を適用する前に対称分布を検証することをお勧めします(確率的優位ではなく位置の検定として扱う)。そもそもノンパラメトリック検定を適用する理由が「安全第一」というマントラへの盲目的な従順である場合、小さなサンプルから歪度を評価することの難しさは、明らかに、対符号検定のより低い検出力につながります。 。 これらの小さなサンプルの問題を念頭に置いて、tテストとノンパラメトリックテストを決定する際に実行する適切な(できれば引用可能な)手順はありますか? いくつかの優れた回答がありましたが、順列テストなど、ランクテストに代わる他の方法を検討した回答も歓迎します。

2
「インザワイルド」なPハッキングについてどれだけ知っていますか?
フレーズp -hacking(「データ dr 」、「スヌーピング」、「フィッシング」)は、結果が人為的に統計的に有意になるさまざまな種類の統計的不正行為を指します。「より重要な」結果を取得する方法は多数ありますが、決してこれらに限定されません: パターンが見つかったデータの「興味深い」サブセットのみを分析します。 複数のテスト、特に事後テスト、および重要ではない実行されたテストの報告に失敗した場合の適切な調整の失敗。 同じ仮説の異なるテスト、たとえば、パラメトリックテストとノンパラメトリックテストの両方を試します(このスレッドでは、いくつかの議論があります)が、最も重要なもののみを報告します。 望ましい結果が得られるまで、データポイントの包含/除外を試行します。「データクリーニングの外れ値」だけでなく、曖昧な定義(「先進国」の計量経済学の研究、異なる定義が異なる国のセットをもたらす)、または定性的包含基準(例えば、メタ分析) 、特定の研究の方法論が十分に堅牢であるかどうかは、バランスのとれた議論かもしれません) 前の例は、オプションの停止に関連しています。つまり、データセットを分析し、これまでに収集したデータに応じてデータを収集するかどうかを決定します(「これはほとんど重要です。さらに3人の学生を測定しましょう!」)分析で; モデルフィッティング中の実験、特に含める共変量だけでなく、データ変換/関数形式に関する実験。 したがって、p-ハッキングが実行できることを知っています。多くの場合、「p値の危険性」の 1つとしてリストされており、統計的有意性に関するASAレポートで言及されており、ここでCross Validatedで説明されているため、悪いことでもあります。いくつかの疑わしい動機と(特に学術出版の競争において)逆効果的なインセンティブは明らかですが、意図的な不正行為であろうと単純な無知であろうと、それがなぜなのかを理解するのは難しいと思います。ステップワイズ回帰からp値を報告する人(ステップワイズ手順は「良いモデルを生成する」が、意図されたpを認識していないため)-値が無効化される)、後者のキャンプではあるが、その効果はまだありP上記の私の箇条書きの最後の下-hacking。 確かにpハッキングが「外にある」という証拠があります。例えば、Head et al(2015)は科学文献に感染している証拠的な兆候を探しますが、それに関する我々の証拠の現状は何ですか?Headらがとったアプローチには論争がなかったわけではないことを知っているので、文学の現状、または学術界の一般的な考え方は興味深いでしょう。たとえば、次のことについて考えていますか? それはどの程度一般的であり、その発生を出版バイアスとどの程度まで区別できますか?(この区別は意味がありますか?) 効果は境界で特に深刻ですか?たとえば、で同様の効果が見られますか、それともp値の範囲全体が影響を受けますか?P ≈ 0.05p≈0.05p \approx 0.05P ≈ 0.01p≈0.01p \approx 0.01 pハッキングのパターンは学問分野によって異なりますか? p-ハッキングのメカニズム(上記の箇条書きにリストされているもの)のどれが最も一般的であるか、私たちは考えていますか?一部のフォームは、「よりよく偽装されている」ため、他のフォームよりも検出が難しいことが証明されていますか? 参照資料 ヘッド、ML、ホルマン、L。、ランフィア、R。、カーン、AT、およびジェニオン、MD(2015)。科学におけるpハッキングの範囲と結果。PLoS Biol、13(3)、e1002106。

3
「単純なブートストラップ」が失敗する例は何ですか?
未知の分布または複雑な分布からのサンプルデータのセットがあり、データの統計に対して何らかの推論を実行するとします。私のデフォルトの傾きはちょうど交換とブートストラップサンプルの束を生成し、そして私の統計を計算することであるための推定分布を作成するために、各ブートストラップ標本に。TTTTTTTTT これが悪い考えである例は何ですか? たとえば、このブートストラップの単純な実行が失敗する場合の1つは、時系列データでブートストラップを使用しようとしている場合です(たとえば、重要な自己相関があるかどうかをテストするため)。上記のナイーブブートストラップ(元のシリーズからの置換でサンプリングすることにより、n番目のブートストラップサンプルシリーズの番目のデータポイントを生成)は、元の時系列の構造を無視するため、お勧めできません。ブロックブートストラップのような、より手の込んだブートストラップテクニックを取得します。iii 別の言い方をすれば、「置換によるサンプリング」以外にブートストラップには何がありますか?

9
p値に関して、なぜ1%と5%ですか?なぜ6%または10%ではないのですか?
p値については、なぜ%と%がのゴールドスタンダードであると思われるのでしょうか。%や%のような他の値はなぜですか?111555"statistical significance"666101010 これには根本的な数学的理由がありますか、それとも単に広く行われている慣習ですか

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
心理学誌は、p値と信頼区間を禁止しました。それらの使用をやめるのは本当に賢明ですか?
2015年2月25日に、ジャーナルBasic and Applied Social Psychology は、将来のすべての論文から値と信頼区間を禁止する社説を発行しました。ppp 具体的には、彼らは言う(フォーマットと強調は私のものです): [...]出版前に、著者はNHSTPのすべての痕跡を削除する必要があります[null仮説の有意性検定手順](値、値、値、「有意な」差異またはその欠如に関する記述、 等々)。ppptttFFF NHSTPが棄却の強力なケースを提供するために必要な帰無仮説の確率の提供に失敗する方法と同様に、信頼区間は対象の母集団パラメーターが指定された範囲内にあると結論付けるための強力なケースを提供しません間隔。したがって、信頼区間もBASPから禁止されています。 [...]ベイジアンの手順に関して、私たちはケースバイケースの判断を行う権利を留保します。したがって、ベイジアンの手順はBASPに必要でも禁止でもありません。 [...]推論統計手順は必要ですか?- いいえ [...]ただし、BASPでは、効果の大きさなどの強力な記述統計が必要です。 ここで、値の問題と誤用については説明しません。p-valueタグを参照すると、CVに関する優れた議論がたくさんあります。値の批判は、多くの場合、関心のあるパラメーターの信頼区間を報告するためのアドバイスと一緒になります。たとえば、この非常によく議論された回答では、 @ gungは、効果のサイズとその周囲の信頼区間を報告することを提案しています。しかし、このジャーナルは信頼区間も禁止しています。pppppp 値、信頼区間、および重要/重要でない二分法による「従来の」アプローチとは対照的に、データと実験結果を提示するこのようなアプローチの利点と欠点は何ですか?この禁止に対する反応はほとんど否定的なようです。それでは、欠点は何ですか?アメリカ統計協会は、この禁止について、「この政策はそれ自体の否定的な結果をもたらすかもしれない」と言って、簡単な落胆的なコメントを投稿しました。これらの負の結果は何でしょうか?ppp または、@ whuberが提案したように、このアプローチは一般的に定量的研究のパラダイムとして提唱されるべきですか?もしそうでなければ、なぜですか? PS。私の質問は禁止自体に関するものではないことに注意してください。それは提案されたアプローチについてです。私は、頻度論者対ベイジアン推論についても尋ねていません。エディトリアルは、ベイジアン手法についてもかなり否定的です。したがって、基本的には統計を使用することと、統計をまったく使用しないことです。 その他の議論:reddit、Gelman。

4
FisherとNeyman-Pearsonフレームワークを使用する場合
最近、フィッシャーの仮説検定の方法とネイマン・ピアソンの考え方との違いについてたくさん読んでいます。 私の質問は、哲学的な異議をしばらく無視することです。統計モデリングのフィッシャーのアプローチをいつ使用する必要があり、有意水準などのネイマン・ピアソン法を使用する必要があるのか​​?特定の実用的な問題でどの視点を支持するかを決定する実用的な方法はありますか?

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

9
有意なF統計量(p <.001)であるが有意ではないリグレッサーt検定を取得できるのはなぜですか?
多重線形回帰では、非常に有意なF統計量(p &lt;.001)があり、すべてのリグレッサーのt検定で非常に高いp値を持つことができるのはなぜですか? 私のモデルでは、10個の回帰変数があります。1つのp値は0.1で、残りは0.9を超えています この問題に対処するには、次の質問を参照してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.