タグ付けされた質問 「hypothesis-testing」

仮説検定では、データがランダムな変動の影響ではなく、特定の仮説と矛盾しているかどうかを評価します。

8
最初にベイジアン統計または頻度統計を教える必要がありますか?
私は現在高校生で、統計を理解している少年たちを助けています。そして、理論を垣間見ることなく、いくつかの簡単な例から始めることを考えています。 私の目標は、統計をさらに追求し、定量的学習に興味を持たせるために、統計をゼロから学習するための最も直感的でありながら建設的なアプローチを提供することです。 ただし、始める前に、非常に一般的な意味を持つ特定の質問があります。 ベイジアンまたは頻度主義のフレームワークを使用して統計を教え始める必要がありますか? よく調べてみると、一般的なアプローチは、頻繁な統計の簡単な紹介から始まり、その後にベイジアン統計の詳細な議論が続きます(例:Stangl)。

3
なぜ基本的な仮説検定は中央値ではなく平均値に焦点を合わせているのですか?
基本的な学部生の統計コースでは、学生は(通常?)母集団の平均に対する仮説検定を教えられます。 中央値ではなく平均値に焦点が当てられているのはなぜですか?私の推測では、中心極限定理のために平均値をテストする方が簡単だと思いますが、私はいくつかの教育された説明を読みたいです。

3
観測データ(釣り遠征)と一致するように仮説を変更し、タイプIエラーの増加を回避することは可能ですか?
研究者は、仮説を形成し、その仮説を検証するためにデータを収集する前に、既存のデータと研究の観察と調査に時間を費やす必要があることはよく知られています(帰無仮説有意性検定を参照)。多くの基本的な統計の本は、仮説を先験的に形成する必要があり、データ収集後に変更できないことを警告します。そうしないと、方法論が無効になります。 私は1つの理由はなぜ観測データを合わせて仮説を変更する問題があることを理解しては理由による偽データにタイプIエラーを犯すの大きなチャンスであるが、私の質問は:であることだけで行くと、他の根本的な問題がある理由か釣り遠征で? おまけの質問として、潜在的な落とし穴にさらされることなく釣り遠征に行く方法はありますか?たとえば、十分なデータがある場合、データの半分から仮説を生成し、残りの半分を使用してそれらをテストできますか? 更新 私の質問への関心に感謝しますが、答えとコメントは、私が背景情報として確立したと思ったものを主な目的としています。スプリアス結果の可能性が高いこと以外に悪い理由が他にあるかどうか、そしてデータを最初に分割するなど、仮説を事後に変更するがタイプIエラーの増加を避ける方法があるかどうかを知りたいと思っています。 質問の趣旨をうまく反映してタイトルを更新しました。 ありがとう、そして混乱してごめんなさい!

2
データを視覚化した後に統計テストを実行する-データの??
例としてこの質問を提案します。 ボストンの住宅価格データセットなどのデータセットがあり、そこに連続変数とカテゴリ変数があるとします。ここには、1〜10の「品質」変数と販売価格があります。品質のカットオフを(任意に)作成することで、データを「低」、「中」、「高」の品質の家に分けることができます。次に、これらのグループを使用して、販売価格のヒストグラムを相互にプロットできます。そのようです: ここで、「低」は、および「高」である> 7「品質」スコアに。これで、3つのグループのそれぞれの販売価格の分布ができました。中品質の住宅と高品質の住宅では、場所の中心に違いがあることは明らかです。さて、これをすべて終えた後、「うーん、場所の中心に違いがあるようです!どうして平均値でt検定をしないのですか?」と思います。次に、平均に差がないという帰無仮説を正しく拒否するように見えるp値を取得します。≤ 3≤3\leq 3> 7>7>7 さて、データをプロットするまで、この仮説をテストすることを何も考えていないとします。 このデータはdrですか? 「もし、私は以前に家に住んでいた人間だから、高品質の家はもっと費用がかかるに違いない。データをプロットするつもりだ。ああ、違う!時間だ!」 t検定に!」 当然、この仮説を最初からテストするためにデータセットが収集された場合、データのredではありません。しかし、しばしば私たちに与えられたデータセットで作業しなければならず、「パターンを探す」ように言われます。このあいまいなタスクを念頭に置いて、データのdrを回避する方法を教えてください。データをテストするためのホールドアウトセットを作成しますか?視覚化は、データによって提案された仮説をテストする機会のスヌーピングとして「カウント」されますか?

4
p値が小さいほど説得力がありますか?
値、タイプ1のエラー率、有意水準、検出力の計算、効果の大きさ、およびフィッシャーとネイマンピアソンの議論について読んでいます。これにより、私は少し圧倒されました。テキストの壁をおaびしますが、実際の質問に移る前に、これらの概念の現在の理解の概要を提供する必要があると感じました。ppp 私が収集したものから、値は単に驚きの尺度であり、帰無仮説が真であれば、少なくとも極端な結果が得られる確率です。フィッシャーはもともと、それが継続的な測定であることを意図していた。ppp Neyman-Pearsonフレームワークでは、事前に有意水準を選択し、これを(任意の)カットオフポイントとして使用します。有意水準はタイプ1のエラー率に等しくなります。これは、長時間の実行頻度によって定義されます。つまり、実験を1000回繰り返して帰無仮説が真である場合、それらの実験のうち約50がサンプリングのばらつきのために大きな効果をもたらします。有意水準を選択することにより、一定の確率でこれらの誤検知から身を守ります。値は伝統的にこのフレームワークには現れません。PPP 0.01の値が見つかった場合、これはタイプ1のエラー率が0.01であることを意味するものではなく、タイプ1のエラーは事前に示されます。p値は0.05 *、0.01 **、0.001 ***として報告されることが多いため、これはフィッシャー対NPの議論における主要な議論の1つであると思います。これは、特定の有意値ではなく、特定のp値で効果が有意であると人々を誤解させる可能性があります。ppppppppp また、値がサンプルサイズの関数であることも認識しています。したがって、絶対測定として使用することはできません。小さなp値は、大規模なサンプル実験での小さな、無関係な効果を示している可能性があります。これに対抗するには、実験のサンプルサイズを決定するときに、出力/効果サイズの計算を実行することが重要です。P値は、効果の大きさではなく、効果があるかどうかを示します。Sullivan 2012を参照してください。ppppppPPP 私の質問: p値が驚きの尺度(より小さい=より説得力がある)であると同時に、絶対的な測定値と見なすことができないという事実をどのように調整できますか?ppp 私が混乱しているのは、次のとおりです。小さな値の方が大きな値よりも自信がありますか?漁師の意味では、そうです、私たちはもっと驚いています。NPフレームワークでは、より低い有意水準を選択することは、偽陽性に対してより強力に保護していることを意味します。ppp しかし、一方で、値はサンプルサイズに依存します。それらは絶対的な尺度ではありません。したがって、0.001593が0.0439 より重要であると単純に言うことはできません。しかし、これはフィッシャーのフレームワークで暗示されていることです。このような極端な価値にもっと驚かれることでしょう。用語についても、議論があります非常に重要な誤った名称であること:それは「非常に重要」であるとの結果を参照するために間違ってますか?ppp 一部の科学分野の値は0.0001より小さい場合にのみ重要と見なされるのに対し、他の分野では0.01前後の値はすでに非常に重要であると見なされていると聞きました。ppp 関連する質問: 統計的検定に対するフィッシャーとネイマン・ピアソンのアプローチ間の「ハイブリッド」は、実際には「インコヒーレントなミッシュマッシュ」ですか? FisherとNeyman-Pearsonフレームワークを使用する場合 「p値」の正確な値は無意味ですか? タイプIエラーに関連したp値の頻度特性 2つの平均の信頼区間とP値 なぜp値が低いほどnullに対する証拠ではないのですか?Johansson 2011の引数(@amoeba提供)

4
なぜ低いp値はヌルに対する証拠ではないのですか?ヨハンソン2011からの議論
Johansson(2011)は、「Hail the不可能:p値、証拠、および可能性」(ここにもジャーナルへのリンクがあります)で、値が低いほど、nullに対する強力な証拠と見なされることが多いと述べています。Johanssonは、統計テ​​ストが値出力した場合よりも統計テストが値出力した場合、nullに対する証拠が強いと考えることを意味します。Johanssonは、値をnullに対する証拠として使用できない4つの理由をリストしています。pppppp0.010.010.01ppp0.450.450.45ppp pppは帰無仮説の下で均一に分布しているため、帰無の証拠を示すことはできません。 pppは帰無仮説のみに条件付けられ、したがって、証拠は別の仮説に関連する仮説の証拠または反対の証拠であるという意味で常に相対的であるため、証拠を定量化するのには適していません。 pppは、エビデンスの強度ではなく、エビデンスを取得する確率(nullの場合)を示します。 pppは、観察されていないデータと主観的な意図に依存するため、証拠の解釈を考慮すると、観察されたデータの証拠強度は、発生しなかったものと主観的な意図に依存することを意味します。 残念ながら、ヨハンソンの記事から直感的な理解を得ることができません。私にとっての-値 nullがより、真である少ないチャンスがあることを示しの-値。なぜ低いppp0.010.010.01ppp0.450.450.45ppp値はnullに対する強力な証拠ではないのですか?

1
GBMパラメータの有用なガイドラインは何ですか?
GBMを使用してパラメータ(相互作用の深さ、ミンチャイルド、サンプルレートなど)をテストするための有用なガイドラインは何ですか? 人口が200,000の70-100の機能があり、相互作用の深さ3と4をテストするつもりだとしましょう。明らかに、パラメーターのどの組み合わせが最適なサンプル外であるかを確認するためにテストを行う必要があります。このテスト設計にアプローチする方法に関する提案はありますか?

3
信頼区間とt検定の検定統計仮説の関係
信頼区間と検定統計仮説が強く関連していることはよく知られています。私の質問は、数値変数に基づいた2つのグループの平均の比較に焦点を当てています。このような仮説はt検定を使用してテストされると仮定しましょう。一方、両方のグループの平均の信頼区間を計算できます。信頼区間の重複と平均が等しいという帰無仮説の棄却との間に関係はありますか?(異なることを意味する代替案を支持して-両側検定)たとえば、信頼区間が重ならない場合、検定は帰無仮説を棄却できます。

1
「聖書コード」エピソードから統計的な教訓がありますか
この質問は多少主観的ですが、よくある質問のガイドラインに従って、それが良い主観的な質問として適格であることを願っています。それは、1年前にOlleHäggströmが私に尋ねた質問に基づいています。私はそれについていくつかの考えを持っていますが、明確な答えはありません。 バックグラウンド: D. Witztum、E。Rips、およびY. Rosenbergによる「創世記の等距離文字列」と題された論文は、創世記のヘブライ語のテキストは、テキストの千年後まで起こらなかった出来事をコード化するという異常な主張をした書かれた。この論文は、1994年に「Statistical Science」(Vol。9 429-438)によって発行され、その解決策が統計分野に貢献する可能性のある「挑戦的なパズル」として提供されました。 返信として、B。マッケイ、D。バー-ナタン、M。バー-ヒレル、G。カライによる「Solving the Bible code puzzle」というタイトルの別の論文が1999年に統計科学に登場しました(Vol。14(1999)150-173) 。新しい論文は、ウィッツトゥム、リプス、ローゼンバーグの事例は致命的な欠陥であり、実際、それらの結果は実験の設計とそのためのデータ収集で行われた選択にのみ反映していると主張しています。この論文は、その結論を裏付ける広範な証拠を提示しています。 (私たちの紙の第8章にまとめられている私自身の関心は別で詳述されている技術的なレポートと題しバーヒレルとマッケイと「2つの有名なラビ実験を:あまりにも似ているか似て?」も参照してください。このサイト。) 質問: OlleHäggströmの具体的な質問: 「かつて、データマイニングと関連技術の落とし穴を説明する目的で、あなたの論文が上級学部レベルの統計コースで役立つかもしれないと提案しました。同意しますか?」 オルレの質問に加えて、より一般的な質問をさせてください。 聖書コードのエピソードから学んだ統計に関連する何か(おそらく興味深い質問を含む)はありますか。 明確にするために、私の質問は統計に関連する洞察に限定され、このエピソードの他の側面には限定されません。


3
査読済みのオープンソースジャーナルに対する推奨事項
1つの平均の仮説をテストするためのブートストラップ法に関する原稿があり、それを出版のために送りたいのですが、道徳的なジレンマがあります。私はエルゼビアの非倫理的なビジネス慣行に対する抗議に署名しました。問題全体を読んで、他の営利の学術雑誌の倫理に疑問を投げかけました。そのため、名声に関する限り、そのようなジャーナルはまだ確立されているジャーナルと同等ではないと理解しているにもかかわらず、非営利、できればオープンソースのジャーナルに掲載したいと思います。幸いなことに、私はすでに終身在職権を持っているので、それは私にとって大きな考慮事項ではありません。 推奨事項をいただければ幸いです。

4
2つのポアソンサンプルの平均値が同じかどうかの確認
これは基本的な質問ですが、答えを見つけることができませんでした。私は2つの測定値を持っています。時間t1のn1イベントと時間t2のn2イベントの両方が、おそらく異なるラムダ値を持つポアソンプロセスによって生成されます。 これは実際にはニュース記事からのものであり、本質的には、あるため、この2つは異なると主張していますが、主張が有効かどうかはわかりません。(一方または他方のイベントを最大化するために)期間が悪意を持って選択されなかったとします。n1/t1≠n2/t2n1/t1≠n2/t2n_1/t_1\neq n_2/t_2 tテストを行うことはできますか、それとも適切ではありませんか?イベントの数が少なすぎるため、分布をほぼ正常に快適に呼び出すことができません。

5
統計と機械学習の2つのグループを区別する:仮説検定対分類対クラスタリング
AとBというラベルの付いた2つのデータグループ(それぞれ200個のサンプルと1つの機能を含むなど)があり、それらが異なるかどうかを知りたいとします。私はできた: a)統計的検定(t検定など)を実行して、統計的に異なるかどうかを確認します。 b)教師付き機械学習を使用します(サポートベクトル分類子またはランダムフォレスト分類子など)。データの一部でこれをトレーニングし、残りの部分で検証できます。機械学習アルゴリズムがその後残りを正しく分類する場合、サンプルが微分可能であると確信できます。 c)教師なしアルゴリズム(K-Meansなど)を使用して、すべてのデータを2つのサンプルに分割します。次に、これらの2つのサンプルがラベルAとBに一致するかどうかを確認できます。 私の質問は: これら3つの異なる方法はどのように重複/排他的ですか? b)とc)は科学的な議論に役立ちますか? 方法b)とc)のサンプルAとBの違いの「有意性」を取得するにはどうすればよいですか? データに1つの機能ではなく複数の機能がある場合、何が変わりますか? サンプル数が異なる場合、たとえば100対300の場合はどうなりますか?

4
ジャーナルScienceはForking Pathes Analysisの庭を支持していますか?
適応データ分析の考え方は、データの詳細を学習するにつれて、データ分析の計画を変更することです。探索的データ分析(EDA)の場合、これは一般に良いアイデアです(データに予期しないパターンを探すことが多い)が、確認研究では、これは非常に欠陥のある分析方法として広く受け入れられています(すべての場合を除く)手順が明確に定義され、高度に適切に計画されています)。 そうは言っても、適応データ分析は通常、統計学者をがっかりさせるほど多くの研究者が実際に分析を行う数です。そのため、統計的に有効な方法でこれを行うことができれば、統計的実践に革命をもたらすでしょう。 次のScienceの記事は、そのような方法を見つけたと主張しています(私はペイウォールをおizeびしますが、大学にいる場合はアクセスできる可能性が高い):Dwork et al、2015、The reusable holdout:Preserving Validity in Adaptive Data Analysis。 個人的には、私はScienceに掲載された統計記事について常に懐疑的でしたが、これも例外ではありません。実際、補足資料を含めて記事を2回読んだ後、著者が自分の方法が過剰適合を防ぐと主張する理由を(まったく)理解できません。 私の理解では、彼らは再利用するホールドアウトデータセットを持っているということです。彼らは、ホールドアウトデータセットの確認分析の出力を「ファジング」することで主張しているようで、過剰適合は防止されます(トレーニングデータの計算された統計が十分に遠い場合、ファジングは単にノイズを追加しているように見えることに注意する価値があります)ホールドアウトデータの計算された統計から)。私の知る限り、これが過剰適合を防ぐ本当の理由はありません。 著者が提案していることを間違えていますか?私が見落としている微妙な効果はありますか?それとも、科学 はこれまで最悪の統計的実践を支持していたのでしょうか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.