統計とビッグデータ hypothesis-testing

2

これは明らかに単なる定義または慣例の問題であり、実際的な重要性はほとんどありません。が従来の値0.05に設定されている場合、値0.0500000000000 ...は統計的に有意であると見なされますか？統計的有意性を定義する規則は、通常またはと見なされますか？P 、P < α のp ≤ ααα\alphapppp<αp<αp < \alphap≤αp≤αp \leq \alpha

14 hypothesis-testing statistical-significance definition

1

低不一致シーケンスでのスクランブルと相関（ハルトン/ソボル）

現在、HaltonやSobolのポイントセットなど、低不一致/準ランダムポイントセットを使用してランダムな値を生成するプロジェクトに取り組んでいます。これらは、基本的には次元のベクトルその模倣A次元の制服（0,1）の変数が、より良い広がりを持っています。理論的には、プロジェクトの別の部分での私の見積もりの分散を減らすのに役立つはずです。ddddddd 残念ながら、私は彼らと仕事をする問題に遭遇しており、それらに関する多くの文献は密集しています。したがって、私は彼らと経験を積んだ人から何らかの洞察を得ること、または少なくとも何が起こっているかを経験的に評価する方法を見つけたいと思っていました。それらを使用した場合：スクランブルとは何ですか？また、生成されるポイントのストリームにどのような影響がありますか？特に、生成されるポイントの寸法が増加すると効果がありますか？ MatousekAffineOwenスクランブリングでSobolポイントの2つのストリームを生成すると、2つの異なるポイントストリームが得られるのはなぜですか。Haltonポイントで逆基数スクランブルを使用する場合、なぜこれが当てはまらないのですか？これらのポイントセットに存在する他のスクランブリングメソッドはありますか？存在する場合、それらのMATLAB実装はありますか？それらを使用していない場合：私が持っていると言う列おそらく乱数の、私は彼らがお互いに相関していないことを示すために使用すべき統計のどのタイプ？そして、何の数、私は私の結果は統計的に有意であることを証明する必要があるでしょうか？また、どのように私は私が持っていたならば、同じこと何ができる列の次元ランダムベクトルは？S 1、S 2、... 、S N N N S 1、S 2、... 、S N D [ 0 、1 ]nnnS1,S2,…,SnS1,S2,…,SnS_1, S_2, \ldots,S_nnnnnnnS1,S2,…,SnS1,S2,…,SnS_1, S_2, \ldots,S_nddd[0,1][0,1][0,1] Cardinalの回答に関する追加の質問理論的に言えば、スクランブル方法と低不一致シーケンスを組み合わせることができますか？MATLABでは、Haltonシーケンスに逆基数スクランブルを適用することしかできず、それが単に実装の問題なのか互換性の問題なのか疑問に思っています。相互に関連のない2つの（t、m、s）ネットを生成できる方法を探しています。MatouseAffineOwenはこれを許可しますか？決定論的なスクランブリングアルゴリズムを使用し、kが素数であるすべての「kth」値を選択するだけの場合はどうでしょうか。

14 hypothesis-testing monte-carlo random-generation randomness

3

適切な分析手法とテストの選択を支援するフローチャート

統計的知識を必要とするが、正式に訓練された統計学者ではない人として、特定の問題を解決するための正しいアプローチを選択するのに役立つフローチャート（またはある種の決定ツリー）があると便利だと思いますこれが必要であり、それを知っており、データが正規分布していると考えますか？テクニックXを使用します。データが正規でない場合は、YまたはZを使用します。いくつかのグーグル検索の後、さまざまなカバレッジと品質のいくつかの試みを見てきました（現時点では利用できないものもあります）。また、図書館で相談した統計教科書でも同様のフローチャートを見ました。ボーナスはインタラクティブなサイトであり、チャートを持つだけでなく、追加の情報（仮定など）を提供し、人気のあるstatパッケージでこれらの手法を実行する方法を示します。「RでANOVAを行う必要がありますか？パッケージXが必要です。ここにチュートリアルがあります」。私は見つけられなかったより良いリソースがあることを期待して、コミュニティのウィキの質問として尋ねています。統計は大きな主題であるため、このようなフローチャートは、初心者または中級レベルの知識を持っている人がアプローチできる手法に適していると思います。より複雑なものには、正式なトレーニングを受けた人が必要です。

14 hypothesis-testing data-mining eda

3

フィッシャーはこの引用で何を意味しますか？

私はこの有名な引用を随所に見ていますが、強調された部分を毎回理解するのに失敗しています。習慣が慣例であるため、有意性が1％以上の場合、仮説を暫定的に「拒否」する人は、そのような決定の1％未満と間違います。仮説が正しいとき、彼はこれらのケースのわずか1％で間違えられ、それが間違っているとき、彼は拒絶で決して間違われません。[...]しかし、計算はとてつもなくアカデミックです。実際、科学者は毎年一定の重要性レベルを持たず、あらゆる状況で仮説を拒否します。彼はむしろ、彼の証拠と彼の考えに照らして、それぞれの特定の事件に心を向けています。テストを適用するために選択されたケースが明らかに高度に選択されたセットであり、選択条件が単一のワーカーであっても指定できないことを忘れてはなりません。また、使用された議論では、特定の試験で示された実際の重要性のレベルを、まるで彼の生涯の習慣であるかのように選択することは明らかに違法であるとは言えません。（統計手法と科学的推論、1956、p。42-45）具体的には、わかりませんテストを適用するためにケースが「高度に選択」されているのはなぜですか？エリア内の人々の平均身長が165cm未満かどうか疑問に思って、テストを実施することにします。私が知る限り、標準的な手順は、領域からランダムなサンプルを取り出し、その高さを測定することです。これはどのように高度に選択できますか？ケースが高度に選択されていると仮定しますが、これは有意水準の選択にどのように関連していますか？もう一度上記の例を考えてみましょう。サンプリング方法（フィッシャーが選択の条件と呼んでいるものと思われるもの）が歪んでおり、背の高い人を何らかの形で好む場合、研究全体が台無しになり、有意水準の主観的な決定はそれを保存できません。実際、「特定の試験で示された実際の有意水準」が何を指しているのかさえ、私には分かりません。それはその実験のppp値、有名な0.05のような（in）有名な値、または何か他のものですか？

14 hypothesis-testing statistical-significance references experiment-design philosophical

1

デボラマヨの「重大度」とは何ですか？

彼女の「重大度」の意味（帰無仮説としてさまざまな不一致で評価されたべき乗関数だけではない）の詳細な（そして明確な）説明を誰でも与えることができますか？それは一般に統計検定文献にどのように適合しますか？

14 hypothesis-testing statistical-significance

2

Benjamini-Hochbergで調整されたp値の式は何ですか？

手順とそれが制御するものを理解しています。それでは、多重比較のためのBH手順の調整されたp値の式は何ですか？たった今、オリジナルのBHが調整されたp値を生成せず、（非）拒否条件のみを調整したことに気付きました：https : //www.jstor.org/stable/2346101。Gordon Smythは、とにかく2002年に調整されたBH p値を導入したので、問題は依然として当てはまります。p.adjustmethodと同様にRで実装されていBHます。

14 hypothesis-testing p-value multiple-comparisons false-discovery-rate

2

変数選択に対する矛盾するアプローチ：AIC、p値、またはその両方？

私が理解していることから、（少なくとも回帰コンテキストでは）p値に基づいた変数選択には大きな欠陥があります。AIC（または同様の）に基づく変数の選択も、同様の理由でいくつかの欠陥があると考えられますが、これは少し不明瞭に見えます（たとえば、このトピックに関する私の質問といくつかのリンクを参照してください。）。ただし、これら2つの方法のいずれかを使用して、モデル内の最適な予測子のセットを選択するとします。 Burnham and Anderson 2002（モデル選択およびマルチモデル推論：実用的な情報理論的アプローチ、83ページ）では、AICに基づく変数選択と仮説検定に基づく変数選択を混在させないでください：「帰無仮説および情報理論的アプローチのテスト一緒に使用しないでください。これらは非常に異なる分析パラダイムです。」一方、Zuur et al。2009（R、ページ541とエコロジーで拡張子を持つ混合効果モデル）の使用を提唱するように見える最初の最適なモデルを見つけ、その後、仮説検定を使用して「微調整」を実行するAICを：「欠点はAICが保守的であることができるということです、AICが最適なモデルを選択したら、（アプローチ1からの仮説検定を使用して）微調整を適用する必要がある場合があります。」これにより、どちらのアプローチに従うべきかについて、両方の本の読者が混乱していることがわかります。 1）これらは、統計的思考の異なる「キャンプ」であり、統計学者の間の不一致のトピックですか？これらのアプローチの1つは、単に「時代遅れ」になっていますが、執筆時点では適切と考えられていましたか？または、最初から単純に間違っているのでしょうか？ 2）このアプローチが適切となるシナリオはありますか？たとえば、私は生物学的背景から来ています。そこでは、どの変数が応答に影響を与えているか、またはそれを推進しているように見えるかを判断しようとしています。多くの場合、説明変数の候補がいくつかありますが、どちらが「重要」かを（相対的な観点から）見つけようとしています。また、候補予測変数のセットは、生物学的関連性があると考えられるものに既に削減されていますが、これには5-20の候補予測変数が含まれている場合があります。

13 hypothesis-testing multiple-regression feature-selection model-selection aic

7

結果を「ほぼ」または「ある程度」重要と呼ぶのは間違っていますか？

同様の質問に対する一般的なコンセンサス、結果を「非常に重要」と呼ぶのは間違っていますか？「非常に重要」は、事前に設定された重要度のしきい値をはるかに下回るp値を持つ関連付けの強度を記述するための有効な方法ですが、非特異的ではあります。ただし、しきい値をわずかに上回る p値の記述についてはどうでしょうか。私は、「ある程度重要」、「ほぼ重要」、「重要に近づく」などの用語を使用する論文を見てきました。私はこれらの用語が少し希望的でウォッシュなものであり、場合によっては否定的な結果の研究から意味のある結果を引き出す境界線の不誠実な方法だと思います。これらの用語は、p値のカットオフを「見逃す」結果を説明するのに受け入れられますか？

13 hypothesis-testing statistical-significance p-value terminology

1

分布がべき法則に従っているかどうかをテストする方法は？

何人のユーザーがいくつの質問を投稿したかに関するデータがあります。例えば、 [UserCount, QuestionCount] [2, 100] [9, 10] [3, 80] ... ... これは、2人のユーザーがそれぞれ100の質問を投稿し、9人のユーザーがそれぞれ10の質問を投稿したことを意味します。だから、どうすればUserCount, QuestionCount分布がべき法則に従っているますか？ poweRlawパッケージを見つけました。ただし、評価を行うために1つのグループの数値のみを渡すことができます。（このパッケージで提供されている例は単語の頻度です。）では、このパッケージをどのように使用しますか？それとも何かおかしいのでしょうか？また、各ユーザーの質問数のデータもあり[100, 100, 10, 10, 10 ... ]ます。このデータをパッケージに渡すと、何が得られますか？

13 r hypothesis-testing goodness-of-fit power-law

3

2つの（非正規）分布が異なるかどうかをテストするにはどうすればよいですか？

スチューデントのt検定について読んだことがありますが、元の分布が正常に分布していると想定できる場合に機能するようです。私の場合、そうではありません。また、13個のディストリビューションがある場合、13^2テストを行う必要がありますか？

13 r hypothesis-testing distributions

1

ANOVAのテストの

イントロ：この質問で、今日受け取っ注意を指摘した、「？ペアワイズt検定のいずれでもないとき缶ANOVAが重要である、」私は答えの独自のセットに値するだろう面白い方法でそれをリフレームすることができるかもしれないと思いました。統計的有意性が単純な二分法として理解され、より高い基準に基づいて判断される場合、または場合、さまざまな不整合な結果（額面）が発生する可能性があります。上記の質問に対する @Glen_bの回答は、次の場合の有用な例を示しています。P αppα\alpha ANOVA F検定FFは、4つのレベルを持つ1つの独立変数（IV）に対してp F < .05pF<.05p_F<.05を生成しますが、 IVの4つのレベルの各ペアに対応する観測値間で、同じ従属変数（DV）の差を比較するpt>.08p_t>.08すべての2サンプル ttt検定で p t > .08。この質問による事後のペアワイズ比較のボンフェローニ補正にもかかわらず、同様のケースが発生しました：Anovaの反復測定は重要ですが、ボンフェローニ補正とのすべての多重比較はそうではありませんか？重回帰のテストがわずかに異なる前述のケースも存在します。有意なF統計量（p <.001）であるが有意ではないリグレッサーt検定を取得できるのはなぜですか？：P F < 0.001 、P β T > 0.09pF<.001,pβt>.09p_F<.001,p_{\beta t}>.09 回帰はどのように有意であるが、すべての予測変数は有意ではないのでしょうか？ @ whuberさんに答え、P F = 0.0003 、P β T > 0.09pF=.0003,pβt>.09p_F=.0003,p_{\beta t}>.09 私は賭けてこのような場合には、ことをいくつかの（すべてではない）ペアごとの比較（または回帰係数有意性検定）のppp値はかなり近いでなければならないαα\alpha対応オムニバステストが達成できるかどうかのp < αをp<αp <\alpha。私は、これがGlen_bの最初の例@における場合であり、参照F （3 、20 ） = 3.19F(3,20)=3.19F_{(3,20)}=3.19、P F = …

13 hypothesis-testing anova statistical-significance t-test multiple-comparisons

3

別の結果（例：正常性）に基づいて統計的検定を選択する

そのため、別の統計テストに基づいて統計テストを選択するのは得策ではないと言われたと聞きました。これは私には奇妙に思えます。たとえば、他のテストで残差が正規分布していないことが示唆された場合、人々はしばしばノンパラメトリックテストを使用することを選択します。このアプローチはかなり広く受け入れられているように見えますが、この段落の最初の文には同意していないようです。私はこの問題について明確にしたいと思っていました。

13 hypothesis-testing

1

Rのwilcox.testとcoin :: wilcox_testの違いは何ですか？

これらの2つの関数はRに存在しますが、それらの違いはわかりません。で呼び出すwilcox.testと、同じp値のみを返すようですcorrect=FALSE、とwilcox_testとの（コインパッケージ内）distribution="aymptotic"。他の値の場合、異なるp値を返します。またwilcox.test、パラメータの設定とは関係なく、データセットに対して常にW = 0を返します。 x = c(1, 1, 1, 3, 3, 3, 3) そして y = c(4, 4, 6, 7, 7, 8, 10) また、R以外のさまざまなツール（オンラインで利用できるもの、Excelアドオンとして利用できるもの）を使用しようとすると、異なるp値が報告されることがあります。それで、どのツールが「正しい」p値を与えているかをどうやって知ることができますか？「正しい」p値はありますか、またはいくつかのツールがp値を0.05未満にする場合、私は幸せでしょうか？（これらのツールはRのようなパラメーター化の可能性をあまり提供しない場合があります。）ここで何が欠けていますか？

13 r hypothesis-testing p-value wilcoxon-mann-whitney

3

複数の次元で均一性をテストする方法は？

均一性のテストは一般的なものですが、多次元の点群に対してそれを行う方法は何でしょうか。

13 hypothesis-testing uniform

3

片側検定と両側検定の違いは？

統計コースで勉強している間、片側仮説検定と両側仮説検定の違いを理解しようとしていました。具体的には、片側検定はnullを拒否し、両側検定はnullを拒否しないのはなぜですか？例：

13 hypothesis-testing

タグ付けされた質問 「hypothesis-testing」

タグ付けされた質問「hypothesis-testing」