タグ付けされた質問 「statistical-significance」

統計的有意性とは、このサンプルが引き出された母集団において、真の効果が0(またはいくつかの仮説値)であった場合、サンプルで得られたものよりも極端または極端なテスト統計が発生した確率を指します。

1
複数の時系列データでLSTMモデルをトレーニングする方法は?
複数の時系列データでLSTMモデルをトレーニングする方法は? 使用例:過去5年間、毎週20,000人のエージェントの売上があります。各エージェントの今後の週次売上を予測する必要があります。 バッチ処理手法に従う必要がありますか?一度に1つのエージェントを取得し、LSTMモデルをトレーニングしてから予測しますか?もっと良い方法は?

1
同じモデル内の2つのパラメーター推定値が大幅に異なる場合、どのようにテストできますか?
私はモデルを持っています y=xa×zb+ey=xa×zb+e y=x^a \times z^b + e ここで、は従属変数、とzは説明変数、aとbはパラメーター、eはエラー項です。aとbのパラメーター推定値とこれらの推定値の共分散行列があります。aとbが大きく異なるかどうかをテストするにはどうすればよいですか?yyyxxxzzzaaabbbeeeaaabbbaaabbb

1
距離の差の統計的有意性
2次元グリッド上に3000を超えるベクトルがあり、ほぼ均一な離散分布です。ベクトルのいくつかのペアは特定の条件を満たす。注:条件はベクトルのペアにのみ適用され、個々のベクトルには適用されません。約1500個のこのようなペアのリストがあります。これをグループ1と呼びましょう。グループ2には他のすべてのベクトルペアが含まれています。グループ1のペアのベクトル間の距離が、2つのベクトル間の平均距離よりも大幅に短いかどうかを確認したいと思います。どうやってやるの? 統計的検定:中心極限定理は私の事例に適用できますか?つまり、距離のサンプルを使用し、スチューデントのt検定を使用して、条件を満たすサンプルの平均と条件を満たさないサンプルの平均を比較できますか?それ以外の場合、ここではどのような統計的検定が適切でしょうか? サンプルサイズとサンプル数:ここには2つの変数があることがわかります。2つのグループのそれぞれに対して、サイズmのn個のサンプルを取得し、各サンプルの平均を取得する必要があります。nとmを選択する原則的な方法はありますか?それらは可能な限り大きくすべきですか?または、統計的有意性を示す限り、できるだけ小さくする必要がありますか?2つのグループのそれぞれで同じにする必要がありますか?または、より多くのベクトルペアを含むグループ2の方が大きくする必要がありますか?

1
GBMパッケージとGBMを使用したキャレット
私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5%の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。 私の質問は次のとおりです。 1)これらの2つのパッケージは同じであっても違いがあるのはなぜですか(確率的ですが、5%がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの) 。 2)両方のパッケージを使用する利点または欠点はありますか? 3)無関係:irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

6
Brexit:「離脱」は統計的に有意でしたか?[閉まっている]
閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集して事実と引用で答えられるように質問を更新してください。 閉じた3年前。 この投稿では、投票を数えることで人間が決定を見つけようとする自然現象について質問します。この問題が関係するような自然現象の特定の事件は、Brexitの場合です。 注:質問は政治に関するものではありません。目標は、観測に基づく統計的観点からそのような自然現象を議論しようとすることです。 具体的な質問は次のとおりです。 質問:何がする51.9%51.9%51.9\%ためのBrexit投票ままに平均値を?例えば、国民が本当にEUを離れたいという意味ですか?それは単に一般大衆が不確実であり、考えるのにより多くの時間を必要とすることを意味しますか?それとも別のものですか? 仮定1:投票プロセスにエラーはありません。

3
信頼レベルの選択方法は?
私はしばしば90%の信頼レベルを使用しますが、これは95%または99%よりも大きな不確実性があることを受け入れています。 しかし、適切な信頼レベルを選択する方法に関するガイドラインはありますか?または、さまざまな分野で使用される信頼レベルのガイドラインですか? また、信頼レベルを解釈して提示する際に、数字を言語に変えるためのガイドはありますか?たとえば、ピアソンのr に関する次のようなガイド(編集:これらの説明は社会科学向けです): http://faculty.quinnipiac.edu/libarts/polsci/Statistics.html 更新 以下の回答をありがとう。それらはすべて非常に役に立ち、洞察力があり、有益でした。 さらに、この質問を検討しているときに出会った重要度レベル(本質的には同じ質問)の選択に関する素晴らしい記事を以下に示します。彼らは、以下の回答で述べられていることを検証します。 「0.05の有意性とは何ですか?」 http://www.p-value.info/2013/01/whats-significance-of-005-significance_6.html 「統計的有意性の.05レベルの起源について」 http://www.radford.edu/~jaspelme/611/Spring-2007/Cowles-n-Davis_Am-Psyc_orignis-of-05-level.pdf 「科学的方法:統計誤差」 http://www.nature.com/news/scientific-method-statistical-errors-1.14700

1
検定統計量の分布がバイモーダルの場合、p値は何か意味がありますか?
P値は、帰無仮説が真であると仮定して、少なくとも観察されるものと同じくらい極端な検定統計量を取得する確率として定義されます。言い換えると、 しかし、どのような検定統計量は分布の二峰性である場合には?p値はこの文脈で何かを意味しますか?たとえば、Rでいくつかのバイモーダルデータをシミュレートします。P(X≥t|H0)P(X≥t|H0)P( X \ge t | H_0 ) set.seed(0) # Generate bi-modal distribution bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) hist(bimodal, breaks=100) そして、60の検定統計値を観察すると仮定しましょう。そして、ここで、この値が非常にありそうもないことを写真から知っています。理想的には、これを明らかにするために使用する統計手順(たとえば、p値)が必要です。しかし、定義どおりにp値を計算すると、かなり高いp値が得られます observed <- 60 # Get P-value sum(bimodal[bimodal >= 60])/sum(bimodal) [1] 0.7991993 分布を知らなかった場合、私が観察したのは単に偶然によるものであると結論付けます。しかし、これは真実ではないことがわかっています。 私が持っている疑問は、p値を計算するときに、観測された値と少なくとも同じくらいの値の確率を計算するのはなぜでしょうか?そして、上記でシミュレートしたような状況に遭遇した場合、代替ソリューションは何ですか?

2
母平均から有意に離れた値の統計的検定:Z検定ですか、T検定ですか?
値は、値のリストと比較してどの程度重要ですか?ほとんどの場合、統計的テストには、サンプルセットと母集団の比較が含まれます。私の場合、サンプルは1つの値で作成され、母集団と比較します。 私は、おそらく最も基本的な問題に直面している統計的仮説検定のディレッタントです。1つのテストではなく、数百のテストです。パラメータースペースがあり、すべてのポイントに対して有意差検定を実行する必要があります。パラメータの組み合わせごとに、値とバックグラウンドリスト(母集団)の両方が生成されます。次に、これをp値で並べて、興味深いパラメーターの組み合わせを見つけます。実際、このp-valが高い(有意でない)パラメーターの組み合わせを見つけることも重要です。 それでは、1つのテストを行ってみましょう。選択したセットから生成された計算値と、ランダムなトレーニングセットを選択して計算された値のバックグラウンドセットがあります。計算値は0.35で、バックグラウンドセットは(おそらく?)平均0.25と非常に狭いstd(e-7)で正規分布しています。サンプルは他の何かから計算されているため、実際には分布についての知識はありません。それらはある分布からの乱数サンプルではないので、背景は正しい言葉です。 帰無仮説は、「サンプルテストの平均が計算値0.35に等しい」というものです。これをいつZ検定またはT検定と見なすべきですか?母平均よりも値を大幅に高くしたいので、片側検定です。 私はサンプルとして何を考慮するべきか少し混乱しています:1つのサンプル(観察)と母集団としてのバックグラウンドリストがあるか、私のサンプルがバックグラウンドリストであり、それを全体(非サンプリング)と比較しています帰無仮説によると同じ平均値を持つべき母集団。これが決定すると、テストは異なる方向に進むと思います。 T検定の場合、p値を計算するにはどうすればよいですか?R / Python / Excel関数を使用するのではなく、自分で計算したいと思います(その方法は既に知っています)。したがって、最初に正しい式を確立する必要があります。 まず、私は私の場合にはT検定はサンプルサイズに連結される、フォームなければならないので、T検定は、少しも一般的であると思われる:ここでZ = ˉ XT=Z/s,T=Z/s,T=Z/s,とSであり、S=σ/σ集団STDに対して、サンプルSTD。したがって、2つのケースがあります。サンプルサイズが母集団のサイズであり、これがZ検定を処理していることを「推測」するか、母集団統計(nおよびstd)が不明ですが、分布は何らかの方法で近似し、私は本当にT検定を扱っています。いずれにせよ、私の次の質問は:Z=X¯σn√Z=X¯σnZ=\frac{\bar{X}}{\frac{\sigma}{\sqrt{n}}}s=σ^/σs=σ^/σs=\hat{\sigma}/\sigma p値を計算するにはどうすればよいですか?(つまり、R / Python / Excel関数またはp値テーブルのルックアップを使用せず、実際に数式に基づいて計算します。何をしているかを知りたいので) サンプルサイズに基づいて有意しきい値を決定するにはどうすればよいですか?(式がいいでしょう)

2
ランダムな勾配を持つ混合効果回帰モデルでMCMC仮説検定を行うにはどうすればよいですか?
ライブラリlanguageRは、lmerを使用して混合効果回帰モデルの適合における固定効果のMCMC有意性テストを実行するメソッド(pvals.fnc)を提供します。ただし、lmerモデルにランダムな勾配が含まれている場合、pvals.fncはエラーを返します。 そのようなモデルのMCMC仮説検定を行う方法はありますか? もしそうなら、どのように?(回答を受け入れるには、Rで有効な例を使用する必要があります)そうでない場合、方法がない理由は概念的/計算上の理由がありますか? この質問はこれに関連している可能性があります、そこにある内容を確実に理解できませんでした。 編集1:pvals.fnc()はlme4モデルではまだ「何か」を行うが、ランダムな勾配モデルでは何もしないことを示す概念実証。 library(lme4) library(languageR) #the example from pvals.fnc data(primingHeid) # remove extreme outliers primingHeid = primingHeid[primingHeid$RT < 7.1,] # fit mixed-effects model primingHeid.lmer = lmer(RT ~ RTtoPrime * ResponseToPrime + Condition + (1|Subject) + (1|Word), data = primingHeid) mcmc = pvals.fnc(primingHeid.lmer, nsim=10000, withMCMC=TRUE) #Subjects are in both …

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

1
Rを使用して臨界t値を計算するにはどうすればよいですか?
これが新しい質問の場合は申し訳ありません。初めて統計を教えようとしています。基本的な手順は下がっていると思いますが、Rで実行するのに苦労しています。 だから、私は形の多重線形回帰における回帰係数の有意性を評価しようとしています y^=Xβ^y^=Xβ^ \hat y = X \hat \beta をテストするためのt統計はH0:β^j=0,Ha:β^j≠0H0:β^j=0,Ha:β^j≠0H_0: \hat \beta_j = 0, H_a: \hat \beta_j \neq 0 t0=β^j−0se(β^j)=β^jσ^2Cjj−−−−−√=β^jCjjSSRes/(n−p)−−−−−−−−−−−−−−√t0=β^j−0se(β^j)=β^jσ^2Cjj=β^jCjjSSRes/(n−p)t_0 = \frac{\hat \beta_j - 0}{\text{se}(\hat \beta_j)} = \frac{\hat \beta_j}{\sqrt{\hat \sigma^2 C_{jj}}} = \frac{\hat \beta_j}{\sqrt{C_{jj} SS_{Res}/(n-p)}} ここで、はCjjCjjC_{jj}jthjthj^{th}対角要素です。(X′X)−1(X′X)−1(X'X)^{-1} ここまでは順調ですね。Rの行列演算を使用してこれらすべての値を計算する方法を知っています。しかし、ヌルを拒否するために、この本にはが必要だと書かれています |t0|>tα/2,n−p|t0|>tα/2,n−p|t_0| > t_{\alpha/2,n-p} R を使用してこの重要な値をどのように計算できますか?tα/2,n−ptα/2,n−pt_{\alpha/2,n-p} 現在、これらの値を見つける方法を知る唯一の方法は、本の巻末の表を調べることです。もっと良い方法があるはずです。

3
バイナリデータのクラスタリングが重要かどうかをテストするにはどうすればよいですか
私はショッピングカートを分析しています。私のデータセットはトランザクションベクトルのセットであり、購入する商品が含まれています。 トランザクションにk-meansを適用すると、常に何らかの結果が得られます。ランダム行列はおそらくいくつかのクラスターも表示します。 私が見つけたクラスタリングが重要なものであるかどうかをテストする方法はありますか、それは偶然かもしれません。はいの場合、どうすればよいですか。

1
正規性違反の程度の良い指標とは何ですか?また、その指標にどんな説明ラベルを付けることができますか?
環境: 以前の質問で、@ Robbieは約600のケースを対象とした調査で、正規性の検定が有意な非正規性を示唆しているにもかかわらず、プロットが正規分布を示唆している理由を尋ねました。何人かの人々は、正規性の有意性検定はあまり有用ではないと主張しました。小さなサンプルの場合、このようなテストは正常性の軽度の違反を検出する能力があまりなく、大きなサンプルの場合、問題にならないほど十分に小さい正常性の違反を検出します。 この問題は、有意性検定と効果サイズに関する議論に似ているように思えます。有意性検定のみに焦点を当てると、大きなサンプルがある場合、実際的な目的には関係のない小さな影響を検出でき、小さなサンプルでは十分なパワーがありません。 いくつかの例では、小さな影響は統計的に有意であるため、サンプルが「大きすぎる」可能性があることを人々に助言するテキストを見たこともあります。 有意性検定と効果サイズのコンテキストでは、1つの簡単な解決策は、効果があるかどうかのバイナリー決定ルールに取り付かれるのではなく、関心のある効果のサイズの推定に焦点を当てることです。効果サイズの信頼区間はそのようなアプローチの1つですが、ベイジアンアプローチの何らかの形を採用することもできます。さらに、さまざまな研究領域は、「小さい」、「中」、「大きい効果」などのヒューリスティックラベルを適用して、特定の効果サイズが実際的な意味で何を意味するかについてのアイデアを構築します。これは、対象となる特定のパラメーターを推定する際の精度を最大化するために、サンプルサイズを最大化するというインテリジェントな推奨にもつながります。 これにより、効果サイズの信頼区間に基づく同様のアプローチが、仮定テスト、特に正規性テストに関してそれほど広く採用されないのはなぜでしょうか。 質問: データが正常性に違反している程度の最良の単一インデックスは何ですか? それとも、正規性違反の複数の指標(たとえば、歪度、尖度、異常値の有病率)について話した方が良いですか? インデックスの信頼区間はどのように計算できますか(またはおそらくベイジアンアプローチ)? 正常性の違反の程度を示すために、そのインデックスのポイントにどのような種類の口頭ラベルを割り当てることができますか(軽度、中程度、強い、極端など)?このようなラベルの目的は、正規性の違反が問題となる場合の直感を訓練する経験の少ないアナリストを支援することです。

2
ゲルマンとカーリンを理解する「パワー計算を超えて:…」(2014)
GelmanとCarlinの「パワー計算を超えて:タイプS(符号)およびタイプM(マグニチュード)エラーの評価」(2014)を読んでいます。私は主なアイデア、主な理解を理解しようとしていますが、混乱しています。誰かが私に本質を蒸留するのを手伝ってくれる? 紙はこのようなものになります(私が正しく理解した場合)。 心理学の統計的研究は、しばしば小さなサンプルに悩まされます。 特定の研究における統計的に有意な結果を条件として、 (1)真の効果サイズは大幅に過大評価される可能性が高く、 (2)効果の符号は高い確率で反対になる可能性があります(サンプルサイズが十分に大きい場合を除く)。 上記は、母集団における効果サイズの以前の推測を使用して示され、その効果は通常小さいと見なされます。 私の最初の問題は、なぜ統計的に有意な結果の条件なのか、です。それは出版バイアスを反映することですか?しかし、そうではないようです。では、なぜでしょうか。 私の第二の問題は、私は自分自身を勉強をすれば、私は私がするために使用しています異なったよりも、私の結果を扱うべきである(I行うfrequentist統計、ベイズに精通していませんか)?たとえば、データのサンプルを取り、モデルを推定し、関心のある効果とその周りの信頼限界の点推定を記録します。私は今、自分の結果を不信にすべきですか?それとも統計的に有意である場合、それを誤解する必要がありますか?与えられた以前の変化はどうですか? (1)統計調査の「プロ​​デューサー」にとって、および(2)応用統計論文の読者にとっての主な要点は何ですか? 参照: ゲルマン、アンドリュー、ジョンカーリン。「パワー計算を超えて:タイプS(符号)およびタイプM(マグニチュード)エラーの評価。」 心理学の展望 9.6(2014):641-651。 PSここで私にとっての新しい要素は、以前の情報を含めることだと思います。これは、(頻繁なパラダイムから来た)処理方法がわかりません。

2
実験を再実行してWeb A / Bテストを検証します-これは有効ですか?
先日、A / Bテスト会社によるウェビナーで、居住者の「データサイエンティスト」に、実験を再実行して結果を検証する必要があることを説明してもらいました。前提として、95%の信頼度を選択した場合、誤検知の可能性は5%(1/20)です。同じ制約で実験を再実行すると、1/400になります(これは0.05 ^ 2 = 1/400と決定したと仮定しています) これは有効な発言ですか?(つまり、「2回実行すると、2つの統計的有意性の勝利=偽陽性の1/400の確率」)?それはあなたの有意水準を上げるためのより良いアプローチだったでしょうか? ビジネスの観点から、私が懸念しているのは、実験を再実行することです。つまり、より多くのユーザーを劣ったページ(処理)にさらし、潜在的な売り上げを失うことになります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.