タグ付けされた質問 「statistical-significance」

統計的有意性とは、このサンプルが引き出された母集団において、真の効果が0(またはいくつかの仮説値)であった場合、サンプルで得られたものよりも極端または極端なテスト統計が発生した確率を指します。

2
混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ
以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコード これが私のRコードです: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

4
正規分布確率変数の比率の有意差をテストします
関連する変数の比率分析とどのように2つの正規分布の変数の比をパラメータ化するために、または1つの逆?。 4つの異なる連続ランダム分布からのサンプルがいくつかあるとします。これらのサンプルはすべてほぼ正常であると想定できます。私の場合、これらは暗号化ありと暗号化なしの2つの異なるファイルシステム(たとえば、ext4とXFS)のいくつかのパフォーマンスメトリックに対応しています。このメトリックは、たとえば、1秒あたりに作成されたファイルの数や、一部のファイル操作の平均待機時間などです。これらの分布から抽出されたすべてのサンプルは常に厳密に正であると想定できます。レッツコールこれらの分布ここで、F S Tパフォーマンスfs t yp e 、e n c r yp t i o nPerffstype,encryption\textrm{Perf}_{fstype,encryption}及び E N C RのY軸のP T iがO 、N ∈ { C 、R 、Y 、P 、T 、O 、N 、O 、C 、R 、Y 、P T O }。fs t yp個のE ∈ { XのFs 、e x t 4 }fstype∈{xfs,ext4}fstype …

4
重要ではないため、研究からデータを除外できますか?
sciencemag.orgの記事を読んでいるときにこの文章に遭遇しました。 最後に、残りのデータが統計的に有意であると見なされなかったため、12か国のわずか7600人の研究者からの回答が含まれました。 これは研究を行うための適切な方法ですか?統計的に有意であると見なされなかったために結果を除外するには?

2
5ポイントのリッカートアイテムの経時変化の統計的有意性
環境: 2年間にわたって実行された同じアンケートからの2つのデータセットがあります。各質問は、5-Likertスケールを使用して測定されます。 Q1:コーディングスキーム 現時点では、[0、1]間隔で応答をコード化しています。0は「最も否定的な応答」を意味し、1は「最も肯定的な応答」を意味し、その他の応答は等間隔です。 リッカート尺度に使用する「最良の」コーディングスキームは何ですか? これは少し主観的かもしれないと思います。 Q2:年間の重要性 2年間で統計的に有意な変化があるかどうかを判断する最良の方法は何ですか? つまり、質問1の結果を毎年見て、2011年の結果と2010年の結果の差が統計的に有意であるかどうかはどうすればわかりますか。ここでスチューデントのt検定が使用されているという漠然とした記憶がありますが、よくわかりません。

4
2 X 3テーブルで複数の事後カイ2乗検定を実行する方法
私のデータセットは、沿岸、ミッドチャネル、オフショアの3つのサイトタイプでの生物の全死亡率または生存率で構成されています。下の表の数字は、サイトの数を表しています。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100%の死亡率が発生したサイトの数がサイトのタイプに基づいて重要かどうかを知りたいです。2 x 3カイ2乗を実行すると、重要な結果が得られます。実行できる事後的なペアワイズ比較はありますか、または実際にロジスティックANOVAまたは二項分布の回帰を使用する必要がありますか?ありがとう!

2
相関の重要性の評価
私には2つの変数があり、それらの間のピアソン相関などを計算できますが、t検定で得られるものに類似したもの(つまり、相関がどれほど重要であるかの概念)を知りたいです。 そのようなものは存在しますか?

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 


2
R内のペアのベクトルのランダム化/置換テスト
私は専門家ではないので、用語が少し不器用な場合はご容赦ください。必要に応じて詳細情報を提供させていただきます。 Rに50のペア数値の2つのベクトルがあります。両側のランダム化または置換テストを実行して、それらの違いが偶然によるものかどうかを判断します。 順列検定(ランダム化検定、再ランダム化検定、正確検定とも呼ばれます)は、帰無仮説のもとでの検定統計量の分布が検定統計量のすべての可能な値を計算することによって得られる一種の統計的有意性検定です観測されたデータポイントのラベルの再配置の下。 ベクトルの値の分布がt検定などの他の検定(たとえば、ベクトルの数値の多くが0である)の仮定に違反していると思うので、このタイプの検定を実行します。 BHH2ライブラリのpermtest関数は、ほとんど私がやりたいことを実行しますが、2 50のすべての順列に対して機能します。代わりに、多数の可能な順列をサンプリングして、p値を推定します。私はcoinパッケージを調べましたが、ペアになっている数値ベクトルからのサンプリングを使用した置換テストを実行しているようには見えません。2502502^{50} 一部のグーグルでこのメールが表示されます。これは、パッケージを見つけることができない理由は、それがRのワンライナーであることを示唆しています。残念ながら、Rでこれを作成するのに十分な経験がありません-ライナー。 置換空間のサンプルのみを使用して両側ペア置換テストを実行するパッケージまたはメソッドはありますか? そうでない場合、誰かがそれを行うための短いRコードを共有できるでしょうか?

2
2つのリスト間の重複の程度が重要かどうかを計算するにはどうすればよいですか?
2つのリストAとBがあり、どちらもはるかに大きなリストCのサブセットである場合、AとBのオーバーラップの程度が偶然に予想するよりも大きいかどうかをどのように判断できますか? リストAおよびBと同じ長さのCから要素をランダムに選択し、そのランダムな重複を決定し、これを何回か実行して、ある種または経験的なp値を決定する必要がありますか?これをテストするより良い方法はありますか?


1
統計的に有意になるまで分割テストを実行することが「悪いこと」になるのはなぜですか?(またはそれは?)
「A / Bテストを実行しない方法」についての記事を読みました。 そして、私はまだ著者の推論が正確に何であるかを理解していません。誰かが私のためにそれを馬鹿にできますか? 時間の経過とともに分割テストの結果を読むと、誤解を招くのではないかと思います。私はそれを他の人に説明できるほど十分に理解したいと思っています。 何か助けは?

1
ボックスプロットのノンパラメトリック多重比較の重要な結果を強調表示
1つのプロットで表示する13グループのボックスプロットがあります。グループの人口は不均衡で、通常は分布していません。一致するボックスの上にa、b、cなどを配置して、どのペアが統計的に類似している(つまり、kruskal.testのp値が0.05未満である)かを示したいと思います。ここに私が持っているものを示すための疑似コードがあります: A = c(1, 5, 8, 17, 16, 3, 24, 19, 6) B = c(2, 16, 5, 7, 4, 7, 3) C = c(1, 1, 3, 7, 9, 6, 10, 13) D = c(2, 15, 2, 9, 7) junk = list(g1=A, g2=B, g3=C, g4=D) boxplot(junk) 私が見つけたプロットは次のとおりです(1つの行に13個のグループがあることを除いて)。

1
負の二項分布を大量のデータに適合させる
約100万のデータポイントがあります。ここにファイルdata.txtへのリンクがあります。それらのそれぞれは0から145までの値を取ることができます。これは離散データセットです。以下は、データセットのヒストグラムです。X軸はカウント(0-145)であり、Y軸は密度です。 データのソース:空間に約20の参照オブジェクトと100万のランダムオブジェクトがあります。これらの100万個のランダムオブジェクトのそれぞれについて、これらの20個の参照オブジェクトに対してマンハッタン距離を計算しました。しかし、私はこれら20の参照オブジェクトの中で最短距離のみを考慮しました。だから私は100万のマンハッタン距離を持っています(あなたはポストで与えられたファイルへのリンクで見つけることができます) Rを使用して、ポアソン分布と負の2項分布をこのデータセットに適合させようとしました。負の2項分布から生じる適合は妥当であることがわかりました。以下は、フィットした曲線です(青色)。 最終目標:この分布を適切にフィッティングしたら、この分布を距離のランダム分布と見なしたいと思います。次回、任意のオブジェクトからこれらの20個の参照オブジェクトまでの距離(d)を計算すると、(d)が有意であるか、ランダム分布の一部であるかを知ることができます。 適合度を評価するために、負の二項適合から得られた観測頻度と確率を使用して、Rを使用してカイ2乗検定を計算しました。青い曲線は分布にうまく適合していますが、カイ2乗検定から戻るP値は非常に低くなっています。 これは私を少し混乱させました。関連する質問が2つあります。 このデータセットの負の二項分布の選択は適切ですか? カイ2乗検定のP値が非常に低い場合、別の分布を検討する必要がありますか? 以下は私が使用した完全なコードです: # read the file containing count data data <- read.csv("data.txt", header=FALSE) # plot the histogram hist(data[[1]], prob=TRUE, breaks=145) # load library library(fitdistrplus) # fit the negative binomial distribution fit <- fitdist(data[[1]], "nbinom") # get the fitted densities. mu and size from …

1
消えているワシの統計分析
スコットランドでは、サテライトでタグ付けされたワシがなくなっており、上の表は、タグモデルごとのタグの運命を示しています。「停止-誤動作なし」のタグに特に興味があります。これらの鳥も殺され、体とタグが処分されている可能性があるためです。 この表とこの表のみが「最も離れた統計分析でも、「停止-誤動作なし」と使用されるタグのタイプの間に関係があることは明らかである」という証拠であることを述べたのを見たので、私の質問は、ステートメントはバックアップされますか? 42/135 (31%) tags stopped for all types 8/17 (47%) tags stopped for 80NS 29/77 (38%) tags stopped for 70GPS 3/22 (14%) tags stopped for 105GPS 2/13 (15%) tags stopped for 70GSM 0/6 (0%) tags stopped for 95BTOGSM したがって、80NSの故障率が47%であり、世界平均の31%よりも大幅に悪い場合、この説明は正しいと思います。また、135個のうち17個のタグのランダムなサンプルで8つの失敗が発生する確率が実際にはかなり高い場合は、正しくありません。より抽象的には、バッグに42個の黒いボールと93個の白いボールがあり、ランダムに17個を選んだ場合、8個の黒いボールと9個の白いボールを選ぶ確率はどのくらいですか? 最初の8が黒になる確率は(42/135)*(41/134)などとして計算できますが、17のうちの8が黒になる可能性を計算しようとして立ち往生しています 編集:サテライトタグは、2004年から2016年までの13年間で鳥に取り付けられました。この表は、135ではなく131のタグを示しています。4つのタグは、4つの初期タグの正確な配置場所を確認できなかったため除外されました。 これは、70GPS / 70GSMタグの寿命に関するいくつかのデータを示すレポートの別の表です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.