タグ付けされた質問 「hypergeometric」

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
m人のリストからn人がy人のリストからx人をランダムに選択する確率はどれくらいですか?
私が363人のプールから232人を置換なしで選択している場合、その選択に12人の特定の人のリストの2人がいる確率はどのくらいですか? これは、232スポットに363人のエントリーがあったウルトラレースのランダムな抽選です。選択が12人の特定のグループに対して偏っていたかどうかについては、議論があります。 これを計算する私の最初の試みは、232が363の可能な選択を選択することでした。12のリストから任意の1人の組み合わせの数は、1を選択12 + 2を選択12 + ... + 11を選択12 + 12を選択12です。したがって、1を選択12 + 2を選択12 .... / 232を選択363 。これは非常に低い数値になり、明らかに低すぎます。 これをどのように計算しますか?

3
同じ母集団の複数のサンプリングからの交差の確率
次に例を示します。 人口は10,000アイテムです。各アイテムには一意のIDがあります。 100個のアイテムをランダムに選び、IDを記録します 100アイテムを人口に戻しました 私は再びランダムに100アイテムを選び、IDを記録して置き換えます。 合計で、このランダムサンプリングを5回繰り返します 個のアイテムが5つのランダムサンプリングすべてに現れる確率はどのくらいですか?XXX 私は統計に精通していません。場合、これは正しいでしょうか?X=10X=10X = 10 各サンプリングのために、10,000〜100個のアイテムの可能な組み合わせの数は、binom(10000,100)binom(10000,100){\rm binom}(10000, 100) 100個のアイテムのすべての可能な組み合わせのうち、の組み合わせが10個の特定の項目を含みますbinom(9990,90)∗binom(100,10)binom(9990,90)∗binom(100,10){\rm binom}(9990, 90) * {\rm binom}(100, 10) 10個の特定のアイテムを有する確率である(binom(9990,90)∗binom(100,10))/binom(10000,100)(binom(9990,90)∗binom(100,10))/binom(10000,100)({\rm binom}(9990, 90) * {\rm binom}(100, 10)) / {\rm binom}(10000, 100) 計算された5の累乗の確率は、5つの独立したサンプリングを表します。 つまり、基本的には5つの独立した超幾何確率を計算し、それらを掛け合わせるだけなのでしょうか。足元が足りないような気がします。

3
フィッシャーの直接確率検定の検定統計量とは何ですか?
2×2分割表のために、一部が前記フィッシャーの正確確率検定をカウント使用検定統計量としてテーブルに(1,1)セルで、ヌル仮説の下で、X 1 、1は超幾何分布を有することになります。X1,1X1,1X_{1,1}X1,1X1,1X_{1,1} 一部の人は、そのテスト統計は次のとおりだと述べました ここで、μはnullでの超幾何分布(上記)の平均です。また、p値は超幾何分布の表に基づいて決定されるとも述べています。平均を差し引いて絶対値を取る理由があるのだろうか?| X 1 、1 - μ | nullの下に超幾何分布はありませんか?|X1,1−μ||X1,1−μ| |X_{1,1} - \mu| μμ\mu|X1,1−μ||X1,1−μ||X_{1,1} - \mu|

1
データテーブルのレコードの正誤を検証するためのサンプルサイズを計算する方法
CrossValidatedで既存の回答を読みましたが(オンラインで他の場所でも)、探しているものが見つかりませんが、見逃した場合は既存のソースを参照してください。 N = 1000レコードのデータセットがあるとします。各レコードは手動でサンプリングし、「有効」または「無効」(または真/偽、右/間違っなど)としてラベル付けできます。 データセット内のすべてのレコードが有効であるという一定のレベルの信頼を実現したいと考えています。レコードをサンプリングするときに、無効なレコードが1つ見つかった場合は、戻ってデータセットの作成方法を修正し、その問題と同様の問題を修正します。 したがって、無効なものを特定し、データセットを修正して再作成した後、有効なレコードのみを含むサンプリングを行います。すべてのレコードが有効であることを(たとえば)99%または95%確認したい場合、サンプルはどのくらいの大きさでなければなりませんか?(理想的にはNの関数として。) 私は超幾何テスト(http://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test)をいじってみました-そのコンテキストではkが何であるか知りたいのですが、Kの固定値を持っていません。むしろ、KがNに等しくなるようにkを選択したいのですが、K = Nを設定すると、明らかに1の確率になります。ベイジアンアプローチを使用する必要があるかどうかも疑問に思っていますが、ベイジアン統計を十分に理解していません。

2
Rを使用して遺伝子リストの重複に複数のテスト補正を適用する方法
同じ薬剤に対する患者の反応を調べた2つの研究があります。研究1では、バックグラウンドを超えて発現する10,000の遺伝子が見つかり、そのうちの500の遺伝子は異なって発現され、薬物応答シグネチャと呼ばれています。研究2では、薬物応答の特徴を表す1,000の遺伝子が見つかりました。2つの署名の重複は100遺伝子です。 署名間のオーバーラップの統計的有意性を計算したい。私が正しく理解している場合、それを行う1つの方法(ここの投稿に基づく:RNA seqとChLPチップデータセットの間の遺伝子リスト重複の確率の計算およびここ:リストの重複確率を取得するためのRのphyperの使用)phyper(): > overlap <- 100 > list1 <- 500 > totalPop <- 10000 > list2 <- 1000 > > 1-phyper(overlap-1, list1, totalPop-list1, list2) [1] 4.103051e-12 それは合理的に聞こえますか? Bonferroni補正を適用したい場合は、このp値に比較回数を掛ける必要があります。この場合、比較の数は何に対応しますか?List2?あるいは、保守的な修正を減らすための迅速な方法は何でしょうか(たとえば、Benjamini-Hochberg)。

2
Rでの超幾何関数の計算
R のパッケージでを評価するのは非常に困難です。私の場合、、、値は常に正の実数です。それでも、超幾何関数はその値に非常に敏感です。私は極端な精度を求めていません。Excelを使用して、目的に適したGuass超幾何の大まかな見積もりを取得できます。a b c2F1(a,b;c;z)2F1(a,b;c;z)_2F_1(a,b;c;z)hypergeoaaabbbccc 広範囲の値を持つ正の実数のガウシアン超幾何計算を非常に正確ではないにしても、高速でエラーのないRで実装するための提案はありますか? 編集:MATLABにはこれよりRよりはるかに多くのコードがあるようです。なぜかについての考えはありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.