タグ付けされた質問 「hypothesis-testing」

仮説検定では、データがランダムな変動の影響ではなく、特定の仮説と矛盾しているかどうかを評価します。

3
残差逸脱度と自由度を使用してロジスティック回帰モデルをテストする
私はPrinceton.eduでこのページを読んでいました。彼らはロジスティック回帰を実行しています(Rを使用)。ある時点で、モデルの自由度と等しい自由度の分布で得られたものよりも高い残差を得る確率を計算します。ウェブサイトからコピーして貼り付けています...χ2χ2\chi^2 > glm( cbind(using,notUsing) ~ age + hiEduc + noMore, family=binomial) Call: glm(formula = cbind(using, notUsing) ~ age + hiEduc + noMore, family = binomial) Coefficients: (Intercept) age25-29 age30-39 age40-49 hiEduc noMore -1.9662 0.3894 0.9086 1.1892 0.3250 0.8330 Degrees of Freedom: 15 Total (i.e. Null); 10 Residual Null Deviance: 165.8 …

2
Rはこの二項回帰のp値をどのように計算しますか?
次の二項回帰を考えます。 # Create some data set.seed(10) n <- 500 x <- runif(n,0,100) y <- x + rnorm(n,sd=100) < 0 # Fit a binomial regression model model <- glm(y ~ x, family="binomial") summary(model) summary関数は、p値を返します1.03e-05。をanova.glm使用する場合、p値の計算にどの方法を使用するかに関係なく、p値が少し極端になります。 anova(model, test="Rao") # p.value = 7.5e-6 anova(model, test="LRT") # p.value = 6.3e-6 anova(model, test="Chisq") # p.value = …

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 


2
「最良の」信頼区間を定義する便利な方法はありますか?
(たとえば)95%の信頼区間(CI)の標準的な定義では、真のパラメーターを含む確率が95%であることが必要です。明らかに、これは一意ではありません。私が見てきた言語は、多くの有効なCIの中で、それは通常、最短のようなものを見つけることが理にかなっていることを示唆している、または対称、または正確に知られているいくつかの分布パラメータは、言い換えれば、未知の、などであっても、ノーがあるように思われますCIが他のものより「優れている」という明確な階層。 ただし、CIの同等の定義の1つは、真のパラメーターがその値に等しいという帰無仮説が、実現されたサンプルを見た後に適切な有意水準で拒否されないようなすべての値で構成されるということです。これは、必要なテストを選択する限り、CIを自動的に構築できることを示唆しています。そして、UMP(または公平なテストの間のUMP)の概念に基づくテストの間には、標準的な好みがあります。 CIをUMPテストに対応するものとして定義することなど、何か利点はありますか?

2
骨壷はすべて同じ色ですか(はっきりと見えない場合)
私は骨壷の球に減少する問題を抱えています(それは実際には母集団の参照対立遺伝子と代替対立遺伝子についてです)。 アクアマリンとロビンのエッグブルー(それぞれaとr)の2色のボールを含むことができる、よく混ぜられた大きなつぼ(iidの描画)があると仮定します。色が近いので、つぼからボールを​​引いた後、分類する人が色を間違えることがあります。してみましょうボールが本当にされたエラーの確率もrはとボールが本当にあるとき。これらの数値を知っていて(0.01未満だと思いますが、それでも確認する必要があります)、重要度を選択したとします。E Aerere_reaeae_a 実験では、私のコンパニオンが骨壷からボールを描画し、個のボールを色rとして、a 個をとして識別します()。それから彼は私にと教えます。私がテストしたいすべてのボールがあることを、R対壷が少なくとも1含ま描かれたボールの番号が与えられたボール。r a n = r + a r a H 0 H aんnnrrraaan = r + an=r+an=r+arrraaaH0H0H_0HaHaH_a 私の目標は、2つの異なるレベルでテストを実行して、報告された結果の強さに「星」の評価を付けることです。0.05 = 2つ星で拒否できず、0.05 = 3つ星で拒否され、0.01 = 4つ星で拒否されました。 この問題にはどのテストを使用できますか?(私はこれを従来の言葉で表現しましたが、ベイズ係数を取得し、それに基づいてしきい値を設定することに満足しています。妥当性のために特定の数の測定を必要とするテストにも満足しています-分類することができます「拒否できなかった」ほど小さすぎるサンプル) 注意これらのテストは、測定誤差を有する(及び割合= 0または1でない作業を行う)しないので、これは比率をテストとは異なります。エラー率とサンプルサイズに基づいて、ある種のファッジファクターを使用してゼロ以外の比率を設定しようと考えました(たとえば、テストします。ここで、は実際の比率ですが、ませんでした)十分に正当化された番号で)。私も自分のテストを引き出そうとし始めましたが、かなり時間がかかり、これは誰かが以前に調査したような問題のようです。H 0 = P ≤ E R PH0H0H_0H0= P≤ ErH0=P≤erH_0=P \le e_rPPP 編集ドロー/分類のシーケンスがわからないことを明確にするために、質問を少し書き直しました

1
BICは仮説検定に使用できますか
ベイズ情報基準をとして定義し (私はドロップしません定数、、限界尤度と同等の場合の問題を回避するため) - LN (2 π )B I C = - 2 ⋅ LNL^+ K ⋅ (LN(n )− ln(2 π))B私C=−2⋅ln⁡L^+k⋅(ln⁡(ん)−ln⁡(2π)) \mathrm{BIC} = {-2 \cdot \ln{\hat L} + k \cdot (\ln(n) - \ln(2 \pi))} − ln(2 π)−ln⁡(2π) - \ln(2 \pi) 与えられたデータとモデル、周辺尤度の間のおおよその関係と ISれますを暗示するようです H I P (Y | H I)B I C …

3
まれなイベントの発生率を高めるための統計的検定
20年間にわたる希少疾患の発生率に関する2500人のシミュレーションデータを以下に示します year number_affected 1 0 2 0 3 1 4 0 5 0 6 0 7 1 8 0 9 1 10 0 11 1 12 0 13 0 14 1 15 1 16 0 17 1 18 0 19 2 20 1 病気がより一般的になっていることを示すためにどのような検査を適用できますか? 編集:@Wrzlprmftで提案されているように、SpearmanとKendallのメソッドを使用して簡単な相関を試みました: Spearman's rank correlation rho data: …

1
カテゴリーデータを使用して、参加者ごとに複数の測定を処理するにはどうすればよいですか?
多くの参加者から測定値を収集する実験を行いました。関連する各データポイントには2つの変数があり、どちらもカテゴリ型です。実際、各変数には2つの可能な値があります(2つのはい/いいえの質問に対する答え)。統計的仮説検定で、これら2つの変数間に相関があるように見えるかどうかを確認してください。 参加者ごとに1つのデータポイントがある場合、結果として得られる分割表に対してフィッシャーの正確検定を使用できます。ただし、参加者ごとに複数のデータポイントがあります。したがって、単一の参加者からのデータポイントは独立していないため、フィッシャーの正確確率検定は適用可能ではないようです。たとえば、アリスから10個のデータポイントがある場合、それらはすべて同じ人物からのものであるため、おそらく独立していません。フィッシャーの正確確率検定では、すべてのデータポイントが独立してサンプリングされたと想定されているため、フィッシャーの正確確率検定の仮定は満たされておらず、この設定での使用は不適切です(統計的有意性の不当な報告が出る可能性があります)。2 × 22×22 \times 2 この状況を処理するテクニックはありますか? 私が検討したアプローチ: もっともらしい代替策の1つは、各参加者からのすべてのデータを1つの数値に集約してから、他の独立性テストを使用することです。たとえば、各参加者について、最初の質問に対するはいの回答の割合と2番目の質問に対するはいの回答の割合を数え、参加者ごとに2つの実数を与え、ピアソンの積率検定を使用して相関をテストできますこれら2つの数値の間。しかし、これが良いアプローチかどうかはわかりません。(たとえば、平均化/カウントがデータをスローし、集計のためにこれが能力を失う可能性があること、または集計後に依存の兆候が消えることがあることを心配しています。) 基礎となる変数が連続的である場合(実数など)と線形モデルが適切な場合に、この状況を処理することを目的としていると思われるマルチレベルモデルについて読みました。ただし、ここでは2つのカテゴリ変数(はい/いいえの質問に対する回答)があるため、ここでは適用されないようです。カテゴリカルデータに適用できる同等の手法はありますか? ウィキペディアで繰り返し測定のデザインについて少し読んだこともありますが、ウィキペディアの記事は縦断的研究に焦点を当てています。これはここでは当てはまらないように見えます。私がそれを正しく理解していれば、繰り返しの測定は時間の経過による影響に焦点を合わせているようです(時間の経過が変数に影響する場合)。しかし、私の場合、時間の経過が関連する影響を与えることはありません。私が誤解した場合は教えてください。 さらに振り返ってみると、私に起こる別のアプローチは、置換テストを使用することです。各参加者について、質問1への回答をランダムに並べ替え、質問2への回答を(独立して)ランダムに並べ替え、参加者ごとに異なる順列を使用できます。ただし、どの結果が観察された結果と「少なくとも極端」であるかを測定するために、ここではどのテスト統計が適切であるかは明確ではありません。 関連:各被験者ごとに複数のデータポイントを正しく処理する方法(ただし、カテゴリカルデータではなく、連続変数の線形モデルに焦点を当てています)、同じ患者で測定は独立していますか?(同じ)

3
H0が既に拒否されている場合、t検定パワーが比較的小さいことを気にする必要がありますか?
2つの非常に小さなサンプル(それぞれ)があり、それらの2つのサンプルのt検定検出力は0.49です。これは比較的小さい(Rで計算)。ただし、ウェルチ2標本のt検定ではp値が0.032であるため、帰無仮説を棄却できます。0.032n=7n=7n=7power.t.test()0.0320.0320.032 さて、私は力が小さいことを気にする必要がありますか? 私の理解は、power = 1−β1−β1 - \betaここで、ββ\betaはタイプIIエラーの確率です。ここで、それは私のテストがH0を拒否する必要がある場合の約50%でH0を拒否できないことを意味するので、特定のサンプルがH0を拒否できない場合は特に心配する必要があります。しかし、私の特定のサンプルの場合、私は幸運であるように見え、私のいくらかパワーが不足しているt検定は拒否に成功したので、ベータについて気にする必要はなく、サンプルで大きな違いを示すことができるのを楽しむことができます手段。 私の解釈は正しいですか?それとも、何か重要なことを見逃していますか?

1
二項分布がデータに適合するかどうかのテスト
そのような離散分布からのサンプルがあります: Type: 0 1 2 3 4 5 Occurrences: 88 12 52 43 21 5 私の仕事は、二項分布(n = 5、p)がこのデータに適合するかどうかをテストすることです。 私は仮説検定を使用することを意図しており、カイ2乗検定はこの種のタスクの主要なものであることを理解しています。私はこの関連する質問を見ましたが、それでもテストの設定方法がわかりません。どうすればよいですか?

2
2つの指数分布データセットが異なるかどうかをテストします
2つの指数分布データセットがあり、それらが異なる分布からのものであることを確認したいと思います。残念ながら、データの検出に必要なエラーがあるため、特定のしきい値以下のすべてのデータを破棄する必要があります。各セットには約3000のデータポイントがあり、データをプロットするとラムダ値が異なると思います。フィッティングはラムダの異なる値も生成します。 両方のデータセットが異なる分布に由来することをどのように確認できますか? ここでは、セットがどのように見えるかのプロット(lifetime = 3secの下のすべての値を破棄する必要があることに注意してください): 更新:上記の分布はどちらの場合も、データポイントの総数Nが異なるため、グラフで比較するためだけにNで正規化されています。 UPDATE2:切り捨て後、赤のデータセットには約150、青のデータセットには350のライフタイム値があります。3000は誇張されたことがわかりました(すみません)。 UPDATE3:お付き合いいただきありがとうございます。これが生データです: http://pastebin.com/raw.php?i=UaGZS0im http://pastebin.com/raw.php?i=enjyW1uC これまでのところ、両方のデータセットに指数関数を当てはめ、勾配を比較しました。正規化によってデータの勾配が変わることはないので、勾配が異なると、基になる指数分布も異なることになります(私の統計分析の経験は非常に限られています)。 測定はそのレジームで頻繁に多くのイベントを検出するため、しきい値未満の値は破棄されます。 UPDATE4:私の問題は思ったよりずっと複雑だと気づきました。私は実際に打ち切りのまま(一部のイベントの始まりがわからない)と右打ち切り(一部のイベントの終わりがわからない)データを残しており、3秒未満のすべてのライフタイムを破棄する必要があります(トランケーション)。これらすべてを1つの分析に組み込む方法はありますか?これまでのところ、打ち切りデータ(生存分析)を処理する方法についていくつかのヘルプが見つかりましたが、切り捨てをどうすればよいですか?

1
低いサンプルサイズ:LR vs F-テスト
皆さんの中には、この素晴らしい論文を読んだことがあるかもしれません。 O'Hara RB、Kotze DJ(2010)カウントデータをログ変換しません。生態学と進化の方法1:118–122。クリック。 現在、私は、変換されたデータの負の二項モデルをガウスモデルと比較しています。O'Hara RBと​​は異なり、Kotze DJ(2010)は、サンプルサイズが低く、仮説検定のコンテキストでの特殊なケースを調べています。 両方の違いを調査するために使用されたシミュレーション。 タイプIエラーシミュレーション すべての計算はRで行われました。 1つのコントロールグループ(μcμcμ_c)と5つの処理グループ(μ1−5μ1−5μ_{1−5})を含む要因計画のデータをシミュレーションしました。存在量は、固定分散パラメーター(θ= 3.91)の負の二項分布から抽出されました。存在量はすべての処理で同等でした。 シミュレーションでは、サンプルサイズ(3、6、9、12)とアバンダンス(2、4、8、...、1024)を変化させました。100のデータセットが生成され、負の二項GLM(MASS:::glm.nb())、準ポアソンGLM(glm(..., family = 'quasipoisson')およびガウスGLM +対数変換データ(lm(...))を使用して分析されました。 尤度比検定(lmtest:::lrtest())(ガウスGLMおよび否定ビンGLM)とF検定(ガウスGLMおよび準ポアソンGLM)(anova(...test = 'F'))を使用して、モデルをnullモデルと比較しました。 必要に応じてRコードを提供できますが、私の関連する質問についてはこちらもご覧ください。 結果 サンプルサイズが小さい場合、LRテスト(緑-負のビン;赤-ガウス)により、Type-Iエラーが増加します。F検定(青-ガウス、紫-準ポアソン)は、小さいサンプルサイズでも機能するようです。 LRテストでは、LMとGLMの両方で同様の(増加した)タイプIエラーが発生します。 興味深いことに、準ポアソンはかなりうまく機能します(ただし、F検定でも機能します)。 予想どおり、サンプルサイズが増加すると、LR-Testも適切に実行されます(漸近的に正しい)。 サンプルサイズが小さい場合、GLMにはいくつかの収束の問題(表示されていません)がありましたが、存在量が少ない場合のみであるため、エラーの原因は無視できます。 ご質問 データがneg.binから生成されたことに注意してください。モデル-したがって、GLMが最高のパフォーマンスを発揮することを期待していました。ただし、この場合、変換された存在量の線形モデルのパフォーマンスが向上します。準ポアソン(F検定)についても同様です。これは、F検定が小さいサンプルサイズでよりよく機能しているためと考えられます。これは正しいですか、なぜですか LR-Testは、症状がないため、うまく機能しません。改善の可能性はありますか? GLMのパフォーマンスが向上する可能性のある他のテストはありますか?GLMのテストを改善するにはどうすればよいですか? サンプルサイズが小さいカウントデータには、どのタイプのモデルを使用する必要がありますか? 編集: 興味深いことに、二項GLMのLR-Testはかなりうまく機能します。 ここで、上記と同様の設定で、二項分布からデータを描画します。 赤:ガウスモデル(LRテスト+アルクシン変換)、黄土色:二項GLM(LRテスト)、緑:ガウスモデル(Fテスト+アルクシン変換)、青:準二次GLM(Fテスト)、紫:非パラメトリック。 ここでは、ガウスモデル(LR-Test + arcsin変換)のみがType Iエラーの増加を示していますが、GLM(LR-Test)はType Iエラーの点でかなり優れています。そのため、ディストリビューションにも違いがあるようです(または、glmとglm.nbの違いはありますか?)。

2
サンプル間の主成分分解を比較するためのテスト/手法/方法はありますか?
同じ母集団から抽出された異なるサンプルのPCA結果の方向、大きさなどを比較する方法論的な方法はありますか? さまざまな可能性をすべて聞きたいので、テストの性質を故意に曖昧にしておきます...たとえば、最初の主成分のサイズを比較するテスト(または、ここで推測している)があるかもしれません。主成分の方向を比較するテスト、またはPCAの結果とそれらが等しいかどうかの検定統計量の間に何らかの距離測定があります。 ユースケースに関する限り、私は心に留めていません。好奇心から、おそらく探索的手法として。

1
AB検定と帰無仮説の検定
違いを理解しようとしています 帰無仮説のテスト(つまり、Rのprop.testと同様に、「目標」の確率が2つの異なる母集団で同じであることのテスト) ここで説明されているようなベイジアン式を使用したA / Bテスト:http : //www.evanmiller.org/bayesian-ab-testing.html 違いはありますか?どちらが望ましいですか? 私が直面している問題は次のようなものです: コントロールグループには100,000インプレッション、100リアクションテストグループには50,000インプレッションと55リアクション

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.