タグ付けされた質問 「confidence-interval」

信頼区間は、信頼度で未知のパラメーターをカバーする区間です。信頼区間は、頻度主義の概念です。それらは、ベイジアンアナログである信頼できる間隔と混同されることがよくあります。 (1α)%

1
SurveyMonkeyは、ランダムでないサンプルを取得するという事実を無視しますか?
SurveyMonkeyには、母集団のサイズに基づいて、特定の誤差範囲または信頼区間に必要なサンプルサイズを把握するための手順とチャートがあります。 SurveyMonkeyのサンプルサイズ このチャートは、ランダムなサンプルが得られないという事実を単に無視しているのでしょうか?調査に反応することに煩わされている人々しか得られないからです。 これを入力すると、質問が主観的であると警告されるので、正しく質問していない可能性があります。それは実際にはSurveyMonkeyについてではありませんが、より一般的な質問です-私が知らないいくつかの高度な手法を使用して、自発的応答データから信頼区間を実際に計算できますか? 出口調査や全国調査では、明らかにこの問題に対処しなければなりません。私の教育では調査サンプリング技術を詳細に取り上げていませんが、人口統計データを収集し、それを使用してサンプルの代表性を知ることを含むと思います。 しかし、それを除けば、簡単なオンライン調査では、回答に迷惑をかけている人々が人口のランダムなサンプルであると彼らは単に想定しているのでしょうか?


1
信頼区間と信頼区間が一致する場合の例
信頼できる間隔に関するウィキペディアの記事で、それは言う: 単一のパラメータと単一の十分な統計に要約できるデータの場合、未知のパラメータが位置パラメータである場合、信頼できる区間と信頼区間が一致することを示すことができます(つまり、前方確率関数はPr(x |μ)= f(x −μ))、事前分布は均一なフラット分布です; [5]また、未知のパラメーターがスケールパラメーターである場合(つまり、前方確率関数はPr(x | s)= f(x / s))、ジェフリーズの事前[5] —後者は、そのようなスケールパラメーターの対数を取ると、均一な分布を持つ位置パラメーターに変わるためです。しかし、これらは明らかに(特別ではありますが)特別なケースです。一般に、そのような同等性を作ることはできません。」 人々はこれの具体的な例を示すことができますか?95%CIが実際に「95%確率」に対応し、CIの一般的な定義に「違反」するのはいつですか?

1
不確実性がどのように集計されるかを視覚化するのに役立つグラフィカルな方法は何ですか?
私は、不確実性がその中に蓄積する一連のシステムを持っています。これらは常に純粋に加算的であるとは限りません-時々それらは、時々彼らはそうではありません。私は、ファンチャート、信頼区間のある棒グラフ、および単一のアイテムを伝達するための箱ひげ図の使用にある程度成功しています。 しかし、不確実性がどのように蓄積および結合するかを示しながら、不確実性が存在するデータポイントも示すことができますか?

3
相互検証された分類精度の信頼区間
2つの入力X線画像間の類似性メトリックを計算する分類問題に取り組んでいます。画像が同じ人物の場合(「右」のラベル)、より高いメトリックが計算されます。2人の異なる人物の画像(「間違った」というラベル)を入力すると、メトリックが低くなります。 階層化された10分割交差検証を使用して、誤分類の確率を計算しました。私の現在のサンプルサイズは約40の正しい一致と80の誤った一致で、各データポイントは計算されたメトリックです。私は0.00の誤分類確率を取得していますが、これについてある種の信頼区間/エラー分析が必要です。 私は二項比率信頼区間の使用を検討していました(相互検証の結果を、成功の数に対する正しいラベル付けまたは誤ったラベル付けとして使用しました)。ただし、二項分析の背後にある仮定の1つは、各試行で成功する確率が同じであり、交差検証での「正しい」または「間違った」の分類の背後にある方法が、同じ成功の確率。 私が考えることができる他の唯一の分析は、クロス検証をX回繰り返し、分類エラーの平均/標準偏差を計算することですが、私のデータを再利用しているので、これが適切かどうかはわかりません数回の比較的小さなサンプルサイズ。 何かご意見は?すべての分析にMATLABを使用していますが、統計ツールボックスがあります。すべての支援に感謝します!

3
2つのパラメーターの積の信頼区間
2つのパラメーターとp 2があると仮定します。また、2つの最尤推定量^ p 1および^ p 2と、これらのパラメーターの2つの信頼区間があります。p 1 p 2の信頼区間を構築する方法はありますか?p1p1p_1p2p2p_2p1^p1^\hat{p_1}p2^p2^\hat{p_2}p1p2p1p2p_1p_2

5
信頼区間と確率-このステートメントのエラーはどこにありますか?
誰かが以下のような声明を出した場合: 「全体として、環境の煙にさらされた非喫煙者は、煙にさらされなかった非喫煙者と比較して、冠状動脈性心臓病の相対リスクが1.25(95%信頼区間、1.17〜1.32)でした。」 全体としての人口の相対リスクは何ですか?冠状動脈性心臓病に関連するものはいくつありますか?テストできる膨大な数の中で、実際に冠状動脈性心臓病に関連しているものはほとんどないため、ランダムに選択された特定のものが関連している可能性はほとんどありません。したがって、母集団の相対リスクは1であると言えますが、引用された間隔には値1が含まれていません。したがって、実際には2つのものの間に関連があり、その確率は非常に小さいか、またはこれは次のいずれかです。パラメータを含まない5%の間隔。後者は前者よりはるかに可能性が高いので、それは私たちが仮定するべきものです。したがって、適切な結論は、データセットがほぼ確実に母集団の非定型であったことです。 もちろん、5%以上が冠状動脈性心疾患に関連していると仮定する根拠がある場合、統計には、環境煙がその1つであるという示唆を裏付ける証拠がいくつかある可能性があります。常識では、これはありそうもないことです。 彼らの推論の誤りは何ですか(すべての保健機関は間接喫煙の有害な影響に関する重要な文献があることに同意しているので)?「検査できる膨大な数の中で、実際に冠状動脈性心臓病に関連しているものはほとんどない」という彼らの前提のせいですか?この文は、ランダムに選択された要因(すなわち、冠動脈疾患のリスクがある人が犬を何匹所有するか)に当てはまる可能性がありますが、先験的確率は、「任意のランダムな要因」よりも、受動喫煙および冠状動脈性心臓病の方がはるかに高いです。 これは正しい推論ですか?または他に何かありますか?

1
中央値の95%CIがはずなのはなぜですか?
さまざまなソース(たとえば、こちらを参照)では、中央値(特に箱ひげ図にノッチを描く目的)の信頼区間について次の式が与えられています。 95% CImedian=Median±1.57×IQRN−−√95% CImedian=Median±1.57×IQRN 95\%\ CI_{\rm median} = {\rm Median} \pm \frac{1.57\times IQR}{\sqrt{N}} 魔法の定数夢中です。どうやって取得したのかわかりません。さまざまな近似(たとえば、分布がガウスでが大きいと仮定)では手掛かりが得られません—定数の値は異なります。1.571.571.57NNN

1
ラプラス分布の2つの平均をどのように比較できますか?
1分の在庫返品の2つのサンプル平均を比較したいと思います。私はそれらがラプラス分布(すでにチェックされている)であると想定し、リターンを2つのグループに分割します。それらが大幅に異なるかどうかを確認するにはどうすればよいですか? 300を超える値であっても、QQプロットは正規分布に大きな違いがあることを示しているため、正規分布のように扱うことはできないと思います。

1
ブートストラップ:推定値が信頼区間外です
私は混合モデル(相互作用を持ついくつかの変数と1つの確率変数)でブートストラップを行いました。私はこの結果を得ました(部分的なのみ): > boot_out ORDINARY NONPARAMETRIC BOOTSTRAP Call: boot(data = a001a1, statistic = bootReg, R = 1000) Bootstrap Statistics : original bias std. error t1* 4.887383e+01 -1.677061e+00 4.362948e-01 t2* 3.066825e+01 1.264024e+00 5.328387e-01 t3* 8.105422e+01 2.368599e+00 6.789091e-01 t4* 1.620562e+02 4.908711e+00 1.779522e+00 ...... 次に、切片の信頼区間を取得したいと思います。 > boot.ci(boot_out,type=c("norm","basic","perc"), index=1) BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS Based on …

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

2
信頼区間について混乱
信頼区間の概念について混乱しています。具体的には、既知のガウス変数があり、信頼水準での平均の下限に興味があるとます。σ μ L 95 %X∼N(μ,σ)X∼N(μ,σ)X \sim N(\mu, \sigma)σσ\sigmaμLμL\mu_L95%95%95\% 回の実験を行い、、、、、ます。X 1 X 2 X 3 X 4 X 5555X1X1X_1X2X2X_2X3X3X_3X4X4X_4X5X5X_5 オプション1:各サンプルを個別に扱い、各を計算できます。そして、これらの5つのから実際の下限を計算する方法(方法はわかりません)があるとます。X I μ LμL=Xi−σzμL=Xi−σz\mu_L = X_i - \sigma zXiXiX_iμLμL\mu_L オプション2:一方、を取る場合、を計算できます。(が正常であると仮定すると、t-statも使用できます。)μのL = T - σ / √T=(X1+X2+X3+X4+X5)/5T=(X1+X2+X3+X4+X5)/5T = (X_1+X_2+X_3+X_4+X_5)/5TμL=T−σ/5–√zμL=T−σ/5z\mu_L = T - \sigma/\sqrt{5}zTTT サンプルに基づいて下限を計算するオプション2以外の方法はありますか?オプション1の場合、計算された5つの下限に基づいて下限を計算する方法はありますか?555

2
カイ二乗の信頼区間
2つの「適合度のカイ2乗」検定を比較するための解決策を見つけようとしています。より正確には、2つの独立した実験の結果を比較します。これらの実験では、著者らは適合度のカイ2乗を使用して、ランダムな推測(期待される周波数)と観測される周波数を比較しました。2つの実験は同じ数の参加者を獲得し、実験手順は同じですが、刺激のみが変更されました。2つの実験結果は、有意なカイ2乗を示しました(式1:X²(18)= 45; p <.0005および式2:X²(18)= 79; p <.0001)。 さて、私がやりたいのは、これらの2つの結果に違いがあるかどうかをテストすることです。信頼区間の使用が解決策になると思いますが、これらの結果だけでこれらの信頼区間を計算する方法がわかりません。あるいは、効果の大きさを比較するテスト(コーエンのw)? 誰かが解決策を持っていますか? どうもありがとう! FD

2
PLSの回帰係数の信頼区間を計算する方法は?
PLSの基礎となるモデルは、与えられた行列とベクトルがによって関連付けられることです ここで、は潜在的な行列、およびはノイズ項です(が中央にあると)。n×mn×mn \times mXXXnnnyyyX=TP′+E,X=TP′+E,X = T P' + E, y=Tq′+f,y=Tq′+f,y = T q' + f,TTTn×kn×kn \times kE,fE,fE, fX,yX,yX, y PLSの推定値生成、および回帰係数の'ショートカット'ベクター、ように。の分布をいくつかの単純化した仮定の下で見つけたいと思います。T,P,qT,P,qT, P, qβ^β^\hat{\beta}y∼Xβ^y∼Xβ^y \sim X \hat{\beta}β^β^\hat{\beta} モデルは正確です。つまり 、未知のに対してです。X=TP′+E,y=Tq′+fX=TP′+E,y=Tq′+fX = T P' + E,y = T q' + fT,P,qT,P,qT, P, q 潜在因子の数は既知であり、PLSアルゴリズムで使用されます。kkk 実際の誤差項は、既知の分散を持つiidゼロ平均正規です。 「the」PLSアルゴリズムには多数のバリアントがあるため、この質問はいくぶん過小評価されていますが、私はそれらの結果を受け入れます。私はまたの分布を推定する方法についての指導受け入れるだろうを経由して例えば Aのブートストラップを、おそらくそれは別の問題です。β^β^\hat{\beta}

2
階層データからのブートストラップ信頼区間の取得と解釈
数量Xのブートストラップされた信頼区間を取得することに興味があります。この数量が10人の個人ごとに10回測定される場合です。 1つのアプローチは、個人ごとの平均を取得し、平均をブートストラップすることです(たとえば、置換で平均を再サンプリングする)。 別のアプローチは、ブートストラップ手順の各反復で次のことを行うことです。各個人内で、その個人の10個の観測値を置き換えてリサンプリングし、その個人の新しい平均を計算し、最後に新しいグループ平均を計算します。このアプローチでは、元のデータセットで観察された各個人が、ブートストラップ手順の各反復で常にグループ平均に寄与します。 最後に、3番目のアプローチは、上記の2つのアプローチを組み合わせることです。個体をリサンプリングしてから、それらの個体内でリサンプリングします。このアプローチは、同じ個人が各反復でグループ平均に乗算することを可能にするという点で、前述のアプローチとは異なりますが、各寄与は独立したリサンプリング手順によって生成されるため、これらの寄与は互いにわずかに異なると予想される場合があります。 実際には、これらのアプローチでは信頼区間の推定値が異なることがわかります(たとえば、1つのデータセットを使用すると、3番目のアプローチは最初の2つのアプローチよりもはるかに大きな信頼区間をもたらすことがわかります)。表現すると解釈されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.