タグ付けされた質問 「confidence-interval」

信頼区間は、信頼度で未知のパラメーターをカバーする区間です。信頼区間は、頻度主義の概念です。それらは、ベイジアンアナログである信頼できる間隔と混同されることがよくあります。 (1α)%

3
1つの観測値の分散の信頼区間
これは、「確率論における第7回コルモゴロフ学生オリンピック」の問題です。 両方のパラメーターが不明な分布から1つの観測値与えられた場合、少なくとも99%の信頼レベルで信頼区間を与えます。XXXNormal(μ,σ2)Normal⁡(μ,σ2)\operatorname{Normal}(\mu,\sigma^2)σ2σ2\sigma^2 私には、これは不可能であると思われます。解決策はありますが、まだ読んでいません。何かご意見は? 数日中にソリューションを投稿します。 [次の編集:以下に掲載されている公式ソリューション。Cardinalのソリューションはより長くなりますが、より良い信頼区間を提供します。また、入力してくれたMaxとGlen_bにも感謝します。]

1
プロファイル尤度に基づいた信頼区間の構築
私の基本統計コースでは、「大きな」サンプルサイズの漸近正規性に基づいて、母平均などの95%信頼区間を構築する方法を学びました。別に方法をリサンプリング(例えばブートストラップなど)に基づいて、別のアプローチがある「プロファイル尤度」。誰かがこのアプローチを解明できますか?μμ\mu どのような状況下で、漸近正規性とプロファイル尤度に基づいて構築された95%CIは同等ですか?このトピックに関する参考文献が見つかりませんでした。推奨される参考文献はありますか?なぜもっと広く使われないのですか?

2
最高密度領域(HDR)とは何ですか?
で統計的推論、問題9.6b、「最高密度領域(HDR)」が言及されています。しかし、私は本でこの用語の定義を見つけませんでした。 1つの類似した用語は、最高後方密度(HPD)です。しかし、9.6bは事前分布については何も言及していないため、このコンテキストには適合しません。提案された解決策では、「明らかにc (y)c(y)c(y)はHDRである」としか書かれていません。 または、HDRはpdfのモードを含む領域ですか? 最高密度領域(HDR)とは何ですか?


9
ニューラルネットワークの予測の信頼性を判断する方法
私の質問を説明するために、たとえば入力にはある程度のノイズがあり、出力にはないトレーニングセットがあるとします。 # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] : [3.0] ここで、出力は、ノイズがない場合の入力配列の勾配です(実際の勾配ではありません)。 ネットワークをトレーニングした後、特定の入力に対して出力は次のようになります。 # Expected Output [1.01, 1.96, 2.00, 3.06] : 95% confidence interval of [0.97, 1.03] [2.03, 4.11, 3.89, 3.51] : 95% …

2
正規化された推定による信頼区間のカバレッジ
何らかの正規化された推定を使用して、高次元のデータから多数のパラメーターを推定しようとしているとします。レギュラライザーは推定値にある程度のバイアスを導入しますが、分散の減少はそれを補う以上のものでなければならないため、依然として良いトレードオフになる可能性があります。 問題は、信頼区間を推定するときに発生します(たとえば、ラプラス近似またはブートストラップを使用)。具体的には、推定値の偏りにより、信頼区間のカバレッジが悪くなり、推定量の頻度特性を判断することが難しくなります。 この問題について議論している論文をいくつか見つけました(例:「エッジワース展開に基づくリッジ回帰の漸近信頼区間」)が、数学はほとんど私の頭の上にあります。リンクされた論文では、方程式92-93がリッジ回帰によって正則化された推定値の補正係数を提供しているように見えますが、さまざまな正則化器で機能する適切な手順があるかどうか疑問に思っていました。 一次補正でさえ非常に役立ちます。

7
1つのサンプルT検定で平均の差の信頼区間を解釈する方法は?
SPSSは、「差分平均の信頼区間」という出力を提供します。「100回のうち95回、サンプルの平均差がこれらの境界間で異なる」ことを意味することをいくつかの場所で読んだことがありますが、これは不明瞭です。「平均の差の信頼区間」を説明するために、誰もがより明確な表現を提案できますか?この出力は、1サンプルのt検定のコンテキストで表示されます。

4
非正規分布の信頼区間を計算するにはどうすればよいですか?
いくつかの一般的な値に大きな偏りがある383個のサンプルがありますが、平均の95%CIをどのように計算しますか?私が計算したCIはかなり外れているように見えます。これは、ヒストグラムを作成するときにデータが曲線のように見えないためです。だから、ブートストラップのようなものを使用しなければならないと思いますが、これはあまりよくわかりません。

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
RMSEの信頼区間
母集団からデータポイントのサンプルを取得しました。これらの各ポイントには、真の値(グラウンドトゥルースから既知)と推定値があります。次に、各サンプリングポイントの誤差を計算し、サンプルのRMSEを計算します。nnn 次に、サンプルサイズ基づいて、このRMSEの周りのある種の信頼区間をどのように推測できますか?nnn RMSEではなく平均を使用していた場合、標準方程式を使用できるので、これを行うのに問題はありません。 m=Zσn√m=Zσn m = \frac{Z \sigma}{\sqrt{n}} しかし、これが平均ではなくRMSEに有効かどうかはわかりません。これを適応させる方法はありますか? (私はこの質問を見ましたが、私の人口が通常分布しているかどうかの問題はありません、それはそこでの答えが扱っているものです)

1
ロジスティック回帰の予測間隔の計算
ロジスティック回帰推定の予測間隔を生成する方法を理解したいと思います。 コレットのモデリングバイナリデータのモデリング、第2版p.98-99 の手順に従うことをお勧めしました。この手順を実装してRと比較した後predict.glm、この本は予測区間ではなく信頼区間を計算する手順を示していると思います。 Collettからの手順の実装を、と比較してpredict.glm以下に示します。 知りたいのですが、ここから信頼区間ではなく予測区間を作成する方法を教えてください。 #Derived from Collett 'Modelling Binary Data' 2nd Edition p.98-99 #Need reproducible "random" numbers. seed <- 67 num.students <- 1000 which.student <- 1 #Generate data frame with made-up data from students: set.seed(seed) #reset seed v1 <- rbinom(num.students,1,0.7) v2 <- rnorm(length(v1),0.7,0.3) v3 <- rpois(length(v1),1) #Create df representing …

1
2つの比率の比の信頼区間
2つの比率(例:コントロールレイアウトのリンクのクリックスルー率(CTR)と実験レイアウトのリンクのCTR)があり、これらの比率の比率について95%の信頼区間を計算したい。 どうすればいいですか?デルタ方式を使用してこの比率の分散を計算できることは知っていますが、それ以外に何をすべきかはわかりません。信頼区間の中間点(観測された比率、または異なる予測比率)として何を使用する必要がありますか?また、この比率の周りの標準偏差をいくつ取る必要がありますか? デルタ方式の分散を使用する必要がありますか?(私は本当に分散を気にしません、単に信頼区間です。)ケース1 を使用して、Fiellerの定理を使用する必要があります(比率を行っているため、正規分布の要件を満たしていると思います)。ブートストラップサンプルを計算するだけですか?

3
複数の代入を使用する場合、混合効果モデルの分散コンポーネントの信頼区間を組み合わせる方法
多重代入(MI)のロジックは、欠損値を1回ではなく数回(通常はM = 5)回代入し、M個のデータセットを完成させることです。次に、M個の完成したデータセットをcomplete-dataメソッドで分析し、Rubinの式を使用してMの推定値とその標準誤差を組み合わせて、「全体的な」推定値とその標準誤差を取得します。 これまでのところ素晴らしいが、混合効果モデルの分散コンポーネントが関係する場合、このレシピをどのように適用するかわからない。分散成分のサンプリング分布は非対称です。したがって、対応する信頼区間は、典型的な「推定値±1.96 * se(推定値)」形式で与えることはできません。このため、Rパッケージlme4およびnlmeは、分散成分の標準誤差さえも提供せず、信頼区間のみを提供します。 したがって、データセットに対してMIを実行し、M個の完成したデータセットに同じ混合効果モデルを適合させた後、分散コンポーネントごとにM個の信頼区間を取得できます。問題は、これらのM区間を1つの「全体的な」信頼区間に結合する方法です。 これは可能だと思います-記事の著者(yucel&demirtas(2010)MIによる推論に対する非正規ランダム効果の影響)はそれをやったようですが、彼らはどのように正確に説明していないのでしょうか。 どんなヒントも大いに義務付けられます! 乾杯、ロック

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
ロジスティック回帰からの予測確率の信頼区間のプロット
ロジスティック回帰があり、このpredict()関数を使用して、推定に基づいて確率曲線を作成しました。 ## LOGIT MODEL: library(car) mod1 = glm(factor(won) ~ as.numeric(bid), data=mydat, family=binomial(link="logit")) ## PROBABILITY CURVE: all.x <- expand.grid(won=unique(won), bid=unique(bid)) y.hat.new <- predict(mod1, newdata=all.x, type="response") plot(bid<-000:1000,predict(mod1,newdata=data.frame(bid<-c(000:1000)),type="response"), lwd=5, col="blue", type="l") これはすばらしいことですが、確率の信頼区間をプロットすることに興味があります。試しましplot.ci()たが、運がありませんでした。できればcarパッケージまたはベースRを使用して、これを実現するいくつかの方法を教えてください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.