タグ付けされた質問 「confidence-interval」

信頼区間は、信頼度で未知のパラメーターをカバーする区間です。信頼区間は、頻度主義の概念です。それらは、ベイジアンアナログである信頼できる間隔と混同されることがよくあります。 (1α)%


1
二項確率変数の予測区間
二項確率変数の予測区間の式(近似または正確)は何ですか? と仮定すると、(から描画)が観測されます。知られています。Y Y NY∼Binom(n,p)Y∼Binom(n,p)Y \sim \mathsf{Binom}(n, p)yyyYYYnnn 私たちの目標は、からの新しいドローの95%の予測間隔を取得することです。YYY ポイント推定値は、ここでです。の信頼区間は簡単ですが、予測区間の公式は見つかりません。(ではなく)を知っていた場合、95%の予測区間は、二項の分位数を見つけることだけを含みます。私が見落としている明らかなものはありますか?、P = Ynp^np^n\hat{p}P YP Pp^=ynp^=yn\hat{p}=\frac{y}{n}p^p^\hat{p}YYYpppp^p^\hat{p}

1
頻繁な条件付き推論はまだ実際に使用されていますか?
私は最近、ナンシー・リード、バーンドルフ・ニールセン、リチャード・コックス、そしてはい、頻度論的パラダイムにおける「条件付き推論」の概念に関する小さなロナルド・フィッシャーによるいくつかの古い論文をレビューしました。サンプルスペース全体ではなく、サンプルスペースの「関連サブセット」。 重要な例として、サンプルの変動係数(補助統計と呼ばれる)も考慮すると、t統計に基づく信頼区間を改善できることが知られています(Goutis&Casella、1992)。 尤度ベースの推論を定期的に使用する人として、漸近%-confidence interval を形成するとき、尤度は観測されたサンプルに条件があるため、(近似)条件推論を実行していると想定しました。αα\alpha 私の質問は、条件付きロジスティック回帰とは別に、推論の前に補助統計を条件付けするという考え方をあまり利用していないということです。このタイプの推論は指数関数族に制限されていますか、それとも最近では別の名前で行われているので、制限されているように見えます。 最近の記事(Spanos、2011年)を見つけましたが、条件付き推論(つまり、無秩序性)によるアプローチに深刻な疑問を投げかけているようです。代わりに、「不規則な」場合(分布のサポートがパラメーターによって決定される)のパラメトリック推論は、通常の無条件のサンプリング分布を切り捨てることによって解決できるという、非常に賢明で数学的に複雑でない提案を提案します。 Fraser(2004)は条件性をうまく防御しましたが、複雑なケースに条件付き推論を実際に適用するには、ほんの少しの運と工夫以上のものが必要であるという感覚が残っています...カイ2乗を呼び出すよりも確かに複雑です「近似」条件付き推論の尤度比統計の近似。 ウェールズ(2011年、163ページ)が私の質問(3.9.5、3.9.6)に答えたかもしれません。 彼らは、どの「関連サブセット」が最も関連性があるのか​​という質問を頼み、複数の補助的な統計値が存在する可能性があるというBasuのよく知られている結果(Basuの定理)を指摘しています。さらに悪いことに、一意の補助統計がある場合でも、他の関連サブセットの存在を排除しない2つの例を示しています。 彼らは、ベイジアンメソッド(またはそれらに相当するメソッド)のみがこの問題を回避でき、問題のない条件推論を可能にすると結論付けています。 参照: グーティス、コンスタンチノス、ジョージカセラ。「スチューデントの間隔の信頼性を高める。」ttt 統計学年報(1992):1501-1513。 スパノス、アリス。「Welch Uniform Modelの再考:条件付き推論のケース?」 統計科学の進歩と応用 5(2011):33-52。 フレーザー、DAS 「付属物と条件付き推論」。 統計科学 19.2(2004):333-369。 ウェールズ、アランH. 統計的推論の側面。巻 916.ジョンワイリー&サンズ、2011年。

2
頻繁な結果からベイジアンを事前にする
頻繁な結果をベイジアン事前に変換するにはどうすればよいですか? 次はかなり一般的なシナリオを考えてみましょう:実験は、過去に行われた、いくつかのパラメータの結果測定しました。分析は、頻繁な方法論で行われました。ϕの信頼区間が結果に示されています。ϕϕ\phiϕϕ\phi 私は今、私は、いくつかの他のパラメータを測定し、両方の言いたいいくつかの新しい実験行ってるとφを。私の実験は以前の研究とは異なります---それは同じ方法論では実行されません。私は、ベイジアン解析を行いたい、と私は上の場所の事前分布にする必要がありますθとφ。θθ\thetaϕϕ\phiθθ\thetaϕϕ\phi 以前の測定は実行されていないので、情報のない(たとえばその均一な)をその前に配置します。 θθ\theta 上述したように、のために前の結果がある信頼区間として与えられるが、。現在の分析でその結果を使用するには、分析の前に、以前の頻度の高い結果を有益な情報に変換する必要があります。 ϕϕ\phi この構成されたシナリオでは利用できない1つのオプションは、ベイジアン方式で測定に至る前の分析を繰り返すことです。 私はこれを行うことができれば、φは、私はその後、私の前として使用することを前の実験から後部を持っているでしょうし、何の問題もないでしょう。ϕϕ\phi ϕϕ\phi 分析のために、頻度の高いCIをベイジアン事前分布に変換するにはどうすればよいですか?換言すれば、どのように私は彼らにfrequentest結果を翻訳でき上の後部にφ私はその後、私の分析では前のように使用すること?ϕϕ\phiϕϕ\phi この種の問題について議論する洞察や参考文献は歓迎します。

4
機械学習アルゴリズムの予測間隔
以下に説明するプロセスが有効/許容可能であり、正当な理由があるかどうかを知りたい。 考え方:教師あり学習アルゴリズムは、データの基礎となる構造/分布を想定していません。一日の終わりに、彼らはポイント推定値を出力します。推定の不確実性を何らかの形で定量化したいと考えています。現在、MLモデルの構築プロセスは本質的にランダムです(たとえば、ハイパーパラメーターチューニングの相互検証のサンプリングや、確率論的GBMのサブサンプリングなど)。したがって、モデリングパイプラインは、異なる予測子ごとに異なるシードの異なる出力を生成します。私の(素朴な)アイデアは、このプロセスを何度も繰り返して予測の分布を考え出すことであり、予測の不確実性について声明を出すことができれば幸いです。 問題があれば、私が扱うデータセットは通常非常に小さい(〜200行)。 これは理にかなっていますか? 明確にするために、私は実際には伝統的な意味でデータをブートストラップしていません(つまり、データを再サンプリングしていません)。すべての反復で同じデータセットが使用されます。xvalと確率的GBMのランダム性を利用しています。

2
Mann-Whitney U検定:効果サイズの信頼区間
フリッツ、モリス、及びRichler(2011;下記参照)によれば、式を使用してマン・ホイットニーU検定のための効果の大きさとして算出することができる これは便利であることを私、他の機会にもを報告します。効果の大きさの尺度に加えて、の信頼区間を報告したいと思います。rrrr=zN−−√r=zN r = \frac{z}{\sqrt N} rrrrrr 私の質問は次のとおりです。 ピアソンのrのようにrの信頼区間を計算できますが、ノンパラメトリック検定の効果サイズの尺度として使用されますか? 片側検定と両側検定の場合、どの信頼区間を報告する必要がありますか? 2番目の質問に関する編集:「片側検定と両側検定の場合、どの信頼区間を報告する必要がありますか?」 私は、私見がこの質問に答えるかもしれないいくつかの情報を見つけました。「両側の信頼限界は信頼区間を形成しますが、片側の信頼限界は信頼限界の下限または上限と呼ばれます。」(http://en.wikipedia.org/wiki/Confidence_interval)。この情報から、有意性検定(たとえば、)が片側か両側かは主な問題ではなく、影響の大きさのCIに関してどのような情報に関心があるかを結論付けます。私の結論(あなたが同意しない場合は私を修正してください):ttt 両側CI →→\rightarrow上限と下限に関心(結果として、両側CIが0を伴う可能性がありますが、有意性の片側検定はp <.05でしたが、特に値が。 05.) 片側の「CI」→→\rightarrow上限または下限にのみ関心がある(理論的推論による); ただし、これは必ずしも有向仮説をテストした後の主な関心事ではありません。エフェクトサイズの可能な範囲に焦点が当てられている場合、両面CIは完全に適切です。正しい? 上記の記事からのMann-Whitney検定の効果サイズの見積もりに関するFritz、Morris、&Richler(2011)の文章の一節については、以下を参照してください。 「ここで説明したエフェクトサイズの推定値のほとんどは、データが正規分布を持っていることを前提としています。ただし、一部のデータはパラメトリックテストの要件を満たしていません。通常は、Mann-WhitneyやWilcoxon検定などのノンパラメトリック統計検定を使用しますこれらの検定の有意性は、通常、標本サイズが小さすぎない場合の検定統計の分布を分布に近似することで評価されます。これらのテストを実行するSPSSなどのパッケージは、または値に加えて適切な値を報告します;zzzzzzうんうんUTTTzzz手動で計算することもできます(例:Siegel&Castellan、1988)。値は、次のような、効果の大きさを計算するために使用され得るコーエン(1988)によって提案されました。Cohenのrに関するガイドラインでは、大きな効果は0.5、中程度の効果は.3、小さな効果は.1です(Coolican、2009、p。395)。、を計算するのは簡単ですzzzrrrrrrr2r2r^2、又はこれらからZ値ので 、R = Zη2η2\eta^2zzz および r2r = zN−−√r=zN r = \frac{z}{\sqrt N} これらの効果サイズの推定値は、式にNが含まれているにもかかわらず、サンプルサイズに依存しません。これは、zがサンプルサイズに敏感だからです。Nの関数で除算すると、結果の効果サイズの推定値からサンプルサイズの効果が削除されます。 "(p。12)r2O Rη2= z2Nr2orη2=z2N r^2\quad{\rm or}\quad \eta^2 = \frac{z^2}{N}

2
非線形回帰の信頼区間と予測区間の形状
非線形回帰の信頼帯と予測帯は、回帰線の周りで対称的であると想定されていますか?つまり、線形回帰のバンドの場合のように、砂時計の形をとっていません。何故ですか? 問題のモデルは次のとおりです 図は次のとおりです。 F(x )= ⎛⎝⎜⎜A − D1 + (xC)B⎞⎠⎟⎟+ DF(バツ)=(A−D1+(バツC)B)+D F(x) = \left(\frac{A-D}{1 + \left(\frac x C\right)^B}\right) + D そして、これが方程式です:

1
尤度比とベイジアンモデル比較は、帰無仮説検定の優れた十分な代替手段を提供しますか?
科学のための帰無仮説検定(NHT)の累積的な試みとしての有用性を批判する統計学者や研究者の増加に対応して、統計的推論に関する米国心理学会タスクフォースはNHTの全面禁止を回避しましたが、代わりに研究者に提案しましたNHTから導出されたp値に加えて、効果サイズを報告します。 ただし、効果の大きさは研究間で簡単に蓄積されません。メタ分析アプローチは効果サイズの分布を蓄積できますが、通常、効果サイズは生の効果の大きさと特定の実験のデータにおける説明のつかない「ノイズ」の比として計算されます。つまり、効果サイズの分布は研究間での影響の生の大きさのばらつきだけでなく、研究間でのノイズの発現のばらつきもあります。 対照的に、効果の強さ、尤度比の代替尺度は、研究ごとの直感的な解釈の両方を可能にし、メタ分析のために研究全体で簡単に集約することができます。各研究内で、尤度は、効果を含まないモデルに対する特定の効果を含むモデルの証拠の重みを表し、たとえば、「Xの効果の尤度比の計算その効果については、それぞれのヌルよりも8倍以上の証拠を明らかにしました」。さらに、尤度比は、1未満の尤度比がヌルが優先されるシナリオを表し、この値の逆数を取ることが効果に対するヌルの証拠の重みを表す限り、ヌルの結果の強さの直感的な表現も可能にします。特に、尤度比は、2つのモデルの説明されていない分散の比として数学的に表されます。これは、効果によって説明される分散のみが異なり、したがって効果サイズからの概念的な大きな逸脱ではありません。一方、研究全体の効果の証拠の重みを表すメタ分析尤度比の計算は、単に研究全体の尤度比の積をとる問題です。 したがって、効果/モデルに有利な大まかな証拠の程度を確立しようとする科学にとって、尤度比が道であると主張します。 効果の特定のサイズでのみモデルを微分できる微妙なケースがあります。その場合、データが効果パラメーター値と一貫していると思われる区間のある種の表現が好ましい場合があります。実際、APAタスクフォースは、この目的に使用できる信頼区間を報告することも推奨していますが、これも不適切なアプローチだと思います。 信頼区間は嘆かわしいほど誤解されることがよくあります(学生や研究者も同様)。また、CIにゼロを含めることによるNHTでの使用能力が、推論的慣行としてのNHTの絶滅をさらに遅らせるのに役立つことも恐れています。 代わりに、理論が効果のサイズによってのみ微分可能である場合、各効果の事前分布が各モデルによって個別に定義され、結果の事後分布が比較されるベイズのアプローチがより適切であることをお勧めします。 このアプローチは、p値、効果サイズ、信頼区間を尤度比に置き換え、必要に応じてベイジアンモデル比較で十分と思われますか?ここで悪用された代替手段が提供するいくつかの必要な推論機能を逃しますか?

3
Box-Cox変換されたデータで、元の単位で回答を表現します
一部の測定では、分析の結果が変換されたスケールで適切に表示されます。ただし、ほとんどの場合、元の測定スケールで結果を表示することが望ましいです(そうでない場合、作業は多かれ少なかれ価値がなくなります)。 たとえば、ログ変換されたデータの場合、ログに記録された値の平均は平均のログではないため、元のスケールでの解釈に問題が発生します。対数スケールでの平均の推定値の逆対数をとっても、元のスケールでの平均の推定値は得られません。 ただし、ログ変換されたデータに対称分布がある場合、次の関係が成り立ちます(ログは順序を保持するため)。 Mean[log(Y)]=Median[log(Y)]=log[Median(Y)]Mean[log⁡(Y)]=Median[log⁡(Y)]=log⁡[Median(Y)]\text{Mean}[\log (Y)] = \text{Median}[\log (Y)] = \log[\text{Median} (Y)] (ログ値の平均の逆対数は、測定の元のスケールの中央値です)。 したがって、元の測定スケールでの中央値の差(または比率)についてのみ推測できます。 母集団がほぼ標準偏差でほぼ正常である場合、2サンプルのt検定と信頼区間は最も信頼性が高いBox-Coxため、正規性の仮定に変換を使用するように誘惑される可能性があります(変換を安定化する分散でもあると思います)。 ただし、Box-Cox変換されたデータにt-toolsを適用すると、変換されたデータの平均の違いに関する推論が得られます。それらを元の測定スケールでどのように解釈できますか?(変換された値の平均は、変換された平均ではありません)。つまり、変換されたスケールで平均の推定値の逆変換を行っても、元のスケールでの平均の推定値は得られません。 この場合、中央値についてのみ推論することもできますか?(元のスケールで)平均に戻ることができる変換がありますか? この質問は最初はコメントとしてここに投稿されました

2
95%信頼区間の式
Googleでstats.stackexchangeを検索しましたが、線形回帰のR2R2R^2値の95%信頼区間を計算する式が見つかりません。誰でも提供できますか? さらに良いことに、以下のRで線形回帰を実行したとしましょう。Rコードを使用して、R2R2R^2値の95%信頼区間をどのように計算しますか。 lm_mtcars <- lm(mpg ~ wt, mtcars)

8
p値が正確に1(1.0000000)である場合、帰無仮説が真であることをサポートするために、信頼区間の制限はどうなりますか?[閉まっている]
閉じた。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善したいですか?詳細を追加し、この投稿を編集して問題を明確にします。 5か月前に閉鎖されました。 これは純粋に仮説的な質問です。非常に一般的なステートメントは、は決して真ではなく、サンプルサイズの問題であるということです。H0H0H_0 実際には、正規分布母集団(および推定両方)から 2つの平均()の間に測定可能な差はまったくないと仮定します。グループごとにと仮定し、テストを使用します。これは、値がことを意味し、の矛盾がないことをます。これは、検定統計量があることを示します。グループ間の平均差はなり。この場合の平均差の信頼区間の限界は何ですか?彼らでしょうかμ1=μ2μ1=μ2\mu_1=\mu_2μ=0μ=0\mu=0σσ\sigma=1=1=1N=16N=16N=16tttppp1.000001.000001.00000H0H0H_000000095%95%95\%[0.0,0.0][0.0,0.0][0.0, 0.0]? 私の質問の主なポイントは、ときに我々は本当に言うことができるということでしたH0H0H_0真である、すなわちμ1=μ2μ1=μ2\mu_1=\mu_2、この場合には?または、頻繁なフレームワークでは、2つの平均を比較するときに「差なし」と本当に言えるのでしょうか。

4
比率の信頼区間を計算する方法は?
0と1の間の比率を出力する実験を考えてみましょうXiXiX_i。この比率がどのように取得されるかは、このコンテキストでは関係ありません。それはこの質問の前のバージョンで詳しく説明されましたが、メタに関する議論の後に明確にするために取り除かれました。 この実験は回繰り返されますが、nは小さい(約3〜10)。Xは、私が独立同一分布すると仮定されます。これらから、我々は平均算出して平均値を推定¯ Xが、どのように対応する信頼区間計算するには、[ U 、Vを]?nnnnnnXiXiX_iX¯¯¯¯X¯\overline X[U,V][U,V][U,V] 信頼区間を計算するための標準的なアプローチを使用する場合、は1より大きい場合があります。しかし、私の直感では、正しい信頼区間は...VVV ... 0〜1の範囲内である必要があります ... nを増やすと小さくなりますnnn ...はおおよそ標準的なアプローチを使用して計算されたものの順です ...数学的に適切な方法で計算されます これらは絶対的な要件ではありませんが、少なくとも私の直感が間違っている理由を理解したいと思います。 既存の回答に基づいた計算 以下では、既存の回答から得られた信頼区間のために比較される。{Xi}={0.985,0.986,0.935,0.890,0.999}{Xi}={0.985,0.986,0.935,0.890,0.999}\{X_i\} = \{0.985,0.986,0.935,0.890,0.999\} 標準アプローチ(別名「学校数学」) 、σ2=0.0204は、従って、99%信頼区間である[0.865、1.053]。これは直感1と矛盾します。X¯¯¯¯=0.959X¯=0.959\overline X = 0.959σ2=0.0204σ2=0.0204\sigma^2 = 0.0204[0.865,1.053][0.865,1.053][0.865,1.053] 切り取り(コメントで@soakleyが提案) ただ、提供その後、標準的なアプローチを使用して結果としては、やることは容易です。しかし、それを行うことは許可されていますか?下限が一定のままであるとはまだ確信していません(-> 4)[0.865,1.000][0.865,1.000][0.865,1.000] ロジスティック回帰モデル(@Rose Hartmanにより提案) 変換されたデータ: で得られた[ 0.173 、7.87 ]、で結果をバック変換[ 0.543 、0.999を]。明らかに、6.90は変換されたデータの外れ値であり、0.99は変換されていないデータの外れ値であり、非常に大きな信頼区間になります。(-> 3.){4.18,4.25,2.09,2.66,6.90}{4.18,4.25,2.09,2.66,6.90}\{4.18,4.25,2.09,2.66,6.90\}[0.173,7.87][0.173,7.87][0.173,7.87][0.543,0.999][0.543,0.999][0.543,0.999] 二項比例信頼区間(@Timで推奨) アプローチは非常に良いように見えますが、残念ながら実験には適合しません。結果を組み合わせて、@ ZahavaKorで示唆されているように、ベルヌーイの大規模な繰り返し実験として解釈すると、次のようになります。 5のうち 4795 *合計 1000 これをAdjにフィードします。ワルドの計算はできます [ 0.9511 、0.9657 ]。単一の …

1
非線形混合モデル(nlme)の予測の信頼区間
非線形混合nlmeモデルの予測で95%の信頼区間を取得したいと思います。内nlmeでこれを行うための標準は何も提供されていないので、Ben Bolkerの本の章で説明されている「人口予測間隔」の方法を使用するのが正しいかどうか疑問に思いました。適合モデルの分散共分散行列に基づいて固定効果パラメーターをリサンプリングし、これに基づいて予測をシミュレートし、これらの予測の95%パーセンタイルを取得して95%の信頼区間を取得しますか? これを行うためのコードは次のようになります:(ここでは、nlmeヘルプファイルの「Loblolly」データを使用します) library(effects) library(nlme) library(MASS) fm1 <- nlme(height ~ SSasymp(age, Asym, R0, lrc), data = Loblolly, fixed = Asym + R0 + lrc ~ 1, random = Asym ~ 1, start = c(Asym = 103, R0 = -8.5, lrc = -3.3)) xvals=seq(min(Loblolly$age),max(Loblolly$age),length.out=100) nresamp=1000 pars.picked = mvrnorm(nresamp, mu = fixef(fm1), …

1
GBMパッケージとGBMを使用したキャレット
私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5%の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。 私の質問は次のとおりです。 1)これらの2つのパッケージは同じであっても違いがあるのはなぜですか(確率的ですが、5%がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの) 。 2)両方のパッケージを使用する利点または欠点はありますか? 3)無関係:irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

2
信頼楕円の本当の意味
95%信頼楕円の真の意味について読むと、2つの説明に出くわす傾向があります。 データの95%を含む楕円 上記ではなく、データの分散を説明する楕円。正しく理解できるかどうかはわかりませんが、新しいデータポイントが入ってくると、95%の確率で新しい分散が楕円にとどまることを意味するようです。 光を当てることはできますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.