タグ付けされた質問 「frequentist」

推論への常習的アプローチでは、統計的手順は、データを生成したと見なされたプロセスの繰り返しの仮想的な長期にわたるパフォーマンスによって評価されます。

2
頻度と事前
Robby McKilliamは、この投稿へのコメントで次のように述べています。 頻度論者の観点から、事前知識をモデルに組み込むことができない理由はないことに注意してください。この意味で、頻繁なビューはより単純であり、モデルといくつかのデータのみがあります。モデルから事前情報を分離する必要はありません また、ここでは、@ jbowmanは、頻度が高い人はコスト/ペナルティ関数による正則化を使用し、ベイジアンはこれを事前に行うことができると言います。 頻度の高い専門家は、正則化が優れていることを認識し、最近では非常に一般的に使用しています。そして、ベイジアン事前分布は正則化として簡単に解釈できます。 だから、私の質問は、ベイジアンが事前分布として指定するものを一般に頻繁に彼らのモデルに組み込むことができますか?正則化を例にとると、コスト/ペナルティ関数は本当にモデルに統合されているのでしょうか、あるいはこれはソリューションを調整する(またユニークにする)純粋に人工的な手段ですか?

2
統計的景観
統計へのさまざまなアプローチについて簡単な調査を書いた人はいますか?最初の概算では、頻度とベイジアンの統計があります。しかし、よく見ると、尤度主義や経験ベイズのような他のアプローチもあります。そして、あなたは、ベイズ統計などの主観的なベイズ客観的なベイズなどのグループ内の細分化を持っています。 調査記事がいいでしょう。図が含まれていればさらに良いでしょう。

4
ベイジアン法は、フリークエンティストよりもいつ望ましいですか?
私は本当にベイジアンのテクニックについて学びたいので、少し自分自身を教えようとしてきました。しかし、ベイジアン手法を使用することで、頻度論的手法よりも優位性が得られることを確認するのに苦労しています。たとえば、文献では、情報に基づいた事前分布を使用するものと、情報に基づいていない事前分布を使用するものについて、文献で少し見ています。しかし、情報量の少ない事前分布を使用している場合(実際に一般的ですか?)、事後分布がたとえばベータ分布であることがわかった場合は、最初にベータ分布を適合させて呼び出すことはできませんか?いい?何も伝えない事前配布をどのように構築するのかわかりません...まあ、本当に何が言えますか? Rで使用しているいくつかの方法では、ベイジアン法とフリークエンティスト法の混合を使用していることが判明し(著者はこれが多少矛盾していることを認めています)、どの部分がベイジアンであるかを見分けることさえできません。分布のフィッティングは別として、ベイジアン法をどのように使用するかさえわかりません。「ベイジアン回帰」はありますか?それはどのように見えるでしょうか?私が想像できるのは、Frequentistがデータについて考え、目で見て、ポアソン分布を見てGLMを実行している間に、基礎となる分布を何度も推測することです。(これは批判ではありません...私は本当に理解していません!) だから..いくつかの基本的な例が役立つでしょうか?そして、私のような本物の初心者向けの実用的な参考資料を知っているなら、それも非常に役立つでしょう!

2
私たちは頻繁にベイジアンを暗黙的/無意識にしていますか?
与えられた推論問題について、ベイジアンアプローチは通常、形式と結果の両方が周波数論的アプローチと異なることを知っています。頻繁に(通常私を含む)彼らの方法は事前を必要としないため、「判断駆動型」よりも「データ駆動型」であるとしばしば指摘します。もちろん、ベイジアンのものは、情報価値のない事前分布を指すことができます。または、実際的であるため、本当に拡散事前分布を使用することもできます。 私の懸念は、特に私の周波数主義的客観性にうんざりしているように感じた後、おそらく「客観的」と言われる方法が、いくつかの異常な事前モデルとデータモデルであるにもかかわらず、ベイジアンフレームワークで定式化できることです。その場合、私は自分のフリークエンシー主義の手法が暗示する、とんでもない前例とモデルを至福のように知らないのでしょうか? ベイジアンがそのような定式化を指摘した場合、私の最初の反応は「まあ、それはあなたがそれを行うことができるのは素晴らしいことですが、それは私が問題について考える方法ではありません!」しかし、だれが私がそれについてどう考えるか、または私がそれをどのように公式化するかを気にします。私の手順は、統計的/数学的に等価である場合には、いくつかのベイズモデル、そして私は(暗黙的だ無意識のうちにベイズ推定を実行します!)。 以下の実際の質問 この実現は、独善的な誘惑を大幅に弱めました。ただし、ベイジアンのパラダイムがすべての頻繁な手順に対応できるかどうかはわかりません(再度、ベイジアンが適切な事前確率と尤度を選択した場合)。私は逆が間違っていることを知っています。 私が最近条件付き推論に関する質問を投稿したので、私はこれを尋ねます。そして、それは私を次の論文に導きました:ここ(3.9.5、3.9.6を見てください) 彼らは、どの「関連サブセット」が最も関連性があるのか​​という質問を頼み、複数の補助的な統計値が存在する可能性があるというバスの有名な結果を指摘しています。さらに悪いことに、一意の補助統計がある場合でも、他の関連サブセットの存在を排除しない2つの例を示しています。 彼らは、ベイジアンメソッド(またはそれらに相当するメソッド)のみがこの問題を回避でき、問題のない条件推論を可能にすると結論付けています。 それはケースではないかもしれないベイズ統計その Fequentist統計-ここでは、このグループへの私の質問です。しかし、2つのパラダイム間の基本的な選択は、目標よりも哲学にあるようです。高い条件精度または低い無条件エラーが必要ですか。⊃⊃\supset 特異なインスタンスを分析する必要がある場合、高い条件精度が適用されるようです-この方法は次のデータセット(ハイパーコンディショナリティ/特殊化)に適切または正確でないかもしれないという事実にもかかわらず、この特定の推論に対して正しいことを望みます。 長期的なエラーが最小化または制御されている限り、場合によっては条件付きで誤った推論を行う場合は、低無条件エラーが適切です。正直なところ、これを書いた後、私は時間に縛られて、ベイジアン分析を行うことができなかった場合を除き、なぜこれを望むのかわかりません...うーん。 尤度関数からいくつかの(漸近的/近似)条件付けを取得するため、尤度ベースのフェンティクストの推論を好む傾向がありますが、事前に調整する必要はありません-しかし、特にベイジアン推論に慣れてきました私は以前の小さなサンプル推論の正規化用語を参照します。 ごめんなさい。私の主な問題に対する助けをいただければ幸いです。

2
電圧計の話を頻繁に受けているのは何ですか?
電圧計の話とそのバリエーションを頻繁に取り上げているのは何ですか?その背後にある考え方は、仮説的なイベントにアピールする統計分析は、それらの仮説的なイベントが想定どおりに行われなかったことが後でわかった場合に修正する必要があるということです。 ウィキペディアのストーリーのバージョンは以下に提供されています。 エンジニアが電子管のランダムなサンプルを引き出し、その電圧を測定します。測定範囲は75〜99ボルトです。統計学者は、サンプル平均と真の平均の信頼区間を計算します。その後、統計学者は、電圧計が100までしか読み取らないことを発見したため、人口は「検閲」されているように見えます。統計学者が正統派の場合、これには新しい分析が必要です。しかし、エンジニアは、電圧が100を超えていた場合に使用する1000ボルトの別のメーター読み取り値があると言います。しかし、翌日、エンジニアは、この2番目のメーターが測定時に機能していなかったことを統計学者に通知します。統計学者は、メーターが修正されるまでエンジニアが測定値を保持しなかったことを確認し、新しい測定値が必要であることを彼に通知します。エンジニアは驚いています。「次に、私のオシロスコープについて尋ねます」。 話は明らかに馬鹿げていることを意図しているが、それがおもしろい方法論でどのような自由が取られているのかははっきりしていない。この場合、忙しい応用統計学者はこれについて心配することはないと思いますが、筋金入りのアカデミックなフリークエンティストはどうでしょうか? 独断的な頻度主義的アプローチを使用して、実験を繰り返す必要がありますか?すでに利用可能なデータから結論を引き出すことはできますか? また、ストーリーで作成されたより一般的なポイントに対処するために、既に持っているデータを利用したい場合、頻度結果のフレームワークに適合するように、仮想的な結果の必要な修正を行うことができますか?

2
サンプリング分布は推論に合法ですか?
一部のベイジアンは、研究者の意図に依存するため、「固有のサンプリング分布は存在しない」と述べる頻繁な推論を攻撃します(Kruschke、Aguinis、&Joo、2012、733)。 たとえば、研究者がデータ収集を開始したが、40人の参加者がいた後、予想外に資金が削減されたとします。サンプリング分布(および後続のCIとp値)は、ここでどのように定義されますか?各構成サンプルにN = 40があると仮定しますか?または、異なるNのサンプルで構成され、各サイズは、彼の資金が削減された可能性のある他のランダムな時間によって決定されますか? 教科書にあるt、F、カイ2乗(等)、null分布はすべて、Nがすべての構成サンプルに対して固定され、一定であると仮定していますが、実際にはそうではない場合があります。さまざまな停止手順(たとえば、特定の時間間隔の後、またはアシスタントが疲れるまで)ごとに、異なるサンプリング分布があるようです。これらの「試行された」固定N分布の使用は不適切です。 この批判は、頻度の高いCIとp値の正当性をどの程度損ないますか?理論上の反論はありますか?サンプリング分布の概念を攻撃することにより、頻繁な推論の全体の構造は希薄になっているようです。 学術的な参考文献は大歓迎です。

4
回帰パラメータの信頼区間:ベイジアン対クラシック
長さnの2つの配列xとyが与えられた場合、モデルy = a + b * xに適合し、勾配の95%信頼区間を計算します。これは(b-デルタ、b +デルタ)で、bは通常の方法で検出され、 delta = qt(0.975,df=n-2)*se.slope se.slopeは、勾配の標準誤差です。Rから勾配の標準誤差を取得する1つの方法はsummary(lm(y~x))$coef[2,2]です。 ここで、xとyが与えられた勾配の尤度を記述し、これに「フラット」を掛け、MCMC手法を使用して事後分布からサンプルmを描画するとします。定義する lims = quantile(m,c(0.025,0.975)) 私の質問:(lims[[2]]-lims[[1]])/2上記で定義されたデルタとほぼ等しいですか? 以下の補遺は、これら2つが異なるように見える単純なJAGSモデルです。 model { for (i in 1:N) { y[i] ~ dnorm(mu[i], tau) mu[i] <- a + b * x[i] } a ~ dnorm(0, .00001) b ~ dnorm(0, .00001) tau <- pow(sigma, -2) sigma …

5
ベイジアン主義以上の確率がありますか?
物理学の学生として、「なぜ私はベイジアンなのか」という講義を6回ほど経験しました。それは常に同じです-プレゼンターは、ベイズの解釈が、大衆によって採用されているとされる頻度の高い解釈よりも優れている方法を説明しています。彼らは、ベイズ規則、周辺化、事前分布、事後分布について言及しています。 本当の話は何ですか? 頻繁な統計の適用の正当なドメインはありますか?(確かに、ダイのサンプリングまたはローリングで何度も適用する必要がありますか?) 「ベイジアン」と「頻度論」を超えた有用な確率論的哲学はありますか?

3
いつ信頼区間が「意味をなす」が、対応する信頼区間はそうではないのか?
多くの場合、95%のカバレッジの信頼区間は、95%の事後密度を含む信頼区間と非常によく似ています。これは、前者が均一であるか、後者の場合にほぼ均一であるときに起こります。したがって、信頼区間を近似するために信頼区間を使用することがよくあります。重要なことは、これから、信頼区間としての信頼区間のひどく間違った誤解は、多くの単純なユースケースにとって実際的重要性がほとんどないか、まったくないということを結論付けることができます。 これが起こらない場合の例はたくさんありますが、それらはすべて、頻繁なアプローチに何か問題があることを証明しようとして、ベイジアン統計の支持者によって厳選されているようです。これらの例では、信頼区間に不可能な値などが含まれており、それらがナンセンスであることを示しています。 これらの例や、ベイジアン対フリークエンティストの哲学的議論に戻りたくありません。 私はちょうど反対の例を探しています。信頼区間と信頼区間が大幅に異なり、信頼手順によって提供される区間が明らかに優れている場合はありますか? 明確にするために:これは、信頼できる区間が通常、対応する信頼区間と一致すると予想される状況、つまり、フラット、均一などの事前分布を使用する状況についてです。誰かが勝手に悪い事前を選択する場合には興味がありません。 編集: 以下の@JaeHyeok Shinの回答に応じて、彼の例が正しい尤度を使用していることに同意しなければなりません。近似ベイズ計算を使用して、以下のRのシータの正しい事後分布を推定しました。 ### Methods ### # Packages require(HDInterval) # Define the likelihood like <- function(k = 1.2, theta = 0, n_print = 1e5){ x = NULL rule = FALSE while(!rule){ x = c(x, rnorm(1, theta, 1)) n = length(x) x_bar = mean(x) rule = …

2
誤った仕様のもとでの統計的推論
統計的推論の古典的な扱いは、正しく指定された統計が使用されるという仮定に依存しています。つまり、観測データを生成した分布は統計モデル一部です: ただし、ほとんどの場合、これが本当に正しいとは限りません。正しく指定された仮定を破棄すると、統計的推論手順はどうなるのだろうか。P∗(Y)P∗(Y)\mathbb{P}^*(Y)yyyMM\mathcal{M}P∗(Y)∈M={Pθ(Y):θ∈Θ}P∗(Y)∈M={Pθ(Y):θ∈Θ}\mathbb{P}^*(Y) \in \mathcal{M}=\{\mathbb{P}_\theta(Y) :\theta \in \Theta\} 私は1982年にWhiteがML推定値に関する誤った仕様の下でいくつかの仕事を見つけました。その中で、最尤推定量は、分布 は、統計モデル内のすべての分布と真の分布\ mathbb {P} ^ *からKL発散を最小化します。Pθ1=argminPθ∈MKL(P∗,Pθ)Pθ1=arg⁡minPθ∈MKL(P∗,Pθ)\mathbb{P}_{\theta_1}=\arg \min_{\mathbb{P}_\theta \in \mathcal{M}} KL(\mathbb{P}^*,\mathbb{P}_\theta)P∗P∗\mathbb{P}^* 信頼セット推定量はどうなりますか?信頼度セット推定量を再現できます。してみましょう δ:ΩY→2Θδ:ΩY→2Θ\delta:\Omega_Y \rightarrow 2^\Thetaセットの推定、可能ΩYΩY\Omega_Yサンプルスペースとである2Θ2Θ2^\Thetaパラメータ空間での電力セットΘΘ\Theta。私たちが知りたいのは、\ deltaによって生成されたセットδδ\deltaが真の分布\ mathbb {P} ^ *を含むイベントの確率P∗P∗\mathbb{P}^*、つまりP∗(P∗∈{Pθ:θ∈δ(Y)}):=A.P∗(P∗∈{Pθ:θ∈δ(Y)}):=A.\mathbb{P}^*(\mathbb{P}^* \in \{P_\theta : \theta \in \delta(Y)\}):=A. ただし、実際の分布\ mathbb {P} ^ *はわかりませんP∗P∗\mathbb{P}^*。正しく指定された仮定は、P∗∈MP∗∈M\mathbb{P}^* \in \mathcal{M}ます。ただし、モデルのどの分布であるかはまだわかりません。ただし、infθ∈ΘPθ(θ∈δ(Y)):=Binfθ∈ΘPθ(θ∈δ(Y)):=B\inf_{\theta \in \Theta} \mathbb{P}_\theta(\theta \in \delta(Y)):=Bは確率Aの下限ですAAA。方程式BBBは、信頼セット推定量の信頼レベルの古典的な定義です。 正しく指定された仮定を破棄する場合、BBBは必ずしもAの下限ではなく、AAA実際に関心のある用語は、もはやです。確かに、モデルの指定が間違っていると仮定すると、ほとんどの現実的な状況では間違いなくAAAは0です。これは、真の分布P∗P∗P^*が統計モデル\ mathcal {M}に含まれていないためMM\mathcal{M}です。 別の観点から、モデルが誤って指定されている場合にBが何にBBB関連するかを考えることができます。これはより具体的な質問です。モデルの指定が間違っている場合、Bにはまだ意味がありますか。BBBそうでない場合、なぜパラメトリック統計に悩まされるのでしょうか? White 1982には、これらの問題に関するいくつかの結果が含まれていると思います。残念なことに、数学的な背景がないため、そこに書かれていることをあまり理解できません。

2
頻度統計の主観性
ベイジアン統計は非常に主観的であるという主張をよく耳にします。主な論点は、推論が事前確率の選択に依存するということです(たとえ最大エントロピーの無関心の原理を使用して事前確率を選択できたとしても)。それと比較して、主張では、一般的な統計はより客観的です。この声明にはどれほどの真実がありますか? また、これは私が不思議に思う: 頻度統計の具体的な要素(存在する場合)は、特に主観的であり、ベイジアン統計に存在しないか、またはそれほど重要ではありませんか? 主観性は、頻度統計よりもベイジアンの方が一般的ですか?

3
パラメトリックおよびノンパラメトリックブートストラップに関する質問
私はケビン・マーフィーの本「機械学習-確率論的展望」から頻繁な統計に関する章を読んでいます。ブートストラップのセクションは次のとおりです。 ブートストラップは、サンプリング分布を近似する単純なモンテカルロ法です。これは、推定器が真のパラメーターの複雑な関数である場合に特に役立ちます。 アイデアはシンプルです。真のパラメーターわかっていれば、s = 1の場合、真の分布x_i ^ s \ sim p(・|θ^ ∗)から、それぞれサイズNのθ∗θ∗θ^∗多くの(たとえばSSS)偽データセットを生成できます。 S、私は= 1:N。その後、各サンプル\ hat {\ theta ^ s} = f(x ^ s_ {1:N})から推定量を計算し 、結果のサンプルの経験的分布をサンプリング分布の推定値として使用できます。以来、シータが\未知である、という考えパラメトリックブートストラップを使用してサンプルを生成することである{\シータ}(D)\帽子代わり。NNNxsi∼p(⋅|θ∗)xis∼p(·|θ∗)x_i^s \sim p (·| θ^∗ )s=1:S,i=1:Ns=1:S,i=1:Ns = 1 : S, i = 1 : Nθs^=f(xs1:N)θs^=f(x1:Ns)\hat{\theta^s}=f (x^s_{1:N})θθ\thetaθ^(D)θ^(D)\hat{\theta}(D) ノンパラメトリックブートストラップと呼ばれる別の方法は、元のデータDからxsixisx^s_i(置換あり)をサンプリングし、 以前のように誘導分布を計算することです。大規模なデータセットに適用した場合にブートストラップを高速化する方法については、(Kleiner et al。2011)で説明しています。DDD 1。テキストは言います: 真のパラメータ\ theta ^ *がわかっていればθ∗θ∗\theta^*、各サンプル\ hat {\ …

2
EDAに対するベイジアンと頻繁なアプローチに違いはありますか?
簡単に言えば、探索的データ分析に対するベイジアンとフリークエンティストのアプローチに違いはありますか? ヒストグラムはヒストグラムであり、散布図は散布図などであるため、EDAメソッドに固有のバイアスはありません。また、EDAの教え方や提示方法の違いの例を発見していません(A. Gelmanによる特に理論的な論文は無視します) 。最後に、適用されたすべての事項の調停者であるCRANを調べました。ベイジアンアプローチに合わせたパッケージは見つかりませんでした。ただし、CVにはこの点を明らかにできる少数の人がいると思いました。 なぜ違いがあるのですか? 手始めに: 適切な事前分布を特定する場合、これを視覚的に調査するべきではありませんか? データを要約して、頻度モデルまたはベイジアンモデルのどちらを使用するかを提案する場合、EDAはどの方向に進むべきかを提案すべきではありませんか? 2つのアプローチには、混合モデルの処理方法に非常に明確な違いがあります。サンプルが母集団の混合物に由来する可能性が高いことを識別することは困難であり、混合パラメーターを推定するために使用される方法論に直接関連しています。 どちらのアプローチにも確率モデルが組み込まれており、モデルの選択はデータを理解することにより推進されます。より複雑なデータまたはより複雑なモデルは、EDAでより多くの時間を必要とします。このような確率モデルまたは生成プロセスの違いにより、EDAアクティビティに違いがあるため、異なる確率的アプローチから生じる違いはないのでしょうか。 注1:私はどちらの「キャンプ」の哲学にも関心がない-私はEDAツールキットと方法のギャップにのみ対処したい。

3
何かが頻度の高い特性を持つとはどういう意味ですか?
私はこのフレーズをよく耳にしましたが、その意味を完全に理解したことはありません。「良好なフリークエンシストプロパティ」というフレーズには、現在googleで2750ヒット、scholar.google.comで536ヒット、stats.stackexchange.comで4ヒットがあります。 私が明確な定義に最も近いものは、このスタンフォード大学のプレゼンテーションの最後のスライドから来ています。 95%の信頼区間を報告するという意味は、さまざまな推定問題があったとしても、主張の95%の真のパラメーターを「トラップ」することです。これは、頻度の高い特性を備えた推定手順の特徴的な特性です。繰り返し使用した場合、それらは精査に耐えます。 これについて少し考えてみると、「良好な周波数主義者の特性」というフレーズは、ベイズ法、特に区間構築のベイズ法の評価を暗示していると思います。ベイズの区間は、確率パラメーターの真の値を含むことを意図していることを理解しています。頻繁な間隔は、間隔構築のプロセスがp ∗ 100 %について何度も繰り返される場合に、pppp ∗ 100 %p∗100%p*100\%間隔のうち、パラメータの真の値が含まれます。ベイジアン間隔は、一般に、間隔の何%がパラメータの真の値をカバーするかについての約束をしません。ただし、一部のベイジアンメソッドには、何度も繰り返されると、の時間に関する真の値をカバーするという特性もあります。彼らがその特性を持っているとき、彼らは「良い周波数主義者の特性」を持っていると言います。p ∗ 100 %p∗100%p*100\% そうですか?フレーズは、良い周波数特性を持っているのではなく、良い周波数特性を指しているので、それ以上のものがあるに違いないと思います。

2
信頼区間は実際にパラメーター推定の不確実性の尺度を提供しますか?
私は統計学者のウィリアム・ブリッグスによるブログ投稿を読んでいて、次の主張は控えめに言っても興味がありました。 あなたはそれで何を作りますか? 信頼区間とは何ですか?もちろん、これは方程式であり、データの間隔を提供します。パラメータ推定の不確実性の尺度を提供することを意図しています。さて、厳密に言えば頻度論に基づいて-これは真実であると仮定することもできます-あなたが手にしているCIについて言えることは、パラメータの真の値がその中にあるかそうでないかだけです。これはトートロジーであるため、常に真実です。したがって、CIは不確実性の尺度をまったく提供しません。実際、不確実性を計算するのは役に立たない演習です。 リンク:http : //wmbriggs.com/post/3169/

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.