タグ付けされた質問 「bayesian」

ベイズ推定は、モデルパラメータを確率変数として扱い、ベイズの定理を適用して、観測されたデータセットを条件とするパラメータまたは仮説に関する主観的な確率ステートメントを推定することに依存する統計的推定の方法です。

2
ベイズの信頼できる区間手順の決定理論的正当化とは何ですか?
(これを書いた理由を見るには、この質問に対する私の答えの下にあるコメントをチェックしてください。) タイプIIIエラーと統計的決定理論 間違った質問に正しい答えを与えることは、タイプIIIエラーと呼ばれることもあります。統計的決定理論は、不確実性の下での意思決定の形式化です。タイプIIIエラーの回避に役立つ概念的なフレームワークを提供します。フレームワークの重要な要素は損失関数と呼ばれます。これには2つの引数があります。1つ目は(関連するサブセットの)世界の真の状態です(たとえば、パラメーター推定問題では、真のパラメーター値θθ\theta)。2番目は、可能なアクションのセットの要素です(たとえば、パラメーター推定問題では、推定θ^)θ^)\hat{\theta})。出力は、世界のあらゆる可能な真の状態に関するあらゆる可能なアクションに関連する損失をモデル化します。たとえば、パラメータ推定問題では、いくつかのよく知られている損失関数は次のとおりです。 絶対誤差損失L(θ,θ^)=|θ−θ^|L(θ,θ^)=|θ−θ^|L(\theta, \hat{\theta}) = |\theta - \hat{\theta}| 二乗誤差損失L(θ,θ^)=(θ−θ^)2L(θ,θ^)=(θ−θ^)2L(\theta, \hat{\theta}) = (\theta - \hat{\theta})^2 Hal VarianのLINEX損失L(θ,θ^;k)=exp(k(θ−θ^))−k(θ−θ^)−1, k≠0L(θ,θ^;k)=exp⁡(k(θ−θ^))−k(θ−θ^)−1, k≠0L(\theta, \hat{\theta}; k) = \exp(k(\theta - \hat{\theta})) - k(\theta - \hat{\theta}) - 1,\text{ } k \ne0 答えを調べて質問を見つける 正しい損失関数の定式化に焦点を合わせ、決定論的アプローチの残りの部分を進めることで、タイプIIIのエラーを回避しようとする場合があります(ここでは詳しく説明しません)。簡単なことではありません。結局のところ、統計学者は、こうしたアプローチから派生していなくても、うまく機能する多くの手法と方法を十分に備えています。しかし、最終結果は、統計学者の大多数が統計的決定理論を知らず、気にしないということであり、見逃していると思います。それらの統計学者にとって、タイプIIIエラーを回避するという点で統計的決定理論が有益であると考える理由は、提案されたデータ分析手順を求めるフレームワークを提供するためだと主張します。プロシージャはどの損失関数(もしあれば)に最適に対処しますか?つまり、どのような意思決定状況において、正確に、それが最良の答えを提供しますか? 事後予想損失 ベイジアンの観点からは、損失関数だけが必要です。私たちはかなり決定理論の残りの部分をスキップすることができます-ほとんどの定義により、行うための最善のことは、損失を最小限事後期待している、あること、行動見つけるaaaその最小化L~(a)=∫ΘL(θ,a)p(θ|D)dθL~(a)=∫ΘL(θ,a)p(θ|D)dθ\tilde{L}(a) = \int_{\Theta}L(\theta, a)p(\theta|D)d\theta。 ?具体的には、ワルドの- (非ベイズ視点まあ用として、それはfrequentist決定理論の定理である完全なクラス定理こと- 最適なアクションが常にすることになりますベイズ事後予想損失を最小限に抑えるに関していくつか)(おそらく不適切この結果の難しさは、それが存在する定理が使用する前にどのガイダンスについても与えないことであるが、それは私たちがどの質問であるかを正確に把握するために「反転」できる手順のクラスを実に制限する特に、非ベイジアン手順を逆変換する最初のステップは、どのベイジアン手順を複製または近似するか(ある場合)を把握することです。) ねえ、シアン、これはQ&Aサイトだよね? 最後に統計的な質問に私をもたらします。ベイジアン統計では、単変量パラメーターの間隔推定値を提供する場合、2つの一般的な信頼できる間隔手順は、分位に基づく信頼できる間隔と最高事後密度の信頼できる間隔です。これらの手順の背後にある損失関数は何ですか?

1
NYTimesでの統計的手法の誤用に関する記事
この記事を参照しています:http : //www.nytimes.com/2011/01/11/science/11esp.html 次の実験を検討してください。コインが頭に向かってわずかに重くなっていると信じる理由があると仮定します。テストでは、コインは1,000回のうち527回出てきます。 これは、コインが重み付けされているという重要な証拠ですか? 古典的な分析はイエスと言います。公正なコインでは、1,000回のフリップで527以上のヘッドを獲得する可能性は、従来のカットオフの20分の1、つまり5パーセント未満です。別の言い方をすれば、この実験では、「95%の信頼度で」重み付きコインの証拠を見つけます。 しかし、多くの統計学者はそれを購入しません。20分の1は、1,000スローで526を超える任意の数のヘッドを獲得する確率です。つまり、フリップする確率527、フリップする確率528、529などの合計です。 しかし、実験ではその範囲内のすべての数値が見つかりませんでした。このように、これらの専門家によると、コインに重みが付けられている場合、その数字を取得する確率を計算し、コインが同じ場合に同じ数字を取得する確率と比較する方が正確です。公正。 統計学者は、心理学者のジェフ・ルーダーとともに例を提供した統計学者のポール・スペックマンによると、この比率は約4対1より高くできないことを示すことができます。 最初の質問:これは私にとって新しいことです。誰かが正確な計算を見つけることができるリファレンスを持っていますか、および/またはあなた自身に正確な計算を与えることで私を助けることができますか、および/または同様の例を見つけることができるいくつかの資料を教えてくれますか? ベイズは、新しい証拠が登場すると、仮説の確率を更新する方法を考案しました。 そのため、特定の発見の強度を評価する際に、ベイジアン(BAYZ-ee-unと発音)分析では、既知の確率が組み込まれています(利用可能な場合)。 「うん、正しい」効果と呼ばれることもあります。キンカンが心臓病のリスクを90%低減すること、治療により1週間でアルコール中毒が治まること、敏感な親が男の子よりも女の子を産む可能性が2倍高いことが研究でわかった場合、ベイジアンの反応はネイティブの懐疑論者:ええ、そうです。この調査結果は、世界で観察可能なものと比較検討されます。 医学の少なくとも1つの分野-診断スクリーニングテスト-では、研究者は既知の確率を使用して新しい発見を評価しています。たとえば、新しい嘘発見テストの精度は90%で、10のうそつきのうち9のうそつきに正しくフラグを立てることができます。しかし、10人の嘘つきを含むことが既に知られている100人の人口に与えられた場合、テストはそれほど印象的ではありません。 10のうそつきのうち9を正しく識別し、1つを見逃します。しかし、他の90個のうち9個が嘘であると誤って識別されます。いわゆる真陽性(9)をテストでフラグが立てられた人の総数(18)で割ると、50%の正解率が得られます。「偽陽性」と「偽陰性」は、人口の既知の割合​​に依存します。 2番目の質問:新しい発見がこの方法で「本当」であるかどうかをどのように正確に判断しますか?そして:これは、事前に設定された事前確率を使用しているため、5%バリアのようにIs意的ではありませんか?

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
過適合についてのベイジアン思考
私は、従来の頻度主義統計ドメインで予測モデルを検証するための方法とソフトウェアの開発に多くの時間を費やしました。より多くのベイジアンのアイデアを実践と教育に取り入れる際に、受け入れるべき重要な違いがいくつかあると思います。まず、ベイジアン予測モデリングはアナリストに、候補の特徴に合わせてカスタマイズできる事前分布についてよく考えるように頼みます。これらの事前分布は、モデルをそれらに引き寄せます)。第二に、「実際の」ベイジアンの方法では、単一のモデルにはなりませんが、予測のために事後分布全体を取得します。 これらのベイジアン機能を念頭に置いて、過剰適合とはどういう意味ですか?評価すべきでしょうか?もしそうなら、どのように?ベイズのモデルが野外での使用に信頼できるときはどのようにして知ることができますか?それとも、予測のために開発したモデルを使用すると、事後はすべての注意を与える不確実性に沿って進むので、それは重要なポイントですか? ベイジアンモデルを単一の数値、たとえば事後平均/最頻値/中央値リスクに蒸留するように強制した場合、考え方はどのように変わりますか? ここに関連する考え方があります。パラレル議論を見つけることができるここに。 フォローアップの質問::完全にベイジアンであり、データを見る前に事前確率について考えるのに時間を費やし、データ尤度が適切に指定されたモデルに適合した場合、過剰適合に関してモデルに満足することを強いられますか?または、ランダムに選択された対象が平均して十分に予測される可能性のある頻繁な世界で行うことを行う必要がありますが、予測が非常に低い対象または予測値が非常に高い対象を選択すると、回帰が発生しますという意味ですか?

3
ベイズの定理に正規化因子が必要な理由
ベイズの定理 P(model|data)=P(model)×P(data|model)P(data)P(model|data)=P(model)×P(data|model)P(data) P(\textrm{model}|\textrm{data}) = \frac{P(\textrm{model}) \times P(\textrm{data}|\textrm{model})}{P(\textrm{data})} これはすべて大丈夫です。しかし、私はどこかで読んだことがあります: 基本的に、P(data)は正規化定数、つまり事後密度を1に統合する定数に他なりません。 およびことがわかります。 0≤P(model)≤10≤P(model)≤10 \leq P(\textrm{model}) \leq 10≤P(data|model)≤10≤P(data|model)≤1 0 \leq P(\textrm{data}|\textrm{model}) \leq 1 したがって、も0から1の間でなければなりません。このような場合、後部を1つに統合するために正規化定数が必要なのはなぜですか?P(model)×P(data|model)P(model)×P(data|model)P(\textrm{model}) \times P(\textrm{data}|\textrm{model})

3
ベイズ統計へのゲントラーのアプローチ
私は最近、Bolstadの「ベイジアン統計入門」第2版を読み始めました。私は主に統計的テストをカバーする入門的な統計クラスを持っていて、ほとんど回帰分析のクラスを通り抜けています。この本を理解するために、他にどのような本を使用できますか? 最初の100〜125ページで問題なく完了しました。その後、本は仮説のテストについて語り始めます。これは、私がカバーすることを非常に楽しみにしているものですが、いくつかのことが私を投げています: 計算における確率密度関数の使用。言い換えれば、そのような方程式を評価する方法。 この文全体:「我々はパイのための先行ベータ(1,1)を使用すると仮定すると、Y = 8与えられ、事後密度は、ベータ(9,3)で帰無仮説の事後確率は...。。」私は信じています beta(1,1)は、平均が1で標準偏差が1のPDFを指しますか?事後密度関数としてベータ(9,3)にどのように変化するかわかりません。 事前対事後の概念を理解し、テーブルを使用して手動でそれらを適用する方法を理解しています。piは、想定される人口の割合または確率を表していると思います! これを毎日実行するデータと結び付けて結果を得る方法がわかりません。

1
Metropolis-Hastingsの代わりにGibbsサンプリングを使用するのはいつですか?
MCMCアルゴリズムにはさまざまな種類があります。 メトロポリス・ヘイスティングス ギブス 重要性/拒否サンプリング(関連)。 Metropolis-Hastingsの代わりにGibbsサンプリングを使用するのはなぜですか?メトロポリス・ヘイスティングスよりもギブス・サンプリングの方が推論が扱いやすい場合があると思いますが、詳細については明確ではありません。

2
頻度統計の暗黙の事前分布とは何ですか?
ジェインズは、頻繁な活動家が「暗黙の事前」で活動していると主張するという考えを聞いたことがあります。 これらの暗黙の優先順位は何ですか?これは、頻繁なモデルがすべて、ベイジアンモデルの発見を待っている特別なケースであることを意味しますか?

1
分散の反意語
「分散の逆数」を意味する言葉はありますか?つまり、分散が大きい場合、は低くなりますか?近い反意語(「同意」や「類似性」など)には興味がありませんが、具体的には意味しますか?バツバツXバツバツX……\dots1 / σ21/σ21/\sigma^2

2
海で失われた漁師の探索にベイズの定理を適用する方法
The Odds、Continually Updatedの記事では、文字通りベイジアン統計に人生を負っているロングアイランドの漁師の話に言及しています。これが短いバージョンです: 夜中にボートに乗っている2人の漁師がいます。一方が眠っている間に、もう一方は海に落ちます。ボートは、最初の男が目を覚まして沿岸警備隊に通知するまで、オートパイロットで夜中ずっと動き回っています。沿岸警備隊は、SAROPS(Search and Rescue Optimal Planning System)と呼ばれるソフトウェアを使用して、体温が低く、浮かんでいるエネルギーがほとんどないので、適時に彼を見つけました。 ここに長いバージョンがあります:海のスペック ここで、ベイズの定理が実際にどのように適用されているかをもっと知りたいと思いました。グーグルで調べただけで、SAROPSソフトウェアについてかなりのことがわかりました。 SAROPSシミュレーター シミュレータコンポーネントは、海流、風などのタイムリーなデータを考慮に入れ、数千の可能なドリフトパスをシミュレートします。これらのドリフトパスから、確率分布マップが作成されます。 次の図は、上記の行方不明の漁師の場合を示しているのではなく、このプレゼンテーションから取ったおもちゃの例です 確率マップ1(赤は最も高い確率を示し、青は最も低い確率を示します) 開始位置である円に注意してください。 確率マップ2-さらに時間が経過しました 確率マップがマルチモーダルになっていることに注意してください。これは、この例では、複数のシナリオが考慮されているためです。 人は水に浮かんでいます-トップミドルモード 人は救命いかだに乗っています(北からの風の影響がより大きくなります)-下2つのモード(「ジャイブ効果」のために分割されます) 確率マップ3-赤の長方形のパスに沿って検索が行われました。 この画像は、プランナー(SAROPSの別のコンポーネント)によって生成された最適なパスを示しています。ご覧のとおり、これらのパスが検索され、シミュレータによって確率マップが更新されています。 検索されたエリアがゼロ確率に減らされていないのはなぜだろうと思うかもしれません。これは、失敗の可能性が考慮されているためです。つまり、検索者が水中の人を見落とす可能性が無視できないことです。当然、失敗の確率は、救命いかだにいる人よりも浮いている孤独な人の方がはるかに高く(見やすい)、そのため、上部の領域の確率はあまり下がっていません。p(fail)p(fail)p(\text{fail}) 失敗した検索の影響 これが、ベイズの定理が登場する場所です。検索が実行されると、それに応じて確率マップが更新されるため、別の検索を最適に計画できます。 ベイズ確認した後の定理をウィキペディアにして記事のアン直感的(ショート)ベイズの説明定理にBetterExplained.com ベイズの方程式を取りました。 P(A∣X)=P(X∣A)×P(A)P(X)P(A∣X)=P(X∣A)×P(A)P(X) P(\text{A}\mid\text{X}) = \frac{P(\text{X}\mid\text{A}) \times P(\text{A})}{P(\text{X})} そして、次のようにAとXを定義しました... イベントA:このエリアにいる人(グリッドセル) テストX:そのエリア(グリッドセル)での検索の失敗、つまりそのエリアを検索しても何も表示されなかった 降伏、 P(そこにいる人∣ 不成功)= P(失敗∣ そこに人)× P(人がいる)P(失敗)P(person there∣unsuccessful)=P(unsuccessful∣person there)×P(person there)P(unsuccessful) P(\text{person there}\mid\text{unsuccessful}) = \frac{P(\text{unsuccessful}\mid\text{person there}) …

4
ベイジアン統計でパワー解析は必要ですか?
私は最近、ベイジアンの古典統計に関する見解を研究しています。ベイズ因子について読んだ後、この統計の観点で電力分析が必要かどうか疑問に思っていました。これを疑問に思う主な理由は、ベイズ因子が実際に尤度比であるように見えることです。25:1になったら、夜と呼べるように思えます。 私は遠いですか?さらに学ぶために私ができる他の読書はありますか?現在この本を読んでいます: WM BolstadによるBayesian Statisticsの紹介(Wiley-Interscience; 2nd ed。、2007)。

2
ベイジアンモデルでの交差検証の安定性
JAGSでベイズHLMをk-fold cross-validation(k = 5)を使用してフィッティングしています。パラメーター推定値がすべてのフォールドにわたって安定しているかどうかを知りたいです。これを行う最良の方法は何ですか?ββ\beta 1つのアイデアは、の事後の差を見つけて、その差の95%CIに0があるかどうかを確認することです。つまり、の95%間隔で0になります(その後、すべてのフォールドペアについて繰り返します)。ββ\betaβk = 1- βk = 2βk=1−βk=2\beta_{k=1}-\beta_{k=2} 別のアイデアは、各フォールドの事後要素を異なるMCMCチェーンとして扱い、これらの擬似チェーン全体でGelmanの(Potential Scale Reduction Factor)を計算することです。R^R^\hat{R} これらのいずれかが望ましいですか、代替手段はありますか?

1
離散パラメーターにはどのMCMCアルゴリズム/手法が使用されますか?
連続パラメータ、特に勾配ベースのメソッドの適合についてはかなり知っていますが、離散パラメータの適合についてはあまり知りません。 離散パラメーターのフィッティングに一般的に使用されるMCMCアルゴリズム/手法は何ですか?かなり一般的でかなり強力なアルゴリズムはありますか?次元の呪いをうまく処理するアルゴリズムはありますか?たとえば、ハミルトニアンMCMCは一般的で強力で、拡張性が高いと言えます。 任意の離散分布からのサンプリングは、連続分布からのサンプリングよりも難しいように見えますが、私は最新技術が何であるか興味があります。 編集:JMSは私に詳細を要求しました。 特定のアプリケーションを考えているわけではありませんが、私が想像しているいくつかの種類のモデルは次のとおりです。 いくつかの種類の連続回帰モデル間のモデル選択。個別の単一の「モデル」パラメーターがあります 各観測が「外れ値」になる可能性があり、はるかに分散した分布から引き出される連続モデル。これは混合モデルだと思います。 多くのモデルには、連続パラメーターと離散パラメーターの両方が含まれると予想されます。
19 bayesian  mcmc 

3
ベイジアン統計は、行動研究の従来の(頻度主義)統計よりも本当に改善されていますか?
この質問は、クロス検証で回答できるため、Skeptics Stack Exchangeから移行されました。 8年前に移行され ました。 会議に参加している間、実験の結果を評価するためのベイジアン統計の支持者によるプッシュが少しありました。頻繁な統計よりも、本物の発見に対してより敏感で、適切で、選択的である(誤検出が少ない)ことで自慢されています。 私はこのトピックをいくぶん検討しましたが、ベイジアン統計を使用することの利点についてはこれまで納得できませんでした。しかし、ベイジアン分析は予知をサポートするダリル・ベムの研究に反論するために使用されたので、ベイジアン分析が私自身の研究でさえもどのように利益を得るかについて、私は慎重に興味を持ち続けています。 だから私は次のことに興味があります: ベイジアン分析と頻度分析のパワー 分析の各タイプのタイプ1エラーに対する感受性 分析の複雑さのトレードオフ(ベイジアンはより複雑に思われる)対得られた利点。従来の統計分析は簡単で、結論を出すための十分に確立されたガイドラインがあります。シンプルさは利点と見なすことができます。あきらめる価値はありますか? 洞察力をありがとう!

5
「尤度は、比例の乗法定数までしか定義されていません」とは実際にはどういう意味ですか?
筆者は、表面上は初心者への紹介として、最尤推定の議論からベイズの定理へと導く論文を読んでいます。 尤度の例として、二項分布から始めます。 p (x | n 、θ )= ( nバツ) θバツ(1 - θ )n − xp(x|n,θ)=(nx)θx(1−θ)n−xp(x|n,\theta) = \binom{n}{x}\theta^x(1-\theta)^{n-x} そして、両側を記録します ℓ (θ | x 、n )= x ln(θ )+ (n − x )ln(1 - θ )ℓ(θ|x,n)=xln⁡(θ)+(n−x)ln⁡(1−θ)\ell(\theta|x, n) = x \ln (\theta) + (n-x)\ln (1-\theta) 次の理由で: 「尤度は比例の乗法定数(または対数尤度の加法定数)までしか定義されていないため、二項係数を削除し、尤度の代わりに対数尤度を記述することにより、再スケーリングできます。」 数学は理にかなっていますが、「尤度は比例の乗法定数までしか定義されていない」と、これが二項係数を下げてp (x | n 、θ …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.