タグ付けされた質問 「bayesian」

ベイズ推定は、モデルパラメータを確率変数として扱い、ベイズの定理を適用して、観測されたデータセットを条件とするパラメータまたは仮説に関する主観的な確率ステートメントを推定することに依存する統計的推定の方法です。


1
事後予測チェックとは何ですか?また、それらを有用にするものは何ですか?
事後予測分布が何であるかを理解し、事後予測チェックについて読んでいますが、それが何をするのかはまだ明確ではありません。 事後予測チェックとは正確には何ですか? 一部の著者は、事後予測チェックの実行は「データを2回使用する」ため、悪用すべきではないと言うのはなぜですか?(または、それがベイジアンではないこともあります)?(例:thisまたはthisを参照) このチェックは、まさに何の役に立つのですか?モデル選択に本当に使用できますか?(たとえば、フィットネスとモデルの複雑さの両方を考慮しますか?)

8
最初にベイジアン統計または頻度統計を教える必要がありますか?
私は現在高校生で、統計を理解している少年たちを助けています。そして、理論を垣間見ることなく、いくつかの簡単な例から始めることを考えています。 私の目標は、統計をさらに追求し、定量的学習に興味を持たせるために、統計をゼロから学習するための最も直感的でありながら建設的なアプローチを提供することです。 ただし、始める前に、非常に一般的な意味を持つ特定の質問があります。 ベイジアンまたは頻度主義のフレームワークを使用して統計を教え始める必要がありますか? よく調べてみると、一般的なアプローチは、頻繁な統計の簡単な紹介から始まり、その後にベイジアン統計の詳細な議論が続きます(例:Stangl)。

6
ほぼ正規分布のスケールを推定するためのロバストなベイジアンモデルはどうなりますか?
scaleの多数の堅牢な推定量が存在します。顕著な例は、標準偏差に関する中央値絶対偏差であるσ= M A D ⋅ 1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826。ベイジアンフレームワークでは、位置をロバストに推定する方法がいくつか存在しますは、おおよそ正規分布(たとえば、外れ値に汚染された正規)のたとえば、データが分布またはラプラス分布で分布していると仮定できます。今私の質問: ほぼ正規分布のスケールをロバストな方法で測定するためのベイジアンモデルは、MADまたは同様のロバストな推定量と同じ意味でロバストでしょうか? MADの場合と同様に、データの分布が実際に正規分布している場合に、ベイジアンモデルが正規分布のSDに近づくことができれば適切です。 編集1: データy私y私y_iがほぼ正規であると仮定した場合の汚染/外れ値に対してロバストなモデルの典型的な例は、次のような分布で使用しています。 y私〜T(M 、S 、ν)y私〜t(m、s、ν)y_i \sim \mathrm{t}(m, s,\nu) ここで、mmmは平均、sssはスケール、νν\nuは自由度です。m 、sm、sm, sおよびνν\nuに適切な事前分布がある場合、mmmは外れ値に対してロバストなの平均の推定yiy私y_i値になります。ただし、sssはνに依存するため、sはのSDの一貫した推定値ではありません。たとえば、νが4.0に固定され、上記のモデルがN o r m(μ =yiy私y_isssνν\nuνν\nu分布の場合、 sは約0.82になります。私が探しているのは、tモデルのようなロバストなモデルですが、平均の代わりに(または平均に加えて)SDです。Norm(μ=0,σ=1)Norm(μ=0、σ=1)\mathrm{Norm}(\mu=0,\sigma=1)sss 編集2: ここで、上記のtモデルがどのように平均に関してより堅牢であるかを示すRとJAGSのコード例を示します。 # generating some contaminated data y <- c( rnorm(100, mean=10, sd=10), rnorm(10, mean=100, sd= 100)) #### A "standard" normal model #### model_string …

5
信頼区間は精度について何と言っていますか(もしあれば)?
Morey et al(2015)は、信頼区間は誤解を招くものであり、それらの理解に関連する複数のバイアスがあると主張しています。とりわけ、彼らは精度の誤precisionを次のように説明しています: 精度の誤り 信頼区間の幅は、パラメーターに関する知識の精度を示します。狭い信頼区間は正確な知識を示し、広い信頼誤差は不正確な知識を示します。 推定の精度と信頼区間のサイズの間に必要な関係はありません。これを確認する1つの方法は、2人の研究者(上級研究者と博士課程の学生)がデータを分析していることを想像することです505050実験から 50人の参加者のです。博士課程の学生の利益のための演習として、上級研究者は参加者をランダムに 2セットに分割し、252525それぞれがデータセットの半分を個別に分析できるようにすることを決定します。後続の会議で、2人は互いに平均のスチューデントのttt信頼区間を共有します。博士課程の学生の95%95%95\% CIは52±252±252 \pm 2であり、上級研究員の 95 % CIは95%95%95\%CIはです。53±453±453 \pm 4 上級研究員は、結果がほぼ一貫しており、それぞれの2つのポイント推定値の均等に重み付けされた平均値真の平均値の全体的な推定値として使用できることに注目しています。52.552.552.5 しかし、博士課程の学生は、2つの平均を均等に重み付けすべきではないと主張します。彼女は、CIの幅が半分であると指摘し、推定がより正確であるため、より重く重み付けする必要があると主張します。彼女のアドバイザーは、2つの平均の不均等な重み付けからの推定値は、完全なデータセットの分析からの推定値とは異なるため、でなければならないため、これは正しいとは言えないと指摘します。博士課程の学生の間違いは、CIがデータ後の精度を直接示すと仮定していることです。52.552.552.5 上記の例は誤解を招くようです。サンプルをランダムに半分に2つのサンプルに分割すると、サンプル平均と標準誤差の両方が近くなると予想されます。このような場合、加重平均の使用(たとえば、逆誤差による加重)と単純な算術平均の使用に違いはありません。ただし、推定値が異なり、サンプルの1つのエラーが著しく大きい場合、そのようなサンプルの「問題」を示唆している可能性があります。 明らかに、上記の例では、サンプルサイズが同じであるため、平均をとることでデータを「結合」することは、サンプル全体を平均することと同じです。問題は、サンプル全体が最初に部分に分割され、最終的な推定のために再び結合されるという不明確なロジックに従っているということです。 この例を言い換えると、まったく逆の結論に導くことができます。 研究者と学生は、データセットを2つに分割し、個別に分析することにしました。その後、彼らは彼らの推定値を比較し、サンプルは彼らが計算したものが非常に異なっていることを意味し、さらに学生の推定値の標準誤差ははるかに大きかったようでした。学生はこれが彼の推定の精度の問題を示唆することを恐れていましたが、研究者は信頼区間と精度の間に関連性がないことを暗示したので、両方の推定は等しく信頼でき、ランダムに選択されたそれらのいずれかを公開できます、最終的な見積もりとして。 より正式に述べると、スチューデントのような「標準」信頼区間はエラーに基づいていますttt x¯±c×SE(x)x¯±c×SE(x) \bar x \pm c \times \mathrm{SE}(x) どこ、いくつかの定数です。そのような場合、それらは精度に直接関係していますよね。ccc だから私の質問は次のとおり です。信頼区間は精度について何と言っていますか? Morey、R.、Hoekstra、R.、Rouder、J.、Lee、M.、&Wagenmakers、E.-J. (2015)。信頼区間に信頼を置くという誤り。Psychonomic Bulletin&Review、1–21。https://learnbayes.org/papers/confidenceIntervalsFallacy/

3
時間パラドックスのシャリジのベイジアン後方矢印のエントロピーに基づく反論?
で、この論文、有能な研究者コスマ・シャリッチは完全に主観的ベイズビューを受け入れるために、1にも(エントロピーの流れによって与えられた)時間の矢が実際に行くべきであると非物理的な結果受け入れなければならないと主張している後方を。これは主にETジェインズによって提唱され、一般化された最大エントロピー/完全に主観的なベイジアンの見解に反論する試みです。 以上でLessWrong、多くの貢献者は、非常にフォーマルな意思決定理論の基礎としてベイズ確率理論的にも主観的ベイズアプローチに興味を持って強いAIに向けた足がかりさエリエゼル・ユードコウスキーがあり、共通の貢献者であり、私が最近読んでいたこのポストをするときI このコメントに出くわしました(元の投稿のページでは、そのすぐ後にいくつかの他の良いコメントがあります)。 YudkowskyのShaliziへの反論の有効性について誰でもコメントできますか。簡単に言えば、ユドコフスキーの論拠は、推論エージェントが信念を更新する物理的メカニズムには作業が必要であり、したがってシャリジが敷物の下で掃除している熱力学的なコストがあるということです。別のコメントで、ユドコフスキーはこれを擁護し、次のように述べています。 「システム外の論理的に全知の完全な観測者の視点をとる場合、「確率」と同様に「エントロピー」の概念はほとんど意味がありません-統計熱力学を使用して何かをモデル化する必要はありません。波動方程式。」 確率論者や統計力学はこれについてコメントできますか?私はシャリジとユドコフスキーのどちらの地位に関する権威からの議論についてもあまり気にしませんが、ユドコフスキーの3つのポイントがシャリジの記事を批判する方法の概要を見たいです。 FAQガイドラインに準拠し、これを具体的に回答可能な質問にするために、ユドコフスキーの3つのステップの引数を取り、それら3つのステップが仮定や派生に反論する3つのステップを示す具体的な項目別の回答を求めていることに注意してください一方、シャリジの論文でユドコフスキーの議論が扱われている場所を示しています。 シャリジの記事は、本格的な主観的ベイジアン主義を擁護できないという鉄に覆われた証拠として宣伝されていることがよくあります...観察されているもの(つまり、実際の物理学すべて)と相互作用する観察者に。しかし、Shaliziは素晴らしい研究者なので、この議論の重要な部分を理解していない可能性が高いため、セカンドオピニオンを歓迎します。

6
信頼できる間隔にフラットな事前分布がある場合、95%の信頼区間は95%の信頼できる間隔に等しいですか?
私はベイジアン統計に非常に新しいので、これはばかげた質問かもしれません。それでも: 一様分布を指定する事前確率を使用した信頼できる間隔を検討します。たとえば、0から1で、0から1は効果の可能な値の全範囲を表します。この場合、95%の信頼区間は95%の信頼区間に等しいでしょうか?

2
通常のエラーの代わりにtエラーを使用する必要があるのはなぜですか?
で、このアンドリュー・ゲルマンによって、ブログの記事、次の一節があります: 50年前のベイジアンモデルは絶望的に単純に見えます(もちろん、単純な問題を除いて)。そして、今日のベイジアンモデルは50年後には絶望的に単純に見えると思います。(簡単な例として:ほぼどこでも通常のエラーの代わりに日常的にtを使用する必要がありますが、馴染み、習慣、数学的利便性のため、まだ使用していません。政治では、保守主義には賛成で多くの良い議論がありますが、最終的には、より複雑なモデルに慣れると、その方向に進むと思います。) なぜ「ほぼどこでも通常のエラーの代わりに通常tを使用する」必要があるのでしょうか?

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
フィッシャー情報とはどのような情報ですか?
ランダム変数ます。場合は trueパラメータだった、尤度関数を最大化し、ゼロに等しい派生する必要があります。これが最尤推定量の背後にある基本原則です。バツ〜F(x | θ )バツ〜f(バツ|θ)X \sim f(x|\theta)θ0θ0\theta_0 私が理解するように、フィッシャー情報は次のように定義されます 私(θ )= E [ (∂∂θf(X| θ))2]私(θ)=E[(∂∂θf(バツ|θ))2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] したがって、が真のパラメーターである場合、です。しかし、が真のパラメーターでない場合、フィッシャーの情報が多くなります。θ0θ0\theta_0私(θ )= 0私(θ)=0I(\theta) = 0θ0θ0\theta_0 私の質問 フィッシャー情報は、特定のMLEの「エラー」を測定しますか?言い換えると、ポジティブなフィッシャー情報の存在は、私のMLEが理想的ではないことを意味しないのでしょうか? 「情報」のこの定義は、シャノンが使用する定義とどのように異なりますか?なぜそれを情報と呼ぶのですか?

2
単純ベイズと多項式単純ベイズの違い
以前、単純ベイズ分類器を扱ったことがあります。私は最近、多項ナイーブベイズについて読んでいます。 また、事後確率=(事前*尤度)/(証拠)。 Naive BayesとMultinomial Naive Bayesの間で見つけた唯一の主な違い(これらの分類子のプログラミング中)は、 多項ナイーブベイズする可能性を算出し、単語/トークンの数(確率変数)とナイーブベイズは、以下のことが可能性を計算します。 私が間違っている場合は修正してください!

4
トピックモデリング/ LDAを実行するためのRパッケージ:単に `topicmodels`と` lda` [終了]
潜在ディリクレ割り当てを実行できるのは2つのRパッケージのみであるように思われます。 1つはlda、Jonathan Changによって作成されました。もう1つはtopicmodelsBettinaGrünとKurt Hornikによって作成されました。 パフォーマンス、実装の詳細、および拡張性に関して、これら2つのパッケージの違いは何ですか?

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

2
Statistics.comは間違った答えを公開しましたか?
Statistics.comは今週の問題を発表しました: 住宅保険詐欺の率は10%です(10件の請求のうち1件が不正です)。コンサルタントは、機械学習システムを提案して、クレームをレビューし、それらを詐欺または詐欺に分類しました。このシステムは、不正請求の検出には90%の効果がありますが、詐欺ではない請求を正しく分類するには80%しか効果がありません(誤って5分の1を「詐欺」と分類します)。システムがクレームを不正と分類する場合、実際に不正である可能性はどのくらいですか? https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true 私の同僚と私は両方とも独立して同じ答えを思いつきましたが、公開されているソリューションとは一致しません。 私たちのソリューション: (.9 * .1)/((。9 * .1)+(。2 * .9))= 1/3 彼らの解決策: これは条件付き確率の問題です。(これはベイジアンの問題でもありますが、ベイズ規則に式を適用すると、何が起こっているのかわかりにくくなります。)100件のクレームを検討してください。10は不正であり、システムはそれらのうち9を正しく「詐欺」とラベル付けします。不正であるが、実際に不正であるのはそのうちの9%(11%)のみです。 誰が正しかった

5
ベイジアンネットワークとマルコフ過程の違いは?
ベイジアンネットワークとマルコフプロセスの違いは何ですか? 私は両方の原則を理解していると信じていましたが、今、2つを比較する必要があるとき、私は失われたと感じます。それらは私にとってほぼ同じ意味です。確かにそうではありません。 他のリソースへのリンクも歓迎します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.