タグ付けされた質問 「bic」

BICは、ベイジアン情報量基準の頭字語です。BICはモデル比較の1つの方法です。AICも参照

2
AICとBICがまったく異なるモデルを選択する可能性はありますか?
1つの応答変数と6つの共変量を含むポアソン回帰モデルを実行しています。AICを使用したモデル選択により、すべての共変量と6つの交互作用項を持つモデルが作成されます。ただし、BICでは、共変量が2つのみで相互作用項がないモデルが作成されます。非常によく似た2つの基準がまったく異なるモデル選択をもたらす可能性はありますか?

1
変数選択とモデル選択
したがって、変数の選択はモデル選択の一部であることを理解しています。しかし、モデル選択の正確な構成は何ですか?それは次のもの以上ですか? 1)モデルの分布を選択する 2)説明変数を選択しますか? これは、Burnham&Anderson:AIC vs BICの記事で、モデル選択におけるAICとBICについての記事を読んでいるからです。この記事を読んで、「モデル選択」を「変数選択」と考えてきたことがわかります(コメントBICは真のモデルを見つけようとしますか?) 記事からの抜粋は、「一般性」の度合いが増加する12のモデルについて語っており、これらのモデルは、12のモデルに対してKL情報をプロットすると「テーパ効果」を示します(図1)。 異なる哲学とターゲット モデル... BICのターゲットはAICのターゲットモデルよりも一般的なモデルですが、ここでBICが最も頻繁に選択するモデルは、nが非常に大きくない限り、モデル7よりも一般的ではありません。モデル5または6である可能性があります(文献の多数の論文とシミュレーションから)、テーパー効果のコンテキスト(図1)では、AICはBICよりも優れていることが知られています。これが実際のデータ分析のコンテキストである場合は、AICを使用する必要があります。 どのようにBICことができ、これまで私は理解していないモデル選択におけるAICよりも複雑なモデルを選択してください!「モデル選択」とは具体的にどのようなもので、BICはAICよりも「一般的な」モデルを具体的に選択するのはいつですか? 2 l n (N)k2ln(N)k2ln(N)k2 k2k2k 編集: のコメントの議論から、AICまたはBICを他よりも好む理由はありますか?コメントで@Michael Chernickと@ user13273の間に小さな議論があり、これはそれほど些細なことではないと信じています。 この議論を「機能」選択または「共変量」選択と呼ぶ方が適切だと思います。私にとって、モデルの選択は、エラーの分布、リンク関数の形式、共変量の形式の指定を含む、はるかに広範なものです。AIC / BICについて話すとき、通常、共変量の選択を除き、モデル構築のすべての側面が固定されている状況にあります。– user13273 12年8月13日21:17に モデルに含める特定の共変量の決定は、一般にモデル選択という用語で決まります。タイトルにモデル選択のある書籍が多数あり、主にモデルに含めるモデル共変量/パラメーターを決定しています。-マイケルチャーニック12年8月24日14:44で

1
隠れマルコフモデルで「最適な」モデルを選択するための基準
データの潜在状態の数を推定するために、隠れマルコフモデル(HMM)を近似しようとする時系列データセットがあります。これを行うための私の擬似コードは次のとおりです。 for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } さて、通常の回帰モデルでは、BICは最もpar約的なモデルを好む傾向がありますが、HMMの場合、それが何をしているのかわかりません。BIC基準がどのようなHMMの傾向があるのか​​を実際に知っている人はいますか?また、AICと尤度値も取得できます。州の真の総数を推測しようとしているので、これらの基準の1つは、この目的のために他の基準よりも「優れている」のでしょうか。


1
Mclustモデルの選択
Rパッケージmclustは、BICをクラスターモデル選択の基準として使用します。私の理解では、BICが最も低いモデルを他のモデルよりも選択する必要があります(BICのみに関心がある場合のみ)。ただし、BIC値がすべて負の場合、Mclust関数はデフォルトで最大のBIC値を持つモデルになります。さまざまなトライアルから私の全体的な理解は、mclust「最良の」モデルをを持つモデルとして識別することです。max{BICi}max{BICi}max\{BIC_i\} 著者がこの決定をした理由を理解しようとしています。CRANサイトで説明されています:https : //cran.r-project.org/web/packages/mclust/vignettes/mclust.html また、mclustパッケージの作成者は、5ページのモデルベースの分類方法:ケモメトリックスでのmclustソフトウェアの使用を参照してください。 「最良の」モデルは、適合モデルの中で最高のBICを持つモデルと見なされます。 誰でもこの問題に光を当てることができますか?低いBICが常に優れている場合、著者はなぜ最小のBICを持つモデルではなく、最小の絶対BICを持つモデルを選択するのですか?可能であれば、参照を提供します。

2
「ユニット情報事前」とは何ですか?
私はWagenmakers(2007)を読んでいます。p値の一般的な問題に対する実用的な解決策です。BIC値をベイズ因子と確率に変換することに興味をそそられます。しかし、これまでのところ、以前の単位情報が正確に何であるかをよく理解していません。この特定の以前の写真、または写真を生成するためのRコードの説明に感謝します。

2
相対比較だけでなく絶対比較に使用できるモデルフィット統計(AICやBICなど)はありますか?
私はこの文献にあまり詳しくないので、これが明白な質問である場合はご容赦ください。 AICとBICは可能性を最大化することに依存しているため、特定のデータセットに適合させようとする一連のモデル間の相対比較を行う場合にのみ使用できるようです。私の理解によると、データセット1でモデルAのAICを計算し、データセット2でモデルBのAICを計算してから、2つのAIC値を比較してそれを判断することは意味がありません(たとえば)モデルAは、モデルBがデータセット2よりもデータセット1に適しています。または、おそらく私は誤っており、それは妥当なことです。私にお知らせください。 私の質問はこれです:単なる相対比較の代わりに絶対に使用できるモデル適合統計が存在しますか?線形モデルの場合、ようなものが機能します。定義された範囲があり、「良い」値とは何かに関する特定のアイデアを規律しています。もっと一般的なものを探しているので、ここから専門家にpingを送信することから始められると思いました。誰かがこのようなことを以前に考えたことがあると思いますが、Google Scholarで生産的な検索を行うための適切な用語がよくわかりません。R2R2R^2 任意の助けいただければ幸いです。

2
時系列モデルで適切な遅延順序を選択するために、情報基準(調整されたはない)が使用されるのはなぜですか?
ARMA-GARCHのような時系列モデルでは、モデルの適切なラグまたは順序を選択するために、AIC、BIC、SICなどのさまざまな情報基準が使用されます。 私の質問は非常に単純です、なぜ適切なモデルを選択するために調整されたを使用しないのですか?調整後の値が高くなるモデルを選択できます。調整された両方のために前者PENALIZEモデルにおける説明変数の追加数の情報量基準PENALIZE以降PENALIZE尤度値。 R2R2R^2R2R2R^2R2R2R^2R2R2R^2

1
ベイジアン情報基準における離散またはバイナリパラメータの説明
BICは、パラメーターの数に基づいてペナルティを課します。一部のパラメーターが何らかのバイナリインジケーター変数である場合はどうなりますか?これらは完全なパラメーターとしてカウントされますか?しかし、バイナリパラメータを値を取る1つの離散変数に組み合わせることができます。これらはパラメータとしてカウントされるのか、1つのパラメータとしてカウントされるのか?{ 0 、1 、。。。、2 m − 1 } mメートルmm{ 0 、1 、。。。、2メートル− 1 }{0,1,...,2m−1}\{0,1,...,2^m-1\}メートルmm

2
BICクラスタリング基準の計算(K平均後のクラスターを検証するため)
Rのk平均値出力について、BIC式に基づいてクラスタリング基準を計算する良い方法があるかどうか疑問に思っていますか?他のクラスタリングモデルと比較できるように、そのBICを計算する方法について少し混乱しています。現在、k-meansのstatsパッケージ実装を使用しています。
9 r  clustering  k-means  bic 

1
トレイン/テストスプリットの代わりにAICまたはBICをどのように使用できますか?
最近、いくつかの「非公式」ソースに出くわしました。これは、状況によっては、AICまたはBICを使用して時系列モデルをトレーニングする場合、データをテストに分割してトレーニングする必要がないことを示しています。トレーニング用のデータ。(出典には、CVに関するRob Hyndmanのブログ投稿に関するディスカッション、スタンフォード大学からのこのプレゼンテーション、またはこのテキストのセクション4が含まれます)。 特に、データセットが小さすぎてトレインとテストを分割できない場合に、AICまたはBICを使用できることを示しているようです。 たとえば、Rob Hyndmanのコメント:「AIC / BICを使用する方がテストセットやCVを使用するよりもはるかに効率的であり、そうでない場合に十分なデータがない短い時系列では不可欠になります。」 しかし、これについて詳細に説明しているテキストや論文を見つけることはできません。 特に私を困惑させることの1つは、AICとBICが相互検証に漸近的になる傾向があるということです。つまり、可能であれば、それらは大きなデータセットのCVを置き換えることになります。 誰かが私にこのアイデアの正式な議論(本の章、論文、チュートリアル)を指摘できますか?

2
BICが有用でAICが役に立たない状況はありますか?
以下のためのWikipediaのエントリでは赤池の情報量基準、我々は下の読みBICとの比較(ベイズ情報量基準)という ... AIC / AICcにはBICよりも理論上の利点があります... AIC / AICcは情報の原則から導き出されます。BICはそうではありません... BICには1 / R(Rは候補モデルの数)の事前確率があります。これは「賢明ではない」... AICcはBICよりも実用的/パフォーマンス上の利点がある傾向があります... AICは漸近的です最適... BICは漸近的に最適ではありません... AICが最適に収束する速度は...可能な限り最高です。 AIC トークセクションでは、BICセクションとの比較の偏った表示について多くのコメントがあります。イライラしたある寄稿者は、記事全体が「タバコのコマーシャルのように読める」と抗議しました。 他の情報源、たとえばこの論文の付録では、AICのクレームのテノールがより現実的に見えます。したがって、コミュニティへのサービスとして、以下をお願いします。 Q:BICが有効でAICが役に立たない状況はありますか?

1
BICは仮説検定に使用できますか
ベイズ情報基準をとして定義し (私はドロップしません定数、、限界尤度と同等の場合の問題を回避するため) - LN (2 π )B I C = - 2 ⋅ LNL^+ K ⋅ (LN(n )− ln(2 π))B私C=−2⋅ln⁡L^+k⋅(ln⁡(ん)−ln⁡(2π)) \mathrm{BIC} = {-2 \cdot \ln{\hat L} + k \cdot (\ln(n) - \ln(2 \pi))} − ln(2 π)−ln⁡(2π) - \ln(2 \pi) 与えられたデータとモデル、周辺尤度の間のおおよその関係と ISれますを暗示するようです H I P (Y | H I)B I C …

1
AIC = BICである可能性はありますか?
統計からのモデルの複雑さの2つのよく知られている(および関連する)指標は、赤池情報量基準(AIC)とベイズ情報量基準(BIC)です。 AIC = BICはいつでしょうか?
8 aic  bic 

2
ロジスティック回帰BIC:正しいNは何ですか?
TL; DR:ロジスティック回帰にBICのために正しい、凝集二項またはベルヌーイ?NNNNNN 最下部の更新 ロジスティック回帰を適用するデータセットがあるとします。例として、参加者がそれぞれm = 100のj=5j=5j=5グループがm=100m=100m=100、合計n=500n=500n=500であると想定します。結果は0または1です。たとえば、次のデータセット(Rコード): library(dplyr) library(tidyr) set.seed(45) d <- tibble(y = rbinom(500, 1, .5), x = factor(rep(LETTERS[1:5], each = 100))) これを表すには2つの方法があります。上記のとおり、すべての観測をベルヌーイ確率変数として扱うか、グループ内の観測を集計して各観測を二項として扱います。データセットの行数は、最初のインスタンスでは500、2番目のインスタンスでは5になります。 集約されたデータセットを構築できます: d %>% group_by(x, y) %>% summarise(n = n()) %>% spread(y, n) %>% rename(f = `0`, s = `1`) %>% mutate(n = s + f) -> d_agg …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.