タグ付けされた質問 「aic」

AICは、赤池情報量基準を表します。これは、ペナルティ付き尤度を使用してモデルのクラスから最適なモデルを選択するために使用される1つの手法です。AICが小さいほど、優れたモデルになります。

5
混合モデルで因子をランダムとして扱うことの利点は何ですか?
いくつかの理由で、モデルファクターをランダムとしてラベル付けすることの利点を受け入れるのに問題があります。私には、ほとんどすべての場合、最適な解決策はすべての要因を固定として扱うことのように見えます。 まず、固定とランダムの区別は非常にarbitrary意的です。標準的な説明では、特定の実験ユニット自体に興味がある場合は固定効果を使用し、実験ユニットによって表される母集団に興味がある場合はランダム効果を使用する必要があります。これは、データと実験デザインが同じままであっても、固定ビューとランダムビューを交互に切り替えられることを意味するため、あまり役に立ちません。また、この定義は、因子がランダムとしてラベル付けされている場合、モデルから引き出された推論は、因子が固定としてラベル付けされている場合よりも母集団により何らかの形で適用できるという幻想を促進します。最後に、ゲルマンは、固定ランダムな区別が混乱していることを示しています 定義レベルでも、固定効果とランダム効果の定義がさらに4つあるためです。 第二に、混合モデルの推定は非常に複雑です。「完全に固定された」モデルとは対照的に、p値を取得する方法はいくつかあります。 。 第三に、ランダムな要因によっていくつの暗黙的なパラメータが導入されるかという不透明な問題があります。次の例は、Burnham&Andersonのモデル選択とマルチモデル推論:実用的な情報理論的アプローチでの私の適応です。バイアスと分散のトレードオフの観点から、ランダム効果の役割は次のように説明できます。処理と主因子効果を持つ一元配置分散分析を検討してくださいは推定可能です。エラー項には分布があります。観測値の数が固定されている場合、バイアス分散のトレードオフは、が上がるにつれて低下します。我々はと言うと仮定K K - 1 N(0 、σ 2)K KKKKKKKK− 1K−1K - 1N(0 、σ2)N(0、σ2)\mathcal N(0, \sigma^2)KKKKKK主効果は分布から引き出されます。対応するモデルは、固定(オーバーフィット)バージョンとインターセプトのみを含むアンダーフィットモデルの中間の複雑さを持ちます。固定モデルの有効なパラメーターの数はN(0 、σK)N(0、σK)\mathcal N(0, \sigma_K) 1i n t e r c e p t +(K− 1 )mはI nはe ffe c t s +1σ= K+ 1。1私ntercept+(K−1)ma私neffects+1σ=K+1。1 \:\:\mathrm{intercept} + (K - 1) \:\:\mathrm{main\: effects} + …

3
時系列でのAIC対クロス検証:小さなサンプルの場合
時系列設定でのモデル選択に興味があります。具体的には、ラグオーダーが異なるARMAモデルのプールからARMAモデルを選択するとします。最終的な意図は予測です。 モデルの選択は次の方法で実行できます 相互検証、 情報基準の使用(AIC、BIC)、 他の方法の中で。 Rob J. Hyndmanは、時系列の相互検証を行う方法を提供します。比較的小さなサンプルの場合、クロス検証で使用されるサンプルサイズは、元のサンプルサイズと質的に異なる場合があります。たとえば、元のサンプルサイズが200の観測値である場合、最初の101の観測値を取得し、ウィンドウを102、103、...、200の観測値に拡張して100の交差検証結果を取得することにより、交差検証を開始することを考えることができます。明らかに、200回の観測に対して合理的に控えめなモデルは、100回の観測に対して大きすぎる可能性があり、そのため検証エラーは大きくなります。したがって、相互検証は、あまりにもpar約なモデルを体系的に優先する可能性があります。これは、サンプルサイズの不一致による望ましくない効果です。 相互検証の代わりに、モデル選択に情報基準を使用します。予測が重要なので、AICを使用します。AICは時系列モデルのサンプル外のワンステップ予測MSEを最小化することに漸近的に相当しますが(Rob J. Hyndmanによるこの投稿によると)、サンプルが私が気にするサイズはそれほど大きくありません... 質問:小規模/中規模サンプルの時系列相互検証よりもAICを選択する必要がありますか? 関連するいくつかの質問を見つけることができるここでは、こことここ。

3
AICおよびBIC番号の解釈
AIC(赤池情報量基準)とBIC(ベイズ情報量基準)の推定値を解釈する方法の例を探しています。 BIC間の負の差は、一方のモデルが他方のモデルの事後オッズとして解釈できますか?これを言葉にするにはどうすればよいですか?たとえば、BIC = -2は、他のモデルよりも優れたモデルのオッズが約ことを意味する場合があります。e2=7.4e2=7.4e^2= 7.4 基本的なアドバイスはこの新人によって高く評価されています。

2
混合効果モデルをどのように比較または検証する必要がありますか?
(線形)混合効果モデルは通常どのように互いに比較されますか?尤度比検定を使用できることは知っていますが、一方のモデルが他方のモデルの「サブセット」でない場合、これは機能しませんか? モデルdfの推定は常に簡単ですか?固定効果の数+推定される分散成分の数 ランダム効果の推定値を無視しますか? 検証はどうですか?私の最初の考えは相互検証ですが、データの構造を考えるとランダムな折り畳みは機能しないかもしれません。「1つのサブジェクト/クラスターを除外する」方法論は適切ですか?1つの観察結果を除外するのはどうですか? Mallows Cpは、モデルの予測誤差の推定値として解釈できます。AICを介したモデル選択は、予測エラーを最小化しようとします(したがって、エラーがガウス分布である場合、CpとAICは同じモデルを選択する必要があります)。これは、AICまたはCpを使用して、いくつかのネストされていないモデルのコレクションから予測エラーの観点から「最適な」線形混合効果モデルを選択できることを意味しますか?(同じデータに当てはまる場合)BICは、候補者の間で「真の」モデルを選択する可能性がまだ高いですか? また、AICまたはBICを介して混合効果モデルを比較する場合、実際のモデルdfではなく、計算で固定効果のみを「パラメーター」として数えるという印象を受けています。 これらのトピックに関する良い文献はありますか?cAICまたはmAICを調査する価値はありますか?AIC以外の特定のアプリケーションがありますか?

3
AICまたはp値:モデル選択のためにどれを選択しますか?
私はこのRに関してはまったく新しいのですが、どのモデルを選択すればよいかわかりません。 最も低いAICに基づいて各変数を選択して、段階的な前方回帰を行いました。どのモデルが「ベスト」かわからない3つのモデルを思いつきました。 Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09 モデル#3にはAICが最も低く(ネガティブは大丈夫だと聞いた)、p値がまだかなり低いため、モデル#3を使用する傾向があります。 Hatchling Massの予測変数として8つの変数を実行しましたが、これら3つの変数が最適な予測変数であることがわかりました。 AICが少し大きかったとしても、p値はすべて小さかったため、次の段階的なモデル2を選択しました。これが最高だと思いますか? Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222) AIC = 25.63 Model …

1
Firthロジスティック回帰によるモデル選択
私が作業している小さなデータセット()では、いくつかの変数が完全な予測/分離を提供します。したがって、この問題に対処するには、Firthロジスティック回帰を使用します。n個〜100n〜100n\sim100 AICまたはBICで最適なモデルを選択した場合、これらの情報基準を計算するときに尤度に第5ペナルティ項を含める必要がありますか?

3
AICの「パラメーターの数」の意味
AICを計算するとき、 AIC=2k−2lnLAIC=2k−2lnLAIC = 2k - 2 ln L kは「パラメーターの数」を意味します。しかし、パラメーターとして何が重要ですか?たとえば、モデルでは y=ax+by=ax+by = ax + b aとbは常にパラメーターとしてカウントされますか?インターセプトの値を気にしない場合、無視できますか、それともカウントされますか? 仮に y=af(c,x)+by=af(c,x)+by = a f(c,x) + b どこ Cとxの関数である、私は今、3つのパラメータを数えるのですか?fff
21 aic 


1
モデル選択のパラドックス(AIC、BIC、説明するか予測するか?)
Galit Shmueliの「説明するか予測するか」(2010年)を読んで、私は明らかな矛盾に困惑しています。3つの施設がありますが、 AICベースとBICベースのモデル選択(p。300の終わり-p。301の始まり):簡単に言えば、AICは予測を目的としたモデルの選択に使用し、BICは説明用のモデルの選択に使用する必要があります。さらに(上記の論文ではありません)、いくつかの条件下では、BIC は候補モデルのセットの中から真のモデルを選択することを知っています。真のモデルは、説明的モデリングで求めているものです(p。293の終わり)。 単純な算術:AICは、サイズ8以上のサンプルに対してBICよりも大きなモデルを選択します AICとBICの複雑さのペナルティが異なるため、を満たし)。ln (n )> 2ln(n)>2\text{ln}(n)>2 「真」のモデル(すなわち、正しい説明変数と正しい機能的な形でモデルが、不完全推定された係数)は、予測のために最良のモデル(P 307)ではないかもしれない:行方不明の予測と回帰モデルは、より良い予測モデルもあり-予測子の欠落によるバイアスの導入は、推定の不正確さによる分散の減少によって相殺される場合があります。 ポイント1と2は、より節約的なモデルよりも大きなモデルの方が予測に適している可能性があることを示唆しています。一方、ポイント3は、より控えめなモデルのほうが大きなモデルよりも予測に適しているという反対の例を示しています。これは不可解です。 質問: ポイント間の明らかな矛盾{1。および2.}および3.説明/解決されますか? ポイント3に照らして、AICによって選択されたより大きなモデルが、BICによって選択されたよりpar約的なモデルよりも実際に予測に優れている理由と方法について直感的に説明できますか?

1
Stepwise AIC-このトピックをめぐる論争は存在しますか?
このサイトで、p値ベース、AIC、BICなど、あらゆる種類の基準を使用した変数の段階的な選択の使用に信じられないほど多くの投稿を読みました。 これらの手順が一般に、変数の選択に非常に悪い理由を理解しています。ここでの gungのおそらく有名な投稿は、その理由を明確に示しています。最終的には、仮説を立てるのに使用したのと同じデータセットで仮説を検証しています。これは単なるデータのedです。さらに、p値は共線性や外れ値などの量の影響を受け、結果が大きく歪むなど。 しかし、私は最近かなり時系列の予測を研究しており、特にARIMAモデルの最適な順序を見つけるための段階的選択の使用について彼がここで言及している Hyndmanの評判の高い教科書に出会いました。実際、forecastR のパッケージでは、auto.arimaデフォルトで知られているよく知られているアルゴリズムは、(p値ではなくAICを使用して)ステップワイズ選択を使用します。彼はまた、このウェブサイト上の複数の投稿とうまく調和するp値ベースの機能選択を批判しています。 最終的に、目標が予測/予測の優れたモデルを開発することである場合、最後に何らかの方法で常に相互検証する必要があります。ただし、p値以外の評価指標の手順自体に関しては、これは多少不一致です。 この文脈での段階的なAICの使用について、しかしこの文脈からも一般的には誰も意見がありますか?私は、段階的な選択はどれも貧弱だと信じていると教えられてきましたが、正直なところ、auto.arima(stepwise = TRUE)サンプル結果からより良い結果を得ていますauto.arima(stepwise = FALSE)が、これは単なる偶然かもしれません。

1
BICは真のモデルを見つけようとしますか?
この質問は、AICとBICの違いに関するトピックIおよび他の多くのトピックに関する混乱を解決するためのフォローアップまたは試みです。このトピックに関する@Dave Kellenによる非常に良い回答(/stats//a/767/30589)を読んでください: あなたの質問は、AICとBICが同じ質問に答えようとしていることを意味しますが、これは真実ではありません。AICは、未知の高次元の現実を最も適切に説明するモデルを選択しようとします。これは、現実が考慮されている候補モデルのセットに決して含まれないことを意味します。それどころか、BICは候補のセットの中からTRUEモデルを見つけようとします。研究者が道に沿って構築したモデルの1つで現実が具体化されるという仮定は非常に奇妙です。これは、BICにとって本当の問題です。 以下のコメントで@ gui11aumeが読みました: (-1)すばらしい説明ですが、私は主張に挑戦したいと思います。@Dave Kellen TRUEモデルがBICのセットのどこにあるべきかという考えをどこで参照してください。この本で著者がこれが事実ではないという説得力のある証拠を与えるので、私はこれについて調査したいと思います。– gui11aume 12年5月27日21:47で このアサーションはシュワルツ自身(1978)から来ているようですが、アサーションは必要ではありませんでした。 Burnham and Anderson、2004): BICの派生は、真のモデルの存在を前提としていますか、より厳密には、BICの使用時に真のモデルがモデルセット内にあると仮定しますか (シュワルツの派生はこれらの条件を指定しました。)...答え...いいえ。つまり、BIC(特定のベイズ積分の近似の基礎として)は、導出の基礎となるモデルが真であると仮定せずに導出できます(たとえば、Cavanaugh and Neath 1999; Burnham and Anderson 2002:293-5を参照)。確かに、BICを適用する際に、モデルセットに完全な現実を表す(存在しない)真のモデルを含める必要はありません。さらに、BICで選択されたモデルのtargbetモデルへの収束(iidサンプルの理想化のもとで)は、そのターゲットモデルが真のデータ生成分布でなければならないことを論理的に意味しません)。 ですから、このテーマについて議論したり、(もっと必要な場合は)何らかの説明をする価値があると思います。現在、私たちが持っているのは、AICとBICの違いに関して非常に高く評価された回答の下での@ gui11aumeからのコメントです(ありがとう!)。

2
モデルのAICとそのログ変換バージョンの比較
私の質問の本質はこれです: LET平均値を有する多変量正規ランダム変数でと共分散行列。ましょう、すなわち。観測された実現に適合したモデルのAICと、観測された実現に適合したモデルのAICを比較するにはどうすればよいですか?Y∈RnY∈RnY \in \mathbb{R}^nμμ\muΣΣ\SigmaZ:=log(Y)Z:=log⁡(Y)Z := \log(Y)Zi=log(Yi),i∈{1,…,n}Zi=log⁡(Yi),i∈{1,…,n}Z_i = \log(Y_i), i \in \{1,\ldots,n\}YYYZZZ 私の最初のやや長い質問: LET多変量正規確率変数です。適合したモデルとに適合したモデルを比較したい場合、それらの対数尤度を調べることができます。ただし、これらのモデルはネストされていないため、対数尤度(およびAICなど)を直接比較することはできませんが、変換する必要があります。Y∼N(μ,Σ)Y∼N(μ,Σ)Y \sim \mathcal{N}(\mu,\Sigma)YYYlog(Y)log⁡(Y)\log(Y) 私があれば知っている関節のPDFを有するランダム変数であるとIF一対一の変換にと、のpdfは与えられますここで、Jは変換に関連付けられたヤコビアンです。X1,…,XnX1,…,XnX_1,\ldots,X_ng(x1,…,xn)g(x1,…,xn)g(x_1,\ldots,x_n)Yi=ti(X1,…,Xn)Yi=ti(X1,…,Xn)Y_i = t_i(X_1,\ldots,X_n)titit_ii∈{1,…,n}i∈{1,…,n}i \in \{1,\ldots,n\}Y1,…,YnY1,…,YnY_1,\ldots,Y_nf(y1,…,yn)=g(t−11(y),…,t−1n(y))det(J)f(y1,…,yn)=g(t1−1(y),…,tn−1(y))det(J)f(y_1,\ldots,y_n)=g(t_1^{-1}(y),\ldots,t_n^{-1}(y))\det(J)JJJ 単に変換ルールを使用して比較する必要がありますか l(Y)=log(∏i=1nϕ(yi;μ,Σ))l(Y)=log⁡(∏i=1nϕ(yi;μ,Σ))l(Y) = \log(\prod_{i=1}^{n}\phi(y_i;\mu,\Sigma)) to l(log(Y))=log(∏i=1nϕ(log(yi);μ,Σ))l(log⁡(Y))=log⁡(∏i=1nϕ(log⁡(yi);μ,Σ))l(\log(Y))=\log(\prod_{i=1}^{n}\phi(\log(y_i);\mu,\Sigma)) または私にできることは他にありますか? [編集]最後の2つの式に対数を入れるのを忘れました。

4
ジョージ・ボックス、ガリット・シュムエリと科学的方法について?
(この質問はPhilosophy SEにより適しているように思われるかもしれません。統計学者がBoxとShmueliの発言についての私の誤解を明確にすることを望んでいます。したがって、ここに投稿します)。 (ARIMAの名声の)ジョージボックスは次のように述べています。 「すべてのモデルは間違っていますが、一部は有用です。」 Galit Shmueliは有名な論文「説明するか予測する」で次のように主張しています(そして彼女に同意する他の人を引用しています)。 説明と予測は同じではなく、一部のモデルは予測が上手ではありませんが、上手く説明できます。 原則に対するこれらは何らかの形で矛盾していると感じます。 モデルがうまく予測できない場合、それは有用ですか? さらに重要なことは、モデルが十分に説明している場合(ただし、必ずしも十分に予測できるとは限らない場合)、何らかの方法で真でなければなりません(つまり、間違っていない)。それでは、Boxの「すべてのモデルが間違っている」とどのようにメッシュするのでしょうか。 最後に、モデルがうまく説明しているが、うまく予測できない場合、それはどのように科学的ですか?ほとんどの科学的境界基準(検証主義、改ざん主義など)は、科学的記述に予測力が必要であること、または口語的であることを意味します。将来の結果を予測する必要があります。 私の質問: Boxの声明とShmueliのアイデアは本当に矛盾していますか、それとも何かが欠けていますか。たとえば、予測力のないモデルはまだ有用でしょうか。 ボックスとShmueliの文がある場合ではない矛盾し、それはモデルが間違っているために何を意味するのでしょうし、うまく予測できないが、それでも説明力を持っていますか?別の言い方をすれば、正確さと予測能力の両方を奪うと、モデルには何が残りますか? モデルに説明力があるが予測力がない場合、どのような実証的検証が可能ですか?Shmueliは、説明にAICを使用し、予測にBICを使用するなどのことを言及していますが、それが問題をどのように解決するかわかりません。予測モデルでは、AIC、またはBIC、またはR2R2R^2またはL1L1L1正則化などを使用できますが、最終的にはサンプルテストと実稼働環境でのパフォーマンスがモデルの品質を決定します。しかし、うまく説明できるモデルについては、どのような損失関数がモデルを本当に評価できるのかわかりません。科学哲学には、過少決定の概念がありますこれはここで適切と思われます:与えられたデータセットについて、データに適合するようにいつでも何らかの分布(または分布の混合)と損失関数LLLを賢明に選択できます(したがって、それを説明すると主張できます)。また、閾値は、そのLLLモデルが適切にデータを任意で説明することを主張する人のための下でなければならない(種類p値などから、なぜそれはp&lt;0.05p&lt;0.05p < 0.05としないp&lt;0.1p&lt;0.1p < 0.1又はp&lt;0.01p&lt;0.01p < 0.01?)。 上記に基づいて、どのように説明するモデルを客観的に検証できますか?


2
モデルの洗練を停止するタイミング
私は過去3年間、多くの本から統計を研究してきましたが、このサイトのおかげで多くのことを学びました。それにもかかわらず、1つの基本的な質問が未解決のままです。非常に単純な答えまたは非常に難しい答えを持っているかもしれませんが、統計の深い理解が必要であることは確かです。 モデルをデータに適合させるとき、それが頻繁なアプローチであろうとベイジアンアプローチであろうと、我々はモデルを提案します。ある程度の良さを持つサンプルに適合します。現在手元にあるものと比較して、より良いまたは悪いモデルをいつでも見つけることができます。ある時点で、結論を出したり、母集団パラメーターに一般化したり、信頼区間を報告したり、リスクを計算したりします。AIC、MDLなど、予想されるKL距離を推定するツールを使用している場合でも、絶対ベースでの位置については何も言わず、相対的ベースで推定を改善するだけです。 ここで、モデルを構築するときに任意のデータセットに適用する手順をステップごとに定義したいとします。停止ルールとして何を指定する必要がありますか?少なくとも、客観的な停止点を与えるモデルエラーをバインドできますか(これは、検証サンプルを使用してトレーニングを停止することとは異なります。これは、真のDGPではなく、評価されたモデルクラス内に停止点を与えるためです)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.