統計とビッグデータ model-selection

2

1つの応答変数と6つの共変量を含むポアソン回帰モデルを実行しています。AICを使用したモデル選択により、すべての共変量と6つの交互作用項を持つモデルが作成されます。ただし、BICでは、共変量が2つのみで相互作用項がないモデルが作成されます。非常によく似た2つの基準がまったく異なるモデル選択をもたらす可能性はありますか？

12 model-selection aic poisson-regression bic

2

AICに基づいてモデルを比較する方法は？

同じ方法を使用して対数尤度を計算する2つのモデルがあり、一方のAICは他方よりも低くなっています。ただし、AICが低い方の解釈ははるかに困難です。難易度を紹介する価値があるかどうかを判断するのに苦労しており、AICの割合の差を使用してこれを判断しました。2つのAICの差はわずか0.7％であり、より複雑なモデルのAICは0.7％低いことがわかりました。低いAICでモデルを使用することを避けるために、2つの間の低いパーセンテージの差は正当な理由ですか？差異の割合は、それほど複雑ではないモデルでは0.7％の情報が失われることを説明していますか？ 2つのモデルの結果は大きく異なる可能性がありますか？

12 model-selection aic

1

変数選択とモデル選択

したがって、変数の選択はモデル選択の一部であることを理解しています。しかし、モデル選択の正確な構成は何ですか？それは次のもの以上ですか？ 1）モデルの分布を選択する 2）説明変数を選択しますか？これは、Burnham＆Anderson：AIC vs BICの記事で、モデル選択におけるAICとBICについての記事を読んでいるからです。この記事を読んで、「モデル選択」を「変数選択」と考えてきたことがわかります（コメントBICは真のモデルを見つけようとしますか？）記事からの抜粋は、「一般性」の度合いが増加する12のモデルについて語っており、これらのモデルは、12のモデルに対してKL情報をプロットすると「テーパ効果」を示します（図1）。異なる哲学とターゲットモデル... BICのターゲットはAICのターゲットモデルよりも一般的なモデルですが、ここでBICが最も頻繁に選択するモデルは、nが非常に大きくない限り、モデル7よりも一般的ではありません。モデル5または6である可能性があります（文献の多数の論文とシミュレーションから）、テーパー効果のコンテキスト（図1）では、AICはBICよりも優れていることが知られています。これが実際のデータ分析のコンテキストである場合は、AICを使用する必要があります。どのようにBICことができ、これまで私は理解していないモデル選択におけるAICよりも複雑なモデルを選択してください！「モデル選択」とは具体的にどのようなもので、BICはAICよりも「一般的な」モデルを具体的に選択するのはいつですか？ 2 l n （N）k2ln（N）k2ln(N)k2 k2k2k 編集：のコメントの議論から、AICまたはBICを他よりも好む理由はありますか？コメントで@Michael Chernickと@ user13273の間に小さな議論があり、これはそれほど些細なことではないと信じています。この議論を「機能」選択または「共変量」選択と呼ぶ方が適切だと思います。私にとって、モデルの選択は、エラーの分布、リンク関数の形式、共変量の形式の指定を含む、はるかに広範なものです。AIC / BICについて話すとき、通常、共変量の選択を除き、モデル構築のすべての側面が固定されている状況にあります。– user13273 12年8月13日21:17にモデルに含める特定の共変量の決定は、一般にモデル選択という用語で決まります。タイトルにモデル選択のある書籍が多数あり、主にモデルに含めるモデル共変量/パラメーターを決定しています。-マイケルチャーニック12年8月24日14:44で

12 feature-selection model-selection aic bic

1

ベイジアンモデルの選択におけるジェフリーズ-リンドリーのパラドックスをいつ心配する必要がありますか？

RJMCMCを使用して探索する、さまざまな複雑さのモデルの大きな（ただし有限の）スペースを検討しています。各モデルのパラメーターベクトルの事前分布は非常に有益です。どのような場合（もしあれば）、より複雑なモデルの1つがより適している場合、ジェフリーズ-リンドリーのパラドックスがより単純なモデルを好むかについて心配する必要がありますか？ベイジアンモデルの選択におけるパラドックスの問題を浮き彫りにする簡単な例はありますか？私はいくつかの記事、すなわち西安のブログとアンドリュー・ゲルマンのブログを読んだことがありますが、私はまだ問題をよく理解していません。

12 bayesian model-selection mcmc prior improper-prior

1

「仮説検定」と「モデル選択」の違いは何ですか？

文献では、両方の用語はしばしば同義語または織り交ぜられています。現在、両方の用語の明確な区別を見つけようとしています。私の観点から、仮説は通常モデルを介して表現されます。したがって、帰無仮説と対立仮説をテストしたとしても、私の観点からはモデル選択を行っています。誰かがこの区別を直感的に説明してもらえますか？

12 hypothesis-testing model-selection regression-strategies

3

ベイジアン対MLE、オーバーフィット問題

BishopのPRML本で、彼は、過剰適合は最尤推定（MLE）の問題であり、ベイジアンはそれを避けることができると言っています。しかし、オーバーフィッティングはモデル選択に関する問題であり、パラメーター推定に使用される方法に関する問題ではないと思います。つまり、f （x ）= s i n （x ）を介して生成されるデータセットがあるとします。DDD、今私は別のモデルを選択かもしれない Hを、私は、データをフィットし、1が最良であるかを調べるために。検討中のモデルが異なる次数を有する多項式のものであり、 H 1はオーダー1であり、 H 2は、順序2、 H 3は、順序9です。f(x)=sin(x),x∈[0,1]f(x)=sin(x),x∈[0,1]f(x)=sin(x),\;x\in[0,1]HiHiH_iH1H1H_1H2H2H_2H3H3H_3 今、私はデータに合うようにしようと 3機種のそれぞれに、各モデルは、と表記その偶然に、持っているワット私のためのH 私を。DDDwiwiw_iHiHiH_i MLを使用して、私はモデルパラメータの点推定値があります、そしてH 1は、一方で、単純すぎるとなり、常にデータunderfitであるH 3があまりにも複雑で、データをオーバーフィットします、唯一のH 2は、データをうまくフィットします。wwwH1H1H_1H3H3H_3H2H2H_2 私の質問は、 1）モデルはデータをオーバーフィットしますが、MLの問題ではなく、モデル自体の問題だと思います。なぜなら、H 1に MLを使用すると、H 2が過適合にならないからです。私は正しいですか？H3H3H_3H1,H2H1,H2H_1,H_2 2）ベイジアンと比較して、MLにはいくつかの欠点があります。モデルパラメーターポイント推定値を与えるだけであり、自信過剰だからです。一方、ベイジアンはパラメーターの最も可能性の高い値だけに依存するのではなく、観測されたデータDを与えられたパラメーターのすべての可能な値に依存しますか？wwwDDD 3）なぜベイジアンは過剰適合を回避または減少できるのですか？私が理解しているように、モデルの比較にベイジアンを使用できます。つまり、データ与えられると、検討中の各モデルの限界尤度（またはモデル証拠）を見つけ、最も限界尤度が高いものを選択できます。？もしそうなら、なぜですか？DDD

12 bayesian model-selection overfitting

1

LLE（ローカル線形埋め込み）アルゴリズムの手順を説明してください。

LLEのアルゴリズムの背後にある基本原則は3つのステップで構成されていることを理解しています。 k-nnなどのメトリックによって各データポイントの近傍を見つける。近傍がデータポイントに与える影響を示す各近傍の重みを見つけます。計算された重みに基づいて、データの低次元埋め込みを構築します。しかし、ステップ2とステップ3の数学的説明は、私が読んだすべての教科書とオンラインリソースで混乱しています。数式が使用される理由を説明することはできません。これらの手順は実際にはどのように実行されますか？使用されている数式を直感的に説明する方法はありますか？参照：http : //www.cs.nyu.edu/~roweis/lle/publications.html

12 machine-learning model-selection feature-selection dimensionality-reduction nonlinear

1

ログリンクされたガンマGLM対ログリンクされたガウスGLM対ログ変換されたLM

私の結果から、GLM Gammaはほとんどの仮定を満たしているように見えますが、ログ変換されたLMよりも価値のある改善でしょうか？私が見つけたほとんどの文献は、ポアソンまたは二項GLMを扱っています。ランダム化を使用した一般化線形モデルの仮定の評価の記事は非常に有用であることがわかりましたが、意思決定に使用される実際のプロットが欠けています。うまくいけば、経験のある人が私を正しい方向に向けることができます。応答変数Tの分布をモデル化したいのですが、その分布を下にプロットします。ご覧のとおり、正の歪度です。考慮すべき2つのカテゴリー要因があります：METHとCASEPART。この研究は主に探索的であり、モデルを理論化してその周辺でDoEを実行する前のパイロット研究として本質的に機能することに注意してください。 Rには次のモデルと診断プロットがあります。 LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat) GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log')) GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log')) また、Shapiro-Wilksの残差検定を使用して、次のP値を達成しました。 LM.LOG: 2.347e-11 GLM.GAMMA: 0.6288 GLM.GAUS: 0.6288 AICとBICの値を計算しましたが、正しい場合は、GLM / LMのさまざまなファミリーのために、あまりわかりません。また、極端な値に注意しましたが、明確な「特別な原因」がないため、それらを外れ値として分類することはできません。

12 r generalized-linear-model model-selection gamma-distribution

1

ネストされていないモデルのAIC：正規化定数

AICは次のように定義され、θは最尤推定量であり、pはパラメータ空間の次元です。θの推定用A IC= − 2 ログ（L （θ^））+ 2 pA私C=−2ログ⁡（L（θ^））+2pAIC=-2 \log(L(\hat\theta))+2pθ^θ^\hat\thetapppθθ\theta、通常は密度の定数因子を無視します。これは、尤度を単純化するために、パラメーターに依存しない要因です。一方、この因子はAICの計算にとって非常に重要です。非ネストモデルを比較する場合、この因子は一般的ではないため、考慮しない場合、対応するAICの順序は異なる可能性があります。ログ（L （θ^））ログ⁡（L（θ^））\log(L(\hat\theta))

12 model-selection aic nested-models

4

AIC（またはBIC）を使用したPCAモデルの選択

赤池情報量基準（AIC）を使用して、PCAで抽出する適切な数の要因を選択します。唯一の問題は、パラメーターの数を決定する方法がわからないということです。ような行列考えます。ここで、は変数の数、は観測値の数を表します。共分散行列は対称であるため、最尤推定では、AICのパラメーター数をます。T×NT×NT\times NXXXNNNTTTX∼N(0,Σ)X∼N(0,Σ)X\sim \mathcal N\left(0,\Sigma\right)ΣΣ\SigmaN(N+1)2N(N+1)2\frac{N\left(N+1\right)}{2} あるいは、PCAで、の最初の固有ベクトルと固有値を抽出し、それらをおよびと呼び、\ Sigma = \ beta_ {f} \ Lambda_ {f} \ beta_を計算できます。{f} '+ I \ sigma_ {r} ^ {2} ここで、\ sigma_ {r} ^ {2}は平均残差分散です。あなたが持っている場合は、私の数によって、F要因を、あなたが希望Fのパラメータ\ Lambda_ {F} 、Nf個のパラメータbeta_ {F} \、および1つのにおけるパラメータsigma_ {R} ^ {2} \。fffΣΣ\Sigmaβfβf\beta_{f}ΛfΛf\Lambda_{f}Σ=βfΛfβ′f+Iσ2rΣ=βfΛfβf′+Iσr2\Sigma=\beta_{f}\Lambda_{f}\beta_{f}'+I\sigma_{r}^{2}σ2rσr2\sigma_{r}^{2}ffffffΛfΛf\Lambda_{f}NfNfNfβfβf\beta_{f}111σ2rσr2\sigma_{r}^{2} このアプローチは正しいですか？因子の数が増えると、最尤法よりも多くのパラメーターにつながるようです。NNN

12 pca model-selection

1

RのPROC Mixedとlme / lmerの違い-自由度

注：法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。次のデータセットから開始します（以下のRコード）。 ind：測定が行われる個人を示す因子 fac：測定が行われる臓器 trt：治療を示す因子 y：連続応答変数アイデアは、次の単純なモデルを構築することです： y ~ trt + (ind)：indランダムな要因として y ~ trt + (fac(ind))：facにネストされたindランダムな要因として、最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

2

主成分分析を使用して回帰の変数を選択する方法は？

現在、モデリングに使用する変数を選択するために主成分分析を使用しています。現時点では、実験でA、B、Cの測定を行っています-私が本当に知りたいのは、測定を減らし、CとBの記録を停止して時間と労力を節約できるかということです。 3つの変数すべてが、データの分散の60％を占める最初の主成分に大きく負荷をかけることがわかります。コンポーネントスコアから、これらの変数を特定の比率（aA + bB + cC）で加算すると、わかります。データセットの各ケースについてPC1でスコアを取得でき、このスコアをモデリングの変数として使用できますが、それではBとCの測定を停止できません。 PC1のAとBおよびCの負荷を2乗すると、変数AはPC1の分散の65％を占め、変数BはPC1の分散の50％を占め、変数Cも50％を占めることがわかります。各変数A、B、Cによって説明されるPC1の分散の別の変数は別の変数と共有されますが、Aはわずかに多くを占めてトップになります。この変数はPC1の分散の大部分を表し、これが次に分散の大部分を表すため、モデリングで使用する変数Aまたは場合によっては（必要に応じてaA + bB）を選択できると考えるのは間違っていますか？データ？過去にどのアプローチをしましたか？他の重いローダーがある場合でも、PC1に最も重い負荷をかける単一の変数？すべてが重いローダーであっても、すべての変数を使用したPC1のコンポーネントスコア？

12 regression pca model-selection

1

ネストされていないモデルの等価性をテストする

yyyがxxxとダミー線形関数だとしましょうddd。私の仮説は、自体は他の変数のベクトル快楽主義的なインデックスのようなものだということです。dの（つまりz_1、z_2、...、z_n）でこれをサポートしています。これらの2つのモデルの等価性をテストする方法はありますか？dddZZZMANOVAMANOVAMANOVAZZZz1z1z_1z2z2z_2znznz_nddd モデル1：y=b0+b1⋅x+b2⋅d+e1y=b0+b1⋅x+b2⋅d+e1y = b_0 + b_1 \cdot x + b_2\cdot d + e_1 モデル2：y=g0+Z⋅G+e2y=g0+Z⋅G+e2y = g_0 + Z\cdot G + e_2 ここで、はパラメーターの列ベクトルです。GGG

12 r hypothesis-testing regression model-selection

2

モデル選択または正則化後のGLM

この質問を2つの部分に分けたいと思います。両方とも一般化線形モデルを扱いますが、最初はモデル選択を扱い、他は正則化を扱います。背景：予測と説明の両方にGLM（線形、ロジスティック、ガンマ回帰）モデルを利用しています。「回帰で行う通常のこと」を参照するとき、主に（i）係数の信頼区間、（ii）予測の信頼区間、（iii）のような係数の線形結合に関する仮説検定の説明を意味する治療Aと治療Bの間に違いがありますか？」以下のそれぞれのもとで通常の理論を使用してこれらのことを行う能力を合法的に失いますか？もしそうなら、これらは本当に純粋な予測に使用されるモデルにのみ適していますか？ I. GLMが何らかのモデル選択プロセスを介して適合した場合（具体的には、AICに基づく段階的な手順と言います）。 II。GLMが正則化方法（Rでglmnetを使用するなど）によって適合されたとき。私の考えでは、私にとっては、答えは技術的には「リグレッションで行う通常のこと」にブートストラップを使用する必要があるということですが、実際にそれを遵守している人はいません。追加：いくつかの回答を得て、他の場所で読んだ後、これについての私の見解を示します（他の人にとっても、訂正を受けるためにも）。 I. A）RE：エラーの一般化。新しいデータのエラー率を一般化するために、保持セットがない場合、クロス検証は機能しますが、折り畳みごとにプロセスを完全に繰り返す必要があります-ネストされたループを使用するため、機能の選択、パラメーターの調整などが必要です毎回独立して行われます。この考え方は、モデリング作業（ペナルティ化された方法を含む）に当てはまるはずです。 B）RE：GLMの仮説検定と信頼区間。一般化線形モデルにモデル選択（機能選択、パラメーター調整、変数選択）を使用し、ホールドアウトセットが存在する場合、パーティションでモデルをトレーニングし、残りのデータまたは完全なデータセットにモデルを適合させることができますそのモデル/データを使用して仮説検定などを実行します。ホールドアウトセットが存在しない場合、各ブートストラップサンプルに対して完全なプロセスが繰り返される限り、ブートストラップを使用できます。これは、おそらく変数が常に選択されるとは限らないため、実行できる仮説検定を制限します。 C）RE：将来のデータセットの予測を実行しない、理論といくつかの仮説検定によって導かれた目的のあるモデルに適合し、（HosmerとLemeshowの線に沿って）モデル内のすべての変数を残すことを考慮します。これは、小さな変数セットの古典的なタイプの回帰モデリングであり、CIおよび仮説検定の使用を可能にします。 D）RE：ペナルティ付き回帰。アドバイスはありません、おそらくこれは予測のみに適していると考えてください（または、上記のBのように別のデータセットに適用する特徴選択のタイプとして）、導入されたバイアスはCIと仮説テストをブートストラップでも不適切にするため

12 regression model-selection regularization

1

フィッシャーの厳密検定と超幾何分布

私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。。この観察の可能性は何ですか？この質問に答えるために、次のコマンドを使用しました。 …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

タグ付けされた質問 「model-selection」

タグ付けされた質問「model-selection」