統計とビッグデータ model-selection

4

時間の経過に伴うインデックスファンドの動作を予測するために重回帰で使用できる数百の金融変数の値で構成される大きなデータセットがあります。できるだけ多くの予測力を維持しながら、変数の数を10程度に減らしたいと思います。追加：元の変数の経済的意味を維持するために、削減された変数のセットは元の変数セットのサブセットである必要があります。したがって、たとえば、私は元の変数の線形結合または集計に終わるべきではありません。これを行う方法についてのいくつかの（おそらくナイーブな）考え：各変数を使用して単純な線形回帰を実行し、値が最大の10を選択します。もちろん、組み合わされた10個の最良の個々の変数が10個の最良のグループになるという保証はありません。R2R2R^2 主成分分析を実行し、最初のいくつかの主軸との関連が最も大きい10個の元の変数を見つけようとします。変数は実際にはネストされていないため、階層回帰を実行できないと思います。組み合わせが多すぎるため、10個の変数の可能なすべての組み合わせを試すことは、計算上実行不可能です。重回帰で変数の数を減らすというこの問題に取り組むための標準的なアプローチはありますか？これは、標準的なアプローチがあるという十分に一般的な問題であるように思われます。非常に役立つ答えは、標準的な方法に言及しているだけでなく、それがどのようにそしてなぜ機能するかの概要も提供するものでしょう。または、標準的なアプローチが1つではなく、長所と短所が異なる複数のアプローチがある場合、非常に役立つ答えは、長所と短所を説明するものです。以下のwhuberのコメントは、最後の段落の要求が広すぎることを示しています。代わりに、主なアプローチのリストを、おそらくそれぞれの非常に簡単な説明とともに、良い答えとして受け入れます。条件が決まったら、自分の詳細を掘り下げることができます。

9 regression multivariate-analysis model-selection multiple-regression

1

ベイジアン情報基準における離散またはバイナリパラメータの説明

BICは、パラメーターの数に基づいてペナルティを課します。一部のパラメーターが何らかのバイナリインジケーター変数である場合はどうなりますか？これらは完全なパラメーターとしてカウントされますか？しかし、バイナリパラメータを値を取る1つの離散変数に組み合わせることができます。これらはパラメータとしてカウントされるのか、1つのパラメータとしてカウントされるのか？{ 0 、1 、。。。、2 m − 1 } mメートルmm{ 0 、1 、。。。、2メートル− 1 }{0,1,...,2m−1}\{0,1,...,2^m-1\}メートルmm

9 bayesian model-selection bic parameterization

2

LARSによって検出されたモデルが、徹底的な検索によって検出されたモデルと最も異なると予想される設定はどれですか。

もう少し情報; 仮定事前に、選択する変数の数、およびLARSプロシージャで複雑さのペナルティを設定していることがわかります計算コストは問題ではありません（変数の総数は少なく、たとえば50です）。すべての変数（y、x）が連続的であること。 LARSモデル（つまり、LARSフィットで非ゼロ係数をもつ変数のOLSフィット）は、同じ数の係数を持つモデルと最も異なりますが、徹底的な検索（la regsubsets（））によって見つかりますか？編集：50の変数と250の観測値を使用して、標準のガウスから抽出された実際の係数を使用します。選択した変数の2つのセットの違いはわずかなので、これらの設定は明らかに良くありません。これは本当に、ほとんどの違いを得るにはどのタイプのデータ構成をシミュレートする必要があるのかという問題です。

9 regression model-selection

2

データのROC曲線を計算する

そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線（FPR対TPR OR FAR対FRR）を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

3

線形回帰のための予測子の最良のサブセットの計算

適切な予測子を使用する多変量線形回帰で予測子を選択するために、サブセットをすべて明示的にテストせずに予測子の「最適な」サブセットを見つける方法はありますか？「Applied Survival Analysis」では、Hosmer＆LemeshowがKukの方法を参照していますが、元の論文が見つかりません。誰もがこの方法、またはもっと良いことに、より現代的な技術を説明できますか？正規分布エラーが想定されます。2 pppp2p2p2^p

9 modeling regression multivariable model-selection feature-selection

1

時系列モデルの選択：AICとサンプル外のSSEおよびそれらの同等性

AICは、時系列予測のモデルを比較する基準として頻繁に推奨されます。たとえば、動的回帰モデルのコンテキストでこれを参照してください。最終モデルのAICを計算でき、この値を使用して最適な予測子を決定できます。つまり、考慮すべき予測子のすべてのサブセットと、AICc値が最も低いモデルを選択するために、この手順を繰り返す必要があります。サンプル外のパフォーマンスに基づいてモデルを比較してみませんか？（たとえば、サンプル外予測でSSEが最も低いモデルを選択します）。私は時系列予測に関するいくつかの教科書とウェブサイトを読んでいて、この議論を見つけていません。私が得た最も近いものは、AICの事実と誤謬に関するこのブログエントリでした。 AICは実際には「サンプル内」の指標ではありません。はい、トレーニングデータを使用して計算されます。しかし、漸近的に、AICを最小化することは、断面データの1つを残した交差検証MSEを最小化することと同等であり、時系列モデルのサンプル外の1ステップ予測MSEを最小化することと同等です。この特性により、予測用のモデルの選択に使用するための魅力的な基準になります。私が働いていた例（ここではプロットを投稿できませんでした。このサイトではもっと評判が必要です）で両方のアプローチを試しましたが、ほとんどの場合、AICとサンプル外のSSEは同じ結果になりません結果。私が使用した手順は次のとおりです。トレーニングサンプルとテストサンプルのデータを分割しました（任意の時点で、以下の質問について）トレーニングサンプルを使用して、競合するモデル（外部リグレッサを含むARIMA、ARIMAパラメータとリグレッサを変更）を推定しました（最初の230期間。すべてのモデルの観測数は同じなので、AICは同等です）。次に、テストサンプルと同じ期間（期間231〜260）のシリーズを予測しました。 SSE=∑260t=231(ytˆ−yt)2SSE=∑t=231260(yt^−yt)2SSE=\sum_{t=231}^{260}(\widehat{y_t}-y_t)^2ytyty_tytˆyt^\widehat{y_t} AIC（トレーニングデータを使用して計算）で示されたモデルを、サンプル外のSSEが最も低いモデルと比較しました。ほとんどの場合、選択されたモデルは異なります（少なくとも視覚的には、SSEによって選択されたモデルはパフォーマンスが向上します）。誰かがこの背後で何が起こっているのか説明してくれるなら、とても感謝しています。私は明らかにこれの専門家ではありません。ちょっと教えようとしているだけなので、読んでいる教科書で大切なことを見落としてしまったら失礼します。最後に、トレーニングおよびテストサンプルのデータを時系列に分割することに関する質問。断面データに対して同じ手順を使用することとは根本的に異なるものがあるように私には思えます。断面データの場合、データセット全体から2つのランダムサンプルを取得できます。時系列では、これはあまり意味がありません。したがって、シリーズをトレーニングサンプルとテストサンプルに分割するには、任意のポイントを取る必要があります。問題は、通常、最良のモデルは任意のポイントごとに異なるということです。おそらくそれが、このアプローチが頻繁に使用されていないように思われる理由です。これがモデル選択にAICが推奨される理由ですか？（「漸近的に、AICを最小化することは...時系列モデルのサンプル外の1ステップ予測MSEを最小化することと同等です」。）

9 time-series cross-validation model-selection arima aic

1

モデルの構築：意味のあるgamモデルを構築する方法は？（一般化された加法モデル）

ギャムの解釈と構成に関してさまざまな質問があることを確認しました。これは、非統計家が対処するのが難しいことを示しているようです。残念ながら、私が読んだスレッドやチュートリアルのどれからも、意味のあるモデルを構築する方法を明確に理解できませんでした。現在、ミツバチのコロニーのパフォーマンスに対する有機農業の影響を研究しています。それにより、半径500mでの有機農業の割合（bio.percent_b500）のような景観特性を、蜂蜜保護区などのコロニー発達パラメータに関連付けようとします。最初に、基本的なgamモデル（model0）を構築しました。蜂の巣の蜂蜜の量は1年の間に非線形に変化するため、説明変数として年の週のみを使用します。 library("gam") library("mgcv") model0 <- gam(honey.mean ~ s(week), data= my.data.frame) summary(model0) plot(model0) 次に、有機農業の割合を含むスムーズな用語を含めようとしました。しかし、これは失敗しました。なぜなら、コロニーの85％以上が半径500mに有機的なフィールドを持っていなかったからでしょう。 model1 <- gam(honey.mean ~ s(week) + s(bio.percent_b500),data = my.data.frame) # Error in smooth.construct.tp.smooth.spec(object, dk$data, dk$knots) : # A term has fewer unique covariate combinations than specified maximum # degrees of freedom model2 = gam(honey.mean ~ s(week,bio.percent_b500) …

9 r model-selection gam

2

「段階的モデル選択」とは正確には何ですか？

ステップワイズモデル選択のメリットについてはすでに説明しましたが、「ステップワイズモデル選択」または「ステップワイズ回帰」が正確に何であるかは、はっきりしなくなりました。私はそれを理解したと思ったが、もう確かではない。私の理解では、これらの2つの用語は同義語であり（少なくとも回帰のコンテキストでは）、データが与えられた場合、「最適」または「最良」のモデルにおける予測変数の最適なセットの選択を指します。（ここにWikipediaのページがあり、ここに役立つと思われる別の概要があります。）以前のいくつかのスレッド（例：ここでは自動モデル選択のアルゴリズム）に基づいて、段階的なモデル選択は主要な罪と見なされているようです。それでも、それは、尊敬されている統計学者と思われるものを含め、常に使用されているようです。または、用語を混同していますか？私の主な質問は：「段階的モデル選択」または「段階的回帰」とは、次のことを意味します。A）尤度比検定などの逐次仮説検定を行うか、p値を調べるか。（ここに関連する投稿があります：段階的な選択を実行した後にp値が誤解を招くのはなぜですか？）これはそれが意味することであり、なぜ悪いのですか？または B）AIC（または類似の情報量基準）に基づく選択も同様に悪いと考えていますか？自動モデル選択のアルゴリズムの回答から、これも批判されているようです。一方、ウィッティンガム等。（2006; pdf）1 情報理論（IT）アプローチに基づく変数選択は段階的選択とは異なることを示唆しているようです（有効なアプローチのようです）...？そして、これが私のすべての混乱の原因です。フォローアップするために、AICベースの選択が「段階的」に該当せず、不適切であると見なされる場合、追加の質問を次に示します。このアプローチが間違っている場合、なぜそれが教科書や大学のコースなどで教えられているのですか？それはすべて間違っていますか？モデルに残す必要がある変数を選択するための適切な代替手段は何ですか？相互検証とトレーニングテストデータセット、およびLASSOを使用するための推奨事項を見つけました。考えられるすべての変数を無差別にモデルに投入し、段階的な選択を行うことには問題があることに誰もが同意できると思います。もちろん、いくつかの健全な判断は、最初に何が起こるかを導くべきです。しかし、いくつかの（たとえば生物学的）知識に基づいて、可能な限られた数の予測変数から始めて、これらすべての予測変数が私たちの応答を説明しているとしたらどうでしょうか。このモデル選択のアプローチにはまだ欠陥がありますか？また、異なるモデル間のAIC値が非常に類似している場合（およびそのような場合にマルチモデル推論が適用される場合）は、「最良の」モデルの選択が適切でない場合があることを認めます。しかし、AICベースの段階的選択を使用するという根本的な問題は依然として問題ですか？どの変数が応答をどのように説明しているように見えるのかを調べている場合、「すべてのモデルが間違っているが、一部は有用である」ことがわかっているため、なぜこのアプローチが間違っているのでしょうか。 1. Whittingham、MJ、Stephens、PA、Bradbury、RB、およびFreckleton、RP（2006）。なぜ生態学と行動でまだ段階的モデリングを使用するのですか？Journal of Animal Ecology、75、pp。1182〜1189。

8 multiple-regression model-selection aic stepwise-regression

2

BICが有用でAICが役に立たない状況はありますか？

以下のためのWikipediaのエントリでは赤池の情報量基準、我々は下の読みBICとの比較（ベイズ情報量基準）という ... AIC / AICcにはBICよりも理論上の利点があります... AIC / AICcは情報の原則から導き出されます。BICはそうではありません... BICには1 / R（Rは候補モデルの数）の事前確率があります。これは「賢明ではない」... AICcはBICよりも実用的/パフォーマンス上の利点がある傾向があります... AICは漸近的です最適... BICは漸近的に最適ではありません... AICが最適に収束する速度は...可能な限り最高です。 AIC トークセクションでは、BICセクションとの比較の偏った表示について多くのコメントがあります。イライラしたある寄稿者は、記事全体が「タバコのコマーシャルのように読める」と抗議しました。他の情報源、たとえばこの論文の付録では、AICのクレームのテノールがより現実的に見えます。したがって、コミュニティへのサービスとして、以下をお願いします。 Q：BICが有効でAICが役に立たない状況はありますか？

8 model-selection aic prior information-theory bic

4

回帰モデルの選択

2つの変数を使用して単純な線形最小二乗回帰を行うための適切なモデルを、どのようにして客観的に（「アルゴリズム的に」読み取る）選択できますか？たとえば、データが2次傾向を示しているように見え、データに非常によく適合する放物線が生成されたとします。これを回帰にすることをどのように正当化しますか？または、より良いモデルが存在する可能性を排除するにはどうすればよいですか？私が本当に心配しているのはこれです。データセット（点の補間）に完全に適合するまで、多項式の項を追加し続けるだけで、エラーはまったく発生しません。しかし、「モデル」が実際に適切であると考える理由がないため、これは予測または外挿に関しては役に立たないでしょう。では、正確さと直感的な魅力のニーズのバランスをどのように取るのでしょうか？（また、これが以前に尋ねられたことがある場合は、私に警告してください。そうであったと思いますが、何も見つかりませんでした。）

8 regression forecasting model-selection prediction

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

3

モデルの選択、特徴の選択、および公開のための分類パフォーマンスメトリックの選択

私は小さなアンバランスデータセット（70ポジティブ、30ネガティブ）を使用しており、BAC（バランス精度）とAUC（曲線の下の面積）を使用してSVMパラメーターのモデル選択をいじっています。libSVMのCパラメーターにさまざまなクラスの重みを使用して、ここでのアドバイス（不均衡データに対する決定木のトレーニング）に従って不均衡データを相殺しました。 k分割交差検証エラーは、パフォーマンス測定のタイプに非常に敏感であるようです。トレーニングと検証のセットがランダムに選択されるため、それ自体にもエラーがあります。たとえば、ランダムシードを変えてBACを2回繰り返すと、異なるエラーが発生し、その後、最適パラメーターの値も異なります。繰り返しBACスコアを平均化する場合、1000回の平均では、10000回の平均とは異なる最適パラメーター値が得られます。さらに、フォールドの数を変更すると、さまざまな最適パラメーター値が得られます。相互検証の精度指標は、楽観的になりすぎる場合があります。通常、2倍の相互検証を超えると、100％の精度が得られます。また、サンプルサイズが小さいため、エラー率は離散化されます。多くの場合、モデルを選択すると、すべてまたはほとんどのパラメーター値で同じエラー率が得られます。レポートを作成するとき、分類が「良い」または「許容できる」ことをどのように知ることができますか？現場では、一般的に受け入れられている適合度やp値のしきい値のようなものはないようです。データに繰り返し追加しているので、いつ停止するかを知りたいのですが、モデルが大幅に改善しない場合の良いNは何ですか。上記の問題を考えると、AUCはパフォーマンスの指標としては不十分であると説明されていますが（たとえば、ここ、またはここを参照）、精度を簡単に比較することはできないようです。これらの3つの問題のいずれかに取り組む方法に関するアドバイスはありますか？

8 svm cross-validation model-selection auc

2

トレーニングおよび検証データのパフォーマンスは良いが、テストデータのパフォーマンスは非常に悪い

5-6kの変数で回帰問題があります。データを重複しない3つのセット（トレーニング、検証、テスト）に分割します。私はトレーニングセットのみを使用してトレーニングを行い、モデルごとに異なる200変数のセットを選択することで、多くの異なる線形回帰モデルを生成します（このようなサブセットを約100k試します）。モデルにとしてスコアを付け。この基準を使用して、最終的にモデルを選択します。選択したモデルは、トレーニングデータと検証データで非常に類似したR ^ 2を持っていることがわかります。ただし、このデータをテストデータで試した場合、R ^ 2ははるかに低くなります。だから私は、トレーニングと検証データの両方に何らかの形で過剰適合しているようです。より堅牢なモデルを取得するにはどうすればよいですか？分（R2訓練データ、R2検証データ）min(Rtraining data2,Rvalidation data2)\min(R^2_{\text{training data}}, R^2_{\text{validation data}})R2R2R^2R2R2R^2 トレーニングデータのサイズを増やしてみましたが、効果がありませんでした。おそらく、各サブセットのサイズを縮小することを考えています。正則化を使用してみました。ただし、投げ縄または弾性ネットを使用して取得したモデルは、サブセット選択アプローチを実行して取得したモデルと比較して、トレーニングセットと検証セットのR ^ 2がはるかに低くなっR2R2R^2ています。したがって、これらのモデルは考慮しません。モデルAがトレーニングセットと検証セットの両方でモデルBよりも優れている場合、モデルAはモデルBよりも明らかに優れていると想定しているためです。これに同意しません。関連して、R2R2R^2は私のモデルを選択するための悪い基準だと思いますか？

8 regression cross-validation model-selection r-squared overfitting

1

GPMLでの完全なベイズハイパーパラメーターの選択

周辺尤度（2）を最大化する代わりに、GPMLコードを使用して、ハイパーパラメーター（たとえば、共分散スケール）の近似完全ベイズ（1）選択を実行することは可能ですか？MCMCメソッドを使用して事前にハイパーパラメーターを含む積分を解くと、オーバーフィッティングを処理するときにより良い結果が得られると思います。私の知る限りでは、GPMLフレームワークにはこれらの計算は含まれていませんが、おそらく他のサードパーティのコードがあります。（1）秒 5.2、Ch。機械学習のためのガウス過程における5、Rasmussen＆Williams、2006 （2）GPMLドキュメントの「回帰」セクション

8 bayesian model-selection gaussian-process hyperparameter

1

Leave-one-outクロス検証：一般化パフォーマンスの比較的公平な推定？

私は、リーブワンアウト相互検証が比較的「真の一般化パフォーマンスの偏りのない推定」を提供することを（たとえば、ここで）読んだことがあり、これはリーブワンアウトCVの有利な特性であることを示しています。ただし、これが去りきりのCVの特性からどのようになるかはわかりません。他と比較すると、この推定量のバイアスが低いのはなぜですか？更新：私はトピックを調査し続けていますが、この推定器は1つのインスタンス以外のすべてのデータを使用するため、たとえばK分割検証よりも悲観的ではないという事実に関係していると思いますが、数学を読むのは素晴らしいでしょうこれの派生。

8 cross-validation model-selection bias

タグ付けされた質問 「model-selection」

タグ付けされた質問「model-selection」