統計とビッグデータ model-selection

1

ベイズ因子を使用したモデル比較について質問があります。多くの場合、統計学者は不適切な事前分布（たとえば、一部のジェフリーズ事前分布と参照事前分布）を使用したベイジアンアプローチの使用に関心を持っています。私の質問は、モデルパラメーターの事後分布が明確に定義されている場合、不適切な事前分布を使用してベイズ因子を使用するモデルを比較することは有効ですか？簡単な例として、正規モデルとロジスティックモデルをジェフリーズ事前分布と比較することを検討してください。

10 bayesian model-selection prior

1

追加の入れ子構造を持つ反復測定データに対してRで線形混合モデルを指定することに関する質問

データ構造 > str(data) 'data.frame': 6138 obs. of 10 variables: $ RT : int 484 391 422 516 563 531 406 500 516 578 ... $ ASCORE : num 5.1 4 3.8 2.6 2.7 6.5 4.9 2.9 2.6 7.2 ... $ HSCORE : num 6 2.1 7.9 1 6.9 8.9 8.2 …

10 r mixed-model repeated-measures model-selection lme4-nlme

2

相対比較だけでなく絶対比較に使用できるモデルフィット統計（AICやBICなど）はありますか？

私はこの文献にあまり詳しくないので、これが明白な質問である場合はご容赦ください。 AICとBICは可能性を最大化することに依存しているため、特定のデータセットに適合させようとする一連のモデル間の相対比較を行う場合にのみ使用できるようです。私の理解によると、データセット1でモデルAのAICを計算し、データセット2でモデルBのAICを計算してから、2つのAIC値を比較してそれを判断することは意味がありません（たとえば）モデルAは、モデルBがデータセット2よりもデータセット1に適しています。または、おそらく私は誤っており、それは妥当なことです。私にお知らせください。私の質問はこれです：単なる相対比較の代わりに絶対に使用できるモデル適合統計が存在しますか？線形モデルの場合、ようなものが機能します。定義された範囲があり、「良い」値とは何かに関する特定のアイデアを規律しています。もっと一般的なものを探しているので、ここから専門家にpingを送信することから始められると思いました。誰かがこのようなことを以前に考えたことがあると思いますが、Google Scholarで生産的な検索を行うための適切な用語がよくわかりません。R2R2R^2 任意の助けいただければ幸いです。

10 model-selection aic bic

3

一般化線形混合モデル：モデルの選択

この質問/トピックは同僚との話し合いで出てきたものであり、私はこれについていくつかの意見を探していました：私はランダム効果ロジスティック回帰、より正確にはランダム切片ロジスティック回帰を使用していくつかのデータをモデル化しています。固定効果については、9つの変数があり、これらが考慮に入れられます。ある種のモデル選択を行って、重要な変数を見つけ、「最良の」モデル（主効果のみ）を与えたいと思います。私の最初のアイデアは、AICを使用してさまざまなモデルを比較することでしたが、9つの変数を使用して、2 ^ 9 = 512のさまざまなモデル（キーワード：データ浚渫）を比較するのはそれほど面白くありませんでした。これについて同僚と話し合ったところ、GLMMで段階的（またはフォワード）モデル選択を使用することについて読んだことを覚えていると彼は話しました。しかし、p値（たとえば、GLMMの尤度比検定に基づく）を使用する代わりに、AICを出入基準として使用する必要があります。このアイデアは非常に興味深いものでしたが、これについてさらに説明する参考文献は見つかりませんでした。同僚は彼がどこでそれを読んだか覚えていませんでした。多くの書籍では、AICを使用してモデルを比較することを推奨していますが、これを段階的または順方向のモデル選択手順と一緒に使用することについての議論は見つかりませんでした。だから私は基本的に2つの質問があります：エントリ/終了基準として段階的モデル選択手順でAICを使用することに問題はありますか？はいの場合、代替手段は何でしょうか？上記の手順について説明している参考資料はありますか（最終報告の参考資料としても）？ベスト、エミリア

10 mixed-model model-selection aic glmm stepwise-regression

2

LASSOを使用して変数を選択し、次にLogitを使用する

これで統計的推論が混乱することはわかっていますが、私は本当に正確なモデルにできるだけ近づくことにのみ関心があります。私は二分予測変数の大きなセットで、二分結果変数を持っています。LASSOを使用してモデルに含める必要のある変数を選択し、選択した変数をLogit回帰に入力したいと考えています。このアプローチの実用性に関して私が見落としていることはありますか？

10 model-selection lasso logit

3

ベイジアンモデルの選択と信頼できる区間

3つの変数を含むデータセットがあり、すべての変数は量的変数です。それを、x 1、x 2と呼びましょう。私はMCMCを介してベイジアンの視点で回帰モデルをフィッティングしていますyyyx1x1x_1x2x2x_2rjags 私は探索的分析を行い、散布図は、2次項を使用する必要があることを示唆しています。それから私は2つのモデルを取り付けましたy×x2y×x2y\times x_2 （1）y=β0+β1∗x1+β2∗x2y=β0+β1∗x1+β2∗x2y=\beta_0+\beta_1*x_1+\beta_2*x_2 （2）y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x21+β5∗x22y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x12+β5∗x22y=\beta_0+\beta_1*x1+\beta_2*x_2+\beta_3*x_1x_2+\beta_4*x_1^2+\beta_5*x_2^2 モデル1では、各パラメーターの効果サイズは小さくなく、95％の信頼できる間隔には値が含まれていません。000 モデル2のパラメータの効果の大きさは、及びβ 4が小さいものであり、全てのパラメータの信頼区間のそれぞれに含まれる0。β3β3\beta_3β4β4\beta_4000 信頼できる間隔にが含まれているという事実は、パラメーターが重要ではないと言うのに十分ですか？000 次に、次のモデルを調整しました（3）y=β0+β1∗x1+β2∗x2+β3∗x22y=β0+β1∗x1+β2∗x2+β3∗x22y=\beta_0+\beta_1*x_1+\beta_2*x_2+\beta_3*x^2_2 β1β1\beta_1000 ベイジアン統計で変数選択を行う正しい方法はどれですか？ log(σ)=−δδXlog(σ)=−δδXlog(\sigma)=-\pmb{\delta}Xδδδδ\pmb{\delta}δδδδ\pmb{\delta} βjβj\beta_jδjδj\delta_j ガウスモデルの推定値は次のとおりです。 Mean SD Naive SE Time-series SE B[1] -1.17767 0.07112 0.0007497 0.0007498 B[2] -0.15624 0.03916 0.0004128 0.0004249 B[3] 0.15600 0.05500 0.0005797 0.0005889 B[4] 0.07682 0.04720 0.0004975 0.0005209 delta[1] -3.42286 0.32934 0.0034715 0.0034712 delta[2] …

9 bayesian feature-selection model-selection model credible-interval

1

相互に排他的でないカテゴリを分類できる深層学習モデル

例：仕事の説明に「英国のJavaシニアエンジニア」という文があります。私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい：English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか？「編集」：従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます例：3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか？それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

2

時系列モデルで適切な遅延順序を選択するために、情報基準（調整されたはない）が使用されるのはなぜですか？

ARMA-GARCHのような時系列モデルでは、モデルの適切なラグまたは順序を選択するために、AIC、BIC、SICなどのさまざまな情報基準が使用されます。私の質問は非常に単純です、なぜ適切なモデルを選択するために調整されたを使用しないのですか？調整後の値が高くなるモデルを選択できます。調整された両方のために前者PENALIZEモデルにおける説明変数の追加数の情報量基準PENALIZE以降PENALIZE尤度値。 R2R2R^2R2R2R^2R2R2R^2R2R2R^2

9 regression time-series model-selection aic bic

4

AIC値の解釈

私がロジスティックモデルで見た典型的なAICの値は、数千、少なくとも数百です。例：http: //www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/では、AICは727.39です。 AICはモデルを比較するためだけに使用するべきだと常に言われていますが、特定のAIC値の意味を理解したいと思いました。式に従って、 A IC= − 2 ログ（L ）+ 2 KAIC=−2log⁡(L)+2KAIC= -2 \log(L)+ 2K ここで、L = MLE推定器からの最尤、Kはパラメーターの数上記の例では、K = 8 だから、単純な算術で： 727.9 = -2*log(L)+ 2*8 Hence, 711.39 = -2*log(L) Hence, log (L)= 711.39/-2 = -355.695 Hence, L = exp(-355.695) = 3.3391E-155 したがって、私の理解が正しければ、これはMLEによって識別された関数がデータに適合する可能性です。これは本当に本当に低いようです。ここで何が欠けていますか？

9 regression model-selection aic accuracy

1

k-fold CVによるオリジナル（？）モデルの選択

k分割CVを使用して回帰モデルから選択する場合、通常、モデルごとにCVエラーを標準エラーSEと一緒に計算し、CVエラーが最も低いモデルの1 SE内で最も単純なモデルを選択します（1標準エラールール。たとえば、こちらを参照してください）。ただし、最近、この方法で変動性を過大評価していること、および2つのモデルAとBの間で選択する特定のケースでは、実際には別の方法で進める必要があると言われました。長さ各フォールドについて、2つのモデル予測間の点ごとの差を計算します。、フォールドの平均二乗差KKKNKNKN_KMSDK=∑NKi=1(y^Ai−y^Bi)2NK−−−−−−−−−−−−−−−√MSDK=∑i=1NK(y^Ai−y^Bi)2NKMSD_K=\sqrt{\frac{\sum_{i=1}^{N_K}\left(\hat{y}_{Ai}-\hat{y}_{Bi}\right)^2}{N_K}} 通常どおり、フォールド全体の平均を使用し、このCV差エラーを（その標準エラーと共に）汎化エラーの推定値として使用します。MSDKMSDKMSD_K 質問：これはあなたにとって意味がありますか？CVエラーを汎化エラーの推定値として使用することには、理論的な理由があることはわかっています（これらの理由はわかりませんが、存在することはわかっています！）。この「差」CVエラーの使用の背後に理論的な理由があるかどうかはわかりません。これを3つ以上のモデルの比較に一般化できるかどうかはわかりません。モデルのすべてのペアの違いを計算するのは危険に思われます（複数の比較？）：3つ以上のモデルがある場合はどうしますか？編集：私の数式は完全に間違っています、正しいメトリックがここに記載されており、はるかに複雑です。まあ、盲目的に式を適用する前にここで私が尋ねたのは嬉しいです！@Bayが彼の明快な答えで理解を助けてくれたことに感謝します。説明されている正しい測定は非常に実験的なものなので、信頼できる主力のCVエラーに固執します。

9 regression cross-validation model-selection

1

適切なスコアリングルールが分類設定における一般化のより良い推定になるのはいつですか？

分類問題を解決するための一般的なアプローチは、候補モデルのクラスを識別し、交差検証などの手順を使用してモデル選択を実行することです。通常、最も正確なモデル、またはなどの問題固有の情報をエンコードする関連関数を選択し。FβFβ\text{F}_\beta 最終目標が正確な分類子を作成することであると仮定すると（正確性の定義は再び問題に依存します）、どのような状況で、正確さ、精度、再現率などの不適切なものではなく、適切なスコアリングルールを使用してモデル選択を実行する方が良いでしょう。、など？さらに、モデルの複雑さの問題を無視して、すべてのモデルを等しく可能性があると見なすアプリオリと仮定します。以前は私は決して言わなかっただろう。正式な意味では、分類は回帰[1]、[2]よりも簡単な問題であり、前者の方が後者よりも厳しい境界を導出できる（）。さらに、確率を正確に一致させようとすると、誤った決定の境界や過剰適合が発生する場合があります。しかし、ここでの会話とそのような問題に関するコミュニティの投票パターンに基づいて、私はこの見解に疑問を投げかけています。∗∗* デブロイ、リュック。パターン認識の確率論。巻。31.スプリンガー、1996年、セクション6.7 カーンズ、マイケルJ.、ロバートE.シャピレ。確率論的概念の効率的な配布フリー学習。コンピュータサイエンスの基礎、1990年。IEEE、1990年。 (∗)(∗)(*)このステートメントは少しずさんになるかもしれません。私は、特にフォームの所与の標識されたデータを意味するとと、条件付き確率を正確に推定するよりも、決定境界を推定する方が簡単のようです。S={(x1,y1),…,(xn,yn)}S={(x1,y1),…,(xn,yn)}S = \{(x_1, y_1), \ldots, (x_n, y_n)\}xi∈Xxi∈Xx_i \in \mathcal{X}yi∈{1,…,K}yi∈{1,…,K}y_i \in \{1, \ldots, K\}

9 machine-learning model-selection error scoring-rules

1

モデル選択におけるAICとp値の同等性

この質問の回答に対するコメントで、モデル選択でAICを使用することは、0.154のp値を使用することと同等であると述べられました。私はそれをRで試しました。「後方」サブセット選択アルゴリズムを使用して、完全な仕様から変数をスローしました。1つ目は、p値が最も高い変数を順次スローし、すべてのp値が0.154を下回ったときに停止します。次に、変数を削除して、改善が見られなくなるまで削除すると、AICが最も低くなります。 0.154のp値をしきい値として使用しても、ほぼ同じ結果になることがわかりました。これは本当ですか？もしそうなら、誰もが理由を知っていますか、それを説明する情報源を参照できますか？ PS登録したばかりなので、コメントを書いたり、コメントを書いたりすることができませんでした。これはモデルの選択や推論などに最適なアプローチではないことを認識しています。

9 model-selection p-value aic

2

バイナリ分類問題に使用するSVMカーネルはどれですか？

ベクターマシンのサポートについては、初心者です。特定の問題に最適なカーネル（線形、多項式など）を示すガイドラインはありますか？私の場合、特定の情報が含まれているかどうかに応じてWebページを分類する必要があります。つまり、バイナリ分類の問題があります。一般的に、どのカーネルがこのタスクに最も適していると言えますか？または、特定のデータセットでそれらのいくつかを試して、最適なデータセットを見つける必要がありますか？ちなみに、私はlibSVMライブラリを利用するPythonライブラリscikit-learnを使用しています。

9 classification svm model-selection libsvm kernel-trick

2

regsubsetの計算、解釈、およびモデル選択手順に関する一般的な質問

を使用してモデルを選択したいregsubsets()。私はolympiadatenと呼ばれるデータフレームを持っています（アップロードされたデータ：http : //www.sendspace.com/file/8e27d0）。最初にこのデータフレームを添付してから分析を開始します。私のコードは次のとおりです。 attach(olympiadaten) library(leaps) a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + Schoolyears + ExpMilitary + Mortality + PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2) summary(a) plot(a,scale="adjr2") summary(lm(Gesamt~ExpHealth)) プロットのスクリーンショット：ここでの問題は、「手動で」最適なモデルをもう一度フィットさせて確認したいのですが、調整されたRの2乗の値がregsubsetsの出力と同じではないということです。これは、他のモデルにも当てはまります。たとえば、グラフィックで最も単純なモデルを実行するとします。 summary(lm(Gesamt~ExpHealth)) 図は、約0.14の調整済みR二乗が必要であることを示していますが、出力を見ると、0.06435の値を取得しています。これは次の出力ですsummary(lm(Gesamt~ExpHealth))： Call: lm(formula = Gesamt ~ ExpHealth) Residuals: Min 1Q Median 3Q Max …

9 r multiple-regression model-selection

4

ロジスティック回帰におけるモデルの選択とモデルのパフォーマンス

ロジスティック回帰におけるモデルの選択とモデルのパフォーマンスについて質問があります。3つの異なる仮説に基づく3つのモデルがあります。最初の2つのモデル（zとxという名前を付けます）は、各モデルに1つの説明変数のみを持ち、3番目のモデル（wという名前を付けます）はより複雑です。私はwモデルの変数選択にAICを使用し、次に従属変数を最もよく説明する3つのモデルのどれを比較するのにAICを使用しています。wモデルのAICが最も低いことがわかりました。モデルの予測能力についてのアイデアを得るために、そのモデルでいくつかのパフォーマンス統計を実行したいと考えています。私が知っているのは、このモデルは他の2つよりも優れているということですが、それほど優れているわけではありません。すべてのデータを使用してモデルを学習したので（3つのモデルをすべて比較できるようにするため）、モデルのパフォーマンスをどのようにすればよいですか？私が集めたものから、AICを使用してモデル選択から取得した最終モデルでk分割交差検証を実行することはできませんが、すべての説明変数を含めて最初から開始する必要がありますか？これがAICで選択した最後のモデルだと思いますが、そのパフォーマンスを知りたいのですが、モデルにバイアスがかかる可能性があるため、すべてのデータをトレーニングしたことを実感してください。したがって、すべてのフォールドのすべての説明変数から最初から開始する必要がある場合、いくつかのフォールドに対して異なる最終モデルを取得します。最良の予測力を提供するフォールドからモデルを選択し、それを完全なデータセットに適用して比較できますか？他の2つのモデル（zおよびx）とのAIC？またはそれはどのように機能しますか？私の質問の2番目の部分は、過剰パラメーター化に関する基本的な質問です。私には156のデータポイントがあり、52は1、残りは0です。wモデルには14の説明変数を選択できますが、パラメーター化が多すぎるため、すべてを含めることはできません。観測値が最も少ない従属変数のグループの10％のみを使用する必要があることを読みました。私にとっては5だけでしょう。生態学の質問に答えようとしていますが、単純に生態学に基づいて従属を最もよく説明していると思う開始変数を選択しても大丈夫ですか？または、開始説明変数をどのように選択しますか？一部の変数を完全に除外するのは適切ではないと感じています。だから私は本当に3つの質問があります：交差検証を使用して完全なデータセットでトレーニングされたモデルでパフォーマンスをテストしても問題ありませんか？そうでない場合、交差検証を行うときに最終的なモデルをどのように選択しますか？開始パラメーターをどのように選択すれば、パラメーター化しすぎますか？私の乱雑な質問と私の無知のため申し訳ありません。同様の質問がされたことは知っていますが、それでも少し混乱しています。どんな考えや提案にも感謝します。

9 logistic model-selection cross-validation

タグ付けされた質問 「model-selection」

タグ付けされた質問「model-selection」