タグ付けされた質問 「model-selection」

モデルの選択は、あるセットのどのモデルが最もよく機能するかを判断する際の問題です。一般的な方法は次のとおりですR2、AICおよびBICの基準、テストセット、および相互検証。ある程度、特徴選択はモデル選択の副問題です。

1
モデルから項を削除した後の適切な残留自由度
この質問に関する議論、特にフランク・ハレルのコメントについて、縮小モデル(つまり、多くの説明変数がテストされ、棄却されたモデル)の分散の推定には、Yeの一般化された自由度を使用する必要があると考えています。ハレル教授は、これが最終モデル(多くの変数が拒否された)からのものよりも、元の「完全な」モデル(すべての変数を含む)の残留自由度にはるかに近いと指摘します。 質問1.縮約モデルからのすべての標準的な要約と統計に適切なアプローチを使用したい場合(ただし、一般化された自由度の完全な実装が不足している場合)、残差分散などの推定における完全なモデル? 質問2.上記が真実で、私がそれをやりたいなら、R設定と同じくらい簡単かもしれません finalModel$df.residual <- fullModel$df.residual モデル適合の演習のある時点で、finalModelとfullModelがlm()または同様の関数で作成されました。その後、summary()やconfint()などの関数が目的のdf.residualで動作するように見えますが、誰かが明らかにfinalModelオブジェクトをいじったというエラーメッセージを返します。

4
CARTを使用する際の「変数重要度」の測定/ランク付け方法 (具体的にはRの{rpart}を使用)
rpart(R内)を使用してCARTモデル(特に分類ツリー)を構築する場合、モデルに導入されたさまざまな変数の重要性を知ることはしばしば興味深いです。 したがって、私の質問は次のとおりです。CARTモデルの参加変数の変数の重要度をランク付け/測定するための一般的な尺度は 何ですか?Rを使用してこれをどのように計算できますか(たとえば、rpartパッケージを使用する場合) たとえば、ダミーコードを作成して、ソリューションを示します。この例は、変数x1とx2が「重要」であり、(ある意味では)x1がx2よりも重要であることを明確にするように構造化されています(x1はより多くのケースに適用されるため、データの構造により大きな影響を与えるため、次にx2)。 set.seed(31431) n <- 400 x1 <- rnorm(n) x2 <- rnorm(n) x3 <- rnorm(n) x4 <- rnorm(n) x5 <- rnorm(n) X <- data.frame(x1,x2,x3,x4,x5) y <- sample(letters[1:4], n, T) y <- ifelse(X[,2] < -1 , "b", y) y <- ifelse(X[,1] < 0 , "a", y) require(rpart) fit <- …

3
AICは異なるタイプのモデル間で比較できますか?
AIC(赤池の情報量基準)を使用して、Rの非線形モデルを比較しています。異なるタイプのモデルのAICを比較することは有効ですか?具体的には、glmで近似されたモデルと、glmer(lme4)で近似されたランダム効果項を持つモデルを比較しています。 そうでない場合、そのような比較を行う方法はありますか?または、アイデアは完全に無効ですか?

3
AICモデル比較の前提条件
AICモデルの比較を機能させるために満たす必要がある正確な前提条件は何ですか? このような比較をしたとき、私はこの質問に出くわしました。 > uu0 = lm(log(usili) ~ rok) > uu1 = lm(usili ~ rok) > AIC(uu0) [1] 3192.14 > AIC(uu1) [1] 14277.29 このようにしてlog、変数の変換を正当化しましたusili。しかし、たとえば従属変数が異なるときにモデルをAIC比較できるかどうかわかりませんか? 理想的な答えには、前提条件(数学的な仮定)のリストが含まれます。

4
モデルの不確実性への対処
CrossValidatedコミュニティのベイジアンがモデルの不確実性の問題をどのように見ているのか、そしてどのようにそれを処理することを好むのかと思いまして。私は2つの部分で質問を投げかけます。 モデルの不確実性に対処することは(あなたの経験/意見において)どのくらい重要ですか?機械学習コミュニティでこの問題を扱った論文を見つけていないので、なぜだろうと思っています。 モデルの不確実性を処理するための一般的なアプローチは何ですか(参照を提供する場合のボーナスポイント)?ベイジアンモデルの平均化について聞いたことがありますが、このアプローチの具体的な手法や制限についてはよく知りません。他に何があり、なぜあなたは別のものよりも1を好むのですか?

5
混合モデルで因子をランダムとして扱うことの利点は何ですか?
いくつかの理由で、モデルファクターをランダムとしてラベル付けすることの利点を受け入れるのに問題があります。私には、ほとんどすべての場合、最適な解決策はすべての要因を固定として扱うことのように見えます。 まず、固定とランダムの区別は非常にarbitrary意的です。標準的な説明では、特定の実験ユニット自体に興味がある場合は固定効果を使用し、実験ユニットによって表される母集団に興味がある場合はランダム効果を使用する必要があります。これは、データと実験デザインが同じままであっても、固定ビューとランダムビューを交互に切り替えられることを意味するため、あまり役に立ちません。また、この定義は、因子がランダムとしてラベル付けされている場合、モデルから引き出された推論は、因子が固定としてラベル付けされている場合よりも母集団により何らかの形で適用できるという幻想を促進します。最後に、ゲルマンは、固定ランダムな区別が混乱していることを示しています 定義レベルでも、固定効果とランダム効果の定義がさらに4つあるためです。 第二に、混合モデルの推定は非常に複雑です。「完全に固定された」モデルとは対照的に、p値を取得する方法はいくつかあります。 。 第三に、ランダムな要因によっていくつの暗黙的なパラメータが導入されるかという不透明な問題があります。次の例は、Burnham&Andersonのモデル選択とマルチモデル推論:実用的な情報理論的アプローチでの私の適応です。バイアスと分散のトレードオフの観点から、ランダム効果の役割は次のように説明できます。処理と主因子効果を持つ一元配置分散分析を検討してくださいは推定可能です。エラー項には分布があります。観測値の数が固定されている場合、バイアス分散のトレードオフは、が上がるにつれて低下します。我々はと言うと仮定K K - 1 N(0 、σ 2)K KKKKKKKK− 1K−1K - 1N(0 、σ2)N(0、σ2)\mathcal N(0, \sigma^2)KKKKKK主効果は分布から引き出されます。対応するモデルは、固定(オーバーフィット)バージョンとインターセプトのみを含むアンダーフィットモデルの中間の複雑さを持ちます。固定モデルの有効なパラメーターの数はN(0 、σK)N(0、σK)\mathcal N(0, \sigma_K) 1i n t e r c e p t +(K− 1 )mはI nはe ffe c t s +1σ= K+ 1。1私ntercept+(K−1)ma私neffects+1σ=K+1。1 \:\:\mathrm{intercept} + (K - 1) \:\:\mathrm{main\: effects} + …

4
これらの分析手法に関するグローバルなビジョンはありますか?
私は現在、出力が入力xにどのように関係しているかを理解するために、基本的に必要なプロジェクトに取り組んでいます。ここでの特殊性は、データ(y 、x )が一度に1つずつ与えられるため、新しい(y 、x )を受け取るたびに分析を更新することです。これは、必要なすべてのデータがあり、すべてのデータを同時に使用して計算を行う「バッチ」処理とは対照的に、「オンライン」処理と呼ばれます。yyyバツバツx(y、x )(y、バツ)(y,x)(y、x )(y、バツ)(y,x) だから、私はアイデアを探して、ついに世界は3つに分かれているという結論に達しました。 最初の部分は、統計と計量経済学の土地です。そこにいる人々は、OLS、GLS、機器変数、ARIMA、テスト、相違点の違い、PCA、その他のことをしています。この土地の大部分は線形性に支配されており、「バッチ」処理のみを行います。 2番目の部分は、機械学習の島であり、人工知能、教師あり学習と教師なし学習、ニューラルネットワーク、SVMなどの言葉です。ここでは、「バッチ」処理と「オンライン」処理の両方が行われます。 3番目の部分は、私が発見したばかりの大陸全体で、ほとんどが電気技師によって占められているようです。そこで、人々はしばしば「フィルター」という言葉をツールに追加し、Widrow-Hoffアルゴリズム、再帰最小二乗法、Wienerフィルター、Kalmanフィルターなど、まだ発見していないものを発明しました。どうやら彼らはニーズに合っているため、ほとんどが「オンライン」処理を行っているようです。 私の質問は、あなたはこれらすべてについてグローバルなビジョンを持っていますか?私は、世界のこれら3つの部分が互いにあまり話し合っていないという印象を受けています。私が間違っている?とXの関係を理解する大統一理論はありますか?その理論の基礎が定められているリソースを知っていますか?YYYバツバツX この質問が本当に理にかなっているかどうかはわかりませんが、これらすべての理論の間で少し迷っています。「これまたはそれを使用すべきか?」という質問に対する答えを想像します。「何をしたいか(およびデータ)に依存します」。しかし、これら3つの世界は同じ質問(?)に答えようとしているように感じます。したがって、これらすべてについてより高い見方を持ち、それぞれの手法を特定する理由を深く理解できるはずです。y= f(x )y=f(バツ)y=f(x)

2
トピックモデルのトピックの安定性
私は、一連の自由記述式エッセイの内容に関する情報を抽出したいプロジェクトに取り組んでいます。この特定のプロジェクトでは、148人が、大規模な実験の一環として、仮想の学生組織についてのエッセイを書きました。私の分野(社会心理学)では、これらのデータを分析する典型的な方法はエッセイを手作業でコーディングすることですが、ハンドコーディングは労働集約的であり、私にとっては少し主観的であるため、これを定量的に行いたいと思います味。 無料の応答データを定量的に分析する方法についての調査中に、トピックモデリング(またはLatent Dirichlet Allocation、またはLDA)と呼ばれるアプローチを見つけました。トピックモデリングでは、データの単語の表現(用語ドキュメントマトリックス)を使用し、単語の共起に関する情報を使用して、データの潜在的なトピックを抽出します。このアプローチは私のアプリケーションに最適のようです。 残念ながら、トピックモデリングをデータに適用すると、2つの問題が見つかりました。 トピックモデリングによって明らかにされたトピックは、解釈が難しい場合があります 別のランダムシードを使用してトピックモデルを再実行すると、トピックが劇的に変化するように見える 特に問題2は私に関係しています。したがって、2つの関連する質問があります。 解釈可能性と安定性のためにモデル適合手順を最適化するために、LDA手順でできることはありますか?個人的に、私は、最も低いパープレキシティおよび/または最高のモデル適合性を持つモデルを見つけることについてあまり気にしません-私は主にこの手順を使用して、この研究の参加者がエッセイで書いたものを理解し、特徴づけるのを助けたいです。ただし、結果がランダムシードのアーティファクトになりたくないのは確かです。 上記の質問に関連して、LDAを実行するために必要なデータ量の基準はありますか?この方法を使用した私が見たほとんどの論文は、大きなコーパスを分析します(たとえば、過去20年間のすべてのScience論文のアーカイブ)が、実験データを使用しているため、ドキュメントのコーパスははるかに小さくなります。 手を汚したい人のために、ここにエッセイデータを投稿しました。使用しているRコードを以下に貼り付けました。 require(tm) require(topicmodels) # Create a corpus from the essay c <- Corpus(DataframeSource(essays)) inspect(c) # Remove punctuation and put the words in lower case c <- tm_map(c, removePunctuation) c <- tm_map(c, tolower) # Create a DocumentTermMatrix. The stopwords are the …

3
時系列でのAIC対クロス検証:小さなサンプルの場合
時系列設定でのモデル選択に興味があります。具体的には、ラグオーダーが異なるARMAモデルのプールからARMAモデルを選択するとします。最終的な意図は予測です。 モデルの選択は次の方法で実行できます 相互検証、 情報基準の使用(AIC、BIC)、 他の方法の中で。 Rob J. Hyndmanは、時系列の相互検証を行う方法を提供します。比較的小さなサンプルの場合、クロス検証で使用されるサンプルサイズは、元のサンプルサイズと質的に異なる場合があります。たとえば、元のサンプルサイズが200の観測値である場合、最初の101の観測値を取得し、ウィンドウを102、103、...、200の観測値に拡張して100の交差検証結果を取得することにより、交差検証を開始することを考えることができます。明らかに、200回の観測に対して合理的に控えめなモデルは、100回の観測に対して大きすぎる可能性があり、そのため検証エラーは大きくなります。したがって、相互検証は、あまりにもpar約なモデルを体系的に優先する可能性があります。これは、サンプルサイズの不一致による望ましくない効果です。 相互検証の代わりに、モデル選択に情報基準を使用します。予測が重要なので、AICを使用します。AICは時系列モデルのサンプル外のワンステップ予測MSEを最小化することに漸近的に相当しますが(Rob J. Hyndmanによるこの投稿によると)、サンプルが私が気にするサイズはそれほど大きくありません... 質問:小規模/中規模サンプルの時系列相互検証よりもAICを選択する必要がありますか? 関連するいくつかの質問を見つけることができるここでは、こことここ。

2
Wilksの1938年の証明が、誤って指定されたモデルに対して機能しないのはなぜですか?
有名な1938年の論文(「複合仮説をテストするための尤度比の大標本分布」、Annals of Mathematical Statistics、9:60-62)で、サミュエルウィルクスは(対数尤度比)の漸近分布を導きました)ネストされた仮説の場合、より大きな仮説が正しく指定されているという仮定の下で。極限分布はχ 2(カイ二乗)とH - M個の自由度Hが大きい仮説とのパラメータの数であり、Mが2×LLR2×LLR2 \times LLRχ2χ2\chi^2h−mh−mh-mhhhmmmネストされた仮説の自由パラメーターの数です。ただし、仮説が誤って指定されている場合(つまり、大きな仮説がサンプリングされたデータの真の分布ではない場合)、この結果が保持されないことはよく知られています。 誰でもその理由を説明できますか?ウィルクスの証明は、わずかな修正を加えても機能するはずです。最尤推定(MLE)の漸近正規性に依存しますが、これは誤って指定されたモデルでも保持されます。唯一の違いは、制限多変量正規分布の共分散行列です。正しく指定されたモデルでは、共分散行列を逆フィッシャー情報行列で近似できますが、仕様が間違っていれば、共分散行列のサンドイッチ推定(J − 1 K J − 1)。モデルが正しく指定されると、後者はフィッシャー情報行列の逆行列になります(J = KJ−1J−1J^{-1}J−1KJ−1J−1KJ−1J^{-1} K J^{-1}J=KJ=KJ = K)。AFAICT、Wilksの証明は、MLEの多変量正規の可逆漸近共分散行列(Wilks論文の)がある限り、共分散行列の推定値がどこから来るかを気にしません。 c−1c−1c^{-1}

1
適切なスコアリングルールの選択
適切なスコアリングルールに関するほとんどのリソースでは、ログ損失、ブライアースコア、または球形スコアリングなど、さまざまなスコアリングルールに言及しています。しかし、彼らはしばしばそれらの違いについて多くのガイダンスを与えません。(別紙A:ウィキペディア。) 対数スコアを最大化するモデルを選択することは、最尤モデルを選択することに対応します。これは、対数スコアリングを使用するための良い議論のようです。ブライアースコアまたは球形スコアリング、または他のスコアリング規則について同様の正当化がありますか?なぜ誰かが対数スコアリングではなく、これらの1つを使用するのでしょうか?

3
大きな、小さな問題を扱うときのモデルの安定性
イントロ: 古典的な「大きなp、小さなnの問題」のデータセットがあります。利用可能なサンプル数n = 150で、可能な予測子の数p = 400。結果は連続変数です。 最も「重要な」記述子、つまり、結果を説明し、理論の構築を支援するのに最適な記述子を見つけたいと思います。 このトピックに関する調査の後、大きなp、小さなnの場合にLASSOとElastic Netが一般的に使用されることがわかりました。私の予測子のいくつかは非常に相関しており、重要度評価でそれらのグループを保持したいので、Elastic Netを選択しました。重要度の尺度として回帰係数の絶対値を使用できると思います(間違っている場合は修正してください。データセットは標準化されています)。 問題: サンプル数が少ないので、どのようにして安定したモデルを実現できますか? 私の現在のアプローチは、MSEスコアを平均する10倍の交差検証を使用して、データセットの90%でグリッド検索で最適なチューニングパラメーター(ラムダとアルファ)を​​見つけることです。次に、データセットの90%全体で最適なチューニングパラメーターを使用してモデルをトレーニングします。データセットの10%のホールドアウトでRの2乗を使用してモデルを評価できます(これは15サンプルのみです)。 この手順を繰り返し実行すると、Rの2乗評価に大きなばらつきが見つかりました。同様に、非ゼロの予測子の数はその係数と同様に異なります。 予測変数の重要性のより安定した評価と、最終モデルのパフォーマンスのより安定した評価を取得するにはどうすればよいですか? 手順を繰り返し実行して多くのモデルを作成してから、回帰係数を平均できますか?または、モデルの予測子の出現回数を重要度スコアとして使用する必要がありますか? 現在、40から50個の非ゼロの予測子を取得しています。安定性を高めるために、予測子の数をより厳しくペナルティにすべきですか?

2
モデル選択のための最良のアプローチベイジアンまたは交差検証?
さまざまなモデルまたは含める機能の数を選択しようとすると、2つのアプローチが考えられます。 データをトレーニングセットとテストセットに分割します。さらに良いことには、ブートストラップまたはk-fold交差検証を使用します。トレーニングセットで毎回トレーニングを行い、テストセットの誤差を計算します。テストエラーとパラメーターの数をプロットします。通常、次のようになります。 パラメーターの値を積分することにより、モデルの尤度を計算します。すなわち、を計算し、これをパラメーターの数に対してプロットします。次に、次のようなものを取得します。∫θP(D | θ )P(θ)dθ∫θP(D|θ)P(θ)dθ\int_\theta P(D|\theta)P(\theta)d \theta だから私の質問は: これらのアプローチは、この問題を解決するのに適していますか(モデルに含めるパラメーターの数を決定するか、いくつかのモデルから選択する)。 それらは同等ですか?おそらくない。特定の仮定の下で、または実際に同じ最適モデルを提供しますか? ベイジアンモデルなどで事前知識を指定するという通常の哲学的な違い以外に、各アプローチの長所と短所は何ですか?どちらを選びましたか? 更新: AICとBICの比較 に関する関連する質問も見つけました。私の方法1はAICと漸近的に等価であり、方法2はBICと漸近的に関連しているようです。しかし、BICはLeave-One-Out CVと同等であることも読んでいます。これは、LOO CVがKフォールドCVに等しい場合、トレーニングエラーの最小値とベイジアン尤度の最大値が等しいことを意味します。おそらく非常に興味深い論文「Jun Shaoによる「線形モデル選択のための漸近理論」」はこれらの問題に関連しています。


3
AICまたはp値:モデル選択のためにどれを選択しますか?
私はこのRに関してはまったく新しいのですが、どのモデルを選択すればよいかわかりません。 最も低いAICに基づいて各変数を選択して、段階的な前方回帰を行いました。どのモデルが「ベスト」かわからない3つのモデルを思いつきました。 Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09 モデル#3にはAICが最も低く(ネガティブは大丈夫だと聞いた)、p値がまだかなり低いため、モデル#3を使用する傾向があります。 Hatchling Massの予測変数として8つの変数を実行しましたが、これら3つの変数が最適な予測変数であることがわかりました。 AICが少し大きかったとしても、p値はすべて小さかったため、次の段階的なモデル2を選択しました。これが最高だと思いますか? Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222) AIC = 25.63 Model …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.