タグ付けされた質問 「overfitting」

変数間の複製可能で有益な関係の代わりにモデリングエラー(特にサンプリングエラー)を使用すると、モデルフィット統計が改善されますが、節約が削減され、説明と予測の有効性が低下します。


6
リッジ回帰は高次元()では役に立たないでしょうか?OLSはどのようにオーバーフィットに失敗しますか?
予測子とサンプルサイズ古き良き回帰問題を考えます。通常の知恵は、OLS推定器がオーバーフィットし、一般的にリッジ回帰推定器よりも優れていることです:クロス検証を使用して最適な正則化パラメーターを見つけるのが標準です。ここでは、10倍のCVを使用します。清澄化更新:とき、Iは"最小ノルムOLSの推定"を理解することによって与えられる"OLS推定量"によってpppβ = (X ⊤ X + λ I )- 1 X ⊤ Y 。λ N &lt; P β OLS = (X ⊤ X )+ X ⊤ Y = X + Y 。nnnβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.λλ\lambdan&lt;pn&lt;pn1000yyyp=50&lt;np=50&lt;np=50npppp=1000p=1000p=1000λ→0λ→0\lambda\to 0は、最適なリッジ回帰と同等の性能を発揮します。λλ\lambda それはどのように可能であり、私のデータセットについて何と言っていますか?明白な何かを見逃していますか、それとも本当に直観に反していますか?両方がよりも大きいとすると、と間に質的な違いはありますか?p = 1000 np=100p=100p=100p=1000p=1000p=1000nnn 最小ノルムOLSソリューションはどのような条件下でオーバーフィットしませんか?n&lt;pn&lt;pn<p 更新:コメントに不信感があったため、を使用した再現可能な例を次に示しglmnetます。私はPythonを使用しますが、Rユーザーはコードを簡単に変更できます。 %matplotlib notebook import numpy …

6
ランダムフォレスト-過剰適合の処理方法
私はコンピューターサイエンスのバックグラウンドを持っていますが、インターネット上の問題を解決してデータサイエンスを学ぼうとしています。 私はこの数週間、この問題に取り組んでいます(約900行と10個の機能)。最初はロジスティック回帰を使用していましたが、ランダムフォレストに切り替えました。トレーニングデータでランダムフォレストモデルを実行すると、aucの値が非常に高くなります(&gt; 99%)。ただし、テストデータで同じモデルを実行すると、結果はそれほど良くありません(精度約77%)。これにより、トレーニングデータを過剰に適合していると信じることになります。 ランダムフォレストでの過剰適合の防止に関するベストプラクティスは何ですか? 開発環境としてrとrstudioを使用しています。randomForestパッケージを使用しており、すべてのパラメーターのデフォルトを受け入れました

4
ジャーナルScienceはForking Pathes Analysisの庭を支持していますか?
適応データ分析の考え方は、データの詳細を学習するにつれて、データ分析の計画を変更することです。探索的データ分析(EDA)の場合、これは一般に良いアイデアです(データに予期しないパターンを探すことが多い)が、確認研究では、これは非常に欠陥のある分析方法として広く受け入れられています(すべての場合を除く)手順が明確に定義され、高度に適切に計画されています)。 そうは言っても、適応データ分析は通常、統計学者をがっかりさせるほど多くの研究者が実際に分析を行う数です。そのため、統計的に有効な方法でこれを行うことができれば、統計的実践に革命をもたらすでしょう。 次のScienceの記事は、そのような方法を見つけたと主張しています(私はペイウォールをおizeびしますが、大学にいる場合はアクセスできる可能性が高い):Dwork et al、2015、The reusable holdout:Preserving Validity in Adaptive Data Analysis。 個人的には、私はScienceに掲載された統計記事について常に懐疑的でしたが、これも例外ではありません。実際、補足資料を含めて記事を2回読んだ後、著者が自分の方法が過剰適合を防ぐと主張する理由を(まったく)理解できません。 私の理解では、彼らは再利用するホールドアウトデータセットを持っているということです。彼らは、ホールドアウトデータセットの確認分析の出力を「ファジング」することで主張しているようで、過剰適合は防止されます(トレーニングデータの計算された統計が十分に遠い場合、ファジングは単にノイズを追加しているように見えることに注意する価値があります)ホールドアウトデータの計算された統計から)。私の知る限り、これが過剰適合を防ぐ本当の理由はありません。 著者が提案していることを間違えていますか?私が見落としている微妙な効果はありますか?それとも、科学 はこれまで最悪の統計的実践を支持していたのでしょうか?


4
検証の精度が向上している一方で、検証の損失が増加している可能性はありますか
CIFAR10データセットで簡単なニューラルネットワークをトレーニングしています。しばらくすると、検証の損失が増加し始めましたが、検証の精度も向上しています。テストの損失とテストの精度は向上し続けています。 これはどのように可能ですか?検証損失が増加すると、精度が低下するようです。 PS似たような質問がいくつかありますが、そこで何が起こっているのか誰も説明しませんでした。

6
なぜ重みが小さくなると正則化のモデルが単純になるのですか?
私は1年ほど前にAndrew Ngの機械学習コースを修了し、現在、ロジスティック回帰の仕組みとパフォーマンスを最適化する手法について高校数学の調査を書いています。これらの手法の1つは、もちろん正規化です。 正則化の目的は、モデルを単純化するという目標を含めるようにコスト関数を拡張することにより、過剰適合を防ぐことです。これは、正方化パラメーターを掛けた二乗された各重みをコスト関数に追加することにより、重みのサイズにペナルティを課すことで実現できます。 これで、機械学習アルゴリズムは、トレーニングセットの精度を維持しながら、重みのサイズを小さくすることを目指します。アイデアは、データを一般化するモデルを作成できる中間点に到達し、それほど複雑ではないためにすべての確率的ノイズに適合しようとしないというものです。 私の混乱は、私たちがウェイトのサイズにペナルティを科す理由ですか?ウェイトが大きいほどより複雑なモデルが作成され、ウェイトが小さいほどよりシンプルな/より滑らかなモデルが作成されるのはなぜですか?Andrew Ngは、講義で説明を教えるのは難しいと主張していますが、私は今この説明を探していると思います。 Ng教授は、モデルの次数が低下するように、新しいコスト関数によってフィーチャの重み(x ^ 3およびx ^ 4)がゼロになる傾向がある例を実際に示しましたが、これは完全なものではありません説明。 私の直感では、指数が小さいものは指数が小さいものよりも、指数が大きいものの方が重みが小さくなる傾向があります(重みの小さい特徴は関数の基礎に似ているため)。重みが小さいほど、高次のフィーチャへの「寄与」が小さくなります。しかし、この直感はあまり具体的ではありません。

5
過剰適合モデルは必ずしも役に立たないでしょうか?
モデルのトレーニングデータの精度は100%、テストデータの精度は70%と仮定します。このモデルについて次の議論は真実ですか? これが過剰適合モデルであることは明らかです。オーバーフィッティングを減らすことで、テストの精度を高めることができます。しかし、このモデルはテストデータに対して許容可能な精度を持っているため、依然として有用なモデルである可能性があります。

2
ベイジアン手法が過剰適合しないのは本当ですか?
ベイジアン手法が過剰適合しないのは本当ですか?(この主張をするいくつかの論文やチュートリアルを見ました) たとえば、ガウス過程をMNIST(手書き数字分類)に適用し、単一のサンプルのみを表示する場合、その単一のサンプルとは異なる入力であっても、差は小さいものの前の分布に戻りますか?

2
PCAとLDAを組み合わせるのは理にかなっていますか?
たとえば、ベイズ分類器を介して、教師付き統計分類タスク用のデータセットがあるとします。このデータセットは20個のフィーチャで構成されており、主成分分析(PCA)や線形判別分析(LDA)などの次元削減手法を使用して2つのフィーチャに要約します。 どちらの手法も、データをより小さな特徴部分空間に投影しています。PCAでは、データセットの分散を最大化する方向(コンポーネント)を見つけ(クラスラベルを考慮せず)、LDAでは、 -クラス分離。 今、私はこれらの技術を組み合わせることができるのか、どのように、そしてなぜできるのか、それが理にかなっているのか疑問に思っています。 例えば: PCAを介してデータセットを変換し、それを新しい2Dサブスペースに投影する LDAを介した(既にPCA変換済みの)データセットの変換 クラス内の分離 または PCAステップをスキップし、LDAの上位2つのコンポーネントを使用します。 または意味のある他の組み合わせ。

4
「半教師付き学習」-これは過剰適合ですか?
私は、Kaggleコンペティション(マルウェア分類)の勝利ソリューションのレポートを読んでいました。レポートはこのフォーラムの投稿にあります。問題は、トレインセットに10000個の要素、テストセットに10000個の要素がある分類問題(9つのクラス、メトリックは対数損失)でした。 競争中、モデルはテストセットの30%に対して評価されました。もう1つの重要な要素は、モデルのパフォーマンスが非常に優れていたことです(100%に近い精度) 著者は次の手法を使用しました。 もう1つの重要なテクニックは、半教師あり学習です。最初に、最適なモデルの最大確率を選択して、テストセットの擬似ラベルを生成します。次に、トレインデータとテストデータの両方を使用して、クロス検証方式でテストセットを再度予測します。たとえば、テストデータセットは4つのパートA、B、C、Dに分割されます。トレーニングデータ全体と、疑似ラベル付きのテストデータA、B、Cを新しいトレーニングセットとして使用し、テストを予測します。 Dを設定します 同じ方法を使用してA、B、Cを予測します。Xiaozhouによって発明されたこのアプローチは驚くほどうまく機能し、ローカルクロス検証損失、パブリックLB損失、プライベートLB損失を削減します。最高の半教師あり学習モデルは、プライベートLBログ損失で0.0023を達成できます。これは、すべてのソリューションで最高のスコアです。 結果をどのように改善できるのか、本当にわかりません。それは、テストセットの30%が「漏出」し、この情報を使用する方法だったからでしょうか。 それとも、なぜ機能するのかを説明する理論的な理由はありますか?

9
オーバーフィットとアンダーフィット
私は過剰適合と不足適合についていくつかの研究を行い、それらが何であるかを正確に理解しましたが、その理由はわかりません。 オーバーフィットとアンダーフィットの主な理由は何ですか? モデルのトレーニングでこれら2つの問題に直面するのはなぜですか?

1
xgboostのオーバーフィットに関する議論
私のセットアップは次のとおりです。 「適用された予測モデリング」のガイドラインに従っています。したがって、私は相関する特徴をフィルタリングし、次のようになりました: トレーニングセットの4900データポイントとテストセットの1600データポイント。 26個の機能があり、ターゲットは連続変数です。 caretパッケージを使用してモデルをトレーニングするために、5倍の交差検証を適用します。MARSモデルを適用すると、トレーニングセットとテストセットで平均絶対誤差(MAE)が約4になります。 ただし、xgboost(ツリーアルゴリズムまたは線形アルゴリズム)を適用すると、トレーニングセットで0.32(!)、テストセットで2.4のようなものが得られます。 したがって、テストエラーがトレーニングエラーの8倍である場合、次のように言います。トレーニングデータをオーバーフィットしました。それでも、テストでは小さなエラーが発生します。 xgboostで次のパラメーターを使用します。 nrounds = 1000そしてeta = 0.01(nroundを増やしてイータを減らすと助けになるかもしれませんが、メモリが不足し、実行時間が長すぎます) max_depth = 16:他の投稿とデフォルトの6を比較すると、これは大きく見えますが、問題はかなり複雑です-この場合、16は大きすぎません。 colsample_bytree = 0.7、subsample = 0.8およびmin_child_weight = 5:これを行うと、オーバーフィットを減らします。 max_depthを減らすと、トレーニングとテストエラーが近づきますが、それでも大きなギャップがあり、テストエラーは大きくなります(3を少し上回る)。 線形ブースターを使用すると、最適なパラメーターでほぼ同じトレインとテストエラーが得られます。 lambda = 90 および `alpha = 0:交差検定により検出され、ラムダはオーバーフィットを防ぐはずです。 colsample_bytree = 0.8、subsample = 0.8およびmin_child_weight = 5:これを行うと、オーバーフィットを減らします。 私の感覚では、xgboostはまだオーバーフィットしますが、トレーニングエラーとリアルタイムテスト(xgboostモデルとそれらのアンサンブルを実際に4日間使用しました)で確認できる限り、問題ありません(エラーはテストエラーよりも大きくなりますが、機能やその他の変数の予測については実生活により多くの不確実性があります。 あなたはどう思いますか:(可能な場合)実生活のパフォーマンスが優れている場合、オーバーフィットを受け入れることができますか?私の設定ではxgboostはオーバーフィットする傾向がありますか?


2
ブースティング:学習率が正則化パラメーターと呼ばれるのはなぜですか?
学習率パラメータ(収縮を直列に追加され-typically浅いのTREE-各新しいベースモデルの寄与を昇圧勾配)。テストセットの精度が劇的に向上することが示されました。これは、より小さなステップで、損失関数の最小値をより正確に達成できるためです。 ν∈ [ 0 、1 ]ν∈[0,1]\nu \in [0,1] なぜ学習率が正則化パラメーターと見なされるのかわかりませんか?統計学習の要素の引用、セクション10.12.1、p.364: 可能な正則化戦略は、木の数の制御だけではありません。リッジ回帰およびニューラルネットワークと同様に、収縮手法も使用できます。値が小さい (収縮が大きい)と、同じ反復回数トレーニングリスクが大きくなります。したがって、と両方がトレーニングデータの予測リスクを制御します。M ν Mνν\nuMMMνν\nuMMM 正則化とは「過適合を回避する方法」を意味するため、その点で反復回数が重要であることは明らかです(Mが大きすぎると過適合になります)。しかし:MMMMMM 値が小さい(収縮が大きい)と、同じ反復回数Mのトレーニングリスクが大きくなります。νν\nuMMM これは、学習率が低い場合、トレーニングセットで同じ精度を実現するにはより多くの反復が必要であることを意味します。それで、それはどのように過適合に関係しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.