タグ付けされた質問 「overfitting」

変数間の複製可能で有益な関係の代わりにモデリングエラー(特にサンプリングエラー)を使用すると、モデルフィット統計が改善されますが、節約が削減され、説明と予測の有効性が低下します。

1
xgboostでのツリーの複雑さの定義
xgboostアルゴリズムについて調査し、ドキュメントを調べました。 このアプローチでは、ツリーは複雑さの定義を使用して正則化されます。 ここで、とはパラメーターで、は末端の葉とは各葉のスコアです。Ω(f)=γT+12λ∑j=1Tw2jΩ(f)=γT+12λ∑j=1Twj2 \Omega(f) = \gamma T + \frac12 \lambda \sum_{j=1}^T w_j^2 γγ\gammaλλ\lambdaTTTwjwjw_j これは複雑さをどのように定義するのでしょうか?ターミナルノードの数であるは、私には自然に思えます。しかし、最終スコアの合計は2乗されますか?TTT 多分オーバーフィッティングを意味します。非常に大きなスコアがあまりにも多くの信頼を与えることを意味しますか?弱い学習者を取得するために選択されていますか?この複雑度関数の選択についての自然な説明は何ですか?

1
ニューラルネットワークの過剰適合
過適合は、トレーニングエラーとテストエラーをエポックに対してプロットすることで検出できることを学びました。のように: 私は、このブログ記事を読んでいて、ニューラルネットワークであるnet5は過剰適合であり、次の図を提供していると述べています。 これは私には奇妙です。net5の検証とトレーニングのエラーが(ゆっくりと)低下し続けるからです。 なぜ彼らはそれが適切すぎると主張するのでしょうか?検証エラーが停滞しているからでしょうか?

1
xgboostの加法性バイアス(およびその修正?)
私は今コンテストに参加しています。私はそれをうまくやるのが私の仕事だと知っていますが、私の問題とその解決策について、他の人にとっても助けになるかもしれないので、誰かがここで私の問題とその解決策について話したいと思うかもしれません。 私はxgboostモデル(ツリーベースのモデルと線形モデルとその2つのアンサンブル)をトレーニングしました。既にここで説明したように、トレーニングセット(交差検証を行った場合)の平均絶対誤差(MAE)は小さく(約0.3)、保持されたテストセットでは誤差は約2.4でした。その後、競争が始まり、エラーは約8(!)でした。驚くべきことに、 予測は常に真の値よりも約8〜9高くなりました!! 画像の黄色で囲まれた領域を参照してください。 トレーニングデータの期間は2015年10月に終了し、コンテストは今すぐ始まりました(16年4月、テスト期間は3月に約2週間)。 今日、私は自分の予測から定数値9を差し引いただけで、エラーは2になり、リードボードで3を獲得しました(この1日分)。;)これは黄色の線の右側の部分です。 だから私が議論したいこと: xgboostは、切片項をモデル方程式に追加することに対してどのように反応しますか?システムの変更が多すぎる場合、これによりバイアスが発生する可能性がありますか(私の場合、10月15日から4月16日のように)。 インターセプトなしのxgboostモデルは、ターゲット値の平行シフトに対してより堅牢になるでしょうか? 私は9のバイアスを差し引いていきます。誰か興味があれば、結果を表示できます。ここでより多くの洞察を得ることはちょうどより興味深いでしょう。

1
畳み込みニューラルネットワークの過剰適合を特定する方法
ドロップアウトを使用してネットワークへの過剰な適合を減らすことを理解しています。これは一般化手法です。 畳み込みニューラルネットワークでは、どのようにして過剰適合を特定できますか? 私が考えることができる1つの状況は、テストまたは検証の精度と比較してトレーニングの精度が高すぎる場合です。その場合、モデルはトレーニングサンプルにオーバーフィットしようとし、テストサンプルには不十分なパフォーマンスを示します。 これは、ドロップアウトを適用するか、ドロップアウトをモデルに盲目的に追加する必要があるかどうかを示す唯一の方法ですか?

1
過剰適合はどのくらいですか?
概念的に、オーバーフィットモデルと適切にフィットしたモデルの間にどこで線を引きますか? モデルがテストセットよりもトレーニングセットで数パーセント優れている場合、過適合であることは明らかです。しかし、理論的には、トレーニングセットでモデルをトレーニングし、テストセットで検証したところ、トレーニングセットの精度がテストセットよりも0.2%高いことがわかりました。これは過度に適合していませんか?

3
意図的な過剰適合
意図的にモデルをオーバーフィットすることは理にかなっていますか? データがトレーニングデータに対してそれほど変わらないことがわかっているユースケースがあるとします。 私はここで交通予測について考えています。交通状況は一定のパターンのセットに従います 朝の通勤 夜の活動 等々。 これらのパターンは、自動車ユーザーの急増や道路インフラの大きな変化がない限り、あまり変わりません。この場合、将来のパターンとデータが非常に類似すると想定して、モデルが現在のデータで学習したパターンにできるだけ偏るようにしたいと思います。

1
LASSO、リッジ、エラスティックネットで
について疑問に思う 最適なグリッドの細かさと グリッドの細かさとオーバーフィットの関係は LASSO、リッジ回帰、エラスティックネットなどの正則化手法では、 LASSOを使用した回帰モデルを500観測値のサンプルに適合させたいとします(データがありません。これは単なる例です)。私が持っていることも仮定 (A) 100と異なるグリッド間の範囲内の値λ mはiがNとλ M A X(B) 1000の異なる有するグリッドλの同じ範囲の値λは制御パラメータでありますペナルティの程度。λλ\lambdaλM I nはλmin\lambda_{min}λmは、Xがλmax\lambda_{max} λλ\lambdaλλ\lambda 質問: (A)対(B)でオーバーフィットする傾向について何か言えますか? 最適なグリッドの細かさを決定できますか?どうやって?

3
早期停止と相互検証
私は現在、過剰適合を防ぐために私の仕事で早期停止を使用しています。具体的には、早期停止から取られたものですが、いつですか?。 ここで、10分割交差検証が広く使用されていると思われる他の分類アルゴリズムと比較したいと思います。 ただし、クロス検証が適切なパラメーターの過剰適合または選択を防ぐための方法であるかどうかについては、混乱しています。(またはこれはまったく同じですか?)また、早期停止方法と相互検証を相互に、または組み合わせて使用​​できるかどうかもわかりません。 だから問題は:早期停止と相互検証の関係は何ですか?

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
トレーニングおよび検証データのパフォーマンスは良いが、テストデータのパフォーマンスは非常に悪い
5-6kの変数で回帰問題があります。データを重複しない3つのセット(トレーニング、検証、テスト)に分割します。私はトレーニングセットのみを使用してトレーニングを行い、モデルごとに異なる200変数のセットを選択することで、多くの異なる線形回帰モデルを生成します(このようなサブセットを約100k試します)。モデルにとしてスコアを付け。この基準を使用して、最終的にモデルを選択します。選択したモデルは、トレーニングデータと検証データで非常に類似したR ^ 2を持っていることがわかります。ただし、このデータをテストデータで試した場合、R ^ 2ははるかに低くなります。だから私は、トレーニングと検証データの両方に何らかの形で過剰適合しているようです。より堅牢なモデルを取得するにはどうすればよいですか? 分(R2訓練データ、R2検証データ)min(Rtraining data2,Rvalidation data2)\min(R^2_{\text{training data}}, R^2_{\text{validation data}})R2R2R^2R2R2R^2 トレーニングデータのサイズを増やしてみましたが、効果がありませんでした。おそらく、各サブセットのサイズを縮小することを考えています。 正則化を使用してみました。ただし、投げ縄または弾性ネットを使用して取得したモデルは、サブセット選択アプローチを実行して取得したモデルと比較して、トレーニングセットと検証セットのR ^ 2がはるかに低くなっR2R2R^2ています。したがって、これらのモデルは考慮しません。モデルAがトレーニングセットと検証セットの両方でモデルBよりも優れている場合、モデルAはモデルBよりも明らかに優れていると想定しているためです。これに同意しません。 関連して、R2R2R^2は私のモデルを選択するための悪い基準だと思いますか?

1
ノイズを伴うデータ拡張を使用したより高いオーバーフィッティング?
私はオーディオ分類のニューラルネットワークをトレーニングしています。 UrbanSound8Kデータセット(Model1)でトレーニングした後、入力に追加されたノイズの異なるレベルが予測精度にどのように影響したかを評価したいと思いました。ベースライン精度モデル1 = 65% 予想通り、ノイズのレベルが高くなると精度が低下しました。 次に、ノイズを使用したデータ拡張(Model2)を実行することにしました。それで、データセットを取り、同じファイルで複製しましたが、ピンクノイズ(+0 dB SNR)を追加しています。 (私が)予想したように、全体的な精度が向上し(非常にわずかですが、0.5%)、ネットワークは入力のノイズ破損に対してより堅牢になりました。 しかしながら!私が予期していなかったことの1つは、ノイズのある破損のない入力(検証入力)のみを予測すると、ネットワークの精度が低下することでした。どういうわけか、それはクリーンな入力に適合しすぎているため、これらのオーディオの予測精度が低下しています。 したがって、Model2は数値で予測すると、ノイズの多い入力では69%の精度(必ずしも訓練されたのと同じノイズではない)で予測し、クリーンな入力では47%の精度で予測します。 この結果について何か説明や直感はありますか? ネットワークは、ますます多様なトレーニングデータを持っているため、より有意義な機能を学習するだろうと期待していました。ノイズの多い入力にオーバーフィットする方が難しいと思いますが、それでも主にクリーンな入力にオーバーフィットした理由がわかりません。 -------------------------------------------------編集1 ------------------------------------------------- --------------- 役立つかもしれない別の情報: ノイズがほとんどないノイズの多い入力でModel2を評価する場合でも、ネットワークはクリーンな入力(耳へのノイズがほとんどない入力とほとんど同じ)の場合よりもパフォーマンスが優れています。

2
ニューラルネットワーク:オーバーフィットできないのはなぜですか?
(フィードフォワード単一層)ニューラルネットワークを使用して、2つの財務変数(回帰)から環境関連変数を予測しようとしています。キャレットパッケージの「train」関数を使用します。 nnet()キャレットパッケージのアルゴリズムを使用しています。2つの連続予測子と420のデータポイントがあります。 理論的理解のために、私はわざとモデルをオーバーフィットしようとしています。私の理解では、これは通常すべてのデータセットで機能するはずです。たとえば、「サイズ」(つまり、非表示単位の数)を増やすなどです。ただし、隠れたユニットのサイズを大幅に増やしても、過剰適合にはなりません。 したがって、「サイズ」を増やすことですべてのニューラルネットワークをオーバーフィットできると想定するのは間違っていますか?代わりに、他のどの変数が過剰適合につながる可能性がありますか? grid <- expand.grid(size = 20 ) control <- trainControl(method = "cv", number = 10, verboseIter = TRUE ) fit <- train(x=train_parametres, y=train_result, method = "mlp", metric = "Rsquared", learnFunc = "Std_Backpropagation", learnFuncParams = c(0.2, 0.0), maxit = 1000, trControl = control, tuneGrid = grid, preProcess = …

2
どのようにして最も簡単にオーバーフィットできますか?
これは奇妙な質問です。 私は初心者で、さまざまな分類子オプションとその機能について学びたいと思っています。だから私は質問をしています: 各観測をn3バケットに分類できるn1次元とn2観測のデータセットが与えられた場合、どのアルゴリズムが(理想的には1回のトレーニング反復で)データセット内のすべての観測を完全に分類するモデル(分類境界)を最も効率的に生成します(完全にオーバーフィット)? 言い換えれば、どのようにして最も簡単にオーバーフィットできますか? (「オーバーフィッティングをしない」について私に教えないでください。これは理論上の教育目的のためだけです。) 「そうですね、次元の数が観測の数よりも多い場合は、Xアルゴリズムを使用して境界を描画します。それ以外の場合はYアルゴリズムを使用します。」 また、答えは「滑らかな境界線を描くことはできますが、分類されたすべての異なる観測値の間に直線を描くよりも計算コストがかかる」という疑いもあります。 しかし、それは私の直感が私を導く限りです。手伝ってくれますか? バイナリ分類を使用して2Dで話していると思うことの手描きの例があります。 基本的に、違いを分けるだけですよね?これはn次元でどのアルゴリズムを効率的に実行しますか?

2
仮説がネストされていない限り、相互検証は役に立ちませんか?
係数値をランダムに割り当て、エラーメトリックを使用してデータセット全体でこれらのモデルを評価し、このエラーメトリックに基づいて最適なモデルを選択するだけで、回帰設定で多くのランダムモデルを(データをまったく考慮せずに)生成した場合でも、実行できますか?過剰適合に? 最終的には、OLSソリューションになります(コメントを参照)。この場合、相互検証はこの手順とどのように異なりますか?たとえば、RidgeまたはLassoの回帰設定では、モデル(インデックス付けされた)の束を生成し、目に見えないデータセグメントでそれらを評価し、最適なモデルを選択しています。λλ\lambda CVはRidgeやLassoのような標準の正則化手法でうまく機能しているように思えます。これは、試行されたモデルがいくらかネストされているためです(つまり、RidgeはRademacherの複雑さによって順序付けられます)。したがって、構造的リスク最小化の原則が適用されます。それ以外の場合、CVは行き止まりのように見えます。相互検証を使用して多数の無関係なモデルを比較すると、上記のランダムモデル生成のシナリオになります。 たとえばSVMのような構造的リスク最小化フレームワークでは、エラーを制限してモデルの複雑さを軽減します。では、CVを正則化手法と組み合わせて適用すると、実際にはどのように同じ効果が得られるのでしょうか。比較されたモデルがネストされていない場合はどうすればよいですか?

2
なぜすべてのパラメータを同じように正則化するのですか?
私の質問は、線形回帰とロジスティック回帰の正則化に関するものです。私は現在、Coursera でAndrew Ngの機械学習コースの第3週を行っています。過剰適合が一般的な問題になる可能性があることを理解しています。また、正規化によって過剰適合を減らす方法について直観があります。私の質問は、さまざまな方法でさまざまなパラメーターを正則化することによってモデルを改善できるかどうかです。 例: フィットしようとしているとしましょう w0+w1x1+w2x2+w3x3+w4x4w0+w1x1+w2x2+w3x3+w4x4w_0 + w_1 x_1 + w_2 x_2 + w_3 x_3 + w_4 x_4。この質問は、なぜ私たちが高w1w1w_1 高いと罰するのと同じ方法で値 w2w2w_2 値。 私たちの機能について何も知らない場合 (x1,x2,x3,x4)(x1,x2,x3,x4)(x_1,x_2,x_3,x_4) 構築された場合、正則化を行うときはすべて同じように扱うことが理にかなっています。 w1w1w_1 価値は、高値と同じくらいの「ペナルティ」 w3w3w_3 値。 しかし、追加情報があるとしましょう。最初は2つの機能しかなかったとします。 x1x1x_1 そして x2x2x_2。ラインがトレーニングセットに適合していなかったため、より波状の決定境界が必要だったため、x3=x21x3=x12x_3 = x_1^2 そして x4=x32x4=x23x_4 = x_2^3。これで、より複雑なモデルを使用できるようになりますが、モデルが複雑になるほど、モデルをトレーニングデータに過剰適合させるリスクが高まります。したがって、コスト関数の最小化とモデルの複雑さの最小化の間でバランスをとる必要があります。さて、より高い指数を表すパラメータ(x3x3x_3、 x4x4x_4)モデルの複雑さが大幅に増大しています。だから私たちは高額に対してもっとペナルティを課すべきではないw3w3w_3、 w4w4w_4 私たちが高いと罰するよりも価値 w1,w2w1,w2w_1,w_2 値?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.