タグ付けされた質問 「overfitting」

変数間の複製可能で有益な関係の代わりにモデリングエラー(特にサンプリングエラー)を使用すると、モデルフィット統計が改善されますが、節約が削減され、説明と予測の有効性が低下します。



1
Kaggleのプライベートリーダーボードは、受賞モデルのサンプル外のパフォーマンスの良い予測因子ですか?
プライベートテストセットの結果を使用してモデルをさらに絞り込むことはできませんが、プライベートテストセットの結果に基づいて実行される膨大な数のモデルからモデルを選択することはできませんか?そのプロセスだけで、プライベートテストセットに過剰適合することはありませんか? Bailey et.al.による「擬似数学と金融の特性主義:サンプル外のパフォーマンスに対するバックテストの過剰適合の影響」によると。同じデータセットで評価された多数のモデルから最良のものを選択する場合、「オーバーフィット」するのは比較的簡単です。Kaggleのプライベートリーダーボードではそれは起こりませんか? プライベートリーダーボードで最高のパフォーマンスを発揮するモデルが、サンプル外のデータに最高のモデルを一般化するモデルであるための統計的正当性は何ですか? 企業は実際に勝利モデルを使用することになりますか、それとも「ゲームのルール」を提供するためだけにプライベートリーダーボードがありますか。実際、企業は問題の議論から生じる洞察にもっと興味がありますか?

1
統計学習理論では、テストセットに過剰適合の問題はありませんか?
MNISTデータセットの分類に関する問題を考えてみましょう。 Yann LeCunのMNIST Webページによると、「Ciresan et al。」畳み込みニューラルネットワークを使用したMNISTテストセットで0.23%のエラー率を得ました。 レッツとして示すMNISTトレーニングセット、としてMNISTテストセット、最終的な仮説は、彼らが使用して得られたとして、およびMNIST試験に彼らの誤り率が使用して設定のようにE t e s t(h 1)= 0.0023。DtrainDtrainD_{train}DtestDtestD_{test}DtrainDtrainD_{train}h1h1h_{1}h1h1h_{1}Etest(h1)=0.0023Etest(h1)=0.0023E_{test}(h_{1}) = 0.0023 彼らの観点では、DtestDtestD_{test}はh1h1h_{1}に関係なく入力空間からランダムにサンプリングされたテストセットであるため、最終仮説サンプル外エラーパフォーマンスはEout(h1)Eout(h1)E_{out}(h_{1})次のように制限されると主張できますHoeffdingの不等式 N個のT E S T = | D t e s t | 。P[|Eout(h1)−Etest(h1)|&lt;ϵ|]≥1−2e2ϵ2NtestP[|Eout(h1)−Etest(h1)|&lt;ϵ|]≥1−2e2ϵ2Ntest P[|E_{out}(h_{1}) - E_{test}(h_{1})| < \epsilon|] \geq 1 - 2e^{2\epsilon^{2}N_{test}} Ntest=|Dtest|Ntest=|Dtest|N_{test}=|D_{test}| 換言すれば、少なくとも確率が、 E O U T(H 1)≤ E T E S T(H …

2
混合モデルでの特異フィットの扱い
モデルがあるとしましょう mod &lt;- Y ~ X*Condition + (X*Condition|subject) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects summary(model) Random effects: …

2
アウトオブバッグエラーにより、ランダムフォレストでCVが不要になりますか?
ランダムフォレストはかなり新しいです。過去に、私は常にオーバーフィットを検出するために、フィット対テストの精度とフィット対トレーニングを比較してきました。しかし、私はここでそれを読んだ: 「ランダムフォレストでは、テストセットエラーの公平な推定値を取得するために、相互検証または個別のテストセットは必要ありません。実行中に内部的に推定されます...」 上記の小さな段落は、out-of-bag(oob)エラー推定セクションにあります。このOut of Bag Errorの概念は私にとって全く新しいものであり、少し紛らわしいのは、モデルのOOBエラーが35%(または65%の精度)であることですが、データにクロス検証を適用すると方法)、フィットとテストの両方に対してフィットとテストを比較すると、それぞれ65%の精度と96%の精度が得られます。私の経験では、これは過剰適合と考えられているが、OOBはちょうど私のように35%の誤差を保持しているテスト対フィットエラー。オーバーフィッティングですか?ランダムフォレストで過剰適合をチェックするために相互検証を使用する必要さえありますか? 手短に言えば、フィット感とトレインがオーバーフィッティングであることを示しているときに、テストセットエラーの公平なエラーを得るためにOOBを信頼すべきかどうかはわかりません!

2
ランダムフォレストについて報告するトレーニングエラーの尺度
現在randomForest、R のパッケージを使用して分類問題にランダムフォレストを適合させていますが、これらのモデルのトレーニングエラーを報告する方法については不明です。 コマンドで取得した予測を使用して計算すると、トレーニングエラーは0%に近くなります。 predict(model, data=X_train) X_trainトレーニングデータはどこにありますか。 関連する質問への回答では、ランダムフォレストのトレーニングエラーメトリックとしてout-of-bag(OOB)トレーニングエラーを使用する必要があることを読みました。この数量は、コマンドで取得した予測から計算されます。 predict(model) この場合、OOBトレーニングエラーは平均10 CVテストエラーである11%にはるかに近くなります。 不思議なんだけど: ランダムフォレストのトレーニングエラーの尺度としてOOBトレーニングエラーを報告することは一般に受け入れられていますか? 従来のトレーニングエラーの測定値が人為的に低いというのは本当ですか? 従来のトレーニングエラーの測定値が人為的に低い場合、RFが過適合であるかどうかを確認するために2つの測定値を比較できますか?

2
最適化:統計のすべての悪の根源?
以前に次の表現を聞いたことがあります。 「最適化は統計上のすべての悪の根源です」。 たとえば、このスレッドの一番の答えは、モデルの選択中に過度に最適化する危険性について言及しています。 私の最初の質問は次のとおりです。この引用は特定の人に起因するものですか?(例えば、統計文献など) 私が理解していることから、声明は過剰適合のリスクに言及しています。従来の知恵では、適切な相互検証はすでにこの問題と戦っていると言われていましたが、この問題にはそれ以上のものがあるようです。 統計学者とMLプラクティショナーは、厳密な相互検証プロトコル(例:100個のネストされた10倍CV)を順守している場合でも、モデルの過剰最適化に注意する必要がありますか?もしそうなら、「最高の」モデルの検索をいつ停止するかをどのようにして知るのでしょうか?

3
回帰モデルが適合しすぎていることを検出する方法は?
あなたが仕事をしているとき、あなたが何をしているのかを認識していると、モデルに過剰適合したときの感覚を養います。一つには、モデルの調整されたR二乗の傾向または悪化を追跡できます。また、主要変数の回帰係数のp値の同様の劣化を追跡できます。 しかし、誰か他の人の研究を読んだだけで、自分の内部モデル開発プロセスに関する洞察力がない場合、モデルが過剰適合であるかどうかを明確に検出する方法はありません。

2
k分割交差検証は、トレーニング/検証/テストセットのコンテキストでどのように適合しますか?
私の主な質問は、k-foldクロス検証がトレーニング/検証/テストセット(このようなコンテキストにまったく当てはまる場合)のコンテキストにどのように適合するかを理解しようとすることです。 通常、人々はデータをトレーニング、検証、およびテストセットに分割することを話します。たとえば、Andrew Ngのコースごとに60/20/20の比率で-モデルトレーニングの最適なパラメーターを識別するために検証セットが使用されます。 ただし、データ量が比較的少ない場合に、より代表的な精度測定値を取得するためにk分割交差検証を使用したい場合、k分割交差検証を実行すると、この60/20/20分割が正確に行われます。シナリオ? たとえば、実際にトレーニングセットとテストセット(データの80%)を組み合わせ、それらに対してk分割交差検証を行って精度測定値(明示的な「テストセット」を持つことで効果的に破棄)を取得することを意味しますか?もしそうなら、どのトレーニング済みモデルを使用しますか?たとえば、aとbの考えられる答えの1つは、おそらくベストフォールドモデルを使用することです。


1
小さいデータセットでのLSTMの過剰適合の防止
80次元のword2vecのような表現を使用して、128の隠れユニットを持つ単一レイヤーLSTMを使用して、感情予測のために15000のツイートをモデリングしています。1エポック後に降下精度(ランダム= 20%で38%)を取得します。トレーニングを増やすと、トレーニングの精度が上昇し始めると検証の精度が低下し始めます。これは、過剰適合の明確な兆候です。 したがって、正則化を行う方法を考えています。隠れユニットの数を減らしたくない(128はもう少し低いようだ)。現在、50%の確率でドロップアウトを使用していますが、これはおそらく増加する可能性があります。オプティマイザーは、Kerasのデフォルトパラメーター(http://keras.io/optimizers/#adam)を持つAdamです。 データセットでこのモデルの過剰適合を減らす効果的な方法は何ですか?

1
トレーニングとテストのエラーギャップとオーバーフィットとの関係:矛盾するアドバイスの調整
特に2つの間にギャップがある場合、トレインとテストエラーの比較を処理する方法について、矛盾するアドバイスがあるようです。私には、対立しているように思われる2つの考え方があるようです。この2つを調整する方法を理解しようとしています(または、ここで不足しているものを理解しています)。 考え#1:トレインとテストセットのパフォーマンスだけのギャップは、過剰適合を示すものではありません まず、(ここで説明する:エラー比較のトレーニングとテストは過適合をどのように示すことができますか?)、トレインとテストセットの違いだけでは過適合を示すことはできません。これは、たとえば、交差検証ベースのハイパーパラメーターチューニングの後でも、トレインとテストエラーのギャップがいくぶん大きいままになるアンサンブルツリー法に関する私の実際の経験と一致します。ただし、(モデルの種類に関係なく)検証エラーが回復しない限り、問題ありません。少なくとも、それは考え方です。 考え#2:列車とテストのパフォーマンスの間にギャップがある場合:オーバーフィットと戦うようなことをする ただし、非常に優れた情報源からは、列車とテストのエラーのギャップが過剰適合を示していることを示唆するアドバイスがあります。例は次のとおりです。AndrewNgによる「ディープラーニングの基本」トーク(素晴らしいトーク)https://www.youtube.com/watch?v=F1ka6a13S9Iタイムスタンプ48:00頃にフローチャートを描く「train set errorが低く、train-dev set errorが高い場合は、正規化を追加するか、データを取得するか、モデルアーキテクチャを変更する必要があります」...これらはすべてオーバーフィットと戦うために取るアクションです。 それは私を...に連れて行ってくれ ます。これはモデル固有の経験則ですか(一般的に単純なモデルは、訓練とテストの間のギャップが少ないようです)?または、単に2つの異なる考え方の学校がありますか?

3
理論、適合、または他の何かに基づいて分布を選択する方が良いでしょうか?
これは哲学的な質問に隣接していますが、私はより多くの経験を持つ他の人が分布選択についてどう考えるか興味があります。場合によっては、理論が最適に機能することは明らかです(マウスの尾の長さはおそらく正規分布しています)。多くの場合、データセットを説明する理論はおそらくないので、最初に説明するために開発されたものに関係なく、あなたがかなり持っているものに合うものを使用しますか?これらのいずれかを使用する場合の落とし穴のいくつかを想像することができます。そして、もちろん、実際にわからない場合は経験的分布を使用する必要があるという問題があるようです。 だから私は本当に私が求めていることを推測します:誰かがこの問題についてアプローチ/思考する一貫した方法を持っていますか?また、これを適切に扱うために提案できるリソースはありますか?

3
ベイジアン対MLE、オーバーフィット問題
BishopのPRML本で、彼は、過剰適合は最尤推定(MLE)の問題であり、ベイジアンはそれを避けることができると言っています。 しかし、オーバーフィッティングはモデル選択に関する問題であり、パラメーター推定に使用される方法に関する問題ではないと思います。つまり、f (x )= s i n (x )を介して生成されるデータセットがあるとします。DDD、今私は別のモデルを選択かもしれない Hを、私は、データをフィットし、1が最良であるかを調べるために。検討中のモデルが異なる次数を有する多項式のものであり、 H 1はオーダー1であり、 H 2は、順序2、 H 3は、順序9です。f(x)=sin(x),x∈[0,1]f(x)=sin(x),x∈[0,1]f(x)=sin(x),\;x\in[0,1]HiHiH_iH1H1H_1H2H2H_2H3H3H_3 今、私はデータに合うようにしようと 3機種のそれぞれに、各モデルは、と表記その偶然に、持っているワット私のためのH 私を。DDDwiwiw_iHiHiH_i MLを使用して、私はモデルパラメータの点推定値があります、そしてH 1は、一方で、単純すぎるとなり、常にデータunderfitであるH 3があまりにも複雑で、データをオーバーフィットします、唯一のH 2は、データをうまくフィットします。wwwH1H1H_1H3H3H_3H2H2H_2 私の質問は、 1)モデルはデータをオーバーフィットしますが、MLの問題ではなく、モデル自体の問題だと思います。なぜなら、H 1に MLを使用すると、H 2が過適合にならないからです。私は正しいですか?H3H3H_3H1,H2H1,H2H_1,H_2 2)ベイジアンと比較して、MLにはいくつかの欠点があります。モデルパラメーターポイント推定値を与えるだけであり、自信過剰だからです。一方、ベイジアンはパラメーターの最も可能性の高い値だけに依存するのではなく、観測されたデータDを与えられたパラメーターのすべての可能な値に依存しますか?wwwDDD 3)なぜベイジアンは過剰適合を回避または減少できるのですか?私が理解しているように、モデルの比較にベイジアンを使用できます。つまり、データ与えられると、検討中の各モデルの限界尤度(またはモデル証拠)を見つけ、最も限界尤度が高いものを選択できます。 ?もしそうなら、なぜですか?DDD

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.