統計とビッグデータ overfitting

1

私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。。この観察の可能性は何ですか？この質問に答えるために、次のコマンドを使用しました。 …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

2

重みよりも少ないトレーニングサンプルでニューラルネットワークを（理論的に）トレーニングできますか？

まず、ニューラルネットワークをトレーニングするために必要なサンプルサイズの一般的な数はありません。それは、タスクの複雑さ、データのノイズなど、あまりにも多くの要因に依存します。そして、私が持っているトレーニングサンプルが多いほど、私のネットワークは良くなります。しかし、疑問に思っていました。タスクが十分に「単純」であると仮定すると、重みよりも少ないトレーニングサンプルでニューラルネットワークをトレーニングすることは理論的に可能ですか？これがうまくいった例を誰かが知っていますか？それとも、このネットワークはほぼ確実にパフォーマンスが低下しますか？たとえば、多項式回帰を考えると、4次の多項式（つまり、5つの自由パラメーター）を4つのデータポイントにのみ適合させることはできません。重みの数を自由パラメーターの数と見なして、ニューラルネットワークに同様のルールはありますか？

12 neural-networks overfitting underdetermined

1

データを過剰適合させずに最適な適合を選択するにはどうすればよいですか？N正規関数などによる二峰性分布のモデリング

私は明らかに二峰性の値の分布を持っています。データは、2つの通常の関数（バイモーダル）または3つの通常の関数のいずれかにうまく適合できます。さらに、データを3でフィッティングするのにもっともらしい物理的な理由があります。導入されるパラメータが多いほど、フィットはより完璧になります。十分な定数があれば、「象にフィット」できます。これが分布であり、3つの正規（ガウス）曲線の合計に適合します。これらは各適合のデータです。適合を判断するためにここでどのテストを適用する必要があるかわかりません。データは91点で構成されています。 1通常機能： RSS：1.06231 X ^ 2：3.1674 Fテスト：0.3092 2通常の機能： RSS：0.010939 X ^ 2：0.053896 F.テスト：0.97101 3通常機能： RSS：0.00536 X ^ 2：0.02794 Fテスト：0.99249 これらの3つの近似のどれが最適かを決定するために適用できる正しい統計検定は何ですか？明らかに、1つの通常の関数近似は不十分です。では、どうすれば2と3を区別できますか？加えて、私は主にこれをExcelと小さなPythonで行っています。私はまだRや他の統計言語に慣れていません。

11 distributions normal-distribution model-selection overfitting

1

エラー指標としてのエントロピーがなぜ過剰適合につながるのですか？

ジョン・ラングフォードの投稿を引用したKDnuggetsに関するこの投稿は、エラーの指標として使用するとエントロピーと相互情報が過剰適合につながる可能性があると述べています。これについて詳しく説明していただけますか？

11 machine-learning error overfitting entropy

4

線形分類器による過剰適合

今日、私たちの教授はクラスで「線形分類器による過剰適合は不可能である」と述べました。線形分類子でもトレーニングセットの外れ値に敏感である可能性があるので、私はそれを間違っていると考えています。たとえば、ハードマージンのサポートベクトルマシンを考えてみます。それとも私は間違っていますか？明らかに、線形性はおそらくモデルの複雑さが低いために過適合を防ぐでしょうが、それでも過適合が不可能であるべき理由はわかりません。もう1つのポイントは、この問題について考えてみたところ、「過剰適合」が正式に定義されているようには見えないことに気付きました。何故ですか？トレーニングとテストセットのパフォーマンスの間の距離の測定によって、このような形式化が可能になりますか？ありがとう

10 classification overfitting

1

ランダムフォレストはオーバーフィットできませんか？

ランダムフォレストはオーバーフィットできないといういくつかの文献を読みました。これは素晴らしいように聞こえますが、本当であるには余りにも良いようです。RFがオーバーフィットする可能性はありますか？

10 random-forest overfitting

1

ランダムフォレストでのモデリングには交差検証が必要ですか？

私が見た限りでは、これについては意見が異なる傾向があります。ベストプラクティスは、クロス検証の使用を確実に指示します（特に、同じデータセットでRFを他のアルゴリズムと比較する場合）。一方、元のソースでは、OOBエラーがモデルトレーニング中に計算されるという事実は、テストセットのパフォーマンスの指標として十分であると述べています。Trevor Hastieでさえ、比較的最近の講演で、「ランダムフォレストは無料の相互検証を提供する」と述べています。直感的に、これは、1つのデータセットでRFベースのモデルをトレーニングおよび改善しようとする場合、私には理にかなっています。これについてどう思いますか？

10 cross-validation random-forest overfitting out-of-sample

2

リッジ回帰における「行列反転の数値的安定性」の明快な説明とオーバーフィットの低減におけるその役割

私は最小二乗回帰問題で正則化を使用できることを理解しています w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] そして、この問題は次のような閉じた形の解決策を持っています： w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. 2番目の方程式では、正則化はX T Xの対角にを追加するだけであることがわかります。これは、行列反転の数値的安定性を改善するために行われます。λλ\lambdaXTXXTX\boldsymbol{X}^T\boldsymbol{X} 数値の安定性に関する私の現在の「粗末な」理解は、関数がより「数値的に安定」すると、その出力はその入力のノイズの影響をあまり受けなくなるということです。数値安定性の向上というこの概念を、過剰適合の問題をどのように回避/軽減するかという全体像に関連付けるのが困難です。私はウィキペディアや他のいくつかの大学のウェブサイトを見てみましたが、彼らはなぜこれがそうなのかを深く説明していません。

10 regression regularization ridge-regression overfitting matrix-inverse

1

飽和モデルは過剰適合モデルの特別なケースですか？

飽和モデルとは何かを理解しようとしています。私の知る限り、観察と同じくらい多くの特徴があるときです。飽和モデルは、極端に過剰適合したモデルの特殊なケースと言えるでしょうか？

10 overfitting

1

バイアスはアンダーフィッティングと同じで、分散はオーバーフィッティングと同じですか？

これは基本的な質問かもしれません：バイアスとアンダーフィッティングの違いは何ですか？同様に、分散とオーバーフィッティングの違いは何ですか？各ペアの条件は同じ意味ですか？そうでない場合、違いは何ですか？

10 variance bias overfitting model-evaluation

1

重回帰を行う場合、なぜ後方消去が正当化されるのですか？

オーバーフィットになりませんか？分析の一部としてジャックナイフまたはブートストラップ手順を追加した場合、私の結果はより信頼できるでしょうか？

9 multiple-regression bootstrap reliability overfitting jackknife

2

モデル構築プロセスがインタラクティブだった場合のバックテストまたは相互検証

パフォーマンスをバックテストしたい予測モデルがいくつかあります（つまり、データセットを取得し、それを前の時点に「巻き戻し」、モデルがどのように予測的に実行されたかを確認します）。問題は、私のモデルの一部がインタラクティブなプロセスを介して構築されたことです。たとえば、フランクハレルの回帰モデリング戦略のアドバイスに従って、1つのモデルで制限された3次スプラインを使用して、機能と応答の間の可能な非線形の関連付けを処理しました。ドメインの知識と関連の強さの一変量の測定値の組み合わせに基づいて、各スプラインの自由度を割り当てました。しかし、モデルに許可したい自由度は、データセットのサイズに明らかに依存します。これは、バックテスト時に大幅に変化します。モデルがバックテストされるたびに自由度を個別に選択したくない場合、他のオプションは何ですか？別の例として、私は現在、高いレバレッジでポイントを見つけることによる外れ値の検出に取り組んでいます。手作業でこれを実行できた場合は、レバレッジの高い各データポイントを確認し、データがクリーンであることをサニティチェックして、フィルターで取り除くか、手動でクリーンアップします。しかし、これは一連のドメイン知識に依存しているため、プロセスを自動化する方法がわかりません。（a）モデル作成プロセスのインタラクティブな部分を自動化する一般的な問題に対するアドバイスと解決策、または（b）これら2つのケースに対する特定のアドバイスの両方をいただければ幸いです。ありがとう！

9 cross-validation modeling outliers splines overfitting

1

線形回帰：「感度の低い」パラメーターを優先する方法

単純な回帰モデルがあります（y = param1 * x1 + param2 * x2）。モデルをデータに適合させると、2つの優れたソリューションが見つかります。ソリューションA、params =（2,7）は、RMSE = 2.5のトレーニングセットで最適ですだが！ソリューションB params =（24,20）は、交差検証を行うと、検証セットで大きな成果を上げます。私はこれが原因だと思います：ソリューションAは悪いソリューションに囲まれています。したがって、ソリューションAを使用する場合、モデルはデータの変動に対してより敏感になります。ソリューションBはOKソリューションで囲まれているため、データの変更に対する感度が低くなります。これは私が考案したばかりの新しい理論ですか、良い隣人とのソリューションはあまり適合していませんか？:)）ソリューションAよりもソリューションBを優先するのに役立つ一般的な最適化方法はありますか？助けて！

9 regression cross-validation overfitting sensitivity-analysis

1

過剰適合を検出する手法

データサイエンスの職に就職の面接を受けました。インタビュー中に、モデルが適合しすぎないようにするために何をすべきか尋ねられました。私の最初の答えは、モデルのパフォーマンスを評価するために交差検証を使用することでした。しかし、インタビュアーは、交差検証でさえ完全に過剰適合を特定することはできないと述べました。次に、正則化について述べましたが、インタビュアーは、これが過剰適合を減らすのに役立つ可能性がある（私は同意する）が、それを検出することはできないと述べました。モデルが過剰適合していないことを確認するために使用できる他の手法はありますか？

9 cross-validation regularization overfitting

2

ボンフェローニ修正と機械学習

心理学の研究では、単一のデータセットでいくつかの仮説をテストする場合、ボンフェローニ法を使用して有意水準を調整する必要があることを学びました。現在、分類のためにサポートベクターマシンやランダムフォレストなどの機械学習手法を使用しています。ここに、最高の精度をもたらす最良のパラメーター（SVMのカーネルパラメーターなど）を見つけるために交差検証で使用される単一のデータセットがあります。私の直感は、それが同様の問題であると言っています（そしておそらく完全にオフになっています）。考えられるパラメーターの組み合わせの数が多すぎると、素晴らしい結果が得られる可能性が高くなります。しかし、これは単なる偶然かもしれません。私の質問を要約すると：機械学習では、分類器の適切なパラメーターを見つけるために交差検証を使用します。使用するパラメーターの組み合わせが多いほど、偶然に大きな組み合わせを見つける可能性が高くなります（オーバーフィット？）。ボンフェローニ修正の背後にある概念はここにも適用されますか？別の問題ですか？もしそうなら、なぜですか？

9 machine-learning cross-validation svm overfitting bonferroni

タグ付けされた質問 「overfitting」

タグ付けされた質問「overfitting」