統計とビッグデータ out-of-sample

8

予測モデルを構築している人がいると仮定しますが、その人は必ずしも適切な統計的または機械学習の原則に精通しているとは限りません。たぶん私たちは学習中のその人を助けているかもしれませんし、あるいはその人は使用するのに最低限の知識しか必要としない何らかのソフトウェアパッケージを使っているかもしれません。この人は、実際のテストがサンプル外の精度（またはその他のメトリック）に由来することを非常によく認識するかもしれませんデータの。しかし、私の懸念は、心配する微妙な点があることです。単純な場合、彼らはモデルを構築し、トレーニングデータで評価し、保留されているテストデータで評価します。残念ながら、その時点で戻ってモデル化パラメーターを微調整し、同じ「テスト」データで結果を確認するのは非常に簡単な場合があります。この時点で、データはもはやサンプル外のデータではなく、オーバーフィッティングが問題になる可能性があります。この問題を解決する1つの潜在的な方法は、多くのサンプル外のデータセットを作成して、各テストデータセットを使用後に破棄し、まったく再利用しないようにすることです。ただし、これには多くのデータ管理が必要です。特に、分析の前に分割を行う必要があります（したがって、事前に分割数を知る必要があります）。おそらく、従来のアプローチはk倍交差検証です。しかし、ある意味では、特にまだ学習している人にとって有用だと思う「トレーニング」と「テスト」のデータセットの区別を失います。また、これはすべてのタイプの予測モデルに意味があるとは確信していません。経験の浅いユーザーにはまだある程度明確でありながら、オーバーフィットと漏れのテストの問題を克服するために見落としている方法はありますか？

60 machine-learning classification predictive-models cross-validation out-of-sample

4

ジャーナルScienceはForking Pathes Analysisの庭を支持していますか？

適応データ分析の考え方は、データの詳細を学習するにつれて、データ分析の計画を変更することです。探索的データ分析（EDA）の場合、これは一般に良いアイデアです（データに予期しないパターンを探すことが多い）が、確認研究では、これは非常に欠陥のある分析方法として広く受け入れられています（すべての場合を除く）手順が明確に定義され、高度に適切に計画されています）。そうは言っても、適応データ分析は通常、統計学者をがっかりさせるほど多くの研究者が実際に分析を行う数です。そのため、統計的に有効な方法でこれを行うことができれば、統計的実践に革命をもたらすでしょう。次のScienceの記事は、そのような方法を見つけたと主張しています（私はペイウォールをおizeびしますが、大学にいる場合はアクセスできる可能性が高い）：Dwork et al、2015、The reusable holdout：Preserving Validity in Adaptive Data Analysis。個人的には、私はScienceに掲載された統計記事について常に懐疑的でしたが、これも例外ではありません。実際、補足資料を含めて記事を2回読んだ後、著者が自分の方法が過剰適合を防ぐと主張する理由を（まったく）理解できません。私の理解では、彼らは再利用するホールドアウトデータセットを持っているということです。彼らは、ホールドアウトデータセットの確認分析の出力を「ファジング」することで主張しているようで、過剰適合は防止されます（トレーニングデータの計算された統計が十分に遠い場合、ファジングは単にノイズを追加しているように見えることに注意する価値があります）ホールドアウトデータの計算された統計から）。私の知る限り、これが過剰適合を防ぐ本当の理由はありません。著者が提案していることを間違えていますか？私が見落としている微妙な効果はありますか？それとも、科学はこれまで最悪の統計的実践を支持していたのでしょうか？

29 hypothesis-testing overfitting eda out-of-sample differential-privacy

5

データマイニングの新しい革新的な方法は？

次の抜粋は、一貫して成功しているヘッジファンドマネージャーのJaffray WoodriffとのインタビューであるSchwagerのHedge Fund Market Wizzards（2012年5月）からのものです。「データマイニングで発生する最悪のエラーにはどのようなものがありますか？」：多くの人は、トレーニングにサンプル内データを使用し、テストにサンプル外データを使用するため、大丈夫だと考えています。次に、サンプル内のデータで実行した方法に基づいてモデルを並べ替え、サンプル外のデータでテストするのに最適なモデルを選択します。人間の傾向は、サンプル外のデータで引き続き成功するモデルを採用し、それらのモデルを取引用に選択することです。このタイプのプロセスは、サンプル外のデータをトレーニングデータの一部に単純に変換します。これは、サンプル外の期間で最高の結果が得られたモデルを選択するためです。これは、人々が犯す最も一般的なエラーの1つであり、通常適用されるデータマイニングがひどい結果をもたらす理由の1つです。インタビュアーは、「あなたは代わりに何をすべきですか？」平均して、サンプル外のすべてのモデルが引き続き良好に機能するパターンを探すことができます。サンプル外モデルの平均がサンプル内スコアのかなりの割合である場合、あなたはうまくやっていることがわかります。一般的に、サンプル外の結果がサンプル内の50％を超える場合、実際にどこかに到達しています。SASとIBMが優れた予測モデリングソフトウェアを構築していた場合、QIMのビジネスモデルは機能しませんでした。私の質問これは理にかなっていますか？彼はどういう意味ですか？あなたは手がかりを持っていますか？あるいは提案された方法といくつかの参考文献の名前さえありますか？または、この男は誰も理解していない聖杯を見つけましたか？彼はこのインタビューで、彼の方法は潜在的に科学に革命をもたらす可能性があるとも述べています...

21 data-mining curve-fitting out-of-sample

3

k分割交差検定を使用する場合、テストセットが必要ですか？

私はk-fold検証について読んでいますが、それがどのように機能するかを確実に理解したいと思います。ホールドアウト方法では、データが3つのセットに分割され、テストセットは最後にのみモデルのパフォーマンスを評価するために使用され、検証セットはハイパーパラメーターの調整などに使用されることを知っています。 k-foldメソッドでは、最後のテストセットを保持し、残りのデータのみをトレーニングとハイパーパラメーターチューニングに使用します。つまり、残りのデータをk分割し、トレーニング後の平均精度を使用します。各フォールドで（またはハイパーパラメーターを調整するために選択したパフォーマンスメトリック）？または、個別のテストセットをまったく使用せず、データセット全体をk分割するだけです（これが当てはまる場合は、k折りの平均精度を最終的な精度と見なすだけです）。

21 cross-validation validation out-of-sample

1

Kaggleのプライベートリーダーボードは、受賞モデルのサンプル外のパフォーマンスの良い予測因子ですか？

プライベートテストセットの結果を使用してモデルをさらに絞り込むことはできませんが、プライベートテストセットの結果に基づいて実行される膨大な数のモデルからモデルを選択することはできませんか？そのプロセスだけで、プライベートテストセットに過剰適合することはありませんか？ Bailey et.al.による「擬似数学と金融の特性主義：サンプル外のパフォーマンスに対するバックテストの過剰適合の影響」によると。同じデータセットで評価された多数のモデルから最良のものを選択する場合、「オーバーフィット」するのは比較的簡単です。Kaggleのプライベートリーダーボードではそれは起こりませんか？プライベートリーダーボードで最高のパフォーマンスを発揮するモデルが、サンプル外のデータに最高のモデルを一般化するモデルであるための統計的正当性は何ですか？企業は実際に勝利モデルを使用することになりますか、それとも「ゲームのルール」を提供するためだけにプライベートリーダーボードがありますか。実際、企業は問題の議論から生じる洞察にもっと興味がありますか？

16 model-selection overfitting out-of-sample

4

予測モデル：統計はおそらく機械学習に勝るものはありませんか？[閉まっている]

閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 2年前に閉店。私は現在、統計学/計量経済学に焦点を当てたマスタープログラムをフォローしています。私のマスターでは、すべての学生が3か月の研究をしなければなりませんでした。先週、すべてのグループは研究を他のマスター学生に提示しなければなりませんでした。ほとんどすべてのグループが、研究トピックの統計モデリングと機械学習モデリングを行い、サンプル外れの予測が行われるたびに、単純な機械学習モデルが、最後の3年間非常に懸命に取り組んだ非常に洗練された統計モデルを打ち負かしましたヶ月。みんなの統計モデルがどれほど優れていても、単純なランダムフォレストでは、ほとんど常にサンプル外エラーが少なくなりました。これが一般に受け入れられている観測かどうか疑問に思っていましたか？サンプル外予測に関しては、単純なランダムフォレストまたは極端な勾配ブースティングモデルに勝つ方法はないということです。これらの2つの方法は、Rパッケージを使用して実装するのが非常に簡単ですが、誰もが思いついたすべての統計モデルには、かなりのスキル、知識、および見積もりの労力が必要です。これについてどう思いますか？あなたが解釈を得る統計/計量経済学モデルの唯一の利点はありますか？または、単純なランダムフォレストの予測を大幅に上回るパフォーマンスを達成できなかったほど、モデルが不十分でしたか？この問題に対処する論文はありますか？

14 machine-learning forecasting predictive-models prediction out-of-sample

3

従来の統計では、ホールドアウト法（トレーニングとテストにデータを分割する）が使用されないのはなぜですか？

私の教室でのデータマイニングの経験では、モデルのパフォーマンスを評価する方法として、ホールドアウトメソッドが導入されました。ただし、線形モデルで最初のクラスを取ったとき、これはモデルの検証または評価の手段として導入されませんでした。私のオンライン調査でも、交差点は示されていません。ホールドアウト法が古典統計で使用されないのはなぜですか？

12 regression validation model-evaluation out-of-sample

1

「インサンプル」予測と「擬似アウトオブサンプル」予測の違い

サンプル内予測と擬似サンプル外予測の間に明確な違いはありますか？両方は、予測モデルの評価と比較のコンテキストでの意味です。

12 forecasting model-comparison out-of-sample in-sample

4

ホールドアウトセットを作成するためのより適切な方法は何ですか：一部の被験者を削除するか、各被験者からいくつかの観察を削除しますか？

26個のフィーチャと31000行のデータセットがあります。38人の被験者のデータセットです。生体認証システム用です。だから私は主題を識別できるようになりたいです。テストセットを取得するには、いくつかの値を削除する必要があることを知っています。それでは、何をする方が良いのか、そしてその理由は何か。（a）30人の被験者をトレーニングセットとして保持し、8人の被験者をテストセットとして削除する（b）38人の被験者を保持しますが、それぞれの行をいくつか削除します。最後に、トレーニングセット：38800科目の24800行とテストセット：38科目の6200行で終わります。

11 machine-learning cross-validation out-of-sample

1

ランダムフォレストでのモデリングには交差検証が必要ですか？

私が見た限りでは、これについては意見が異なる傾向があります。ベストプラクティスは、クロス検証の使用を確実に指示します（特に、同じデータセットでRFを他のアルゴリズムと比較する場合）。一方、元のソースでは、OOBエラーがモデルトレーニング中に計算されるという事実は、テストセットのパフォーマンスの指標として十分であると述べています。Trevor Hastieでさえ、比較的最近の講演で、「ランダムフォレストは無料の相互検証を提供する」と述べています。直感的に、これは、1つのデータセットでRFベースのモデルをトレーニングおよび改善しようとする場合、私には理にかなっています。これについてどう思いますか？

10 cross-validation random-forest overfitting out-of-sample

2

サンプル外予測を改善しない「重要な変数」-解釈方法は？

多くのユーザーにとって非常に基本的なことだと思います。線形回帰モデルを使用して、（i）いくつかの説明変数と私の応答変数の関係を調査し、（ii）説明変数を使用して私の応答変数を予測します。特定の説明変数Xが、私の応答変数に大きな影響を与えているようです。私の応答変数のサンプル外予測の目的でこの説明変数Xの追加値をテストするために、2つのモデルを使用しました：すべての説明変数を使用するモデル（a）とすべての変数を使用するモデル（b）変数Xを除きます。両方のモデルで、サンプル外のパフォーマンスのみを報告します。どちらのモデルもほぼ同じように良好に機能するようです。つまり、説明変数Xを追加しても、サンプル外の予測は改善されません。モデル（a）、つまりすべての説明変数を持つモデルも使用して、説明変数Xが応答変数に大きな影響を与えることを確認しました。私の質問は今です：この発見をどう解釈するか？直接的な結論は、変数Xは推論モデルを使用して私の応答変数に大きな影響を与えるように見えても、サンプル外の予測を改善しないということです。しかし、私はこの発見をさらに説明するのに苦労しています。これはどのようにして可能であり、この発見の説明は何ですか？前もって感謝します！追加情報：「有意に影響する」とは、パラメーター推定の最高95％事後密度間隔に0が含まれないことを意味します（ベイズアプローチを使用したIM）。頻度論的には、これはおおよそ0.05未満のp値を持つことに相当します。私はすべてのモデルパラメーターに拡散（情報のない）事前分布のみを使用しています。私のデータは縦方向の構造を持ち、合計で約7000の観測が含まれています。サンプル外予測では、90％のデータを使用してモデルを適合させ、10％のデータを使用して複数の複製を使用するモデルを評価しました。つまり、トレーニングテストの分割を複数回実行し、最終的に平均パフォーマンスメトリックを報告しました。

10 statistical-significance predictive-models p-value prediction out-of-sample

1

サンプルRの2乗を計算する方法は？

これはおそらくどこかで議論されたと思いますが、明確な答えを見つけることができませんでした。式を使用して線形回帰モデルのサンプル外を計算しようとしていますは残差の2乗の合計で、は2乗の合計です。トレーニングセットについては、R2=1−SSR/SSTR2=1−SSR/SSTR^2 = 1 - SSR/SSTR2R2R^2SSRSSRSSRSSTSSTSST SST=Σ(y−y¯train)2SST=Σ(y−y¯train)2 SST = \Sigma (y - \bar{y}_{train})^2 テストセットはどうですか？サンプル外にを使い続けるべきですか、それともを使うべきですか？y¯trainy¯train\bar{y}_{train}yyyy¯testy¯test\bar{y}_{test} を使用すると、結果のが負になることがあります。これは、使用したsklearnの関数の説明と一致しています（サンプルをテストするためのlinear_modelの関数でも使用されます）。彼らは、「入力フィーチャを無視して、yの期待値を常に予測する定数モデルは、R ^ 2スコアが0.0になる」と述べています。y¯testy¯test\bar{y}_{test}R2R2R^2r2_score()y¯testy¯test\bar{y}_{test}score() ただし、他の場所では、ここやここ（dmi3knoによる2番目の回答）のようにを使用しています。だから私はどちらがもっと理にかなっているのだろうと思っていましたか？コメントは大歓迎です！y¯trainy¯train\bar{y}_{train}

10 regression machine-learning r-squared out-of-sample

2

学習率を低くすると、GBMのパフォーマンスがどのように低下しますか？

私は、gbm（勾配ブーストツリーモデル）の学習率を下げても、モデルのサンプルパフォーマンスを損なうことはないという民俗の知識に常に同意しています。今日は、よくわかりません。私はモデルを二乗誤差の合計を最小化してボストンハウジングデータセットに適合させています。これは、20％ホールドアウトテストデータセットのツリー数によるエラーのプロットです。最後に何が起こっているのかを理解するのは難しいので、ここに極端な拡大バージョンがあります 0.010.010.01 これはどのように最もよく説明されますか？これはボストンデータセットの小さなサイズのアーティファクトですか？数十万または数百万のデータポイントが存在する状況については、よりよく理解しています。グリッド検索（または他のメタアルゴリズム）で学習率の調整を開始する必要がありますか？

8 machine-learning boosting out-of-sample

4

sklearn、3クラス分類のランダムフォレストの適切なOobスコアは何ですか？[重複]

この質問にはすでに回答があります：診断メトリック（R2R2R^2 / AUC /精度/ RMSEなど）の値に基づいて、私のモデルは良いですか？（3つの答え） 7か月前に閉鎖。約45,000のサンプルで構成される学習データがあり、それぞれ21の機能があります。3つのクラス（-1、0、1）のラベルが付けられたこのデータでランダムフォレスト分類器をトレーニングしようとしています。クラスのサイズはほぼ同じです。私のランダムフォレスト分類子モデルはgini、その分割品質基準として使用しています。木の数は10であり、木の深さを制限していません。ほとんどの機能は無視できるほどの重要性を示しています。平均は約5％、それらの3分の1は重要度0、それらの3分の1は平均より上に重要です。ただし、おそらく最も印象的な事実は、oob（out-of-bag）スコア（1％未満）です。それはモデルが失敗したと私に思わせました、そして実際に、サイズ〜40kの新しい独立したセットでモデルをテストしたところ、63％（これまでのところ良い音）のスコアを得ましたが、混同行列をより詳しく調べると、モデルはクラス0でのみ成功し、1と-1の間で決定する場合、約50％のケースで失敗します。添付されたPythonの出力： array([[ 7732, 185, 6259], [ 390, 11506, 256], [ 7442, 161, 6378]]) これは当然のことですが、0クラスには予測をはるかに容易にする特別なプロパティがあるためです。しかし、私が見つけたOobスコアがすでにモデルが良くない兆候であるというのは本当ですか？ランダムフォレストのOobスコアはいくつですか？モデルが「良好」であるか、oobスコアのみを使用するか、またはモデルの他の結果と組み合わせて使用するかを決定するのに役立つ経験則はありますか？編集：不正なデータ（データの約3分の1）を削除した後、ラベルは0の場合は2％程度、-1 / + 1の場合は49％でした。oobスコアは0.011で、テストデータのスコアは0.49であり、混同行列はクラス1（予測の約3/4）にほとんど偏っていません。

8 classification random-forest out-of-sample

タグ付けされた質問 「out-of-sample」

タグ付けされた質問「out-of-sample」