タグ付けされた質問 「cross-validation」

保留されたデータのサブセットでのモデルのパフォーマンスを定量化するために、モデルのフィッティング中にデータのサブセットを繰り返し保留する。

2
通常のロジスティック回帰におけるAUC
私は2種類のロジスティック回帰を使用しています。1つはバイナリ分類用の単純なタイプで、もう1つは順序ロジスティック回帰です。最初の精度を計算するために、交差検証を使用しました。各検証でAUCを計算し、平均AUCを計算しました。通常のロジスティック回帰の場合はどうすればよいですか?マルチクラス予測子の一般化されたROCについて聞いたことがありますが、それを計算する方法がわかりません。 ありがとう!

2
混合モデルの相互検証?
私の同僚と私は、Rで一連の線形および非線形混合効果モデルを近似しています。観測された効果が比較的一般化できることを確認できるように、近似モデルで交差検証を実行するように求められます。これは通常は簡単な作業ですが、この場合、データ全体を、共通のレベルを共有しないトレーニング部分とテスト部分(CVの目的)に分割する必要があります。例えば、 トレーニングデータはグループ1、2、3、4に基づく場合があります。次に、適合モデルはグループ5で交差検証されます。 したがって、トレーニングデータで推定されたグループベースのランダム効果はテストデータに適用されないため、これは問題を引き起こします。したがって、モデルをCVすることはできません。 これに対する比較的簡単な解決策はありますか?それとも、この問題に取り組むためのパッケージをまだ誰かが書いていますか?ヒントは大歓迎です! ありがとう!

2
サポートベクターマシンの学習パラメーターを選択する状況で、相互検証をどのように適切に適用しますか?
素晴らしいlibsvmパッケージは、Pythonインターフェースと、分類子の精度を最大化する学習パラメーター(コストとガンマ)を自動的に検索するファイル「easy.py」を提供します。与えられた候補の学習パラメーターセット内で、精度は交差検証によって操作可能になりますが、これは交差検証の目的を損なうように感じます。つまり、データの過剰適合を引き起こす可能性のある方法で学習パラメーター自体を選択できる限り、より適切なアプローチは、検索自体のレベルで交差検証を適用することだと思います:検索を実行しますトレーニングデータセットで、別のテストデータセット内で評価することにより、最終的に選択された学習パラメーターから得られるSVMの最終的な精度を評価します。または、ここで何か不足していますか?

1
データを再シャッフルする必要がありますか?
入手するのにかなり高額だった生物学的サンプルのセットがあります。これらのサンプルを一連のテストに通して、予測モデルの構築に使用されるデータを生成します。この目的のために、サンプルをトレーニングセット(70%)とテストセット(30%)に分けました。モデルを正常に作成し、テストセットに適用して、パフォーマンスが「最適ではない」ことを発見しました。実験家は、より良いモデルを作成するために生物学的試験を改善したいと考えています。新しいサンプルを入手できない場合は、サンプルを再シャッフルして新しいトレーニングと検証セットを作成するか、元の分割を使用することを提案してください。(この分割が問題のある分割だったことを示すものはありません)。

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

2
相互検証の実装は結果に影響しますか?
ご存じのように、クロス検証には2つの一般的なタイプがあります。K-foldとランダムサブサンプリングです(Wikipediaで説明)。それにもかかわらず、KフォールドCVとして記述されているものが実際にランダムなサブサンプリングである論文を作成し、出版している研究者がいることを知っています。そのため、実際には、読んでいる記事の内容が実際にはわかりません。 通常、違いは目立たないため、私の質問にも当てはまります。あるタイプの結果が別のタイプの結果と大幅に異なる場合の例を考えることができますか?

1
線形回帰:「感度の低い」パラメーターを優先する方法
単純な回帰モデルがあります(y = param1 * x1 + param2 * x2)。モデルをデータに適合させると、2つの優れたソリューションが見つかります。 ソリューションA、params =(2,7)は、RMSE = 2.5のトレーニングセットで最適です だが!ソリューションB params =(24,20)は、交差検証を行うと、検証セットで大きな成果を上げます。 私はこれが原因だと思います: ソリューションAは悪いソリューションに囲まれています。したがって、ソリューションAを使用する場合、モデルはデータの変動に対してより敏感になります。 ソリューションBはOKソリューションで囲まれているため、データの変更に対する感度が低くなります。 これは私が考案したばかりの新しい理論ですか、良い隣人とのソリューションはあまり適合していませんか?:)) ソリューションAよりもソリューションBを優先するのに役立つ一般的な最適化方法はありますか? 助けて!

2
SVMを最適化して、バイナリ分類での偽陰性を回避
私はScikit学習を使用してSVMバイナリ分類器をトレーニングしています。 私の問題の性質上、私は偽陰性を避ける必要があります。何も無料ではないので、偽陰性の数を減らすために偽陽性率を高くしても大丈夫です。どうすればそれができますか(理想的にはScikit学習で) つまり、SVM分類器を使用して偽陰性を最小限に抑えるにはどうすればよいでしょうか。偽陰性よりも偽陽性を優先するためにハイパーパラメータを調整する方法はありますか?

1
過剰適合を検出する手法
データサイエンスの職に就職の面接を受けました。インタビュー中に、モデルが適合しすぎないようにするために何をすべきか尋ねられました。私の最初の答えは、モデルのパフォーマンスを評価するために交差検証を使用することでした。しかし、インタビュアーは、交差検証でさえ完全に過剰適合を特定することはできないと述べました。次に、正則化について述べましたが、インタビュアーは、これが過剰適合を減らすのに役立つ可能性がある(私は同意する)が、それを検出することはできないと述べました。モデルが過剰適合していないことを確認するために使用できる他の手法はありますか?

2
トレーニングデータは不均衡ですが、検証セットも同じですか?
10000の正の例と50000の負の例で構成されるデータにラベルを付け、合計60000の例を示しています。明らかに、このデータは不均衡です。 ここで、検証セットを作成し、データの10%を使用して作成したいとします。私の質問は次のとおりです: 検証セットが不均衡であることを確認する必要がありますか(トレーニングセットの真の分布への同意として)、または検証セットが均衡していることを確認する必要がありますか?したがって、たとえば、私の検証セットは、 10%の正の例+ 10%の負の例で、1000 +および5000-の例を示します。(この検証セットは、元のデータの不均衡を反映しています)。 または、検証セットは、たとえば10%が正で1000+を与え、(10/5 = 2%)が負で1000-の例も与えられるようにすべきでしょうか? (テストセットについても同じ質問です)。 不均衡なデータでトレーニングする方法については多くの方法があるようですが、私の検証セットが元の不均衡を反映すべきかどうかについてのベストプラクティスを見つけるための場所はどこにもありません。最後に、相互検証は行っていません。単一の検証セットとニューラルネットワークを使用します。 ありがとう!

2
ボンフェローニ修正と機械学習
心理学の研究では、単一のデータセットでいくつかの仮説をテストする場合、ボンフェローニ法を使用して有意水準を調整する必要があることを学びました。 現在、分類のためにサポートベクターマシンやランダムフォレストなどの機械学習手法を使用しています。ここに、最高の精度をもたらす最良のパラメーター(SVMのカーネルパラメーターなど)を見つけるために交差検証で使用される単一のデータセットがあります。 私の直感は、それが同様の問題であると言っています(そしておそらく完全にオフになっています)。考えられるパラメーターの組み合わせの数が多すぎると、素晴らしい結果が得られる可能性が高くなります。しかし、これは単なる偶然かもしれません。 私の質問を要約すると: 機械学習では、分類器の適切なパラメーターを見つけるために交差検証を使用します。使用するパラメーターの組み合わせが多いほど、偶然に大きな組み合わせを見つける可能性が高くなります(オーバーフィット?)。ボンフェローニ修正の背後にある概念はここにも適用されますか?別の問題ですか?もしそうなら、なぜですか?

1
時系列モデルの選択:AICとサンプル外のSSEおよびそれらの同等性
AICは、時系列予測のモデルを比較する基準として頻繁に推奨されます。たとえば、動的回帰モデルのコンテキストでこれを参照してください。 最終モデルのAICを計算でき、この値を使用して最適な予測子を決定できます。つまり、考慮すべき予測子のすべてのサブセットと、AICc値が最も低いモデルを選択するために、この手順を繰り返す必要があります。 サンプル外のパフォーマンスに基づいてモデルを比較してみませんか?(たとえば、サンプル外予測でSSEが最も低いモデルを選択します)。私は時系列予測に関するいくつかの教科書とウェブサイトを読んでいて、この議論を見つけていません。私が得た最も近いものは、AICの事実と誤謬に関するこのブログエントリでした。 AICは実際には「サンプル内」の指標ではありません。はい、トレーニングデータを使用して計算されます。しかし、漸近的に、AICを最小化することは、断面データの1つを残した交差検証MSEを最小化することと同等であり、時系列モデルのサンプル外の1ステップ予測MSEを最小化することと同等です。この特性により、予測用のモデルの選択に使用するための魅力的な基準になります。 私が働いていた例(ここではプロットを投稿できませんでした。このサイトではもっと評判が必要です)で両方のアプローチを試しましたが、ほとんどの場合、AICとサンプル外のSSEは同じ結果になりません結果。私が使用した手順は次のとおりです。 トレーニングサンプルとテストサンプルのデータを分割しました(任意の時点で、以下の質問について) トレーニングサンプルを使用して、競合するモデル(外部リグレッサを含むARIMA、ARIMAパラメータとリグレッサを変更)を推定しました(最初の230期間。すべてのモデルの観測数は同じなので、AICは同等です)。 次に、テストサンプルと同じ期間(期間231〜260)のシリーズを予測しました。 SSE=∑260t=231(ytˆ−yt)2SSE=∑t=231260(yt^−yt)2SSE=\sum_{t=231}^{260}(\widehat{y_t}-y_t)^2ytyty_tytˆyt^\widehat{y_t} AIC(トレーニングデータを使用して計算)で示されたモデルを、サンプル外のSSEが最も低いモデルと比較しました。ほとんどの場合、選択されたモデルは異なります(少なくとも視覚的には、SSEによって選択されたモデルはパフォーマンスが向上します)。 誰かがこの背後で何が起こっているのか説明してくれるなら、とても感謝しています。私は明らかにこれの専門家ではありません。ちょっと教えようとしているだけなので、読んでいる教科書で大切なことを見落としてしまったら失礼します。 最後に、トレーニングおよびテストサンプルのデータを時系列に分割することに関する質問。断面データに対して同じ手順を使用することとは根本的に異なるものがあるように私には思えます。断面データの場合、データセット全体から2つのランダムサンプルを取得できます。時系列では、これはあまり意味がありません。したがって、シリーズをトレーニングサンプルとテストサンプルに分割するには、任意のポイントを取る必要があります。問題は、通常、最良のモデルは任意のポイントごとに異なるということです。おそらくそれが、このアプローチが頻繁に使用されていないように思われる理由です。これがモデル選択にAICが推奨される理由ですか?(「漸近的に、AICを最小化することは...時系列モデルのサンプル外の1ステップ予測MSEを最小化することと同等です」。)


2
リッジ回帰のPRESS統計
通常の最小二乗法では、一連の予測子に対してターゲットベクトル回帰し、ハット行列は次のように計算されます。XyyyバツXX H= X(Xtバツ)− 1バツtH=X(XtX)−1XtH = X (X^tX)^{-1} X^t PRESS(予測残差平方和)は、 SSP= ∑私(e私1 − 時間I I)2SSP=∑i(ei1−hii)2SS_P = \sum_i \left( \frac{e_i}{1-h_{ii}}\right)^2 ここで、は番目の残差、はハット行列の対角要素です。 I H I Ie私eie_iiiihiihiih_{ii} ペナルティ係数したリッジ回帰では、ハット行列は次のように変更されます。λλ\lambda H=X(XtX+λI)−1XtH=X(XtX+λI)−1XtH = X (X^t X + \lambda I)^{-1} X^t PRESS統計は、修正されたハットマトリックスを使用して同じ方法で計算できますか?

3
相互検証フォールドとは何ですか、またはこのフレーズは意味がありませんか?
k分割交差検証の概念は理解していますが、「フォールド」の意味がわかりません。ウィキペディアのリンク先ページからの引用: 次に、交差検証プロセスがk回繰り返されます(フォールド)。 これは非常にあいまいなようです。「折り畳み」はプロセスの各繰り返しを指しますか?それとも、ペアのトレーニングとテストのデータセットを参照するのは名詞ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.