タグ付けされた質問 「validation」

分析結果が元の研究環境の外にある可能性が高いかどうかを評価するプロセス。このタグを使用して測定または機器の「有効性」を論じないでください(本来の目的を測定するなど)、代わりに[有効性]タグを使用します。

1
logloss対gini / auc
2つのモデル(h2o AutoMLを使用するバイナリ分類器)をトレーニングしたので、使用するモデルを1つ選択します。次の結果が得られました。 model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 aucそしてlogloss列が交差検定メトリクス(クロスバリデーションのみトレーニングデータを使用する)です。..._trainそして..._validメトリックは、それぞれのモデルを通じてトレーニングと検証のメトリックを実行することによって発見されました。logloss_validまたはを使用しgini_validて、最適なモデルを選択します。 モデル1は優れたジニ(つまりAUC)を持っていますが、モデル2は優れた対数損失を持っています。私の質問は、どちらを選択するべきかという質問です。決定基準としてgini(AUC)またはloglossを使用することの利点/欠点は何ですか。

1
個別のモデリング/検証セットを使用して回帰モデルを構築する場合、検証データを「再循環」することは適切ですか?
モデリング/検証の観測結果が80/20に分割されているとします。モデルをモデリングデータセットに適合させましたが、検証データセットで見られるエラーに満足しています。将来の観測のスコアリングのためにモデルを展開する前に、検証とモデリングデータを組み合わせて、100%データの更新されたパラメーター推定値を取得するのが適切ですか?これに関する2つの視点を聞いたことがあります。 私が実行した検証は、モデル構造、つまり適用した一連の予測変数と変換の検証でした。それを使用して推定値を更新できるのに、データの20%をテーブルに残しても意味がありません。 私が実行した検証は、モデリングデータセットで計算したパラメーター推定値の検証の一部でした。モデルの適合度を更新すると、推定値が変更され、更新されたモデルのパフォーマンスをテストする客観的な方法がなくなります。 私はいつも議論#1に従いましたが、最近では、いくつかの人々が#2を主張するのを聞いています。私は他の人がこれについてどう思うかを見たかった。このトピックに関する文献または他の場所で良い議論を見ましたか?

3
従来の統計では、ホールドアウト法(トレーニングとテストにデータを分割する)が使用されないのはなぜですか?
私の教室でのデータマイニングの経験では、モデルのパフォーマンスを評価する方法として、ホールドアウトメソッドが導入されました。ただし、線形モデルで最初のクラスを取ったとき、これはモデルの検証または評価の手段として導入されませんでした。私のオンライン調査でも、交差点は示されていません。ホールドアウト法が古典統計で使用されないのはなぜですか?

1
ブライアスコアに類似した平均絶対誤差の名前?
昨日の質問イベントの確率を推定するモデルの精度を決定することで、確率スコアリングに興味を持ちました。 1N∑i=1N(predictioni−referencei)21N∑i=1N(predictioni−referencei)2\frac{1}{N}\sum\limits _{i=1}^{N}(prediction_i - reference_i)^2 1N∑i=1N|predictioni−referencei|1N∑i=1N|predictioni−referencei|\frac{1}{N}\sum\limits _{i=1}^{N}|prediction_i - reference_i| have a name, too?

2
エラー率は正則化パラメーターラムダの凸関数ですか?
RidgeまたはLassoで正則化パラメーターlambdaを選択する場合、推奨される方法は、さまざまな値のlambdaを試し、検証セットでエラーを測定し、最後に最も低いエラーを返すlambdaの値を選択することです。 関数f(lambda)= errorがConvexである場合、私にはクリートではありません。こんな感じかな?つまり、この曲線は複数の極小値を持つことができます(これは、ラムダの特定の領域でエラーの最小値を見つけても、他の一部の領域でさらに小さなエラーを返すラムダがある可能性を排除しないことを意味します) あなたのアドバイスをいただければ幸いです。

1
クラスター検証の情報のバリエーション(VI)メトリックの背後にある直感は何ですか?
私のような非統計学者にとっては、VIMarina Meliaの関連する論文「クラスタリングの比較-情報に基づく距離」(Journal of Multivariate Analysis、2007)を読んだ後でも、メトリック(情報の変動)のアイデアを捉えることは非常に困難です。実際、私はそこにあるクラスタリングの用語の多くに精通していません。 以下はMWEです。使用されるさまざまなメトリックで出力が何を意味するか知りたいのですが。私はこれらの2つのクラスターをR内に同じIDの順序で持っています: > dput(a) structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, …

1
パネル/縦断データの予測評価指標
月次レベルでの行動の予測を提供するいくつかの異なるモデルを評価したいと思います。データはバランスが取れており、 100,000および 12です。結果は特定の月のコンサートに参加しているため、任意の月の約80%の人にとってはゼロですが、ヘビーユーザーの長い右裾があります。私の予測は、結果のカウントの性質を尊重していないようです。フラクショナルコンサートが一般的です。n=n=n=T=T=T= モデルについては何も知りません。私は1人あたり1か月あたり6つの異なるブラックボックス予測のみを観察します。モデルビルダーが推定のために持っていなかった余分な1年分のデータがあります(コンサートの参加者は同じままですが)。それぞれのパフォーマンスが(正確さと精度の点で)どこにあるかを測定したいと思います。たとえば、あるモデルは、頻繁にコンサートに行く人にはよく予測しますが、カウチポテトには失敗しますか?1月の予測は12月の予測よりも良いですか?あるいは、正確な大きさが信頼できない場合でも、予測により、実績の点で人々を正しくランク付けできることを知っておくとよいでしょう。y^1,...,y^6y^1,...,y^6\hat y_1,...,\hat y_6 私の最初の考えは、予測ダミーと時間ダミーで実際の固定効果回帰を実行し、各モデルのRMSEまたはを確認することでした。しかし、これは、各モデルがどこでうまく機能するか、または差が大きいかどうか(RMSEをブートストラップしない限り)に関する質問には答えません。結果の分布も、このアプローチを心配しています。R2R2R^2 私の2番目のアイデアは、結果を0、1、3、3+に分類し、混同行列を計算することでしたが、これを12にしない限り、これは時間次元を無視します。また、かなり粗いです。 concordTJ SteichenとNJ CoxによるStataコマンドを知っていby()ます。これにはオプションがありますが、データを年次合計に集約する必要があります。これは、他の有用な統計の中でも、信頼区間を含むLinの相関相関インデックスを計算します。CCCの範囲は-1から1で、完全に1で一致しています。 オプションがあるハレルの(R.ニューソンによって計算さ れた)もありますが、それによってパネルデータを処理できるかどうかはわかりません。これにより、信頼区間が得られます。ハレルのcは、継続的な結果を得るためのROC曲線(AUC)の下の面積の一般化です。これは、より高い予測を持つ被験者が実際により高い結果を持つように注文できるすべてのペアの割合です。したがって、ランダム予測の場合は、完全に識別できるモデルの場合はです。ハレルの本、p.493を参照してくださいcccsomersdclusterc=0.5c=0.5c=0.5c=1c=1c=1 この問題にどのように取り組みますか?MAPEのように予測に共通する統計を計算することをお勧めしますか? これまでに見つかった便利なもの: スライド林のコンコーダンス相関係数の反復測定バージョンに

3
整合性チェックとは何ですか?
「日々の仕事で一貫性チェックをしましたか?」といった質問をされました。生物統計学者のポジションの電話インタビュー中に。何に答えればいいのか分かりません。どんな情報でも大歓迎です。
11 validation 

3
時系列データをトレイン/テスト/検証セットに分割する
時系列データをトレイン/テスト/検証セットに分割する最良の方法は何ですか?検証セットはハイパーパラメーター調整に使用されますか? 3年分の日次販売データがあり、計画は2015-2016をトレーニングデータとして使用し、2017年のデータから10週間ランダムにサンプリングして検証セットとして使用し、2017年のデータからさらに10週間テストセット。次に、テストおよび検証セットの各日について前にウォークします。

2
大規模な全体的なデータセットから代表的なサンプルセットを作成するにはどうすればよいですか?
(既知の信頼レベルで)母集団全体を表すサンプルセットを作成するための統計手法は何ですか? また、 サンプルがデータセット全体に適合する場合、検証方法は? データセット全体(何十億ものレコードになる可能性があります)を解析せずにそれは可能ですか?

2
楽観バイアス-予測誤差の推定
本の統計的学習の要素(PDFオンラインで入手可能)は、楽観バイアス(7.21、229ページ)について説明しています。楽観バイアスは、トレーニングエラーとサンプル内エラー(元の各トレーニングポイントで新しい結果値をサンプリングした場合に観察されるエラー)の差であると述べています(以下を参照)。 次に、この楽観バイアス()は、推定されたy値と実際のy値(以下の式)の共分散に等しいと述べています。なぜこの式が楽観バイアスを示しているのか理解できません。単純に、実際のyと予測されたyの間の強い共分散は、楽観主義ではなく、単に正確さを表すと考えていました。誰かが公式の導出を手伝ってくれるか、直感を共有できるかどうか教えてください。 ωω\omegayyyyyy

4
モデルのフィッティング/トレーニングおよび検証に使用されるサンプルデータの比率の計算
データの予測に使用する予定のサンプルサイズ「N」を提供しました。データの一部を使用してモデルを確立し、残りのデータを使用してモデルを検証するために、データを分割する方法にはどのようなものがありますか? 私はこれに対する白黒の答えがないことを知っていますが、いくつかの「経験則」または通常使用される比率を知ることは興味深いでしょう。大学に戻って、私たちの教授の1人が60%でモデルを言い、40%で検証することを知っていました。

2
感度分析とモデル検証の違いは何ですか?
感度分析とモデル検証(ここでは線形回帰検証のみ)の両方のウィキペディアページを読みましたが、これら2つの用語を分離する方法を見つけることができませんでした。 一つ目は学界や工学系で、二つ目は「データサイエンス」で使われている印象です。 私が目にする1つのオプションは、これらの用語の説明のレベルを変更することです。感度分析は、メソッドの高レベルの分岐を設計するための一般的な用語に似ており、モデルの検証はより具体的で、感度分析に含めることができます。 何か考えは? 私は、これら2つの概念の類似点よりも相違点に関心があります。

1
過剰適合を測定して回避するためのベストプラクティスは?
株式市場向けの自動取引システムを開発しています。大きな課題は過剰適合です。過剰適合を測定して回避する方法を説明するリソースをいくつか推奨できますか? 私はトレーニング/検証セットから始めましたが、検証セットは常に汚染されています。 また、市場は常に変化しているため、時系列データも常に変化しています。これをどのように測定し、目に見えないデータで一貫した結果が得られる可能性を判断しますか? ありがとう。

4
モデルを検証するためにデータをサブセット化することは必須ですか?
モデルの検証に関して、上司と同じページを表示するのに苦労しています。私は残差を分析し(近似値に対して観察された)、これを引数として使用してモデルによって得られた結果を議論しましたが、上司は、モデルを検証する唯一の方法はデータのランダムなサブセットを作成することであると主張し、 70%のモデルを生成し、残りの30%にモデルを適用します。 実は、私の応答変数はゼロに膨らんでいて(その85%、より正確にするため)、結果に収束するのはすでに非常に難しいので、サブセットを作成しない方がいいです。 だから、私の質問は:モデルを検証するための可能な(そして科学的に受け入れられる)方法は何ですか?データのサブセット化は唯一の方法ですか?可能であれば、質問を記事や本で参照してください。そうすれば、選択肢を提示するときに、それを引数として使用できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.