タグ付けされた質問 「validation」

分析結果が元の研究環境の外にある可能性が高いかどうかを評価するプロセス。このタグを使用して測定または機器の「有効性」を論じないでください(本来の目的を測定するなど)、代わりに[有効性]タグを使用します。

11
テストセットと検証セットの違いは何ですか?
Matlabでニューラルネットワークツールボックスを使用すると、このことがわかりにくくなりました。 生データセットを3つの部分に分割しました。 トレーニングセット 検証セット テストセット 多くのトレーニングまたは学習アルゴリズムでは、データは多くの場合、トレーニングセットとテストセットの2つの部分に分かれています。 私の質問は: 検証セットとテストセットの違いは何ですか? 検証セットは本当にニューラルネットワークに固有ですか?または、オプションです。 さらに進むと、機械学習のコンテキストでの検証とテストに違いはありますか?

10
ホールドアウト検証とクロス検証
私には、ホールドアウト検証は役に立たないようです。つまり、元のデータセットを2つの部分に分割し(トレーニングとテスト)、テストスコアを一般化の尺度として使用することは、役に立たないでしょう。 K分割交差検証は、一般化のより良い近似を提供するようです(すべての点でトレーニングとテストを行うため)。それでは、なぜ標準のホールドアウト検証を使用するのでしょうか?それともそれについて話す?

2
「ビッグデータ」から有効な結論を引き出すには?
「ビッグデータ」はメディアのいたるところにあります。「ビッグデータ」は2012年の大きなものだと誰もが言います。たとえば、KDNuggetsは2012年のホットなトピックについて投票します。しかし、私はここで深い懸念を持っています。ビッグデータでは、誰もが何かを手に入れるだけで幸せに思えます。しかし、仮説検定や代表的なサンプリングなど、古典的な統計原則すべてに違反しているのではないでしょうか? 同じデータセットについてのみ予測を行う限り、これは問題ないはずです。したがって、Twitterユーザーの行動を予測するためにTwitterデータを使用する場合、おそらく大丈夫です。ただし、たとえば選挙を予測するためにTwitterデータを使用すると、Twitterユーザーが全人口の代表的なサンプルではないという事実は完全に無視されます。さらに、ほとんどの方法では実際に「草の根」の雰囲気とキャンペーンを区別できません。そしてツイッターはキャンペーンでいっぱいです。そのため、Twitterを分析するとき、すぐにキャンペーンとボットを測定することになります。(たとえば、「Yahooはアメリカの政治的勝者を予測する」を参照してください)これは世論調査のバッシングと「感情分析がはるかに優れている」でいっぱいです。彼らは、「ロムニーはノミネートに勝ち、サウスカロライナのプライマリーに勝つ可能性が90%以上ある」と予測した(彼は28%、ギンリッチはこのプライマリーに40%いた)。 他のそのようなビッグデータが失敗することを知っていますか?ある科学者は、あなたが150以上の友情を維持できないと予測したことを大まかに覚えています。彼は実際にフレンドスターの上限を発見しただけでした... twitterデータ、または実際にWebから収集された「ビッグデータ」については、データを収集する方法によって人々がさらにバイアスをかけることさえあると思います。ツイッターのすべてを持つ人はほとんどいません。彼らはスパイダーした特定のサブセットを持ちますが、これはデータセットのさらに別のバイアスです。 データをテストセットに分割したり、相互検証を実行したりすることは、あまり役に立ちません。他のセットには同じバイアスがあります。また、ビッグデータの場合、情報を「圧縮」する必要があるため、過剰に圧縮されることはほとんどありません。 最近、このジョークを聞いたことがあります。ビッグデータの科学者は、世界には約6種類の性別があることを発見しました...そして、これはまさに想像できます。 それでは、特に「ビッグデータ」データセット以外の何かを予測しようとする場合、分析に統計的妥当性を戻すためにどのような方法が必要ですか?

3
クラスタリング方法を選択する方法は?クラスターソリューションを検証する方法(メソッドの選択を保証するため)
クラスター分析の最大の問題の1つは、使用するさまざまなクラスタリング手法(階層的クラスタリングのさまざまなリンケージ手法を含む)に基づいて異なる結論を導き出さなければならない場合があることです。 これについてのあなたの意見を知りたい- どの方法を選択し、どのようにするか。「クラスタリングの最良の方法は、正しい答えを与えることです」と言う人もいるかもしれません。しかし、クラスター分析は教師なしの手法であると考えられているのではないかと疑問に思うかもしれません。どのメソッドまたはリンケージが正しい答えであるかをどのように知ることができますか? 一般的に:クラスタリングだけで十分に堅牢であるか?または、2つ目のメソッドが必要で、両方に基づいて共有結果を取得しますか? 私の質問は、クラスタリングのパフォーマンスを検証/評価する方法についてだけでなく、より広範なものです- ある基準に基づいて、あるクラスタリング方法/アルゴリズムを選択/優先しますか?また、データをクラスター化する方法を選択する際に注意すべき一般的な警告はありますか? 私はそれが非常に一般的な質問であり、答えるのが非常に難しいことを知っています。これについての詳細を知るためのコメント、アドバイス、提案があれば教えてください。

4
相互検証後の「テスト」データセットの使用方法
私が見たいくつかの講義やチュートリアルでは、データを3つの部分(トレーニング、検証、テスト)に分割することを提案しています。しかし、テストデータセットの使用方法や、このアプローチがデータセット全体の相互検証よりも優れている方法は明確ではありません。 データの20%をテストセットとして保存したとします。次に、残りを取得してk分割し、交差検証を使用して、このデータセットの未知のデータに対して最適な予測を行うモデルを見つけます。私たちが見つけた最良のモデルは、75%の精度を提供するとしましょう。 さまざまなQ&A Webサイトのさまざまなチュートリアルと多くの質問から、保存された(テスト)データセットでモデルを検証できるようになりました。しかし、それがどの程度正確に行われているのか、それが何の要点なのかはまだわかりません。 テストデータセットの精度が70%であるとします。 それでは、次に何をしますか?テストデータセットで高いスコアを取得するまで、別のモデルを試し、次に別のモデルを試しますか?しかし、この場合、限られた(20%のみ)テストセットに適合するモデルを見つけるだけのように見えます。一般的に最適なモデルを見つけるという意味ではありません。 さらに、限られたデータセットでのみ計算される場合、このスコアをモデルの一般的な評価としてどのように考えることができますか?このスコアが低い場合は、不運で「不良」なテストデータを選択した可能性があります。 一方、所有しているすべてのデータを使用してからk分割交差検証を使用してモデルを選択すると、所有しているデータセット全体の未知のデータに対して最適な予測を行うモデルが見つかります。

2
最終(生産準備完了)モデルは、完全なデータでトレーニングするのか、それともトレーニングセットでトレーニングするのか?
トレーニングセットで複数のモデルをトレーニングし、クロス検証セットを使用して最適なモデルを選択し、テストセットでパフォーマンスを測定したと仮定します。だから今、私は1つの最終的な最高のモデルを持っています。使用可能なすべてのデータで再トレーニングするか、トレーニングセットのみでトレーニングしたソリューションを出荷する必要がありますか?後者の場合、なぜですか? 更新:@ P.Windridgeが指摘したように、再訓練されたモデルを出荷することは、基本的に検証なしでモデルを出荷することを意味します。しかし、テストセットのパフォーマンスを報告することができます。その後、最適なモデルとより多くのデータを使用するため、パフォーマンスが向上することを期待して、完全なデータでモデルを再トレーニングできます。そのような方法論からどのような問題が発生する可能性がありますか?

4
レビュアーとして、ジャーナルが利用できない場合でも、データとコードを利用可能にすることを正当化できますか?
科学は再現可能でなければならないため、定義により、データとコードの共有に関するエール円卓会議で議論されているように、データとコードは再現性の重要な要素であるという認識が高まっています。 データとコードの共有を必要としないジャーナルの原稿を確認する際に、データとコードを利用できるようにリクエストできますか レビュー時に私に 出版時点で公的に(ジャーナルはサプリメントをサポートしています) また、そのようなリクエストをどのように表現できますか? 更新:一般的なケースに興味がありますが、この特定のケースは以前に公開されたすべてのデータを使用したメタ分析で構成され、コードはSASの単純な線形モデルです サイドノートは、より多くの研究が生データを提供すれば、クロススタディ推論(メタ分析の目標である)を行う能力が大幅に強化されます アップデート2: レビューのためにエディターにデータとコードを要求し、エディターはその要求を合理的であると見なし、1日以内に要求された資料を受け取りました(十分であるが、不可解な変数名、メタデータなし、インラインコメントはほとんどありません)。

3
k分割交差検定を使用する場合、テストセットが必要ですか?
私はk-fold検証について読んでいますが、それがどのように機能するかを確実に理解したいと思います。 ホールドアウト方法では、データが3つのセットに分割され、テストセットは最後にのみモデルのパフォーマンスを評価するために使用され、検証セットはハイパーパラメーターの調整などに使用されることを知っています。 k-foldメソッドでは、最後のテストセットを保持し、残りのデータのみをトレーニングとハイパーパラメーターチューニングに使用します。つまり、残りのデータをk分割し、トレーニング後の平均精度を使用します。各フォールドで(またはハイパーパラメーターを調整するために選択したパフォーマンスメトリック)?または、個別のテストセットをまったく使用せず、データセット全体をk分割するだけです(これが当てはまる場合は、k折りの平均精度を最終的な精度と見なすだけです)。

4
相互検証以外でのハイパーパラメーターの調整はどれほど悪いですか?
パフォーマンスを測定するために使用するデータセットは、機能を調整するために使用したものと同じであるため、相互検証の外でハイパーパラメーターチューニングを実行すると、外部の有効性のバイアスが高い推定値につながることがあります。 私が不思議に思っているのはこれがどれほど悪い問題かということです。これにより、調整するパラメーターが非常に多くなるため、機能の選択が本当に悪いことを理解できます。しかし、LASSO(正則化強度が1つだけのパラメーター)のようなもの、または機能選択なしのランダムフォレスト(いくつかのパラメーターはあるが、ノイズ機能の追加/ドロップほど劇的ではない)を使用している場合はどうでしょうか? これらのシナリオでは、トレーニングエラーの推定値がどれほどひどく楽観的であると予想できますか? ケーススタディ、論文、逸話など、これに関する情報をいただければ幸いです。ありがとう! 編集:明確にするために、トレーニングデータのモデルパフォーマンスの推定については話していません(つまり、相互検証をまったく使用していません)。「クロス検証の外側のハイパーパラメーター調整」とは、個々のモデルのパフォーマンスを推定するためだけにクロス検証を使用することを意味しますが、ハイパーパラメーター調整手順内でオーバーフィットを修正するための外側の2番目のクロス検証ループは含みませんトレーニング手順中のオーバーフィッティング)。たとえば、こちらの回答をご覧ください。

2
過適合についてのベイジアン思考
私は、従来の頻度主義統計ドメインで予測モデルを検証するための方法とソフトウェアの開発に多くの時間を費やしました。より多くのベイジアンのアイデアを実践と教育に取り入れる際に、受け入れるべき重要な違いがいくつかあると思います。まず、ベイジアン予測モデリングはアナリストに、候補の特徴に合わせてカスタマイズできる事前分布についてよく考えるように頼みます。これらの事前分布は、モデルをそれらに引き寄せます)。第二に、「実際の」ベイジアンの方法では、単一のモデルにはなりませんが、予測のために事後分布全体を取得します。 これらのベイジアン機能を念頭に置いて、過剰適合とはどういう意味ですか?評価すべきでしょうか?もしそうなら、どのように?ベイズのモデルが野外での使用に信頼できるときはどのようにして知ることができますか?それとも、予測のために開発したモデルを使用すると、事後はすべての注意を与える不確実性に沿って進むので、それは重要なポイントですか? ベイジアンモデルを単一の数値、たとえば事後平均/最頻値/中央値リスクに蒸留するように強制した場合、考え方はどのように変わりますか? ここに関連する考え方があります。パラレル議論を見つけることができるここに。 フォローアップの質問::完全にベイジアンであり、データを見る前に事前確率について考えるのに時間を費やし、データ尤度が適切に指定されたモデルに適合した場合、過剰適合に関してモデルに満足することを強いられますか?または、ランダムに選択された対象が平均して十分に予測される可能性のある頻繁な世界で行うことを行う必要がありますが、予測が非常に低い対象または予測値が非常に高い対象を選択すると、回帰が発生しますという意味ですか?

3
ネイトシルバーの予測の正確さをどのように判断できますか?
まず、彼は結果の確率を与えます。そのため、たとえば、米国の選挙に対する彼の予測は、現在クリントンが82%対トランプが18%です。 今、トランプが勝ったとしても、彼が勝ったはずの時間の18%だけではなかったことをどうやって知るのですか? もう1つの問題は、彼の確率が時間とともに変化することです。7月31日、トランプとクリントンの間はほぼ50対50でした。 私の質問は、彼は同じ結果で同じ将来のイベントに対して毎日異なる確率を持っていることを考えると、その日まで利用可能な情報に基づいて予測を行った毎日の正確さをどのように測定できますか?

3
小さな検証セットを使用できますか?
データをテストセットと検証セットに分割する背後にある理由を理解しています。また、スプリットのサイズは状況によって異なりますが、一般的には50/50から90/10に変わることも理解しています。 RNNを作成して、スペルを修正し、約500万文のデータセットから開始します。50万文を削り取り、残りの約450万文で訓練します。トレーニングが完了したら、検証セットを取得して精度を計算します。 興味深いことに、検証セットのわずか4%で69.4%の精度が得られ、このパーセンテージはどちらの方向でも0.1%以上変化しません。最終的には、数値が69.5%のままであるため、検証を短くしました。 では、おそらく1%で済ませる可能性があるのに、なぜ検証のために10%を切り捨てるのでしょうか?それは重要ですか?

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
「ブートストラップ検証」(別名「相互検証の再サンプリング」)の手順は何ですか?
「ブートストラップ検証」/「相互検証の再サンプリング」は私にとっては新しいものですが、この質問に対する答えで議論されました。私が収集するのは、2種類のデータです:実データとシミュレートデータ。シミュレートデータが実データと同じサイズになるまで、置換によるリサンプリングによって実データから与えられたシミュレートデータのセットが生成されます。そのようなデータ型を使用するための2つのアプローチを考えることができます。(2)多くのシミュレートされたデータセットのそれぞれを使用してモデルを何度も適合させ、毎回それを実際のデータに対して評価します。どちらが最適ですか?

2
ScikitがCalibratedClassifierCVで分類子を調整する正しい方法
ScikitにはCalibratedClassifierCVがあり、これにより特定のX、yペアでモデルを調整できます。また、明確に述べていますdata for fitting the classifier and for calibrating it must be disjoint. それらがばらばらでなければならない場合、分類器を次のもので訓練することは合法ですか? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) 同じトレーニングセットを使用することで、disjoint data規則に違反しているのではないかと心配しています。別の方法として、検証セットを用意することもできます my_classifier.fit(X_train, y_train) model = CalibratedClassifierCV(my_classifier, cv='prefit') model.fit(X_valid, y_valid) これには、トレーニング用のデータが少なくなるという欠点があります。また、CalibratedClassifierCVが別のトレーニングセットに適合するモデルにのみ適合しなければならない場合、なぜデフォルトのオプションはでありcv=3、これも基本推定量に適合しますか?相互検証は、独立したルールを単独で処理しますか? 質問:CalibratedClassifierCVを使用する正しい方法は何ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.