タグ付けされた質問 「validation」

分析結果が元の研究環境の外にある可能性が高いかどうかを評価するプロセス。このタグを使用して測定または機器の「有効性」を論じないでください(本来の目的を測定するなど)、代わりに[有効性]タグを使用します。

2
「再編成トリック」の名前(データセットをランダムに並べ替えて、推定器のバイアスを推定します)
複雑なモデリング手法が偏っているかどうかを調べるための次の方法の参照または名前を知っていますか?TTT 元のデータセットにを適用します。そのパフォーマンスを測定します(例:回帰設定のR-2乗)。TTT 応答変数をランダムに並べ替えて、新しいデータセットを取得します。を適用し、そのパフォーマンスを測定します。[観測が依存している場合、このステップはより複雑になります。]P 'TTTP』P′P' が実質的にゼロのパフォーマンスと異なる場合、がバイアスされていると結論付けます。 TP』P′P'TTT リソースが許す場合、ステップ2を繰り返すことができます。これにより、パフォーマンス測定の順列ヌル分布が発生します。しかし、私のアプリケーションでは、リソースの問題のためにこれを行うことはできません。 この「再編成」のトリックは、誰かが(一部の設定で)リーブワンアウト相互検証のバイアスを調査するために使用したことを暗に覚えています。しかし、彼が私のプロセスの中で一度だけプロセス全体を繰り返すことができたのかどうかはわかりません。 単純な後方選択の「力」を示すRの例: # Generate random data set. Only random performance is expected. n <- 100 p <- 30 set.seed(7567) y <- rnorm(n) X <- rnorm(n*p) dim(X) <- c(n, p) data <- data.frame(y, X) # Modelling technique: backward selection with OLS T <- function(data) …

3
ブートストラップによる内部検証:提示するROC曲線は?
標準のロジスティック回帰またはエラスティックネットで構築された多変量モデルの内部検証にブートストラップアプローチを使用しています。 私が使用する手順は次のとおりです。 1)データセット全体を使用してモデルを構築し、予測値を取得して、AUC(AUC_ap、見かけ)を計算します 2)元のデータセットから派生した100-500のブートストラップサンプルを生成する 3)各ブートストラップサンプルについて、#1と同じ手順に従い、i)現在のブートストラップサンプル、ii)元のデータセットの予測値とaucを取得します。 4)100-500のブートストラップサンプルそれぞれについて、i)とii)(#3で)の差を計算し、平均を取る-> "optimism" 5)楽観主義が修正されたAUCを計算します:AUC_ap-楽観主義 私の質問は、ROC曲線が論文に提示するのに最も適しているのは何ですか?たとえば、手順1で取得したROCは1つの選択肢ですが、明らかに楽観的です。あるいは、ステップ#3(ii)で導出されたROC曲線に基づいて、RパッケージROCRを使用して「平均ROC」を生成しようとしました。ただし、[これらのROC曲線の平均]のAUCは、ステップ5で取得した値と同等ではないと考えています。 どんな入力でも大歓迎です!-M

1
新しい集団におけるアンケートの検証
医学生の態度構成を測定することを目的とする20項目のアンケートに400の回答があります。機器は米国で医学生の1年間検証され、公開されたデータは非常に「クリーン」です。すべてのritc値> 0.3、アルファ0.84、安定した4因子構造のPCAなど。私のサンプルでは、 ritc <0.2を持つ20のアイテムと文化的サブポピュレーション(n = 70)では、これらのritc値はゼロ/負です。すべてのitmesを保持している場合、ritcが低いものは、どの要素にもロードされないか、2項目の要素(要素4)に分類されません。これは(調査したいと思います)これは次のいずれかが原因であると仮定します。または(ii)プログラムのすべての段階で生徒からの回答があり、スケールアイテムで十分にキャプチャされていない構成に発達面があるため。これを調査できる統計検定はありますか? ritcのあるアイテムをスケールから削除する必要がありますか。削除する場合は、最低から順に削除します。どの時点でアイテムの削除を停止する必要がありますか/アンケートから何かを紛失しましたか?メジャーとマイナーのサブポピュレーションの間でスケールの因子構造を比較したい場合、これをどのように試行するか、またはマイナーサブサンプルが小さすぎて結論を導き出せないのですか?参考文献をいただければ幸いです。 最後に、スケールを検証する目的は、介入前および介入後のスコアを使用して介入の有効性を判断するためにスケールを使用することです。アイテムのritcが低い場合、実験的な設定でスケールの信頼性に影響を与える可能性があると思います。または私は間違っていますか?発達的側面を持つ構成要素を測定するために設計されたスケールの有用性を決定する統計的方法はありますか?つまり、学生が態度構成要素の「より多く」を開発するときにすべての項目が適切に機能しますか?

3
テストサンプルのAUCが高すぎるモデルは、オーバーフィットしないモデルよりも優れています
私は、列車セットで70%の AUC、ホールドアウトテストセットで70%の AUC を実行するモデルを作成したチャレンジに参加しています。 他の参加者は、トレーニングセットでAUC を96%、ホールドアウトテストセットでAUC を76%実行するモデルを作成しました。 私の意見では、ホールドアウトセットと同じレベルで機能するため、私のモデルの方が優れています。Q:テストセットでの彼の76%は単なる偶然であり、別のホールドアウトテストセットでは彼のモデルのパフォーマンスが低下する可能性があると主張することは有効ですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.