タグ付けされた質問 「tolerance-interval」

1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …


2
予測と許容範囲
予測と許容範囲についていくつか質問があります。 最初に許容範囲の定義について合意しましょう。信頼レベル(90%など)、取得する母集団の割合(99%など)、サンプルサイズ(20など)が与えられます。確率分布は既知であり、通常便宜上。ここで、上記の3つの数値(90%、99%、20)と、基礎となる分布が正規であることを前提として、許容誤差の数値計算できます。試料所定の(X 1、xは2、... 、X 20)との平均ˉ Xと標準偏差S、公差間隔であるˉ X ± K Skkk(x1,x2,…,x20)(x1,x2,…,x20)(x_1,x_2,\ldots,x_{20})x¯x¯\bar{x}sssx¯±ksx¯±ks\bar{x}\pm ks。この公差は間隔キャプチャ人口の99%にした場合、その後、サンプルと呼ばれ、成功と要件は、サンプルの90%があることである成功。(x1,x2,…,x20)(x1,x2,…,x20)(x_1,x_2,\ldots,x_{20}) コメント:90%は、サンプルが成功するための事前確率です。99%は、サンプルが成功した場合、将来の観測が許容範囲内になる条件付き確率です。 私の質問:予測区間を許容区間として見ることができますか?ウェブ上でこれについて矛盾する答えを得ました。言うまでもなく、予測間隔を慎重に定義した人はいないことは言うまでもありません。したがって、予測間隔(または参照)の正確な定義があれば、私はそれを感謝します。 私が理解したのは、たとえば99%の予測間隔では、すべてのサンプルのすべての将来の値の99%がキャプチャされないということです。これは、人口の99%を100%の確率で取得する許容範囲と同じです。 (x1,x2,…,x20)(x1,x2,…,x20)(x_1,x_2,\ldots,x_{20})yyyyyy、将来の値が与えられ、一定の確率で許容範囲に分類されます。上記の予測間隔の定義が正しいかどうかはわかりませんが、(少なくとも)直感に反するようです。 何か助けは?

1
離散変数のノンパラメトリック許容区間
あなたがたくさんの人に、1から10までの離散的なスケールで映画がどれほど好きだったかを評価して、(少なくとも)95%の信頼度、(少なくとも)90の間隔[ l、u ] が欲しいと仮定します。映画を見るすべての人の%は、映画をl以上、u以下と評価します。[ l、u ]は、95%の信頼性と90%のカバレッジを持つ(両側の)許容区間です。(明確にするために、95%の信頼度は、この手順を何度も繰り返した場合、生成された間隔の95%が少なくとも90%の人口カバレッジを取得することを意味します。)もちろん、一般的に[ l、u ]を要件を満たしながら可能です。 連続確率変数の許容区間を構築するためのさまざまなノンパラメトリック手法を見てきました。また、二項変数とポアソン変数の許容区間を作成する方法も見ました。(Rパッケージtoleranceはこれらのメソッドのいくつかを実装しています; Young、2010年。)しかし、分布が不明な場合の離散変数はどうでしょうか?これは通常、私の例のような評価スケールの場合であり、実際の評価スケールデータはマルチモダリティなどの奇妙さを示すことが多いため、二項分布を仮定することは安全ではないようです。 連続変数のノンパラメトリック法に頼ることは理にかなっていますか?あるいは、サンプルのブートストラップ複製を1,000回生成し、少なくとも950回の複製でサンプルの少なくとも90%を捕捉する間隔を見つけるなど、モンテカルロ法についてはどうでしょうか? ヤング、DS(2010)。許容範囲:許容範囲の間隔を推定するためのRパッケージ。Journal of Statistical Software、36(5)、1〜39。http://www.jstatsoft.org/v36/i05から取得
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.