タグ付けされた質問 「maximum」

極値は、サンプル内の最大または最小の観測値です。たとえば、サンプルの最小値(1次の統計)とサンプルの最大値(n次の統計)。極値には、漸近*極値分布*が関連付けられています。

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 


3
壊れたスティックの最大の断片の分布(間隔)
長さ1のスティックを、ランダムに一様に断片に分割します。最も長いフラグメントの長さの分布は何ですか?k + 1k+1k+1 より正式には、をIIDとし、関連する順序統計、つまり単純に順序付けします。そのような方法で試料。ましょう。(U1、… Uk)(うん1、…うんk)(U_1, \ldots U_k)うん(0 、1 )うん(0、1)U(0,1)(U(1 )、… 、U(k ))(うん(1)、…、うん(k))(U_{(1)}, \ldots, U_{(k)})うん(1 )≤ U(2 )≤,…,≤U(k)U(1)≤U(2)≤,…,≤U(k)U_{(1)} \leq U_{(2)} \leq, \ldots , \leq U_{(k)}Zk= 最大(U(1 )、U(2 )− U(1 )、… 、U(k )− U(k − 1 )、1 − U(k ))Zk=最大(うん(1)、うん(2)−うん(1)、…、うん(k)−うん(k−1)、1−うん(k))Z_k = \max \left(U_{(1)}, U_{(2)}-U_{(1)}, \ldots, U_{(k)} - U_{(k-1)}, 1-U_{(k)}\right) Z_kの分布に興味がありますZkZkZ_k。モーメント、漸近結果、またはk \ uparrow …

2
確率変数が最大になる確率をどのように制限できますか?
\newcommand{\P}{\mathbb{P}}有限平均\ mu_1 \ leq \ ldots \ leq \ mu_Nおよび分散\ sigma_1 ^ 2、\ ldots、\を持つNNN独立したランダム変数X1X1X_1、……\ldots、XnXnX_nがあるとしますsigma_N ^ 2。X_i \ neq X_Nが他のすべてのX_j、j \ neq iよりも大きい確率の分布のない境界を探しています。σ 2 1 ... σ 2 N X I ≠ X N Xのjは J ≠ Iμ1≤…≤μNμ1≤…≤μN\mu_1 \leq \ldots \leq \mu_Nσ21σ12\sigma_1^2……\ldotsσ2NσN2\sigma_N^2Xi≠XNXi≠XNX_i \neq X_NXjXjX_jj≠ij≠ij \neq i 言い換えると、簡単にするためにX_iの分布XiXiX_iが連続的であると仮定する場合(P(Xi=Xj)=0P(Xi=Xj)=0\P(X_i = X_j) = 0)、次の境界を探しています: …

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

4
プラス1標準偏差が最大値を超えることを意味できますか?
最小0と最大94.33のサンプルの平均74.10と標準偏差33.44があります。 私の教授は、平均プラス1つの標準偏差が最大値を超える方法を尋ねます。 私は彼女にこれについて多くの例を示しましたが、彼女は理解していません。私は彼女を示すためにいくつかの参照が必要です。これについては特に統計書のどの章や段落でもかまいません。

1
スプラインを使用して密度関数の局所極値を見つける
確率密度関数の局所的な最大値を見つけようとしています(Rのdensity方法を使用して見つけました)。大量のデータがあるため、単純な「周辺を見る」方法(ポイントを見て周辺の最大値であるかどうかを確認する方法)を実行できません。さらに、フォールトトレランスやその他のパラメータを使用して「辺りを見る」のではなく、スプライン補間のようなものを使用してから1次導関数の根を見つける方がより効率的で一般的です。 だから、私の質問: からの関数が与えられた場合splinefun、どのメソッドが局所最大値を見つけますか? を使用して返される関数の導関数を見つける簡単/標準的な方法はありsplinefunますか? 確率密度関数の極大値を見つけるためのより良い/標準的な方法はありますか? 参考のために、以下は私の密度関数のプロットです。私が使用している他の密度関数の形式は似ています。私はRには慣れていないが、プログラミングには慣れていないので、必要なものを達成するための標準ライブラリまたはパッケージがあるかもしれません。 ご協力いただきありがとうございます!!
15 r  pdf  splines  maximum 

1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

2
サンプルの最大値の分散とは何ですか?
一連のランダム変数の最大値の分散の境界を探しています。言い換えれば、 ここでX = \ {X_1、\ ldots、X_M \}は固定であるような 閉じた形式の式を探しています。有限平均\ mu_1、\ ldots、\ mu_Mおよび分散\ sigma_1 ^ 2、\ ldots、\ sigma_M ^ 2のM個の確率変数のセット。BBBVar(maxiXi)≤B,Var(maxiXi)≤B, \mbox{Var}(\max_i X_i) \leq B \enspace, X={X1,…,XM}X={X1,…,XM}X = \{ X_1, \ldots, X_M \}MMMμ1,…,μMμ1,…,μM\mu_1, \ldots, \mu_Mσ21,…,σ2Mσ12,…,σM2\sigma_1^2, \ldots, \sigma_M^2 私はと推論できる Var(maxiXi)≤∑iσ2i,Var(maxiXi)≤∑iσi2, \mbox{Var}(\max_i X_i) \leq \sum_i \sigma_i^2 \enspace, これバウンドが非常に緩いようだが。数値テストでは、B=maxiσ2iB=maxiσi2B = \max_i \sigma_i^2が可能性があることを示しているようですが、これを証明できませんでした。どんな助けも大歓迎です。

3
今日、Usain Boltよりも速い人がいますか?
編集:私は、サンプル統計が与えられた特定の母集団の「真の」最大値の可能性を決定する技術的な問題と方法論にもっと興味があります。記録的なダッシュタイムからボルト氏よりも速いランナーの可能性を推定することには、明らかで微妙な問題があります。これが事実ではないことを想像して私をユーモア。 ウサインボルトは、100 mのダッシュで計測された最速の人間です。しかし、アスリートの数が少ないことを考えると、生きている「真の」最速の人間はどこかにソファに座っており、競争力のあるランニングキャリアを試みたことはないようです。 正規分布の裾のサンプル間の差がますます小さくなるという事実を利用しようとしています。これを使用して、Usainを2番目に速い、3番目に速いなどと比較することにより、Usain Boltよりも速い誰かが存在する可能性を計算しています。 これを行うには、に関する正規分布のCDFの導関数を取得し、yyyそれを番目(は約7,000,000,000またはの数)に上げることにより、「Usain Bolt」を超えて存在する最大値を計算しようとしています。「最大」よりも少ないサンプル-この背後にあるロジックは、ドイツの戦車問題ウィキペディアのページで説明されています。nnnnnnn ∫∞0yfYN(y)dy=λn∫∞0y[12[1+erf(y−μσ2√)]]n−112πσ2√e−(y−μ)22σ2dy∫0∞yfYN(y)dy=λn∫0∞y[12[1+erf⁡(y−μσ2)]]n−112πσ2e−(y−μ)22σ2dy\int_{0}^{\infty}y f_{Y_N} (y)dy = \lambda n \int_{0}^{\infty} y \left [ \tfrac12\left[1 + \operatorname{erf}\left( \frac{y-\mu}{\sigma\sqrt{2}}\right)\right] \right ]^{n-1} \frac{1}{\sqrt{2\pi\sigma^2}}\, e^{-\frac{(y - \mu)^2}{2 \sigma^2}}dy これは、Usain Boltよりも速く誰かが存在する確率を計算する有効な方法ですか? 「他のディストリビューションのドイツ戦車問題」以外に、この種の質問の名前はありますか 分布の極端なサンプルから標準偏差を推定する良い方法はありますか?史上最速の100mダッシュに関する情報を見つけるのは簡単で、平均と分散を見つけるのは難しいです) トピックの背景のないプログラマーに対処する忍耐に感謝します。

1
カードゲーム:4枚のカードをランダムに引き、6枚のカードを引いた場合、私の最高のカードがあなたの最高のカードよりも高い確率はどのくらいですか?
タイトルで述べたように、私がランダムに4枚のカードを引き、同じデッキから6枚を引いた場合、私の最高のカードがあなたの最高のカードを破る確率はどうですか? 異なるデッキからドローする場合、これはどのように変わりますか? ありがとう!

2
スプリアス相関の期待値
我々は、描画NNN大きさの各サンプル、nnn独立して正常から、(μ,σ2)(μ,σ2)(\mu,\sigma^2)分布。 次に、NNNサンプルから、相互に最も高い(絶対)ピアソン相関を持つ2つのサンプルを選択します。 この相関の期待値は何ですか? ありがとう[PSこれは宿題ではない]

1
n iid正規変数の最大比率の期待値
がからのiidであり、がから番目に小さい要素を示すと仮定します。 2つの連続する要素間の比率の予想される最大値をどのように上限にできるでしょうか?つまり、次の上限をどのように計算できますか。 N (μ 、σ 2)X (I ) I X 1、。。。、X n X (i )X1,...,XnX1,...,XnX_1,...,X_nN(μ,σ2)N(μ,σ2)N(\mu,\sigma^2)X(i)X(i)X_{(i)}iiiX1,...,XnX1,...,XnX_1,...,X_nX(i)X(i)X_{(i)} E[maxi=1,...,n−1(X(i+1)X(i))]E[maxi=1,...,n−1(X(i+1)X(i))]E\left[\max\limits_{i=1,...,n-1}\left(\frac{X_{(i+1)}}{X_{(i)}}\right)\right] 私が見つけることができた文献は、主に2つの確率変数間の比率に焦点を当てています。その結果、2つの無相関正規分布のpdfがここに示されています。https://en.wikipedia.org/wiki/ Ratio_distribution#Gaussian_ratio_distribution。これにより、nnn変数の期待される平均比率を上限にできるようになりますが、この概念を一般化してnnn変数の期待される最大比率を見つける方法はわかりません。

3
最小、平均、最大から分布を計算する
あるデータセットの最小値、平均値、最大値、たとえば10、20、25があるとします。次の方法はありますか? これらのデータから分布を作成し、 人口の何パーセントが平均より上または下にある可能性が高いかを知る 編集: グレンの提案に従って、サンプルサイズが200であるとします。

2
iidガウシアンの最大値について最も強力な結果は何ですか?実際に最も使用されていますか?
与えられたバツ1、… 、Xん、... 〜N(0 、1 )X1,…,Xn,…∼N(0,1)X_1, \ldots, X_n, \ldots \sim \mathscr{N}(0,1) IID、ランダムな変数を考慮 Zん:= 最大1つの≤ I ≤ Nバツ私。Zn:=max1≤i≤nXi. Z_n := \max_{1 \le i \le n} X_i\,. 質問:これらの確率変数について最も「重要な」結果は何ですか? 「重要性」を明確にするために、論理的帰結として他の最も多くの結果を持っている結果はどれですか?実際に最も頻繁に使用される結果はどれですか? より具体的には、ZんZnZ_nが「基本的には同じ」であることは、(理論上の)統計学者の間の民間伝承の知識のようです2 ログん−−−−−√2log⁡n\sqrt{2 \log n}、少なくとも漸近的に。(この関連質問を参照してください。) ただし、このタイプには多くの関連する結果があり、ほとんどが同等ではなく、相互に示唆しているわけでもないようです。例えば∗、∗∗^* Zん2 ログん−−−−−√→A 。s 。1、(1)(1)Zn2log⁡n→a.s.1, \frac{Z_n}{\sqrt{2 \log n}} \overset{a.s.}{\to} 1 \,, \tag{1} 他に何もない場合は、対応する確率と分布の結果も意味します。 ただし、一見関連のある結果(この他の質問を参照)も示唆していません。 リムn → ∞E Zん2 ログん−−−−−√= 1、(2)(2)limn→∞EZn2log⁡n=1, …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.