タグ付けされた質問 「mean」

確率変数の期待値。または、サンプルの位置メジャー。

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
逆指数分布の平均
確率変数与えられた場合、の平均と分散は何ですか?G = 1Y=Exp(λ)Y=Exp(λ)Y = Exp(\lambda)G=1YG=1YG=\dfrac{1}{Y} 私は逆ガンマ分布を調べますが、平均と分散はそれぞれとに対してのみ定義されています...α > 2α>1α>1\alpha>1α>2α>2\alpha>2

3
中央値が外側にある反例[モード平均]
この記事は私のリーグを超えていますが、私が興味を持っているトピック、平均値、最頻値、中央値の関係について述べています。それは言う: 単峰分布の中央値は「通常」、平均と最頻値の間であると広く信じられています。ただし、これは常に正しいとは限りません... 私の質問:中央値が[モード、平均]間隔の外にある連続単峰(理想的には単純)分布の例を誰かが提供できますか?たとえば、のようなディストリビューションmode < mean < median。 ===編集======= Glen_bとFrancisによる良い回答は既にありますが、私が本当に興味を持っているのは、モード<平均<中央値または中央値<平均<モード(つまり、両方の中央値が[mode、mean]の外側であり、中央値がモードの意味としての「同じ側」(つまり、モードの上下両方))。ここで答えを受け入れることができます。新しい質問が開かれますか、または誰かがここで解決策を直接提案できますか?
11 mean  median  mode 

3
平均と標準偏差のみを持つ結果のプロット
この平均の表とリコールスコアの標準偏差の観測値の適切なプロットを視覚化しようとしています。 RecallControlMean37SD8ExperimentalMean21SD6ControlExperimentalMeanSDMeanSDRecall378216\begin{array} {c|c c|c c|} & \text{Control} & & \text{Experimental} & \\ & \text{Mean} & \text{SD} &\text{Mean} &\text{SD} \\ \hline \text{Recall} & 37 & 8 & 21 & 6 \\ \hline \end{array} それを行う最良の方法は何ですか?棒グラフはそれを行う良い方法ですか?その場合の標準偏差をどのように説明できますか?

3
高度に歪んだ変数を要約するための平均
私は高度に歪んだデータに取り組んでいるので、中心的な傾向を要約するために平均の代わりに中央値を使用しています。分散の測定値が欲しい中心傾向を要約するために、平均標準偏差±±\pmまたは中央値四分位数±±\pmを報告する人がよく見られますが、中央値中央値絶対分散(MAD)±±\pm を報告しても問題ありませんか?このアプローチには潜在的な問題がありますか? このアプローチは、特に数値でいっぱいの大きなテーブルでは、下位および上位の四分位数をレポートするよりもコンパクトで直感的だと思います。


5
レイマンの言葉での平均、中央値、モードの説明
数値リストの平均値、中央値、最頻値の概念を説明し、基本的な算術スキルしか持たない人にとってなぜそれらが重要であるのか。歪度、CLT、中心傾向、それらの統計的性質などは言及しないでください。 私は誰かに、数のリストを「要約」するための迅速で汚い方法であることを説明しました。しかし、振り返ってみると、これはほとんどわかりません。 考えや実世界の例はありますか?

1
iid確率変数の期待値
私は理解できないこの派生に出くわしました:が平均と分散母集団から取られたサイズnのランダムサンプルである場合、X1,X2,...,XnX1,X2,...,XnX_1, X_2, ..., X_nμμ\muσ2σ2\sigma^2 X¯=(X1+X2+...+Xn)/nX¯=(X1+X2+...+Xn)/n\bar{X} = (X_1 + X_2 + ... + X_n)/n E(X¯)=E(X1+X2+...+Xn)/n=(1/n)(E(X1)+E(X2)+...+E(Xn))E(X¯)=E(X1+X2+...+Xn)/n=(1/n)(E(X1)+E(X2)+...+E(Xn))E(\bar{X}) = E(X_1 + X_2 + ... + X_n)/n = (1/n)(E(X_1) + E(X_2) + ... + E(X_n)) E(X¯)=(1/n)(μ+μ+...n times)=μE(X¯)=(1/n)(μ+μ+...n times)=μE(\bar{X}) = (1/n)(\mu + \mu + ...n ~\text{times}) = \mu これは私が迷っているところです。使用される引数はです。これらは同じように分布しているためです。実際にはそうではありません。サンプルあり、ランダムに2つの数値を置き換えて選択し、この手順を10回繰り返すと、10個のサンプルが得られます:(5、4) (2、5)(1、2)(4、1)(4、6)(2、4)(6、1)(2、4)(3、1)(5、1)。これは、2つのランダム変数ます。ここで、の期待値を取得すると、E(Xi)=μE(Xi)=μE(X_i) = \muS={1,2,3,4,5,6}S={1,2,3,4,5,6}S=\{1,2,3,4,5,6\}X1,X2X1,X2X_1, X_2X1X1X_1 E(X1)=1.(1/10)+2.(3/10)+3.(1/10)+4.(2/10)+5.(2/10)+6.(1/10)=34/10=3.4E(X1)=1.(1/10)+2.(3/10)+3.(1/10)+4.(2/10)+5.(2/10)+6.(1/10)=34/10=3.4E(X_1) = 1.(1/10) …

1
中央値は「メトリック」または「トポロジー」プロパティですか?
用語を少し乱用したことをお詫びします。以下の説明が明確になることを願っています。 確率変数考えます。平均と中央値の両方は、最適性基準によって特徴付けることができます。平均は、を最小にする数値と、を最小にする数値の中央値です。この観点では、平均と中央値の違いは、偏差、二乗、または絶対値を評価するための「メトリック」の選択です。μ E((X - μ )2)E(| X - μ |)バツXXμμ\muE((X- μ )2)E((X−μ)2)\mathrm E((X - \mu)^2)E( | X− μ | )E(|X−μ|)\mathrm E(|X - \mu|) 一方、中央値は、そのため、その番号である(絶対連続を想定)、すなわち、この定義は唯一の能力に依存する順序の値とは無関係です彼らはどのくらい違う。これの結果は、厳密に増加するすべての関数に対して、であることを意味します。 「ゴムのような」変換の下での不変性。 Xf(x)median(f(X))=f(median(X))P r(X≤ μ )= 12Pr(X≤μ)=12\mathrm{Pr}(X \leq \mu) = \frac12バツXXf( x )f(x)f(x)m個の電子 D I N(F(X))= f(M EのD I N(X))median(f(X))=f(median(X))\mathrm{median}(f(X)) = f(\mathrm{median}(X)) これで計算が完了し、最適性の基準から始めて位点に到達できることを知っているので、どちらも同じことを説明します。しかし、私は直感で「メトリック」に依存するものは「トポロジー」プロパティにつながらないことを教えてくれるので、混乱しています。1212\frac12 誰かがこの謎を解いてくれますか?
10 mean  median 


1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 


2
平均の2乗に対する偏りのない正の推定量
我々は真(不明)との分布からのiidサンプルへのアクセス権を持っていると仮定平均と分散、と我々は推定したいμ 2。μ 、σ2μ,σ2\mu, \sigma^2μ2μ2\mu^2 この量の偏りのない、常に正の推定量を構築するにはどうすればよいですか? サンプルの二乗を取る平均、ESP、バイアスされていると量を過大評価します。場合μは 0に近いですし、σ 2が大きいです。μ〜2μ~2\tilde{\mu}^2μμ\muσ2σ2\sigma^2 これはささいな質問かもしれませんが、私のグーグルスキルは私estimator of mean-squaredが戻ってくるだけで私を失望させていますmean-squarred-error estimators それが問題を簡単にする場合、基礎となる分布はガウス分布であると見なすことができます。 解決: の不偏推定構築することが可能である。クルムジーの答えを見てくださいμ2μ2\mu^2 の公平、常に正の推定構築することはできません真の平均が0であるとき、これらの要件が競合しているよう。ウィンクの答えを見るμ2μ2\mu^2

3
最小、平均、最大から分布を計算する
あるデータセットの最小値、平均値、最大値、たとえば10、20、25があるとします。次の方法はありますか? これらのデータから分布を作成し、 人口の何パーセントが平均より上または下にある可能性が高いかを知る 編集: グレンの提案に従って、サンプルサイズが200であるとします。

1
分散を計算するための中央値の使用
非常に歪んだ1次元確率変数があります。この分布を正規化するために、平均ではなく中央値を使用します。私の質問はこれです:平均の代わりに式の中央値を使用して分布の分散を計算できますか? つまり、交換できますか Var(X)=∑[(Xi−mean(X))2]/nVar(X)=∑[(Xi−mean(X))2]/n \mathrm{Var}(X) = \sum[(X_i - \mathrm{mean}(X))^2]/n と Var(X)=∑[(Xi−median(X))2]/nVar(X)=∑[(Xi−median(X))2]/n \mathrm{Var}(X) = \sum[(X_i - \mathrm{median}(X))^2]/n これの背後にある私の推論は、分散は分布の中心的な傾向に対する広がりの尺度であるため、それは問題ではないはずですが、このロジックを検証しようと考えています。
10 variance  mean  median 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.