タグ付けされた質問 「mean」

確率変数の期待値。または、サンプルの位置メジャー。

2
片側チェビシェフ不等式のサンプルバージョンは存在しますか?
チェビシェフ不等式の次の片側Cantelli版に興味があります。 P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. 基本的に、母平均と分散がわかっている場合、特定の値を観測する確率の上限を計算できます。(少なくとも私の理解はそうでした。) ただし、実際の母集団の平均と分散の代わりに、標本の平均と標本の分散を使用したいと思います。 これにより不確実性が高まるため、上限が増加すると推測しています。 上記に類似した不等式はありますが、サンプルの平均と分散を使用していますか? 編集:チェビシェフ不等式の「サンプル」アナログ(片面ではない)が作成されました。Wikipediaのページには、いくつかの詳細を持っています。ただし、上記の片側のケースにどのように変換されるかはわかりません。

4
データのウィンザライズとトリミングの相対的なメリットは何ですか?
データのウィンソライズとは、データセットの極値を各端から特定のパーセンタイル値に置き換えることを意味し、トリミングまたは切り捨てにはこれらの極値の削除が含まれます。 平均または標準偏差などの統計を計算する際に、外れ値の影響を軽減するための実行可能なオプションとして、両方の方法について説明していますが、一方を選択する理由はわかりません。 WinsorizingまたはTrimmingを使用することに相対的な利点または欠点はありますか?1つの方法が望ましい特定の状況はありますか?実際にはもっと頻繁に使用されていますか、それとも基本的に交換可能ですか?

8
外れ値を平均で置き換える
この質問は、インターネットに精通していない友人によって尋ねられました。私は統計のバックグラウンドがなく、この質問をインターネットで検索しています。 問題は、外れ値を平均値で置き換えることは可能ですか?可能であれば、この声明をバックアップするための書籍の参照/ジャーナルはありますか?

5
「平均値」と「平均」の違いは何ですか?
ウィキペディアの説明: データセットの場合、平均は値の合計を値の数で割ったものです。 ただし、この定義は、私が「平均」と呼ぶものに対応しています(少なくとも、覚えていることは覚えています)。しかし、ウィキペディアはもう一度引用しています: 「中央値」や「モード」など、一部の人々が平均値と混同するサンプルを使用する他の統計的尺度があります。 今では混乱しています。「平均値」と「平均」は互いに異なりますか?もしそうならどのように?

2
歪んだ分布の平均に対して信頼できるノンパラメトリックな信頼区間はありますか?
対数正規分布などの非常に歪んだ分布では、正確なブートストラップ信頼区間が得られません。これは、Rでどのブートストラップ方法を試しても、左右のテール領域が理想的な0.025から遠く離れていることを示す例です。 require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', 'stud') mul <- 0; sdl <- 1.65 # on log scale dist <- c('normal', 'lognormal')[2] switch(dist, normal = {g <- function(x) x; mu <- mul}, lognormal = {g <- exp; mu <- …

4
mean = modeは対称分布を意味しますか?
mean = medianの場合にこの質問が行われたことは知っていますが、mean = modeに関連するものは見つかりませんでした。 モードが平均に等しい場合、これは常に対称分布であると結論付けることができますか?この方法の中央値も知る必要がありますか?

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

10
平均対ギャンブラーの誤acyへの回帰
一方で、平均への回帰があり、他方でギャンブラーの誤acyがあります。 ギャンブラーの誤acyは、Miller and Sanjurjo(2019)によって定義されています。「ランダムシーケンスは反転の系統的傾向がある、つまり、同様の結果のストリークは継続するよりも終了する可能性が高いという誤った信念」。連続した時間は、次の試験で不釣り合いに尾を引く可能性が高いと考えられます。 私は前回のゲームで良好なパフォーマンスを達成しましたが、平均への回帰によると、おそらく次のゲームではパフォーマンスが低下するでしょう。 しかし、ギャンブラーの誤acyによると、次の2つの確率を考慮します。 20頭の確率、1尾= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} 20頭の確率、その後1頭= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} その後... 簡単な例を考えてみましょう。生徒のクラスは、科目で100項目の正誤テストを行います。すべての生徒がすべての質問をランダムに選択するとします。次に、各学生のスコアは、平均50の期待値を持つ、独立した同じ分布のランダム変数のセットの1つを実現します。 当然のことながら、一部の学生は50を大幅に上回り、一部の学生は偶然50を大幅に下回ります。学生の上位10%のみを取得し、2番目のテストを行って、すべてのアイテムで再びランダムに選択すると、平均スコアは再び50に近くなると予想されます。 したがって、これらの学生の平均は、元のテストを受けたすべての学生の平均にまで「回帰」します。学生が元のテストで得点したものに関係なく、2番目のテストで得点の最高の予測は50です。 特別に10%の学生のトップスコアのみを取得し、すべてのアイテムで再びランダムに選択する2回目のテストを行うと、平均スコアは再び50に近くなります。 ギャンブラーの誤acyによると、得点の確率は同じで、必ずしも50に近いとは限らないと思われますか? Miller、JB、およびSanjurjo、A.(2019)。サンプルサイズを無視した場合の経験によるギャンブラーの誤Fallの確認方法

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
重心を見つけることは、平均を見つけることとどう違うのですか?
階層クラスタリングを実行する場合、多くのメトリックを使用してクラスター間の距離を測定できます。このような2つのメトリックは、クラスター内の重心とデータポイントの平均の計算を意味します。 平均と重心の違いは何ですか?これらはクラスター内の同じポイントではありませんか?
26 clustering  mean 

3
2つの正規平均の比の信頼区間を計算する方法
私はのための限界を導出したい二つの手段の比の信頼区間を。 仮定、および 独立している、平均比。解決しようとしました: だが、その方程式は多くの場合解くことができなかった(根がない)。私は何か間違っていますか?より良いアプローチはありますか?ありがとう100 (1 - α )%100(1−α)%100(1-\alpha)\%バツ1〜N(θ1、σ2)バツ1〜N(θ1、σ2)X_1 \sim N(\theta_1, \sigma^2)バツ2〜N(θ2、σ2)バツ2〜N(θ2、σ2)X_2 \sim N(\theta_2, \sigma^2)Γ = θ1/ θ2Γ=θ1/θ2\Gamma = \theta_1/\theta_2Pr (− z(α / 2 ))≤ X1- Γ X2/ σ1 + γ2−−−−−√≤ Z(α / 2 ))= 1 - αPr(−z(α/2))≤バツ1−Γバツ2/σ1+γ2≤z(α/2))=1−α\text{Pr}(-z(\alpha/2)) \leq X_1 - \Gamma X_2 / \sigma \sqrt {1 + \gamma^2} \leq z(\alpha/2)) …

3
算術平均が幾何平均に非常に近い場合、データについて何を結論付けることができますか?
幾何平均と算術平均について、互いに非常に近いもの、たとえば〜0.1%に重要なものはありますか?そのようなデータセットについてどのような推測をすることができますか? 私はデータセットの分析に取り組んできましたが、皮肉なことに、値は非常に近いことがわかりました。正確ではないが、近い。また、算術平均幾何平均不等式の簡単な健全性チェックとデータ収集のレビューにより、値をどのように考え出したかという点で、データセットの整合性について怪しいものはないことが明らかになりました。

4
データの分布が対称かどうかを確認するにはどうすればよいですか?
中央値と平均値がほぼ等しい場合、対称分布が存在することを意味しますが、この特定のケースでは確信がありません。平均値と中央値は非常に近い(差額は0.487m / gallのみ)ため、対称分布があると言えますが、箱ひげ図を見ると、わずかに正に歪んでいるように見えます(中央値はQ3よりもQ1に近いことが確認されています)値によって)。 (このソフトウェアについて特別なアドバイスがあれば、Minitabを使用しています。)

4
なぜ平均値は中央値よりも異なるサンプルでより安定しているのですか
Andy FieldsによるRを使用した統計の発見などのセクション1.7.2、および平均対中央値の長所を挙げながら: ...平均は異なるサンプルで安定する傾向があります。 これは中央値の多くの美徳を説明した後、例えば ...中央値は、分布の両端の極端なスコアに比較的影響を受けません... 中央値が極端なスコアの影響を比較的受けないことを考えると、サンプル全体でより安定していると思っていたでしょう。だから著者の主張に戸惑った。シミュレーションを実行したことを確認するために、1Mの乱数を生成し、100の数値を1000回サンプリングし、各サンプルの平均と中央値を計算してから、それらのサンプルの平均と中央値のsdを計算しました。 nums = rnorm(n = 10**6, mean = 0, sd = 1) hist(nums) length(nums) means=vector(mode = "numeric") medians=vector(mode = "numeric") for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) } sd(means) >> [1] 0.0984519 sd(medians) >> [1] 0.1266079 p1 <- hist(means, col=rgb(0, …
22 mean  median 


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.