タグ付けされた質問 「median」

中央値は、データまたは確率分布の半分を下回る値です。サンプルサイズが奇数の場合、中央値は、順序付けされたサンプルの「中央」値です。

8
もし平均がとても敏感なら、そもそもなぜそれを使うのか?
中央値が外れ値に対して耐性があることは既知の事実です。その場合、最初に平均を使用するのはいつ、なぜですか? おそらく考えられることの1つは、外れ値の存在を理解することです。つまり、中央値が平均から離れている場合、分布は歪んでおり、おそらく外れ値で何をするかを決定するためにデータを調べる必要があります。他の用途はありますか?


5
サンプル中央値の中心極限定理
同じ分布から得られた十分に多くの観測値の中央値を計算すると、中央極限定理は中央値の分布が正規分布に近づくと述べていますか?私の理解では、これは多数のサンプルの平均について当てはまりますが、中央値についても当てはまりますか? そうでない場合、サンプル中央値の基礎となる分布は何ですか?

10
巨大な読み取り1回のデータセットの中央値を推定するための優れたアルゴリズムは何ですか?
格納するには大きすぎるデータセットの中央値を推定するための優れたアルゴリズム(最小限の計算、最​​小限のストレージ要件を意味する)を探しています。想定できるデータに制限はありません。 精度がわかっている限り、近似は問題ありません。 ポインタはありますか?

13
年齢の中央値が平均年齢よりも良い統計であるのはなぜですか?
Wolfram Alphaを見ると または、このウィキペディアページ年齢の中央値による国のリスト 年齢に関しては、明らかに中央値が選択の統計量のようです。 算術平均がより悪い統計になる理由を自分で説明することはできません。なぜそうですか? このサイトの存在を知らなかったため、もともとここに投稿しました。
41 mean  median 

5
中央値の信頼区間
中央値およびその他のパーセンタイルで95%CIを見つける必要があります。私はこれにアプローチする方法がわかりません。私は主にRをプログラミングツールとして使用しています。

7
平面上のサンプルの中央値、またはより高い順序のスペースについて受け入れられている定義はありますか?
もしそうなら、何?そうでない場合は、なぜですか? ライン上のサンプルの場合、中央値は合計絶対偏差を最小化します。定義をR2などに拡張するのは自然に思えますが、私はそれを見たことがありません。しかし、その後、私は長い間左のフィールドに出てきました。

3
なぜ基本的な仮説検定は中央値ではなく平均値に焦点を合わせているのですか?
基本的な学部生の統計コースでは、学生は(通常?)母集団の平均に対する仮説検定を教えられます。 中央値ではなく平均値に焦点が当てられているのはなぜですか?私の推測では、中心極限定理のために平均値をテストする方が簡単だと思いますが、私はいくつかの教育された説明を読みたいです。

2
歪んだ分布の平均に対して信頼できるノンパラメトリックな信頼区間はありますか?
対数正規分布などの非常に歪んだ分布では、正確なブートストラップ信頼区間が得られません。これは、Rでどのブートストラップ方法を試しても、左右のテール領域が理想的な0.025から遠く離れていることを示す例です。 require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', 'stud') mul <- 0; sdl <- 1.65 # on log scale dist <- c('normal', 'lognormal')[2] switch(dist, normal = {g <- function(x) x; mu <- mul}, lognormal = {g <- exp; mu <- …

2
中央値間の差の95%信頼区間を作成する方法は?
私の問題:主要な結果の非常に右斜めの分布を持つ並行グループ無作為化試験。正規性を前提とせず、正規ベースの95%CIを使用します(1.96 X SEを使用) 中心傾向の尺度を中央値として表現するのは問題ありませんが、私の質問は、2つのグループ間の中央値の差の95%CIをどのように構築するかです。 最初に思い浮かぶのは、ブートストラップです(置換でリサンプリングし、2つのグループそれぞれの中央値を決定し、一方を他方から減算し、1000回繰り返し、バイアス補正済み95%CIを使用します)。これは正しいアプローチですか?他の提案はありますか?

4
データの分布が対称かどうかを確認するにはどうすればよいですか?
中央値と平均値がほぼ等しい場合、対称分布が存在することを意味しますが、この特定のケースでは確信がありません。平均値と中央値は非常に近い(差額は0.487m / gallのみ)ため、対称分布があると言えますが、箱ひげ図を見ると、わずかに正に歪んでいるように見えます(中央値はQ3よりもQ1に近いことが確認されています)値によって)。 (このソフトウェアについて特別なアドバイスがあれば、Minitabを使用しています。)

4
なぜ平均値は中央値よりも異なるサンプルでより安定しているのですか
Andy FieldsによるRを使用した統計の発見などのセクション1.7.2、および平均対中央値の長所を挙げながら: ...平均は異なるサンプルで安定する傾向があります。 これは中央値の多くの美徳を説明した後、例えば ...中央値は、分布の両端の極端なスコアに比較的影響を受けません... 中央値が極端なスコアの影響を比較的受けないことを考えると、サンプル全体でより安定していると思っていたでしょう。だから著者の主張に戸惑った。シミュレーションを実行したことを確認するために、1Mの乱数を生成し、100の数値を1000回サンプリングし、各サンプルの平均と中央値を計算してから、それらのサンプルの平均と中央値のsdを計算しました。 nums = rnorm(n = 10**6, mean = 0, sd = 1) hist(nums) length(nums) means=vector(mode = "numeric") medians=vector(mode = "numeric") for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) } sd(means) >> [1] 0.0984519 sd(medians) >> [1] 0.1266079 p1 <- hist(means, col=rgb(0, …
22 mean  median 

2
箱ひげ図を作成できるように、多数のサンプルを記述する統計セットを蓄積することは可能ですか?
私は統計学者ではなく実践的なソフトウェア開発者であり、大学の統計学の授業はかなり前のことであることをすぐに明確にしなければなりません… それは、個々のサンプルの束を保存することを必要としない、箱ひげ図を作成するために使用できる記述統計のセットを蓄積する方法があるかどうかを知りたいですか? 私がやろうとしているのは、複雑なマルチキュープロセス内のキューサービス時間のグラフィカルな要約を作成することです。私は過去にtnftoolsと呼ばれるパッケージを使用していました。これにより、大きなサンプルを蓄積し、後処理して応答時間と外れ値の素敵なグラフを作成できました。 理想的には、プロセスの実行中に一連の記述統計を「オンザフライ」で蓄積し、必要に応じて分析のためにデータを抽出できるようにしたいと考えています。ただし、メモリ/ IOがシステムのパフォーマンスに許容できない影響を与えるため、プロセスにサンプルを蓄積させることはできません。


4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.