タグ付けされた質問 「median」

中央値は、データまたは確率分布の半分を下回る値です。サンプルサイズが奇数の場合、中央値は、順序付けされたサンプルの「中央」値です。

6
「平均」の一般化のために、中央値は平均の一種ですか?
「平均」の概念は、従来の算術平均よりもはるかに広く歩き回ります。中央値を含むまで伸びますか?類推により、 raw data⟶idraw data⟶meanraw mean⟶id−1arithmetic meanraw data⟶recipreciprocals⟶meanmean reciprocal⟶recip−1harmonic meanraw data⟶loglogs⟶meanmean log⟶log−1geometric meanraw data⟶squaresquares⟶meanmean square⟶square−1root mean squareraw data⟶rankranks⟶meanmean rank⟶rank−1medianraw data⟶idraw data⟶meanraw mean⟶id−1arithmetic meanraw data⟶recipreciprocals⟶meanmean reciprocal⟶recip−1harmonic meanraw data⟶loglogs⟶meanmean log⟶log−1geometric meanraw data⟶squaresquares⟶meanmean square⟶square−1root mean squareraw data⟶rankranks⟶meanmean rank⟶rank−1median \text{raw data} \overset{\text{id}}{\longrightarrow} \text{raw data} \overset{\text{mean}}{\longrightarrow} \text{raw mean} \overset{\text{id}^{-1}}{\longrightarrow} \text{arithmetic mean} \\ \text{raw data} \overset{\text{recip}}{\longrightarrow} \text{reciprocals} …
20 mean  average  median 

2
MAEを最小化すると、平均ではなく中央値が予測されるのはなぜですか?
予測:原則と実践は、ロブ・J HyndmanとジョージAthanasopoulos教科書、特に精度測定上のセクション: MAEを最小化する予測方法は中央値の予測につながり、RMSEを最小化すると平均の予測につながります MAEを最小化すると平均ではなく中央値が予測される理由を直感的に説明できますか?そして、これは実際には何を意味しますか? お客様に、「平均予測をより正確にする、または非常に不正確な予測を避けるために、あなたにとってより重要なことは何ですか?」と尋ねました。彼は、平均予報をより正確にするために、より高い優先度を持っていると言いました。したがって、この場合、MAEまたはRMSEを使用する必要がありますか?この引用を読む前に、私はMAEがそのような状態に良くなると信じていました。そして今、私は疑います。
19 forecasting  mean  median  rms  mae 

4
平均=中央値は、単峰分布が対称であることを意味しますか?
単峰性分布の場合、平均=中央値であれば、分布は対称であると言えば十分ですか? ウィキペディアは、平均と中央値の関係で次のように述べています。 「分布が対称の場合、平均は中央値に等しく、分布の歪度はゼロになります。さらに、分布が単峰性の場合、平均=中央値=モードです。これは、コイントスまたはシリーズ1、2、3、4、...ただし、一般的に逆は成り立たないことに注意してください。つまり、歪度ゼロは、平均が中央値に等しいことを意味しません。」 ただし、必要な情報を収集することは(私にとって)それほど単純ではありません。助けてください。

4
平均および中央値のプロパティ
誰かが2つのステートメント(a)と(b)をリンクする数学的論理を明確に説明してもらえますか?値のセット(分布)があります。さて、 a)中央値はすべての値に依存するわけではありません[1つまたは2つの中間値に依存するだけです]。b)中央値は、そこからの絶対偏差の最小値の軌跡です。 同様に、対照的に、 a)(算術)平均はすべての値に依存します。b)平均は、それからの最小二乗偏差の軌跡です。 私の把握はこれまでのところ直感的です。


2
どのような(対称)分布について、サンプルはサンプル中央値よりも効率的な推定量を意味しますか?
サンプルの中央値は、外れ値を無視するため、サンプル平均よりも中心傾向のより堅牢な尺度であるという信念のもとで努力しました。したがって、(別の質問への回答で)正規分布から引き出されたサンプルの場合、サンプル平均の分散がサンプル中央値の分散よりも小さいこと(少なくともが大きい)を知って驚いた。nnn 私は数学的にこれが本当である理由を理解しています。他の分布の平均ではなく、中央値をいつ使用するかについての直感に役立つ「哲学的」な見方はありますか? 特定の分布に関する質問にすばやく答えるのに役立つ数学的なツールはありますか?

7
中央値は平均よりも公平ですか?
私は最近、外れ値を排除することを意味するのではなく、一般的に中央値を使用すべきだというアドバイスを読みました。例:次の記事 http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/ 現在16件のレビューがあります: review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1) summary(review) ## "ordinary" summary Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 3.750 5.000 4.062 5.000 5.000 Meanを使用しているため、記事は4つ星を取得しますが、Medianを使用すると5つ星を取得します。 中央値は「公正な」裁判官ではありませんか? 実験では、中央値の誤差は常に平均よりも大きいことが示されています。中央値は悪化していますか? library(foreach) #the overall population of bookjudgments n<-5 p<-0.5 expected.value<-n*p …
17 mean  median  average 

3
複数の「中央値」式はありますか?
私の仕事では、個人がデータセットの「平均」値を指す場合、通常は算術平均(「平均」または「期待値」)を指しています。「平均」の定義が事前に知られているので、幾何平均を指定すると、人々はおそらく私がわからないか役に立たないと思うでしょう。 データセットの「中央値」の定義が複数あるかどうかを判断しようとしています。たとえば、偶数個の要素を持つデータセットの中央値を見つけるために同僚によって提供された定義の1つは次のようになります。 アルゴリズム「A」 要素の数を2で割り、切り捨てます。 その値は中央値のインデックスです。 すなわち、次のセットでは、中央値はになります5。 [4, 5, 6, 7] これは理にかなっているようですが、切り捨ての側面は少しarbitrary意的です。 アルゴリズム「B」 いずれにせよ、別の同僚が別のアルゴリズムを提案しており、それは彼の統計テキストにありました(名前と著者を取得する必要があります): 要素数を2で除算し、切り上げられた整数と切り捨てられた整数のコピーを保持します。それらを名前n_loとn_hi。 n_loおよびの要素の算術平均を取りn_hiます。 すなわち、次のセットでは、中央値はになります(5+6)/2 = 5.5。 [4, 5, 6, 7] ただし、5.5この場合、中央値は元のデータセットに含まれていないため、これは間違っているようです。いくつかのテストコードでアルゴリズム「A」を「B」からスワップアウトすると、(予想どおり)ひどく破損しました。 質問 データセットの中央値を計算するこれら2つのアプローチに正式な「名前」はありますか?すなわち、「2つ以下の中央値」と「中間要素の平均値と新しいデータの中央値」の比較ですか?

2
中央値が等しい場合、Mann–Whitney U検定が重要なのはなぜですか?
Mann-Whitneyランクテストの結果がわかりませんが、わかりません。2つの母集団の中央値は同じです(6.9)。各母集団の上位および下位の分位数は次のとおりです。 6.64および7.2 6.60および7.1 これらの母集団を比較する検定の結果のp値は0.007です。これらの母集団はどのように大きく異なるのでしょうか?中央値の広がりによるものですか?2を比較する箱ひげ図は、2番目のものが最初のものよりもはるかに多くの外れ値を持っていることを示しています。提案をありがとう。

1
変位値と中央値ではなく、触覚と中央値をいつ使用しますか?
WikipediaやWolfram Mathworldで、触覚または中間の定義を見つけることはできませんが、Bílková、D. and Mala、I.(2012)、 " 所得分布をモデル化するときのLモーメント法の適用チェコ共和国で」、オーストリア統計局誌、41(2)、125–132。 中央値は、サンプルの中央値が50 %のサンプルクォンタイルの値に等しいのと同様に、50 %50%50\%(サンプル)のサンプルの値です。サンプルタンタイルとサンプルクォンタイルは、順序付けられたサンプルに基づいています。まず、順序付けられたサンプルの観測値の累積合計が評価​​されます。その後、所定の割合のためのp、0 &lt; P &lt; 100、A tantileは、2つの部分に順序付けられたサンプル中のすべての観測を分割分析変数の値として定義される:小さいか等しい観測値の和である観測値の合計のと、より大きい観測値の合計は、残差を表します50 %50%50\%ppp0 &lt; p &lt; 1000&lt;p&lt;1000<p<100p %(100 − p )%p %p%p\%p %p%p\%(100 − p )%(100−p)%(100-p)\%この合計の。 従来の中央値やその他の変位値ではなく、これらを位置の尺度として使用するのが適切な場合はいつですか?考えられる状況の1つである家計収入は、その論文に記載されています。 この定義から、中間を収入のレベルの合理的な特性として使用できることがわかります。これは、収入が中間以下の世帯はサンプルの総収入の半分を受け取り、収入が高い世帯は半分を受け取るためです。他の半分を受け取る内側より。 この場合、家計収入の中央値はCZK 117,497(すなわち、これよりも多く稼いだ家計の半分と上記で稼いだ半分)であることが判明しました。総収入)。この比較は、必ずしも家計所得の歪度や不均一性を反映するものではないことに注意してください。家計所得が均一に分布していても、中央値は中央値より上にあります。私の定義を理解する限り、すべての世帯が同じ収入を受けた場合にのみ、中央値は中央値に等しくなります。 この場合、内側を好む特定の理由がありますか、それとも少なくとも補助的な手段として使用する理由がありますか?中央値と中央値の比較から正確に何がわかりますか?中央値は、先ほど述べた理由により、中心傾向の他の測定値に直接匹敵するものではないようです。中間/触覚が広く使用されている、または特に有益であると見なされている他の状況はありますか?サンプル研究論文でそれらが使用される実際の例は非常に歓迎されるでしょう、そして、それらが有用であると証明するかもしれないより広い文脈の直観的な考えはさらに良いでしょう。 合計と小計が意味のあるものである必要があります-お金に関連しているように見え、「パイ」がどのように分布しているのでしょうか?以下のために集中的ではなく、広範囲の性質例えば密度や温度など、合計の任意の並べ替えは、物理的に意味がないであろう。輸送物の分析者が、輸送される貨物の重量がカットオフであり、すべての貨物の50%(重量で)その重量以上の荷重で運ばれますが、生態学者がイモリの長さがどのくらいで、すべてのイモリの全長の50%がその長さ以上のイモリによってもたらされることに興味があるとは考えられません。

1
中央値不偏推定量は、平均絶対偏差を最小化しますか?
これはフォローアップですが、以前の質問とは別の質問でもあります。 私はウィキペディアで、「ラプラスで観察されたように、中央値偏りのない推定量は絶対偏差損失関数に関するリスクを最小化する」と読みました。しかし、私のモンテカルロシミュレーションの結果はこの議論をサポートしていません。 私は、対数正規母集団からサンプルを想定、μ及びσは、対数平均および対数SDであるβ = EXP (μ )= 50X1,X2,...,XN∼LN(μ,σ2)X1,X2,...,XN∼LN(μ,σ2)X_1,X_2,...,X_N \sim \mbox{LN}(\mu,\sigma^2)μμ\muσσ\sigmaβ=exp(μ )= 50β=exp⁡(μ)=50\beta = \exp(\mu)=50 幾何平均推定量は、人口中央値expの中央値不偏推定量です。。exp(μ)exp⁡(μ)\exp(\mu) 場合には、μ及びσは、対数平均値であり、ログ-SDを、μと σはのためのMLEはありμとσ。β^GM=exp(μ^)=exp(∑log(Xi)N)∼LN(μ,σ2/N)β^GM=exp⁡(μ^)=exp⁡(∑log⁡(Xi)N)∼LN(μ,σ2/N)\hat{\beta}_{\mbox{GM}}= \exp(\hat{\mu})= \exp{(\sum\frac{\log(X_i)}{N})} \sim \mbox{LN}(\mu,\sigma^2/N)μμ\muσσ\sigmaμ^μ^\hat\muσ^σ^\hat\sigmaμμ\muσσ\sigma 一方、補正された幾何平均推定量は、母集団の中央値の平均不偏推定量です。 β^CG=exp(μ^−σ^2/2N)β^CG=exp⁡(μ^−σ^2/2N)\hat{\beta}_{\mbox{CG}}= \exp(\hat{\mu}-\hat\sigma^2/2N) LNからサイズ5のサンプルを繰り返し生成します。レプリケーション番号は10,000です。私が得た平均絶対偏差は、幾何平均推定器で25.14、補正幾何平均で22.92です。どうして?(log(50),log(1+22)−−−−−−−−−√)(log⁡(50),log⁡(1+22))(\log(50),\sqrt{\log(1+2^2)}) ところで、推定された絶対偏差の中央値は、幾何平均では18.18、補正幾何平均推定では18.58です。 私が使用したRスクリプトは次のとおりです。 #```{r stackexchange} #' Calculate the geomean to estimate the lognormal median. #' #' This function Calculate the geomean to estimate the lognormal #' …

3
中央値の標準誤差
非正規分布の小さなサンプルの場合に中央値の標準誤差を測定したい場合、次の式は正しいですか(Pythonを使用しています)? sigma=np.std(data) n=len(data) sigma_median=1.253*sigma/np.sqrt(n)

4
データが歪んでいるときに平均を使用する必要がありますか?
多くの場合、導入された導入統計テキストは、平均がサンプルデータおよび/または外れ値に敏感であることを説明することにより、平均を中央値と区別します偏った母集団分布に対して、これは、データが対称的でない場合に中央値が優先されるという主張の正当化として使用されます。 例えば: 特定のデータセットの中心傾向の最適な測定値は、値の分布方法によって異なります。...データが対称でない場合、中央値が中心傾向の最適な測定値であることがよくあります。平均値は極端な観測値に敏感であるため、外れたデータ値の方向に引っ張られ、結果として過度に膨張または過度に収縮する可能性があります。」— Pagano and Gauvreau、(2000)Principles of Biostatistics 、第2版。 (P&Gは、BTW、手元にあったそれらを選び出していないそれ自体)。 著者はこうして「中心傾向」を定義します:「データのセットの最も一般的に調査された特性はその中心、または観察が集中する傾向があるポイントです。」 これは、データ/分布が対称であるときに平均を使用することだけが、中央値に等しいときにのみ平均を使用するということと同じことなので、中央値、期間のみを使用するという率直な方法として私を襲います。編集: whuberは、中心傾向の堅牢な測定値と中央値を混同していることを正しく指摘しています。したがって、導入された統計の算術平均と中央値の特定のフレーミングについて議論していることに留意することが重要です(ここで、モードは別として、中心傾向の他の尺度は動機付けられていません)。 平均値の効用を中央値の挙動からどれだけ逸脱するかで判断するのではなく、これらを中心性の2つの異なる尺度として単純に理解すべきではないでしょうか?言い換えれば、歪度に敏感であることは平均の特徴です。同様に、「中央値は歪度にほと​​んど影響されないため、中央値は良くありません。したがって、中央値は平均と等しい場合にのみ使用してください」と有効に主張できます。 (モードは、この質問に関与していないのが非常に賢明です。)

1
合計の中央値または平均が加数の合計よりも大きい場合はどういう意味ですか?
ネットワーク遅延の分布を分析しています。アップロード時間の中央値(U)は0.5秒です。ダウンロード(D)時間の中央値は2秒です。ただし、合計時間の中央値(各データポイントのT = U + D)は4秒です。 合計の中央値が加数の中央値の合計よりもはるかに大きいことを知って、どのような結論を導き出すことができますか? 統計に対する好奇心から、この質問が中央値を平均に置き換えたらどうなるでしょうか?

1
ブートストラップは、推定中央値の不確実性を評価する有効な方法ですか?
ブートストラップは平均推定値の不確実性にアクセスするのにうまく機能しますが、分位数推定値の不確実性(特に中央値)を評価するのにブートストラップがうまく機能しない場所を読んだことを覚えています。 これをどこで読んだか覚えていないので、グーグルで簡単に検索しても見つけられませんでした。これと参考文献についての考えは大歓迎です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.