タグ付けされた質問 「median」

中央値は、データまたは確率分布の半分を下回る値です。サンプルサイズが奇数の場合、中央値は、順序付けされたサンプルの「中央」値です。

1
中央値計算の中央値
私はたくさんの不動産の報告をしていますが、特にNAR(National Association Of Realtors)によって価格の中央値がしばしば報告されます。私が知る限り、彼らは各地域から不動産価格の中央値のみを取得します。私の質問は、データの制限を考慮して、全国の中央値をどのように計算すべきかということです。中央値の中央値として、中央値の単純な平均値として、または中央値の加重平均として、またはまったく異なる何か?第二に、これらの推定値はどの程度有効ですか?私は、NARが合計トランザクションテーブルを取得していないことを知っているので、中央レベルの合理的に正確な表現を国レベルで推定できますか?特に、地域の密度と価格、市場の変動が非常に大きいため、お願いします。
13 median 

2
観測値を保存しない四分位数のオンライン推定
観測値を保存せずに、大量のデータセットでリアルタイムで四分位数(Q1、中央値、およびQ3)を計算する必要があります。最初にPスクエアアルゴリズム(Jain / Chlamtac)を試しましたが、満足できませんでした(CPUの使用量が少なすぎて、少なくともデータセットの精度に納得できませんでした)。 FAMEアルゴリズム(Feldman / Shavitt)を使用してオンザフライで中央値を推定し、アルゴリズムを導出してQ1およびQ3も計算することを試みます。 M = Q1 = Q3 = first data value step =step_Q1 = step_Q3 = a small value for each new data : # update median M if M > data: M = M - step elif M < data: M = M + step …

5
この散布図の解釈方法は?
x軸の人数とy軸の給与の中央値に等しいサンプルサイズの散布図があります。サンプルサイズが給与の中央値に影響するかどうかを確認しようとしています。 これはプロットです: このプロットをどのように解釈しますか?


4
3つ以上のサンプル間の中央値の差に関する仮説検定
質問 3つのグループの人のテストスコアは、Rの個別のベクトルとして保存されます。 set.seed(1) group1 <- rnorm(100, mean = 75, sd = 10) group2 <- rnorm(100, mean = 85, sd = 10) group3 <- rnorm(100, mean = 95, sd = 10) これらのグループの中央値に大きな違いがあるかどうかを知りたいです。ウィルコクソン検定を使用して、グループ1とグループ2をテストできることを知っています。 wilcox.test(group1, group2) ただし、これは一度に2つのグループのみを比較するため、3つすべてを同時に比較したいと思います。0.05の有意水準でp値が得られる統計的検定が必要です。誰か助けてくれますか? 編集#1-ムードの中央値検定 ユーザーHibernatingの提案された答えに従って、Moodの中央値テストを試しました。 median.test <- function(x, y){ z <- c(x, y) g <- rep(1:2, c(length(x), length(y))) m …

1
収束が速いのは、平均と中央値のどちらですか。
N(0,1)からiid変数を描くと、平均または中央値はより速く収束しますか?どれくらい速く? 具体的には、をN(0,1)から取得したiid変数のシーケンスとします。とをの中央値として定義し。とどちらが0に早く収束しますか?ˉ X N = 1x1,x2,…x1,x2,…x_1, x_2, \ldots 〜X nは{X1、xは2、...xはN}{ ˉ X N}{〜X N}x¯n=1n∑ni=1xix¯n=1n∑i=1nxi\bar{x}_n = \frac{1}{n}\sum_{i=1}^n x_ix~nx~n\tilde{x}_n{x1,x2,…xn}{x1,x2,…xn}\{x_1, x_2, \ldots x_n\}{x¯n}{x¯n}\{\bar{x}_n\}{x~n}{x~n}\{\tilde{x}_n\} より速く収束することの意味について具体的に言うと、存在しますか?もしそうなら、それは何ですか?limn→∞Var(X¯n)/Var(X~n)limn→∞Var(X¯n)/Var(X~n)\lim_{n \to \infty} Var(\bar{X}_n)/Var(\tilde{X}_n)

1
中央値およびグラフィック表現で報告するエラー?
私は、パラメトリックANOVAとt検定からノンパラメトリックKruskal-Wallis検定とMann-Whitneysに加えて、ランク変換された2ウェイANOVAとバイナリを含むGzLMから、論文データにさまざまな検定を使用しました。ポアソンおよび比例データ。これをすべて結果に書き込む際に、すべてを報告する必要があります。 比率データの非対称信頼区間を報告する方法については、すでにここで質問しました。標準偏差、標準誤差、または信頼区間が手段に適していることを知っています。これは、すべてのテストが適切にパラメトリックである場合に報告するものです。ただし、ノンパラメトリックテストでは、平均ではなく中央値を報告する必要がありますか?その場合、どのエラーを報告しますか? これに関連するのは、ノンパラメトリックテストの結果をグラフィカルに表示する方法です。カテゴリ内には主に連続データまたは間隔データがあるため、通常は棒グラフを使用します。棒の上部が平均であり、エラーバーが95%のCIを示しています。NPテストの場合、引き続き棒グラフを使用できますが、棒の上部は中央値を表しますか? あなたの提案をありがとう!

3
中央値が外側にある反例[モード平均]
この記事は私のリーグを超えていますが、私が興味を持っているトピック、平均値、最頻値、中央値の関係について述べています。それは言う: 単峰分布の中央値は「通常」、平均と最頻値の間であると広く信じられています。ただし、これは常に正しいとは限りません... 私の質問:中央値が[モード、平均]間隔の外にある連続単峰(理想的には単純)分布の例を誰かが提供できますか?たとえば、のようなディストリビューションmode < mean < median。 ===編集======= Glen_bとFrancisによる良い回答は既にありますが、私が本当に興味を持っているのは、モード<平均<中央値または中央値<平均<モード(つまり、両方の中央値が[mode、mean]の外側であり、中央値がモードの意味としての「同じ側」(つまり、モードの上下両方))。ここで答えを受け入れることができます。新しい質問が開かれますか、または誰かがここで解決策を直接提案できますか?
11 mean  median  mode 

2
中央値の信頼区間を報告することがあまり一般的ではないのはなぜですか?
応用科学の論文で報告された信頼区間を見つけるのがそれほど一般的ではないのはなぜですか?私は主にコンピューターサイエンスに取り組んでいますが、(社会)心理学、社会学、都市計画の論文をよく読んでいます。報告された中央値のCIを見たことを思い出せません。 同時に、信頼区間などを調査しているときに、中央値が自分のデータのより良い記述子であるすべての状況で、これが提示されるべき推定値であることが私には明らかになりました。 中央値のCIを提示することが一般的でない理由には、理論的な理由がありますか?

3
高度に歪んだ変数を要約するための平均
私は高度に歪んだデータに取り組んでいるので、中心的な傾向を要約するために平均の代わりに中央値を使用しています。分散の測定値が欲しい中心傾向を要約するために、平均標準偏差±±\pmまたは中央値四分位数±±\pmを報告する人がよく見られますが、中央値中央値絶対分散(MAD)±±\pm を報告しても問題ありませんか?このアプローチには潜在的な問題がありますか? このアプローチは、特に数値でいっぱいの大きなテーブルでは、下位および上位の四分位数をレポートするよりもコンパクトで直感的だと思います。

1
ボックスプロットノッチ対Tukey-Kramer間隔
'R'のボックスプロットからの「ノッチ」ヘルプドキュメント(または元のテキスト)は、次のようになります。 2つのプロットのノッチが重ならない場合、これは2つの中央値が異なることを示す「強力な証拠」です(Chambers et al、1983、p。62)。使用される計算については、boxplot.statsを参照してください。 そして ' boxplot.stats 'は以下を与えます: ノッチ(要求された場合)は+/- 1.58 IQR / sqrt(n)まで拡張されます。これは、McGill et al(1978、p。16)で与えられたChambers et al(1983、p。62)の1.57の式と同じ計算に基づいているようです。それらは、中央値の漸近的正規性と、比較される2つの中央値のサンプルサイズがほぼ等しいことに基づいており、サンプルの基になる分布に比較的鈍感であると言われています。考えは、2つの中央値の差に対して約95%の信頼区間を与えることであると思われます。 これで、JMPバージョンのTukey-Kramerテストを使用して列の平均を比較することに慣れました。 JMPのドキュメントはこれを提供します: 平均間のすべての違いに対応するサイズのテストを表示します。これは、TukeyまたはTukey-Kramer HSD(正直有意差)テストです。(Tukey 1953、Kramer 1956)。このテストは、サンプルサイズが同じ場合は正確なアルファレベルのテストであり、サンプルサイズが異なる場合は控えめです(Hayter 1984)。 質問:2つのアプローチ間の接続の性質は何ですか?一方を他方に変換する方法はありますか? 中央値のおよそ95%のCIを探しており、重複があるかどうかを判断しているようです。もう1つは、2セットのサンプルの中央値が互いに妥当な範囲内にあるかどうかを判断するための「正確なアルファテスト」です(私のサンプルは同じサイズです)。 パッケージを参照していますが、ロジックの背後にある数学に興味があります。

5
レイマンの言葉での平均、中央値、モードの説明
数値リストの平均値、中央値、最頻値の概念を説明し、基本的な算術スキルしか持たない人にとってなぜそれらが重要であるのか。歪度、CLT、中心傾向、それらの統計的性質などは言及しないでください。 私は誰かに、数のリストを「要約」するための迅速で汚い方法であることを説明しました。しかし、振り返ってみると、これはほとんどわかりません。 考えや実世界の例はありますか?

1
中央値の95%CIがはずなのはなぜですか?
さまざまなソース(たとえば、こちらを参照)では、中央値(特に箱ひげ図にノッチを描く目的)の信頼区間について次の式が与えられています。 95% CImedian=Median±1.57×IQRN−−√95% CImedian=Median±1.57×IQRN 95\%\ CI_{\rm median} = {\rm Median} \pm \frac{1.57\times IQR}{\sqrt{N}} 魔法の定数夢中です。どうやって取得したのかわかりません。さまざまな近似(たとえば、分布がガウスでが大きいと仮定)では手掛かりが得られません—定数の値は異なります。1.571.571.57NNN

1
中央値は「メトリック」または「トポロジー」プロパティですか?
用語を少し乱用したことをお詫びします。以下の説明が明確になることを願っています。 確率変数考えます。平均と中央値の両方は、最適性基準によって特徴付けることができます。平均は、を最小にする数値と、を最小にする数値の中央値です。この観点では、平均と中央値の違いは、偏差、二乗、または絶対値を評価するための「メトリック」の選択です。μ E((X - μ )2)E(| X - μ |)バツXXμμ\muE((X- μ )2)E((X−μ)2)\mathrm E((X - \mu)^2)E( | X− μ | )E(|X−μ|)\mathrm E(|X - \mu|) 一方、中央値は、そのため、その番号である(絶対連続を想定)、すなわち、この定義は唯一の能力に依存する順序の値とは無関係です彼らはどのくらい違う。これの結果は、厳密に増加するすべての関数に対して、であることを意味します。 「ゴムのような」変換の下での不変性。 Xf(x)median(f(X))=f(median(X))P r(X≤ μ )= 12Pr(X≤μ)=12\mathrm{Pr}(X \leq \mu) = \frac12バツXXf( x )f(x)f(x)m個の電子 D I N(F(X))= f(M EのD I N(X))median(f(X))=f(median(X))\mathrm{median}(f(X)) = f(\mathrm{median}(X)) これで計算が完了し、最適性の基準から始めて位点に到達できることを知っているので、どちらも同じことを説明します。しかし、私は直感で「メトリック」に依存するものは「トポロジー」プロパティにつながらないことを教えてくれるので、混乱しています。1212\frac12 誰かがこの謎を解いてくれますか?
10 mean  median 


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.