タグ付けされた質問 「median」

中央値は、データまたは確率分布の半分を下回る値です。サンプルサイズが奇数の場合、中央値は、順序付けされたサンプルの「中央」値です。


1
分散を計算するための中央値の使用
非常に歪んだ1次元確率変数があります。この分布を正規化するために、平均ではなく中央値を使用します。私の質問はこれです:平均の代わりに式の中央値を使用して分布の分散を計算できますか? つまり、交換できますか Var(X)=∑[(Xi−mean(X))2]/nVar(X)=∑[(Xi−mean(X))2]/n \mathrm{Var}(X) = \sum[(X_i - \mathrm{mean}(X))^2]/n と Var(X)=∑[(Xi−median(X))2]/nVar(X)=∑[(Xi−median(X))2]/n \mathrm{Var}(X) = \sum[(X_i - \mathrm{median}(X))^2]/n これの背後にある私の推論は、分散は分布の中心的な傾向に対する広がりの尺度であるため、それは問題ではないはずですが、このロジックを検証しようと考えています。
10 variance  mean  median 


2
トリミングされた平均と中央値
緊急サービスへのすべての呼び出しと救急車部門の応答時間のデータセットがあります。記録を開始しなかった(値が0である)場合や、クロックを停止しなかった(値が非常に高くなる可能性がある)場合があるため、応答時間にいくつかの誤りがあることを認めました。 私は中心的な傾向を知りたいのですが、異常値を取り除くために中央値またはトリミングされた平均値を使用する方が良いかどうか疑問に思っていましたか?

1
母集団の中央値をテストする方法は?
250ユニットのサンプルがあります。分布は非対称です。母集団の中央値が3.5とは異なるという仮説を検証したいので、1標本検定が適切だと思います。分布が対称的でないため、ウィルコクソン順位検定は適切ではないことを知っています。サインテストは使用に適していますか?それができない場合、誰もが他のテストを推奨できますか?

4
期待値は、非正規分布の平均値、中央値などとどのように関連していますか?
連続確率変数の期待値は、非正規分布(例:歪正規)の算術平均、中央値などとどのように関連していますか?一般的で興味深い分布(例えば、対数正規、単純なバイ/マルチモーダル分布、その他奇妙で素晴らしいもの)に興味があります。 私は主に定性的な回答を探していますが、定量的または定式的な回答も歓迎します。私は特にそれをより明確にする視覚的表現を見たいと思います。

2
グループ間の(いくつかの)分位Qの違いをテストしていますか?
3つのグループ(X)に分割されているいくつかのY変数について、グループを比較し、90%の変位値が3つのグループすべてで同じであるという仮説を立てます。どのようなテストを使用できますか? 私が考えることができる1つのオプションは、分位回帰を使用することですが、他の選択肢/アプローチはありますか? 中央値を比較したい場合は、クラスカルウォリス検定を使用できたと思います(ランクに基づいていますが、正しく覚えていれば、残差分布が対称である場合に同じ結果が得られます)。 ありがとう。

3
特徴選択のための中央値研磨の使用
最近読んでいた論文で、データ分析セクションで次のビットに出くわしました。 次に、データテーブルを組織とセルラインに分割し、2つのサブテーブルを個別に中央値研磨(行と列を繰り返し調整して中央値0にする)してから、単一のテーブルに再結合しました。最後に、テストされた3つ以上のサンプルで、このサンプルセットの中央値から少なくとも4倍に発現が変化する遺伝子のサブセットを選択しました。 ここでの推論にはあまり従わないと言わざるを得ません。次の2つの質問に答えていただけないでしょうか。 データセットの中央値を調整することが望ましい/役立つのはなぜですか?異なる種類のサンプルに対して別々に行う必要があるのはなぜですか? これはどのように実験データを変更しないのですか?これは、大量のデータから多数の遺伝子/変数を選択する既知の方法ですか、それともアドホックですか? おかげで、

2
どちらが良いですか、平均による置換と中央値による置換ですか?
私は一連のデータの欠損値を置き換えることを含むプロジェクトを行っています(これを初めて行う)。これは、2つのメソッドを使用することを含むreplacement by meanとreplacement by median欠損値を埋めるために。両方の方法を使用したデータの最小値、中央値、最大値、平均値、および標準偏差の結果に大きな違いはなく、どちらの方法が優れているか、どの方法を使用してどちらが優れているかを判断するにはどうすればよいか疑問に思いました結果は?

2
中央値の信頼区間
それぞれに少数の値(未満)のサンプルの分布があります。各サンプルの中央値を計算しました。モデルと比較して、モデルと各サンプルの中央値の差を求めます。一貫した結果を得るには、この違いについてエラーが必要です。101010 そのような場合に標準偏差を見つけることは、少なくとも私のようなプロではない人にとっては非常に困難になる可能性があります(たとえば、こちらを参照してください)。 公式リファレンスが引用されていなくても、中央値の信頼区間を計算する方法を説明するこのWebサイトを見つけました。 それは私には理にかなっているように見えますが、私は本当に判断することができないので、私は知りたいのです: それらの式は正しいですか? そのためのリファレンスはありますか? CIを検索したい場合はどうなりますか?95%95%95\% 前もって感謝します 編集:私はまた、非ガウスデータのブートストラップのこの例を見つけました。今、私はブートストラップについてはあまり知りませんが、その有効性についてのアドレスを持つことは良いことです。

4
外れ値の影響を受けにくいバージョンの相関係数はありますか?
相関係数は次のとおりです。 r =Σk(バツk−バツ¯)(yk−yk¯)sバツsyn − 1r=∑k(xk−x¯)(yk−yk¯)sxsyn−1 r = \frac{\sum_k \frac{(x_k - \bar{x}) (y_k - \bar{y_k})}{s_x s_y}}{n-1} 標本平均と標本標準偏差は外れ値に敏感です。 同様に、 r =Σkものkn − 1r=∑kstuffkn−1 r = \frac{\sum_k \text{stuff}_k}{n -1} 一種の平均値のようなものであり、変動の影響を受けにくい変動があるかもしれません。 標本平均は次のとおりです。 バツ¯=Σkバツkんx¯=∑kxkn \bar{x} = \frac{\sum_k x_k}{n} 標本標準偏差は次のとおりです。 sバツ=Σk(バツk−バツ¯)2n − 1−−−−−−−−−−−√sx=∑k(xk−x¯)2n−1 s_x = \sqrt{\frac{\sum_k (x_k - \bar{x})^2}{n -1}} 欲しいと思う 中央値: 中央値[ x ]Median[x] \text{Median}[x] …

1
コルモゴロフスミルノフZ対マンホイットニーU小サンプルサイズn = 15?
サンプルサイズが15と小さいです。2つの独立変数、グループ1 n = 11、グループ2 n = 4の間で栄養素摂取量に違いがあるかどうかを確認したいと思います。データは正規分布していません。Mann Whitney UとKolmogorov-Smirnov Zのどちらのテストがより適切ですか?Andy FieldのSPSSを使用したDiscovering Statisticsは、KS Zは小さなサンプルサイズに使用する必要があると述べています。 Kolmogorov-Smirnov Z:第5章では、サンプルが正規分布母集団からのものであるかどうかをテストするKolmogorov–Smirnovテストに出会いました。これは別のテストです!実際、2つのグループが同じ母集団から引き出されているかどうかをテストします(その母集団が何であるかに関係なく)。つまり、これはマンホイットニー検定とほぼ同じことを意味します。ただし、このテストは、サンプルサイズがグループあたり約25未満の場合、マンホイットニー検定よりも優れたパワーを持つ傾向があるため、そうである場合は選択する価値があります。 また、p値とともに摂取量を報告する場合、データはノンパラメトリックなので、平均値と標準偏差または中央値とIQRを使用する必要がありますか? 何かアドバイスをいただければ幸いです。

2
中央値の信頼区間
一連の値があり、その中央値Mを計算します。この推定の誤差をどのように計算できるのか疑問に思いました。バツ私、i = 1 、… 、Nバツ私、私=1、…、N{x_i}, i=1, \dots ,N ネット上では、として計算できることがわかりましたここで、は標準偏差です。しかし、それについての言及は見つかりませんでした。なぜか分かりません。誰かに説明してもらえますか?1.2533 σN√1.2533σN1.2533\frac{\sigma}{\sqrt{N}}σσ\sigma ブートストラップを使用してエラーの見積もりを取得できると考えていましたが、分析が大幅に遅くなるため、回避したいと思います。 また、この方法で中央値の誤差を計算することを考えていました δM= ∑私(x私− M)2N− 1−−−−−−−−−−−√δM=Σ私(バツ私−M)2N−1\delta M = \sqrt{ \frac{\sum_i(x_i - M)^2}{N-1} } それは意味がありますか?

1
サンプルの平均値と中央値から対数正規分布のパラメーターを取得できますか?
対数正規分布から抽出されたサンプルの平均値と中央値があります。これは変数のログの平均値と中央値ではないことに注意してください。もちろん、平均値と中央値のログを計算できます。この情報からμとσの閉じた形の解はありますか?数値解しかない場合、理想的にはRを使用して、それを見つける方法を教えてください。 私はこの質問は、ここで、サンプル平均と標本分散からμとσを導出するために回答されていることに注意してください: 私はサンプル平均と標本分散から対数正規分布のパラメータを推定するにはどうすればよい しかし、私は持っていません。サンプル分散、平均と中央値のみ。 閉じた形式または単純な数値解がない場合、サンプルの平均と中央値のログ、またはそれらの何らかの変換を使用すると、大規模なサンプル(数億単位)に対して適切な回答が得られるかどうかを知りたいです。 )。

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.