タグ付けされた質問 「mean」

確率変数の期待値。または、サンプルの位置メジャー。

1
外れ値を明らかにするために、1つの平均値と標準偏差を残して使用できますか?
データを正常に配信したとします。データの各要素について、平均からどれだけのSDが離れているかを確認します。データに外れ値がある可能性があります(おそらく1つだけですが、2つまたは3つかもしれません)が、この外れ値は基本的に私が探しているものです。平均とSDの計算から現在見ている要素を一時的に除外することは意味がありますか?私の考えでは、平均に近い場合、影響はありません。外れ値である場合、平均とSDの計算にバイアスがかかり、検出される確率が低くなる可能性があります。私は統計学者ではないので、どんな助けでも大歓迎です!

3
有界データセットの変動係数の最大値
標準偏差が平均を超えることができるかどうかに関する最近の質問に続く議論では、1つの質問が簡潔に提起されましたが、完全に回答されませんでした。だから私はここでそれを求めています。 非負数セットを考えます。 ここで、です。が別個である必要はありません。つまり、セットがマルチセットである可能性があります。セットの平均と分散は、として定義され および標準偏差はです。数値のセットは母集団からのサンプルではなく、母平均または母分散を推定していないことに注意してください。質問は次のとおりです。nnnxixix_i0≤xi≤c0≤xi≤c0 \leq x_i \leq c1≤i≤n1≤i≤n1 \leq i \leq nxixix_ix¯=1n∑i=1nxi, σ2x=1n∑i=1n(xi−x¯)2=(1n∑i=1nx2i)−x¯2x¯=1n∑i=1nxi, σx2=1n∑i=1n(xi−x¯)2=(1n∑i=1nxi2)−x¯2\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i, ~~ \sigma_x^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 = \left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) - \bar{x}^2σxσx\sigma_x 区間ののすべての選択に対する、変動係数の最大値は何ですか?σxx¯σxx¯\dfrac{\sigma_x}{\bar{x}}xixix_i[0,c][0,c][0,c] の最大値は これは、の値がで、残りの(外れ値)値 が値、 しかし、これはにまったく依存せず、おそらくnとcの両方に依存する大きな値を達成できるかどうか疑問に思っています。σxx¯σxx¯\frac{\sigma_x}{\bar{x}}n−1−−−−−√n−1\sqrt{n-1}n−1n−1n-1xixix_i000xixix_icccx¯=cn, 1n∑x2i=c2n⇒σx=c2n−c2n2−−−−−−−√=cnn−1−−−−−√.x¯=cn, 1n∑xi2=c2n⇒σx=c2n−c2n2=cnn−1.\bar{x} = \frac{c}{n},~~ \frac{1}{n}\sum x_i^2 = \frac{c^2}{n} \Rightarrow \sigma_x = \sqrt{\frac{c^2}{n} - \frac{c^2}{n^2}} = \frac{c}{n}\sqrt{n-1}.cccnnnccc …

5
単変量のランダム変数の平均は、常にその分位数関数の積分に等しくなりますか?
単変量のランダム変数の分位関数(逆累積分布関数)をp = 0からp = 1に統合すると、変数の平均が生成されることに気付きました。私は今までこの関係について聞いたことがありませんので、私は不思議に思っています:これは常に事実ですか?もしそうなら、この関係は広く知られていますか? Pythonの例を次に示します。 from math import sqrt from scipy.integrate import quad from scipy.special import erfinv def normalPdf(x, mu, sigma): return 1.0 / sqrt(2.0 * pi * sigma**2.0) * exp(-(x - mu)**2.0 / (2.0 * sigma**2.0)) def normalQf(p, mu, sigma): return mu + sigma * sqrt(2.0) * erfinv(2.0 …

7
中央値は平均よりも公平ですか?
私は最近、外れ値を排除することを意味するのではなく、一般的に中央値を使用すべきだというアドバイスを読みました。例:次の記事 http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/ 現在16件のレビューがあります: review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1) summary(review) ## "ordinary" summary Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 3.750 5.000 4.062 5.000 5.000 Meanを使用しているため、記事は4つ星を取得しますが、Medianを使用すると5つ星を取得します。 中央値は「公正な」裁判官ではありませんか? 実験では、中央値の誤差は常に平均よりも大きいことが示されています。中央値は悪化していますか? library(foreach) #the overall population of bookjudgments n<-5 p<-0.5 expected.value<-n*p …
17 mean  median  average 

2
現在の菜食主義者に関する調査データしかない場合、菜食主義の平均遵守期間を計算する方法は?
ランダムな人口サンプルが調査されました。彼らは菜食を食べるか尋ねられました。「はい」と答えた場合、菜食主義者の食事を中断することなくどのくらいの期間食べているかを指定するように求められました。このデータを使用して、菜食主義の平均遵守期間を計算します。言い換えれば、誰かが菜食主義者になったとき、私は平均して彼らが菜食主義者のままでいることを長く知りたいと思います。それを仮定しましょう: すべての回答者が正確かつ正確に回答した 世界は安定しています:菜食主義の人気は変わらず、アドヒアランスの平均期間も変わりません。 これまでの私の推論 毎年の初めに2人がベジタリアンになる世界のおもちゃモデルを分析すると役立つことがわかりました。毎回、1人は1年間ベジタリアンを続け、もう1人は3年間滞在します。明らかに、この世界のアドヒアランスの平均期間は(1 + 3)/ 2 = 2年です。以下に例を示します。各長方形は、菜食主義の期間を表します。 4年目の半ばに調査を行ったとしましょう(赤線)。次のデータを取得します。 調査を3年目以降の任意の年に受けた場合、同じデータが得られます。得られた回答の平均をとると、次のようになります。 (2 * 0.5 + 1.5 + 2.5)/ 4 = 1.25 誰もが調査直後に菜食主義者でなくなったと仮定しているため、過小評価していますが、これは明らかに間違っています。これらの参加者がベジタリアンのままでいる実際の平均時間に近い推定値を取得するために、平均して、菜食主義の期間の約半分の時間を報告し、報告された期間に2を掛けると仮定できます。 (私が分析しているような)人口から、これは現実的な仮定だと思います。少なくとも、正しい期待値が得られます。ただし、2倍にすることが唯一の場合、平均2.5になりますが、これは過大評価です。これは、菜食主義者が長くいるほど、現在の菜食主義者のサンプルに含まれる可能性が高くなるためです。 誰かが現在の菜食主義者のサンプルに含まれている確率は、菜食主義の長さに比例すると思いました。この偏りを説明するために、私は現在のベジタリアンの数を彼らの予測されたアドヒアランスの長さで割ろうとしました: ただし、これにより不正確な平均も得られます。 (2 * 1 +⅓* 3 +⅕* 5)/(2 +⅓+⅕)= 4 / 2.533333 = 1.579年 菜食主義者の数を正しいアドヒアランスの長さで割った場合、正しい推定値が得られます。 (1 +⅓*(1 + 3 + 5))/(1 +⅓* 3)= 2年 しかし、アドヒアランスの予測された長さを使用し、それが実際に私が持っているすべてである場合、それは機能しません。他に何を試すべきかわかりません。私はサバイバル分析について少し読みましたが、この場合にどのようにそれを適用するのかわかりません。理想的には、90%の信頼区間も計算できるようにしたいと思います。どんなヒントでも大歓迎です。 …

5
「実際に」プールされた分散とはどういう意味ですか?
私は統計の初心者なので、ここで私を助けてください。 私の質問は次のとおりです。プールされた分散は実際に何を意味しますか? インターネットでプールされた分散の式を探すと、次の式を使用して多くの文献が見つかります(たとえば、http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html): S2p=S21(n1−1)+S22(n2−1)n1+n2−2Sp2=S12(n1−1)+S22(n2−1)n1+n2−2\begin{equation} \label{eq:stupidpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + S_2^2 (n_2-1)}{n_1 + n_2 - 2} \end{equation} しかし、実際には何を計算しますか?プールされた分散を計算するためにこの式を使用すると、間違った答えが得られるためです。 たとえば、これらの「親サンプル」を考えてみましょう。 2,2,2,2,2,8,8,8,8,82,2,2,2,2,8,8,8,8,8\begin{equation} \label{eq:parentsample} 2,2,2,2,2,8,8,8,8,8 \end{equation} この親サンプルの分散である、その平均であるˉ X P = 5。S2p=10Sp2=10S^2_p=10x¯p=5x¯p=5\bar{x}_p=5 ここで、この親サンプルを2つのサブサンプルに分割するとします。 最初のサブサンプルは、平均と2,2,2,2,2である、分散S 2 1 = 0。x¯1=2x¯1=2\bar{x}_1=2S21=0S12=0S^2_1=0 第2のサブサンプルは、平均と8,8,8,8,8である及び分散S 2 2 = 0。x¯2=8x¯2=8\bar{x}_2=8S22=0S22=0S^2_2=0 ここで、およびS 2 = 0であるため、上記の式を使用してこれら2つのサブサンプルのプール/親分散を計算すると、ゼロが生成されます。それでは、この式は実際に何を計算しますか?S1=0S1=0S_1=0S2=0S2=0S_2=0 一方、長い時間をかけて導出した後、正しいプール/親の分散を生成する式は次のとおりです。 S2p=S21(n1−1)+n1d21+S22(n2−1)+n2d22n1+n2−1Sp2=S12(n1−1)+n1d12+S22(n2−1)+n2d22n1+n2−1\begin{equation} \label{eq:smartpooledvar} \displaystyle S^2_p = …
15 variance  mean  pooling 

1
非常に歪んだデータでt検定を使用する必要がありますか?科学的証拠をお願いします?
ユーザーの参加(例:投稿数)に関する、非常に歪んだ(指数分布のように見える)データセットのサンプルがあり、サイズが異なる(ただし200以上)ので、平均を比較したいと思います。そのために、2つのサンプルの対応のないt検定を使用しています(サンプルの分散が異なる場合は、ウェルチ係数を使用したt検定)。私が聞いたように、本当に大きなサンプルの場合、サンプルが正規分布していないことは問題ではありません。 私がやったことを検討している人が、私が使用しているテストは私のデータには適さないと言った。彼らは、t検定を使用する前に私のサンプルをログ変換することを提案しました。 私は初心者なので、研究の質問に「参加指標のログ」で答えるのは本当に混乱しているように思えます。 彼らは間違っていますか?私が間違っている?それらが間違っている場合、私がそれらを引用/表示できる本または科学論文はありますか?私が間違っている場合、どのテストを使用する必要がありますか?

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

9
非負データの標準偏差は平均を超えることができますか?
三角形の3Dメッシュがいくつかあります。三角形領域の統計は次のとおりです。 最小0.000 最大2341.141 平均56.317 標準開発98.720 では、数値が上記のように機能する場合、標準偏差に関して特に役立つ何かを意味するのか、それとも計算にバグがあることを示唆するのか?領域は確かに正規分布からはほど遠い。 また、以下の回答のいずれかで言及したように、数字が負になり、したがって法定範囲外になったのは平均から1 SDしかかからなかったことに本当に驚いたことです。 ありがとう

3
ロバスト平均推定のクラッシュコース
私にはたくさんの(約1000)の推定値があり、それらはすべて長期的な弾力性の推定値であると想定されています。もう少しこれらの半分以上が、私は、メソッドBが何か推計だと思う」のようなB.どこかに私が何かを読む方法使用方法Aと休息を用いて推定される非常に見積もりが高い(50から60パーセント)くらいあるので、方法Aとは異なるが「。堅牢な統計に関する私の知識はほとんどないため、両方のサンプルのサンプル平均と中央値のみを計算しました...すぐに違いがわかりました。方法Aは非常に集中しており、中央値と平均値の差はほとんどありませんが、方法Bのサンプルは大きく異なります。 外れ値と測定誤差がメソッドBのサンプルを歪めると結論付けたので、理論と非常に矛盾する約50の値(約15%)を捨てました...そして突然、両方のサンプル(CIを含む)の平均は非常に似ていました。密度もプロットします。 (外れ値を排除するために、サンプルAの範囲を調べ、その範囲外にあるBのすべてのサンプルポイントを削除しました。)手段の堅牢な推定の基本を見つけることができる場所を教えてくださいこの状況をより厳密に判断させてください。そして、いくつかの参照があります。さまざまな手法を深く理解する必要はありませんが、堅牢な推定の方法論に関する包括的な調査を読んでください。 外れ値を削除した後の平均差の有意性についてt検定を行い、p値は0.0559(t約1.9)であり、完全なサンプルの場合、t statは約4.5でした。しかし、それは実際にはポイントではありません。平均は少し異なる可能性がありますが、上記のように50〜60%異なることはありません。そして、彼らはそうは思わない。


1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …


4
データが歪んでいるときに平均を使用する必要がありますか?
多くの場合、導入された導入統計テキストは、平均がサンプルデータおよび/または外れ値に敏感であることを説明することにより、平均を中央値と区別します偏った母集団分布に対して、これは、データが対称的でない場合に中央値が優先されるという主張の正当化として使用されます。 例えば: 特定のデータセットの中心傾向の最適な測定値は、値の分布方法によって異なります。...データが対称でない場合、中央値が中心傾向の最適な測定値であることがよくあります。平均値は極端な観測値に敏感であるため、外れたデータ値の方向に引っ張られ、結果として過度に膨張または過度に収縮する可能性があります。」— Pagano and Gauvreau、(2000)Principles of Biostatistics 、第2版。 (P&Gは、BTW、手元にあったそれらを選び出していないそれ自体)。 著者はこうして「中心傾向」を定義します:「データのセットの最も一般的に調査された特性はその中心、または観察が集中する傾向があるポイントです。」 これは、データ/分布が対称であるときに平均を使用することだけが、中央値に等しいときにのみ平均を使用するということと同じことなので、中央値、期間のみを使用するという率直な方法として私を襲います。編集: whuberは、中心傾向の堅牢な測定値と中央値を混同していることを正しく指摘しています。したがって、導入された統計の算術平均と中央値の特定のフレーミングについて議論していることに留意することが重要です(ここで、モードは別として、中心傾向の他の尺度は動機付けられていません)。 平均値の効用を中央値の挙動からどれだけ逸脱するかで判断するのではなく、これらを中心性の2つの異なる尺度として単純に理解すべきではないでしょうか?言い換えれば、歪度に敏感であることは平均の特徴です。同様に、「中央値は歪度にほと​​んど影響されないため、中央値は良くありません。したがって、中央値は平均と等しい場合にのみ使用してください」と有効に主張できます。 (モードは、この質問に関与していないのが非常に賢明です。)

1
データを望ましい平均および標準偏差に変換する
データセットを現在の平均と標準偏差から目標平均と目標標準偏差に変換する方法を探しています。基本的に、分散を縮小/拡張し、すべての数値を平均にスケーリングしたいと思います。 2つの別々の線形変換を実行することはできません。1つは標準偏差用で、もう1つは平均用です。どの方法を使用すればよいですか? データセットの平均を0.5に、SDを0.1667に調整すると、SD .4と平均0.88のデータセットのポイント1.02が変換される例にソリューションを適用できますか?ポイントの新しい価値は何ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.