タグ付けされた質問 「mean」

確率変数の期待値。または、サンプルの位置メジャー。

12
95%信頼区間(CI)が95%の平均を含む可能性を意味しないのはなぜですか?
ここで関連するさまざまな質問を通じて、「95%信頼区間」と呼ばれる「95%」の部分は、サンプリングとCI計算の手順を何度も正確に複製するという事実に言及しているというコンセンサスがあるようです。 、こうして計算されたCIの95%に母平均が含まれます。また、この定義はそうではないというコンセンサスのようです単一の95%CIから、平均がCI内のどこかに落ちる可能性が95%あると結論付けることを許可します。ただし、95%の人口が人口の平均を含むと多くのCIを想像している限り、前者が後者を暗示していないことを理解していません(実際に計算されたCIが人口を含むかどうかに関して意味するかどうか)想像されるケースのベースレート(95%)を、実際のケースにCIが含まれる確率の推定値として使用することを強制しますか? 「実際に計算されたCIには母集団の平均が含まれているか含まれていないため、確率は1または0である」という行に沿って議論している記事を見ましたが、これは依存する確率の奇妙な定義を暗示しているようです未知の状態(つまり、友人が公正なコインを裏返し、結果を非表示にし、50%の可能性があると言ってはいけません)。 確かに私は間違っていますが、私のロジックがどこでおかしくなったのかわかりません...

5
使用する「意味」とは?
したがって、算術平均(AM)、幾何平均(GM)、調和平均(HM)があります。それらの数学的定式化は、関連するステレオタイプの例とともによく知られています(例えば、調和平均と「速度」関連問題への応用)。 ただし、常に興味をそそられる質問は、「どのコンテキストが特定のコンテキストで使用するのに最も適切であるかをどのように判断するのですか?」です。適用可能性を理解するために、少なくともある程度の経験則がなければなりませんが、私が出くわした最も一般的な答えは、「それは依存します」(しかし何に依存しますか?)です。 これはかなり些細な質問のように思えるかもしれませんが、高校のテキストでさえこれを説明できませんでした-彼らは数学的な定義のみを提供します! 数学的な説明よりも英語の説明の方が好きです。簡単なテストは「お母さん/子供が理解できるでしょうか?」
197 mean 



8
もし平均がとても敏感なら、そもそもなぜそれを使うのか?
中央値が外れ値に対して耐性があることは既知の事実です。その場合、最初に平均を使用するのはいつ、なぜですか? おそらく考えられることの1つは、外れ値の存在を理解することです。つまり、中央値が平均から離れている場合、分布は歪んでおり、おそらく外れ値で何をするかを決定するためにデータを調べる必要があります。他の用途はありますか?

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

3
平均絶対誤差または二乗平均平方根誤差?
なぜ平均絶対誤差(MAE)ではなく、ルート平均二乗誤差(RMSE)を使用するのですか? こんにちは 計算で生成されたエラーを調査してきました。最初は、エラーをルート平均正規化二乗誤差として計算しました。 少し詳しく見てみると、誤差を2乗すると、小さい誤差よりも大きい誤差の方が重みが大きくなり、誤差の推定値が奇数の外れ値に向かって歪んでいます。振り返ってみると、これは非常に明白です。 だから私の質問-どのような場合に二乗平均平方根誤差は平均絶対誤差よりも適切な誤差の尺度になるでしょうか?後者は私にとってより適切であると思われますか、何か不足していますか? これを説明するために、以下の例を添付しました。 散布図は、良好な相関関係を持つ2つの変数を示しています。 右のグラフの2つのヒストグラムは、正規化されたRMSE(上)とMAE(下)を使用したY(観測値)とY(予測値)の間の誤差です。 このデータには重要な異常値はなく、MAEはRMSEよりも低いエラーを示します。MAE以外が望ましい、一方のエラー測定値をもう一方よりも使用するための合理的なものはありますか?
59 least-squares  mean  rms  mae 

2
異なるサンプルサイズの平均の比較をどのように解釈する必要がありますか?
ウェブサイトでの書籍の評価の場合を考えてみましょう。本Aは、平均評価4.25、分散で、10,000人によって評価されています。同様に、Book Bの評価は100人で、評価は4.5でです。σ = 0.25σ= 0.5σ=0.5\sigma = 0.5σ= 0.25σ=0.25\sigma = 0.25 ブックAのサンプルサイズが大きいため、「平均安定化」は4.25になりました。現在、100人の場合、より多くの人がブックBを読んだ場合、平均評価は4または4.25に落ちる可能性があります。 異なるサンプルからの平均の比較をどのように解釈するべきか、また、できる/すべき最良の結論は何ですか? たとえば、書籍Bは書籍Aよりも優れていると言えるでしょうか。

6
Amazonの「平均評価」は誤解を招くものですか?
私が正しく理解していれば、1-5のスケールでの本の評価はリッカートスコアです。つまり、私にとって3は、他の誰かにとって必ずしも3であるとは限りません。これは通常のスケールのIMOです。順序スケールを実際に平均するべきではありませんが、モード、中央値、パーセンタイルを確実に取ることができます。 人口の大部分が上記の統計よりも平均を理解しているので、ルールを曲げることは「大丈夫」ですか?研究コミュニティは、リッカートスケールベースのデータの平均を取ることを強く非難しますが、大衆でこれを行うことは問題ありません(実際に言えば)?この場合の平均を取ることは、そもそも誤解を招くかもしれませんか? Amazonのような会社が基本的な統計情報を手探りすることはまずないと思われますが、そうでない場合は、ここで何が欠けていますか?順序尺度は、平均を取ることを正当化するための順序の便利な近似であると主張できますか?どんな理由で?

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
サンプルサイズ1から母集団について何と言うことができますか?
母集団の平均値について、もしあるとすれば何と言えるのか、1つの測定値y 1(サンプルサイズ1)だけでとき、μを疑問に思います。明らかに、より多くの測定値が必要ですが、それらを取得することはできません。μμ\muy1y1y_1 これは、サンプルの平均のでように思わに自明等しいY 1、次いで、E [ ˉ Y ] = E [ Y 1 ] = μ。しかし、1のサンプルサイズで、サンプル分散が定義されていないため、使用中に私たちの自信ˉ Yの推定量としてμは、正しい、定義されていませんか?μの推定値を制限する方法はありますか?y¯y¯\bar{y}y1y1y_1E[ y¯] = E[ y1] = μE[y¯]=E[y1]=μE[\bar{y}]=E[y_1]=\muy¯y¯\bar{y}μμ\muμμ\mu

13
年齢の中央値が平均年齢よりも良い統計であるのはなぜですか?
Wolfram Alphaを見ると または、このウィキペディアページ年齢の中央値による国のリスト 年齢に関しては、明らかに中央値が選択の統計量のようです。 算術平均がより悪い統計になる理由を自分で説明することはできません。なぜそうですか? このサイトの存在を知らなかったため、もともとここに投稿しました。
41 mean  median 

4
分布はどのようにして無限の平均と分散を持つことができますか?
以下の例を挙げることができれば幸いです。 無限平均と無限分散のある分布。 無限の平均と有限の分散を持つ分布。 有限平均と無限分散の分布。 有限平均と有限分散を持つ分布。 Wilmottフォーラム/ウェブサイトでスレッドを読んで、グーグルで、読んでいる記事で使用されているこれらのなじみのない用語(無限平均、無限分散)を見て、十分に明確な説明を見つけられなかったからです。また、自分の教科書には説明がありません。

3
なぜ基本的な仮説検定は中央値ではなく平均値に焦点を合わせているのですか?
基本的な学部生の統計コースでは、学生は(通常?)母集団の平均に対する仮説検定を教えられます。 中央値ではなく平均値に焦点が当てられているのはなぜですか?私の推測では、中心極限定理のために平均値をテストする方が簡単だと思いますが、私はいくつかの教育された説明を読みたいです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.