タグ付けされた質問 「standard-deviation」

標準偏差は、確率変数の分散の平方根、その推定量、またはデータのバッチの広がりの同様の尺度です。

3
最小、平均、最大から分布を計算する
あるデータセットの最小値、平均値、最大値、たとえば10、20、25があるとします。次の方法はありますか? これらのデータから分布を作成し、 人口の何パーセントが平均より上または下にある可能性が高いかを知る 編集: グレンの提案に従って、サンプルサイズが200であるとします。

4
2次元の標準偏差を計算する方法。
私の問題は次のとおりです。床から数メートル離れた特定の場所から一度に40個のボールを落とします。ボールが転がり、休憩します。コンピュータービジョンを使用して、XY平面の重心を計算します。単純なジオメトリを使用して計算された、重心から各ボールまでの距離のみに関心があります。さて、中心からの片側標準偏差を知りたい。したがって、特定の数のボールが1つの標準半径内にあり、より多くのボールが2 *標準半径内にあることなどを知ることができます。片側標準偏差を計算するにはどうすればよいですか?通常のアプローチでは、ボールの半分が0の「負の側」にあると述べています。もちろん、これはこの実験では意味がありません。ボールが標準分布に準拠していることを確認する必要がありますか?助けてくれてありがとう

2
平均絶対偏差は標準偏差よりも小さいですか?
この定義を使用して、一般的な場合の平均絶対偏差と標準偏差を比較したいと思います。 MAD=1n−1∑1n|xi−μ|,SD=∑n1(xi−μ)2n−1−−−−−−−−−−−√MAD=1n−1∑1n|xi−μ|,SD=∑1n(xi−μ)2n−1MAD = \frac{1}{n-1}\sum_1^n|x_i - \mu|, \qquad SD = \sqrt{\frac{\sum_1^n(x_i-\mu)^2}{n-1}} ここで、です。μ=1n∑n1xiμ=1n∑1nxi\mu =\frac{1}{n}\sum_1^n x_i すべてのに対してあるというのは本当ですか?MAD≤SDMAD≤SDMAD \le SD{xi}n1{xi}1n\{x_i\}^n_1 すべての場合はであるためfalseです。n=2n=2n=2x+y≥x2+y2−−−−−−√x+y≥x2+y2x+y \ge \sqrt{x^2+y^2}x,y≥0x,y≥0x, y \ge 0 それを示すのは簡単です: MAD≤nn−1−−−−−√×SDMAD≤nn−1×SDMAD \le \sqrt{\frac{n}{n-1}} \times SD

1
分散と標準偏差の最適解はどの問題またはゲームですか?
与えられた確率変数(または母集団、または確率論的プロセス)の場合、数学的な期待が質問への答えです。。また、これはゲームの最適な解決策であり、確率変数(または母集団からの新しい描画)の次の実現を推測します。値に線形の非効用がある場合は、値と推測の間の距離の2乗で罰します罰の。中央値は、絶対損失の下での対応する質問に対する答えであり、モードは、「全か無か」の損失の下での答えです。 質問:分散と標準偏差は同様の質問に答えますか?彼らは何ですか? この質問の動機は、中心的な傾向と広がりの基本的な指標を教えることにあります。中心的傾向の測定は上記の決定理論上の問題によって動機付けられますが、人はどのように拡散の測定を動機付けることができるのでしょうか。


2
SVMを使用する場合、なぜ機能を拡張する必要があるのですか?
scikit-learn のStandardScalerオブジェクトのドキュメントによると: たとえば、学習アルゴリズムの目的関数で使用される多くの要素(サポートベクターマシンのRBFカーネル、線形モデルのL1およびL2正則化器など)は、すべての特徴が0を中心とし、同じ順序で分散があると仮定します。ある特徴の分散が他のものよりも桁違いに大きい場合、それは目的関数を支配し、推定量が期待どおりに他の特徴から正しく学習できなくなる可能性があります。 分類する前に機能をスケーリングする必要があります。なぜこれを行うべきなのかを示す簡単な方法はありますか?科学論文への参照はさらに良いでしょう。私はすでに見つかったものを他の多くのは、おそらくあります。

2
SDが平均より大きく、負でないスケール
私の研究室で実行したい研究と非常によく似た研究を報告する記事を受け取りました。しかし、関心のある変数である期間について、SDは平均よりも大きいことに気付きました...これは分単位で測定される期間であるため、負になることはなく、これは私には非常に奇妙に見えます。これは報告された2つの研究で起こりました、以下は1つです。 それを超えて、これは混合デザインです。コントロールv処理(グループ間)、およびTime1、Time2、Time3(繰り返し測定)。ここに平均(SD)があります、N> 200 Time1 Time2 Time3 Control 15.1 (14.6) 14.4 (14.8) 13.3 (15.7) Treatment 14.8 (13.2) 10.0 (12.2) 8.2 (9.9) ...彼らは分散分析を実行し、p <.001を報告しました。 これを電力分析の基礎として使用して、私たちの研究のサンプルサイズを決定するように依頼されました。これはデータが通常ではないか異常値を持っていることを示していると確信しており、これに基づいてサンプルサイズを決定するのに不安があります。私はちょうどベースから外れていますか?

4
標準偏差式のサンプル数「N」に対して平方根が使用されるのはなぜですか?
標準偏差の非常に基本的な概念を理解しようとしています。 式からσ=∑i=1n(xi−μ)2N−−−−−−−−−−⎷σ=∑i=1n(xi−μ)2N\sigma= \sqrt{ \dfrac{ \sum\limits_{i=1}^n (x_i-\mu)^2} N } なぜ人口 "N"を半分にする必要があるのか​​理解できません。つまり、行わなかったのに、なぜを取りたいのですか?それは私たちが検討している人口を歪めていませんか?N−−√N\sqrt{N}N2N2{N^2} の式であってはなりませんσ=∑i=1n(xi−μ)2−−−−−−−−−√Nσ=∑i=1n(xi−μ)2N\sigma= \dfrac{ \sqrt{ \sum\limits_{i=1}^n (x_i-\mu)^2} } {N}

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
地域の科学フェアの勝者を公正に決定する方法は?
私のサイエンスフェアで勝者を計算する正しい方法を理解するのに助けが必要です。統計と数学についての無知が、子供の勝つチャンスを邪魔したくありません。(危機に瀕している多くの奨学金と進歩の利点)。よろしくお願いします。 最初に、セットアップ方法の背景を少し説明します。 私たちの見本市には通常、約600の学生プロジェクトがあります。これらのプロジェクトは、個々の学生または学生のチームによって完了および提示されます。チームは2人または3人の子供で構成できます。 生徒は小学校(6〜8年生)と中学校(9〜12年生)の2つの部門に分かれています。各部門には異なるカテゴリがあります。初等プロジェクトの9つのカテゴリと二次部門プロジェクトの17のカテゴリです。 賞は、各部門の各カテゴリの1位、2位、3位に与えられます。3位を超えるプレースメントには、名誉ある賞が贈られます。 プロジェクトごとに、4人から6人の審査員を割り当てます。審査は、審査員の資格、カテゴリーの好み、過去の審査経験に基づいて行われます。(経験豊富な方は上級部門のプロジェクトに割り当てられます)。 審査員によるプロジェクトの採点方法: 各プロジェクトには、ポイントが割り当てられた5つの基準があります。各基準は1から20ポイントの間で授与されます。一般的な基準は次のとおりです。 全体的な目標+仮説+リソースの使用(1..20) 設計+手順(1..20) データ収集+結果(1..20) ディスカッション+結論(1..20) インタビュー(1..20) チームプロジェクトの場合、「チーム控除」と呼ばれる6番目の基準が評価されます。この場合、裁判官は、参加しなかった、または参加しなかったチームメイトに対してポイント(最大15)を差し引くことができます。 チーム控除(0 ..- 15) したがって、裁判官はすべてのプロジェクトを5〜100ポイントで採点できます。プロジェクトがチームプロジェクトの場合、スコアは15ポイント減ります。 生データ: 数時間の間に、裁判官から最大3,600点のスコアを収集します。これらのスコアはデータベースに入力され、そこであらゆる種類の並べ替え、平均化、標準偏差の計算などを行うことができます。これらの生のスコアをどうすればよいのか正確にはわかりません。現在、私は各プロジェクトの単純な平均を行っていますが、裁判官のバイアス、チームの控除、または考慮していない他の多くのことについて調整していないのではないかと心配しています。 望ましい結果: 最後に、スコアを処理して、カテゴリごとに1位、2位、3位のプロジェクトを授与し、その後、後続の場所で名誉ある賞を授与できるようにしたいと思います。私はポジションが正しく計算され、勝利した子供たちが表彰(そして賞品)に値することを確信したいと思います。 私の長い質問を読んで、これを理解するためのあなたの助けに感謝します。フォローアップの質問があれば、喜んでお答えします。

2
標準偏差の分布
この質問は正規分布に関するものですが、任意の分布から抽出されたサイズnのサンプルの標準偏差の分布については何がわかっているのでしょうか。特に、標準偏差の標準偏差は何ですか? 正規分布の場合、sdのsdはです。これはような任意の分布にほぼ当てはまりますか? n→∞σ2 n√σ2n\sigma \over{\sqrt{2n}}n → ∞n→∞n \rightarrow \infty

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

4
サンプル比率の分散はnとともに減少しますが、カウントの分散はnとともに増加します-なぜですか?
これで直感的なブロックができました。二項問題の場合、カウントの標準偏差はです。逆に、サンプル比率の標準偏差は増加とともに減少し、ます。nで除算することはできますが、標準偏差が反対方向に移動する理由がわかりません。n p (1 − p )−−−−−−−−√np(1−p)\sqrt{np(1-p)}んnn np (1 − p )ん−−−−−√p(1−p)n\sqrt{\frac{p(1-p)}{n}}んnn

2
確率分布は無限の標準偏差を持つことができますか?
私はが確率分布であると信じています。p [ x ]p[x]p[x] p [ x ] = 1π(1 + x2)p[x]=1π(1+x2)\begin{equation} p[x] = \frac{1}{\pi (1+x^2)} \end{equation} それはどこでも正であり、 1に統合されるためです。- ∞ 、∞−∞,∞-\infty, \infty を 積分してもは収束しませんが平均は対称性により0 です。は確率分布であると想定されているため、これは「疑わしい」です が、は発散することがわかっているあるため、妥当です。- ∞ 、∞ P [ X ] X P [ X ] O (1 / X )x p [ x ]xp[x]xp[x]- ∞ 、∞−∞,∞-\infty, \inftyp [ …


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.