タグ付けされた質問 「standard-deviation」

標準偏差は、確率変数の分散の平方根、その推定量、またはデータのバッチの広がりの同様の尺度です。

2
「思考、高速、低速」の平均への回帰
で思考、高速と低速、ダニエル・カーネマンは、以下の仮定の質問を提起します: (P. 186)現在、ジュリーは州立大学の先輩です。彼女は4歳のときに流readに読んだ。彼女の成績平均点(GPA)とは何ですか? 彼の意図は、特定の統計について予測する際に、平均値への回帰を説明できないことが多いことを説明することです。その後の議論では、彼は次のようにアドバイスしています。 (P. 190)2つの測定値(現在の例では読書年齢とGPA)の間の相関関係は、それらの決定要因間の共有因子の割合に等しいことを思い出してください。その割合についてのあなたの最も良い推測は何ですか?私の最も楽観的な推測は約30%です。この推定を仮定すると、偏りのない予測を作成するために必要なものはすべて揃っています。4つの簡単な手順でそこに到達する方法の手順を次に示します。 平均GPAの推定から始めます。 証拠の印象に合ったGPAを決定します。 読書早熟度とGPAの相関を推定します。 相関が.30の場合、平均から一致するGPAまでの距離の30%を移動します。 彼のアドバイスの私の解釈は次のとおりです。 「彼女は4歳のときに流readに読んだ」を使用して、ジュリーの読書の早熟度の標準スコアを確立します。 対応する標準スコアを持つGPAを決定します。(予測する合理的なGPAは、GPAと早熟度の相関が完全であれば、この標準スコアに対応します。) 読書の早熟度の変動によって説明できるGPAの変動の割合を推定します。(私は彼がこの文脈で「相関」と決定係数を参照していると思いますか?) ジュリーの読書早熟の標準スコアの30%だけが、彼女のGPAの標準スコアを説明できる要因によって説明できるため、ジュリーのGPAの標準スコアがそれの30%になると予測するだけで正当化されます。完全な相関の場合。 カーネマンの手順の私の解釈は正しいですか?もしそうなら、彼の手順、特にステップ4のより正式な数学的正当化はありますか?一般に、2つの変数間の相関関係と標準スコアの変化/差異との関係は何ですか?

5
広がりの「均一性」の尺度はありますか?
私はウェブで調べましたが、役に立つものは見つかりませんでした。 私は基本的に、値がどのくらい「均等に」分布しているかを測定する方法を探しています。同様に、Xのような「均等な」分散ディストリビューション: そして、ほぼ同じ平均と標準偏差の「不均一」な分布Y: しかし、m(X)> m(Y)のような均等性の尺度mはありますか?存在しない場合、このようなメジャーを作成する最良の方法は何でしょうか? (Khan Academyの画像スクリーンショット)

2
範囲と標準偏差の関係
記事で、サンプルサイズ標準偏差の式を見つけましたNNN σ=R¯¯¯¯2.534σ=R¯2.534\sigma=\frac{\overline{R}}{2.534} ここで、R¯¯¯¯R¯\overline{R}はメインサンプルからのサブサンプルの平均範囲(サイズ666)です。数値2.5342.5342.534はどのように計算されますか?これは正しい数字ですか?

3
なぜこの抜粋は、標準偏差の公平な推定は通常関係がないと言っているのですか?
私は標準偏差の偏りのない推定の計算について読んでいたと私が読んだソース (...)いくつかの重要な状況を除き、タスクは、有意性検定や信頼区間の使用などの標準手順、またはベイズ分析を使用することで必要性が回避されるため、統計の適用とはほとんど関係がありません。 たとえば、信頼区間で計算の一部として標準偏差を使用していないのではないかと、このステートメントの背後にある理由を解明できる人がいるかどうか疑問に思っていました。したがって、信頼区間はバイアス標準偏差の影響を受けませんか? 編集: これまでの回答に感謝しますが、それらの理由のいくつかに従っているのかどうか確信が持てないので、非常に簡単な例を追加します。ポイントは、ソースが正しい場合、私の結論から例に何か間違っているということです。p値が標準偏差にどのように依存しないかを誰かに指摘してもらいたいです。 研究者が、自分の都市でのテストの5年生の平均スコアが、76の全国平均と有意水準0.05で異なるかどうかをテストしたいとします。研究者は20人の学生のスコアをランダムにサンプリングしました。サンプルの平均は80.85で、サンプルの標準偏差は8.87でした。つまり、t =(80.85-76)/(8.87 / sqrt(20))= 2.44。次に、tテーブルを使用して、19 dfでの2.44の両側確率値が0.025であることを計算します。これは有意水準0.05を下回っているため、帰無仮説を棄却します。 したがって、この例では、サンプルの標準偏差をどのように推定したかに応じて、p値(およびおそらくあなたの結論)は変化しませんか?


1
データを望ましい平均および標準偏差に変換する
データセットを現在の平均と標準偏差から目標平均と目標標準偏差に変換する方法を探しています。基本的に、分散を縮小/拡張し、すべての数値を平均にスケーリングしたいと思います。 2つの別々の線形変換を実行することはできません。1つは標準偏差用で、もう1つは平均用です。どの方法を使用すればよいですか? データセットの平均を0.5に、SDを0.1667に調整すると、SD .4と平均0.88のデータセットのポイント1.02が変換される例にソリューションを適用できますか?ポイントの新しい価値は何ですか?

3
不確実性のあるいくつかの測定の標準偏差
サンプリングレートが1 Hzの2時間のGPSデータが2つあります(7200測定)。データはの形式で与えられます。ここで、は測定の不確かさです。(X,Xσ,Y,Yσ,Z,Zσ)(バツ、バツσ、Y、Yσ、Z、Zσ)(X, X_\sigma, Y, Y_\sigma, Z, Z_\sigma)NσNσN_\sigma すべての測定値の平均(たとえば、これら2時間の平均Z値)をとると、その標準偏差はどうなりますか?もちろん、Z値から標準偏差を計算できますが、既知の測定の不確実性があるという事実を無視します... 編集:データはすべて同じステーションからのものであり、すべての座標は毎秒再測定されます。衛星の星座などにより、すべての測定値には異なる不確実性があります。私の分析の目的は、外部イベント(すなわち、地震)による変位を見つけることです。地震前の7200回の測定(2時間)と地震後2時間の平均をとり、その結果の差(高さなど)を計算します。この差の標準偏差を指定するには、2つの平均の標準偏差を知る必要があります。

2
与えられた平均と標準偏差の正の連続変数の最大エントロピー確率密度関数とは何ですか?
一次モーメントと二次モーメントが与えられた場合、正の連続変数の最大エントロピー分布は何ですか? たとえば、ガウス分布は、その平均値と標準偏差が与えられた場合の無制限変数の最大エントロピー分布であり、ガンマ分布は、その平均値とその対数の平均値が与えられた場合の正変数の最大エントロピー分布です。

3
二乗平均平方根誤差と平均バイアス偏差の概念的理解
ルート平均二乗誤差(RMSE)および平均バイアス偏差(MBD)の概念を理解したいと思います。データを自分で比較するためにこれらの測定値を計算すると、RMSEが高い(たとえば100 kg)のに対し、MBDが低い(たとえば1%未満)ことに気づいて困惑することがよくあります。 より具体的には、これらの測定の数学をリストして説明するリファレンス(オンラインではない)を探しています。これらの2つの測定値を計算するために通常受け入れられている方法は何ですか。また、それらをジャーナルの論文でどのように報告すべきですか。 この投稿のコンテキストでは、これらの2つのメジャーの計算を説明するために使用できる「おもちゃ」データセットがあると、本当に役立ちます。 たとえば、組立ラインで生成された200個のウィジェットの質量(kg単位)を検索するとします。これらのウィジェットの質量を予測しようとする数学モデルもあります。モデルは経験的である必要はなく、物理ベースにすることができます。実際の測定値とモデルの間でRMSEとMBDを計算すると、RMSEが100 kgでMBDが1%であることがわかります。これは概念的に何を意味し、この結果をどのように解釈しますか? この実験の結果から、RMSEが10 kg、MBDが80%であることがわかりました。これは何を意味し、この実験について何が言えますか? これらの対策の意味は何ですか?また、2つ(まとめて)は何を意味しますか?RMSEで検討した場合、MBDはどのような追加情報を提供しますか?

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

3
相互作用効果を得るために係数を追加する-SEで何をすべきか?
相互作用を含む多変量回帰があります。たとえば、最貧五分位の治療効果の推定値を取得するには、治療回帰変数の係数を相互作用変数(治療と五分位1と相互作用する)の係数に追加する必要があります。回帰から2つの係数を追加するとき、どのように標準誤差を取得しますか?2つの係数から標準誤差を追加することは可能ですか?t-statsはどうですか?これらも追加することは可能ですか?私は推測していませんが、これに関するガイダンスを見つけることができません。 よろしくお願いします!

11
標準偏差は完全に間違っていますか?どのように高さ、カウントなどの正の数値を計算できますか?
高さ(cm)を計算していて、数値はゼロよりも大きくなければならないとします。 サンプルリストを次に示します。 0.77132064 0.02075195 0.63364823 0.74880388 0.49850701 0.22479665 0.19806286 0.76053071 0.16911084 0.08833981 Mean: 0.41138725956196015 Std: 0.2860541519582141 この例では、正規分布に従って、値の99.7%が平均からの標準偏差の±3倍の間にある必要があります。ただし、標準偏差の2倍でも負になります。 -2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468 しかし、私の数字は正でなければなりません。負の数は無視できますが、これが標準偏差を使用して確率を計算する正しい方法だとは思いません。 これを正しい方法で使用しているかどうかを誰かが理解するのを助けることができますか?または、別の方法を選択する必要がありますか? 正直言って、数学は数学です。正規分布であるかどうかは関係ありません。符号なしの数値で動作する場合、正の数値でも動作するはずです!私が間違っている? EDIT1:ヒストグラムを追加しました より明確にするために、実際のデータのヒストグラムを追加しました EDIT2:いくつかの値 Mean: 0.007041500928135767 Percentile 50: 0.0052000000000000934 Percentile 90: 0.015500000000000047 Std: 0.0063790857035425025 Var: 4.06873389299246e-05

4
標準偏差を増加させる値
私は次の声明に戸惑っています。 「数値セットの標準偏差を増加させるには、平均から複数の標準偏差離れた値を追加する必要があります」 その証拠は何ですか?もちろん標準偏差をどのように定義するかは知っていますが、その部分はどういうわけか見逃しているようです。コメントはありますか?

6
変動係数-IQR /中央値、または代替のような堅牢な(ノンパラメトリック)尺度?
特定のデータセットについて、スプレッドは多くの場合、標準偏差またはIQR(四分位範囲)として計算されます。 a standard deviationは正規化されているため(zスコアなど)、2つの異なる母集団からの広がりを比較するために使用できますが、2つの異なる母集団からのサンプルは2つのまったく異なるスケールで値を持つことができるため、これはIQRには当てはまりません e.g. Pop A: 100, 67, 89, 75, 120, ... Pop B: 19, 22, 43, 8, 12, ... 私が求めているのは、異なる母集団内の変動を比較するために使用できる堅牢な(ノンパラメトリック)尺度です。 選択肢1: IQR / Median-これは、変動係数、つまり。σμσμ \frac{\sigma}{\mu} 選択肢2: Range / IQR 質問:母集団間の変動を比較するためのより意味のある尺度はどれですか?また、選択肢1の場合、選択肢2は何か/意味のあるものに役立ちますか、それとも根本的に欠陥のある尺度ですか?

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.