タグ付けされた質問 「variance」

確率変数の平均からの予想される二乗偏差。または、それらの平均についてのデータの平均二乗偏差。

5
ステップ変化検出
分析関数をいくつかの実験データに合わせるために、非線形最小二乗法を使用しています。私はアルゴリズムにいくつかの初期推定値を提供する必要があるので、これを自動的に行う方法を見つけようとしています(これは私が行っている目視ではなく)。 これは、正規分布されたランダムノイズを分析関数に追加することによって作成された、いくつかのシミュレーションデータです。 データのこのステップ変化の位置を確実に検出しようとしています。データポイントの平均分散を計算し、この値と大幅に異なるデータのポイントを探すことで、ある程度の成功を収めましたが、このアプローチはS / N比によって非常に制限されているようです。 統計があまりわからないので、問題を解決するために何を調べなければならないかについて、何らかの方向性を示したいと思っています。 ありがとうございました! -xyデータへのビンのリンクの貼り付けを編集 http://pastebin.com/QTawFex3

3
マルチレベルのカテゴリカルデータの分布の分散
現在、さまざまな特性(都市など)を持つ大規模なデータセットを分析しています。私は、データ全体でどの程度の差異があったか、またはほとんどなかったかを示すメジャーを見つけたかったのです。これは、単純に異なる要素の数を数えるよりもはるかに便利です。 たとえば、次のデータについて考えます。 City ---- Moscow Moscow Paris London London London NYC NYC NYC NYC 4つの異なる都市があることがわかりますが、分布がどれほどあるかはわかりません。私が思いついた「式」の1つは、各要素の合計データセットの割合の合計を取ることでした。この場合は、になります(2/10)^2 + (1/10)^2 + (3/10)^2 + (4/10)^2。私にはこれに対する実際の数学的証明はありませんが、それについて考えました。 この場合、たとえば、10要素のセットで、9が同じで1が異なる場合、その数はになります(9/10)^2 + (1/10)^2。しかし、それが半分であるならば、それはそうなるでしょう(5/10)^2 + (5/10)^2。 似たような公式や研究分野について意見を求めたかったのです。いくつかのグーグル検索で本当に何も見つけることができませんでした。


1
表示とを独立している:この教科書の問題に対する解決策を求めています
では一般化線形モデルへの紹介は以下のようドブソンとバーネットによって、運動1.4b&Cは次のようになります。 ましょう独立したランダム分布と各変数である。およびましょう。...Y1,...,YnY1,...,YnY_1,...,Y_nN(μ,σ2)N(μ,σ2)N(\mu,\sigma^2)Y¯¯¯¯=1n∑ni=1YiY¯=1n∑i=1nYi\overline{Y}=\frac{1}{n}\sum_{i=1}^{n}Y_iS2=1n−1∑ni=1(Yi−Y¯¯¯¯)2S2=1n−1∑i=1n(Yi−Y¯)2S^2=\frac{1}{n-1}\sum_{i=1}^{n}(Y_i-\overline{Y})^2 b。示すことS2=1n−1[∑ni=1(Yi−μ)2−n(Y¯¯¯¯−μ)2]S2=1n−1[∑i=1n(Yi−μ)2−n(Y¯−μ)2]S^2 = \frac{1}{n-1}[\sum_{i=1}^{n}(Y_i-\mu)^2-n(\overline{Y}-\mu)^2] c。(b)から、。これにより、どのようにしてとが独立していると推測できますか?∑(Yi−μ)2/σ2=(n−1)S2/σ2+[(Y¯¯¯¯−μ)2n/σ2]∑(Yi−μ)2/σ2=(n−1)S2/σ2+[(Y¯−μ)2n/σ2]\sum(Y_i-\mu)^2/\sigma^2 = (n-1)S^2/\sigma^2+[(\overline{Y}-\mu)^2n/\sigma^2] Y¯¯¯¯Y¯\overline{Y} S2S2S^2 私の問題は、cの式で太字の質問にどのように答えられるかわからないことです。 私は2つが一般に独立していることを証明する方法を知っています(以前に尋ねられました)。 さらに、私が解決策を見ると、彼らは言う: (c)と(d)はp.10の結果から続きます 10ページの使用の最も近いものは、カイ二乗分布の生殖財産であり、ない場合にのみif文なので、私はそれがここで使用することができないと思います。 だから私の質問は、c)の方程式が独立性を証明するのにどのように役立つのですか?

2
一部の統計記号に「平方」があるのはなぜですか(例:分散)
統計で、「2乗」されたシンボルに遭遇することがあります。他の領域では、たとえば力学のように、通常の文字に関心のある数量を指定してから、式を定義して、関心のある数量が通常の文字として左側に並ぶまで並べ替えることができます。式。例は、時間と速度移動した後の位置です。xxxtttvvv x=vtx=vtx = vt ただし、統計では、2乗された数量が左側に表示されることがあります。これは、結果をさらに解釈するために使用されるためです。 期待値がE [X] = µの確率変数の分散:σ2XσX2\sigma^2_XXXXE[X]=µE[X]=µE[X]=µ σ2X=E[(X−µ)2]σX2=E[(X−µ)2]\sigma^2_X = E[(X-µ)^2] ここでは、四角形のエンティティが数式の左側に立っています。 統計学者によって常に「R 2乗」と呼ばれることさえある決定係数R2R2R^2。頻繁に使われるのに、なぜ「普通の」手紙を送らないのですか? 遺伝率は、遺伝学に起因する変動量と環境に起因する変動量との比をとる場合に、遺伝学に採用される尺度です。量的形質PPP(たとえば、成長の高さ)は、遺伝子型効果GGGおよび環境効果EEE(すべての確率変数)に応じて、次のようにモデル化されます。 P=G+EP=G+EP = G + E 広義の遺伝率H2H2H^2が定義されていますH2=Var(G)/Var(P)H2=Var⁡(G)/Var⁡(P)H^2 = \operatorname{Var}(G)/\operatorname{Var}(P) [ソース] 誰もHHHに興味がなく、H ^ 2だけH2H2H^2です。 この慣習の意味は何ですか?それは統計学者に何を伝えますか?または、いくつかの無関係な原因がありますか?

3
2つのiid正常値の最小値と最大値の分散
しましょう XXX そして YYY イードになる 〜NO r個のM L (0 、1 )〜Norメートルal(0、1)\sim Normal(0,1) しましょう A = m a x (X、Y)あ=メートルaバツ(バツ、Y)A=max(X,Y) そして B = m i n (X、Y)B=メートル私ん(バツ、Y)B=min(X,Y) なに Va r (A )Var(あ)Var(A) そして Va r (B )Var(B)Var(B)? シミュレーションから、 Va r (A )= Va r (B )Var(あ)=Var(B)Var(A)=Var(B) 約0.70。 これを分析的に取得するにはどうすればよいですか?

1
と正規化のバイアスと分散のプロパティ
線形回帰でから正規化に移行する場合、バイアスまたは分散の増加が予想されますか?バイアスはフィッティング不足の兆候であり、分散はフィッティング過剰の兆候であることに注意してください。定数λを想定します。L2L2L^2L1L1L^1 ここで大まかな目安を探しています。それがなく、答えが私が説明していない他のいくつかの要因に依存する場合は、説明してください。

2
分散は、(分散の尺度として)正規分布データでのみ機能しますか?
ウィキペディアで言う 中心極限定理における正規分布の役割は、確率と統計の分散の有病率の一部です。 これは、 分散/ SDを分散の尺度として使用する場合、ランダム確率変数がCLTの正規分布にほぼ従う可能性があるため、実際には正規分布の「スケーリングパラメーター」を探していると理解しています。 データが正常に分布していない場合でも、分散/ SDは依然として妥当な分散の尺度ですか? データが均一に分布しているとしましょう。平均絶対偏差は、分散よりも分散のより良い尺度のように思われます。均一分布の「スケーリングパラメータ」と見なすことができるからです。 更新 つまり、サンプルの2つのセットが{1,1,1,-1,-1,-1}あり、もう1つは正規分布から、それらの分散は両方とも1であるとします。メジャーとして分散を使用する場合。N(0,1)N(0,1)N(0,1) しかし、ガウシアンが分布パラメーターを計算し、「そう、それらは分散に関して等しい」と言うように、私たちはそれらの両方を強制的に扱っているように感じます。

3
限られたメモリでのオンラインの分散推定
時間内に発生するイベントに関連するメトリックの平均と分散を計算することを目的とするコンポーネントを作成していますが、内部メモリは限られています。 イベントがショップに入場する訪問者であり、メトリックが年齢であると想像してください。 期間中、私のコンポーネントは各訪問者の年齢のイベントを受け取ります。コンポーネントに各年齢の履歴を記憶させたくありません。理想的には、平均A、分散V、およびイベント数のみを格納するライトコンポーネントが欲しいNです。 ageのある各イベントの後にE、これらの3つの値を更新します。 N<=N+1 A<=(A*N+E)/(N+1) V<=??? 何のためにV?私は次のようなものを考えています: V<=(V*N+(E-A)^2)/(N+1) 私の以前の人Vは古いAものを使用しているため、正確ではないことを知っています。これは平均ではありません。 Q1-正確な式はありますか? Q2-そうでない場合、私の提案は適切な見積もりですか?偏っていますか?N増加すると、正しく収束しますか? Q3-より良い式はありますか?

1
相関データと非相関データの平均の分散
私はこのパラグラフをJames et al、Introduction to Statistical Learning、p183-184 [1]で読みました: 高度に相関している多くの量の平均は、高度に相関していない多くの量の平均よりも分散が大きいため、LOOCVから得られるテスト誤差推定は、k倍CVから生じるテスト誤差推定よりも分散が大きくなる傾向があります。 この主張の有効性をチェックするために、例えばRの数値例を教えてもらえますか? 私は次のコードを使用してそれをチェックしようとしました: x = 1:100 #highly correlated data y = sample(100) #same data without correlation var(x) == var(y) # TRUE このコードの何が問題になっていますか? LOOCVは「1つを残さない相互検証」を表します [1]:James、G.、Witten、D.、Hastie、T.、Tibshirani、R。(2013)、 Rでのアプリケーションを使用した統計学習の概要、 Springer Texts in Statistics、Springer Science + Business Media、ニューヨーク

2
もし
変数があり、分散が有限であることを知っています(したがって、平均も有限です)。スケーリングした後、その分散が有限のままであることは常に真実ですか?XXX0≤Y≤10≤Y≤10 \le Y \le 1 とは必ずしも独立しているとは限らないことに注意してください。XXXYYY 編集:私は「最悪の場合」と考えているあるたびとたびいくつかのために、(およびミラーリングの場合)?YYY000X&lt;cX&lt;cX < c111X≥cX≥cX \ge cccc

1
画像データのゼロ平均と単位分散とは何ですか?
ディープラーニングは初めてです。いくつかの概念を理解しようとしています。「平均」は平均値であり、「分散」は平均からの偏差です。いくつかの研究論文を読んだことがありますが、いずれも最初にデータを前処理すると言っています。しかし、これらの概念は画像の前処理とどのように関連していますか?これらの概念が画像データの前処理として使用されるのはなぜですか? 実際、これらの手法が分類にどのように寄与するかを理解できません。Googleで検索しましたが、説明が少ないキーワードで検索されている可能性があります 。

2
なぜ単純に使用しないのですか
結局、VIFは次のように計算されます。 1/(1−R2j)1/(1−Rj2)1/(1-R_j^2)。のVIF555 に対応 R2JRJ2R_J^2 の 0.80.80.8。私にとって、によって提供された情報R2jRj2R_j^2VIFの数式を適用すると、さらに不明瞭になります。なぜ私はただ使用できないのですかR2jRj2R_j^2 多重共線性を検出するには?


2
平均二乗バイアスの分解(統計学習の要素内)
The Statistics of Elements of Statistical Learningの 224ページの式7.14がどのようにして導き出されるのか理解できません。誰かがそれを理解するのを手伝ってくれる? Average squared bias=Average[model bias]2+Average[estimation bias]2Average squared bias=Average[model bias]2+Average[estimation bias]2\textrm{Average squared bias} = \textrm{Average}[\textrm{model bias}]^2 + \textrm{Average}[\textrm{estimation bias}]^2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.