タグ付けされた質問 「moments」

モーメントは、確率変数の特性(場所、スケールなど)の要約です。分数モーメントにも使用します。

2
分布の瞬間を使用して分布をサンプリングできますか?
統計/機械学習法では、分布はガウス分布で近似されることが多く、サンプリングにはガウス分布が使用されます。彼らは、ディストリビューションの最初の二つのモーメントを計算することによって開始し、推定するために、それらを使用μμ\mu及びσ2σ2\sigma^2。その後、彼らはそのガウスからサンプリングできます。 計算する瞬間が多いほど、サンプリングしたい分布を近似できるようになるはずです。 3つのモーメントを計算するとどうなりますか?それらを使用して分布からサンプリングできますか?そして、これをNモーメントに拡張できますか?

1
対数正規分布の算術平均が分布平均よりも小さいのはなぜですか?
そのため、対数正規分布のランダム変数生成するランダムプロセスがありますXXX。対応する確率密度関数は次のとおりです。 元の分布のいくつかのモーメントの分布を推定したいと考えました。1番目のモーメント、つまり算術平均です。そのために、算術平均の10000の推定値を計算できるように、100個のランダム変数を10000回描画しました。 その平均を見積もるには、2つの異なる方法があります(少なくとも、それは私が理解したことです:私は間違っているかもしれません)。 はっきり平均算術通常の方法を計算することによって: X¯=∑i=1NXiN.X¯=∑i=1NXiN.\bar{X} = \sum_{i=1}^N \frac{X_i}{N}. または、基礎となる正規分布から最初におよびμを推定することによって:μ = N ∑ i = 1 log (X i)σσ\sigmaμμ\mu、次に平均として ˉ X =EXP(μ+1μ=∑i=1Nlog(Xi)Nσ2=∑i=1N(log(Xi)−μ)2Nμ=∑i=1Nlog⁡(Xi)Nσ2=∑i=1N(log⁡(Xi)−μ)2N\mu = \sum_{i=1}^N \frac{\log (X_i)}{N} \quad \sigma^2 = \sum_{i=1}^N \frac{\left(\log (X_i) - \mu\right)^2}{N}X¯=exp(μ+12σ2).X¯=exp⁡(μ+12σ2).\bar{X} = \exp(\mu + \frac{1}{2}\sigma^2). 問題は、これらの各推定値に対応する分布が体系的に異なることです。 「プレーン」平均(赤い破線で表される)は、指数形式(緑のプレーン線)から得られる値よりも一般に低い値を提供します。両方の平均はまったく同じデータセットで計算されますが。この違いは体系的であることに注意してください。 なぜこれらの分布は等しくないのですか?

1
同じスキューのヌルについて2つの独立したサンプルをテストしますか?
同じスキューを持つ母集団から派生しているという帰無仮説について、2つの独立したサンプルをテストするには、どのテストを使用できますか?スキューが固定数に等しいかどうかの古典的な1サンプルテストがあります(テストには6番目のサンプルモーメントが含まれます!)。2サンプルテストへの簡単な翻訳はありますか? データの非常に高い瞬間を含まない手法はありますか?(私は「bootstrap it」という形式の答えを期待しています:ブートストラップ技術はこの問題に適していることが知られていますか?)

1
循環統計の高次モーメントの直観
循環統計では、円上の値を持つ確率変数の期待値は、として定義され ます(wikipediaを参照)。これは、分散定義と同様に、非常に自然な定義 したがって、分散を定義するために2番目の瞬間は必要ありませんでした!ZZZSSSm1( Z)= ∫SzPZ(θ )のD θm1(Z)=∫SzPZ(θ)dθ m_1(Z)=\int_S z P^Z(\theta)\textrm{d}\theta V a r( Z)= 1 − | m1( Z)| 。Var(Z)=1−|m1(Z)|。 \mathrm{Var}(Z)=1-|m_1(Z)|. それにもかかわらず、より高いモーメントを定義します これは一見するとかなり自然に見え、線形統計の定義に非常に似ていることを認めます。しかし、それでも私は少し不快に感じ、以下を持っていますmn( Z)= ∫SznPZ(θ )D θ 。mn(Z)=∫SznPZ(θ)dθ。 m_n(Z)=\int_S z^n P^Z(\theta)\textrm{d}\theta. 質問: 1. 上記で定義されたより高いモーメントによって(直感的に)測定されるものは何ですか?分布のどの特性がモーメントによって特徴付けられますか? 2.高次モーメントの計算では、複素数の乗算を使用しますが、ランダム変数の値は単に平面内のベクトルまたは角度として考えます。この場合、複素乗算は基本的に角度の加算であることを知っていますが、それでもなお、 なぜ複素乗算は循環データにとって意味のある演算なのでしょうか?

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


1
より高いモーメントの片側チェビシェフ不等式
片側の場合のチェビシェフの不等式のより高い瞬間に類似したものはありますか? チェビシェフ-カンテリの不等式は分散に対してのみ機能するように見えますが、チェビシェフの不等式はすべての指数に対して簡単に生成できます。 誰もがより高い瞬間を使用して一方的な不平等を知っていますか?

5
同じ分布族からの2つのランダム変数が同じ期待値と分散を持つが、より高いモーメントが異なる可能性はありますか?
ロケーションスケールの家族の意味を考えていました。私の理解では、ロケーションスケールファミリーのすべてのメンバーについて、パラメーターがロケーションとbスケールである場合、Z = (X − a )/ bの分布はパラメーターに依存せず、それに属するすべてのXについて同じです。家族。XXXaaabbbZ=(X− a )/ bZ=(X−a)/bZ =(X-a)/bバツXX だから私の質問は、同じ分布ファミリーからの2つのランダムが標準化されているが、同じ分布のランダム変数にならない例を提供できますか? セイとYは、同じ分布族から来た(家族と私は例ノーマルまたは両方ガンマなどの両方の意味で...)。定義:バツXXYYY Z1= X- μσZ1=X−μσZ_1 = \dfrac{X-\mu}{\sigma} Z2= Y- μσZ2=Y−μσZ_2 = \dfrac{Y-\mu}{\sigma} 我々は両方のことを知っている及びZ 2は同じ期待と分散、持っているμ Z = 0 、σ 2 Z = 1。Z1Z1Z_1Z2Z2Z_2μZ= 0 、σ2Z= 1μZ=0,σZ2=1\mu_Z =0, \sigma^2_Z =1 しかし、彼らは異なるより高い瞬間を持つことができますか? この質問に答えようとする私の試みは、とYの分布が2つ以上のパラメーターに依存している場合、それよりも大きくなる可能性があるということです。そして、私は3つのパラメーターを持つ一般化されたt − s t u d e n tについて考えています。バツXXYYYt − …


1
最初のk(経験的)モーメントを使用して、近似PDF(つまり、密度推定)をフィットさせる方法は?
データセットの(最初の)モーメントを推定できる状況があり、それを使用して密度関数の推定を生成したいと考えています。kkk 私はすでにピアソン分布に出くわしましたが、それが最初の4つのモーメントのみに依存していることを認識しました(モーメントの可能な組み合わせにいくつかの制限があります)。 さらに、仮定を使用しない場合、有限のモーメントセットは特定の分布を「固定」するのに十分ではないことも理解しています。ただし、(ピアソンファミリーのディストリビューション以外の)より一般的なクラスのディストリビューションを希望します。他の質問を見て、私はそのような分布を見つけることができませんでした(参照:ここ、ここ、ここ、ここ、ここ、ここ、およびここ)。 モーメントの任意のセットに対して定義できるいくつかの(「単純な」)一般化された分布ファミリーはありますか?(標準の正規分布を取り、モーメントのすべてのセットで確認されるまで変換する一連の変換)kkkkkkk (他のモーメントが0であると仮定しても、あまり気にしません)k+1…∞k+1…∞k+1\ldots\infty ありがとう。 ps:私は、拡張された例を喜んでいます。Rコードの例が望ましい。

2
分布の平均についての瞬間の直感?
なぜp(x)、3番目と4番目のモーメントのような確率分布のより高いモーメントが、それぞれ歪度と尖度に対応するのかについて、誰かが直感を提供できますか? 特に、平均の3乗または4乗の偏差は、なぜ歪度と尖度の測定値に変換されるのですか?これを関数の3次または4次導関数に関連付ける方法はありますか? 尖度のこの定義を考えてみましょう: Kurtosis(X)=E[(x−μX)4]/σ4Kurtosis(X)=E[(x−μX)4]/σ4Kurtosis(X) = E[(x - \mu_{X})^4] / \sigma^4 繰り返しますが、なぜを上げると「凸凹」が生じるのか、またはが歪むのはなぜかは明らかではありません。魔法のようで神秘的です。(X - μ )3(x−μ)4(x−μ)4(x-\mu)^4(x−μ)3(x−μ)3(x-\mu)^3 編集:クイックフォローアップ。尖度のような指標の中央値ではなく、平均についてモーメントを定義することの利点は何ですか?次のような推定量のプロパティは何ですか? MedianKurtosis(X)=E[(x−x~)4]/σ4MedianKurtosis(X)=E[(x−x~)4]/σ4MedianKurtosis(X) = E[(x - \tilde{x})^4] / \sigma^4 ここで、は中央値です。これはおそらく、平均を捨てる分布の外れ値の影響をあまり受けず、おそらくピーク度のより公平な尺度になるでしょうか?x~x~\tilde{x}

1
尖度のロバストな推定?
尖度の通常の推定量であるを使用していますが、経験的分布では小さな「外れ値」でさえあることに気付きました、つまり中心から離れた小さなピークは、それを大きく影響します。より堅牢な尖度推定器はありますか?K^=μ^4σ^4K^=μ^4σ^4\hat{K}=\frac{\hat{\mu}_4}{\hat{\sigma}^4}

3
近似
概算するための最良の方法は何だ与えられた二つの整数のためのmは、nはあなたが平均知っているときμ、分散σ 2、歪度γ 1と過剰尖度γ 2離散分布のXを、そしてそれがあります明確な形状の(非ゼロ)測定からγ 1及びγ 2正規近似が適切でないと?Pr[n≤X≤m]Pr[n≤X≤m]Pr[n \leq X \leq m]m,nm,nm,nμμ\muσ2σ2\sigma^2γ1γ1\gamma_1γ2γ2\gamma_2XXXγ1γ1\gamma_1γ2γ2\gamma_2 通常、私は整数補正付きの通常の近似を使用します... Pr[(n−½)≤X≤(m+½)]=Pr[(n−½)−μσ≤Z≤(m+½)−μσ]=Φ((m+½)−μσ)−Φ((n−½)−μσ)Pr[(n−½)≤X≤(m+½)]=Pr[(n−½)−μσ≤Z≤(m+½)−μσ]=Φ((m+½)−μσ)−Φ((n−½)−μσ)Pr[(n - \text{½})\leq X \leq (m + \text{½})] = Pr[\frac{(n - \text{½})-\mu}{\sigma}\leq Z \leq \frac{(m + \text{½})-\mu}{\sigma}] = \Phi(\frac{(m + \text{½})-\mu}{\sigma}) - \Phi(\frac{(n - \text{½})-\mu}{\sigma}) ...歪度と過剰な尖度が0に近い(近い)場合、ただし、ここではそうではありません。 私は、異なる値を有する異なる離散分布に対して複数の近似を実行する必要が及びγ 2。用途があること手順確立があれば調べることに興味がある私はγ 1およびγ 2を正規近似よりも良い近似を選択するためには。γ1γ1\gamma_1γ2γ2\gamma_2γ1γ1\gamma_1γ2γ2\gamma_2

3
尖度に影響を与えずにスキューを変更する変換?
尖度に影響を与えずに確率変数のスキューを変更する変換があるかどうか私は興味があります。これは、RVのアフィン変換が平均と分散にどのように影響するかと似ていますが、スキューと尖度には影響しません(スキューと尖度がスケールの変化に対して不変であると定義されているためです)。これは既知の問題ですか?

1
2つの共分散行列の結合
分布の共分散を並列で計算していて、分布結果を特異ガウス分布に結合する必要があります。2つを組み合わせるにはどうすればよいですか? 2つが同様に分布し、サイズが設定されている場合、2つの間を線形補間することはほとんど機能します。 ウィキペディアでは、組み合わせのための下部にフォーラムラを提供していますが、正しくないようです。2つの同一分布の分布は同じ共分散を持つ必要がありますが、ページの下部にある式は共分散を2倍にします。 2つの行列を組み合わせる方法はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.