タグ付けされた質問 「kurtosis」

分布またはデータセットの正規化された4次モーメント。

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
正常なrvの尖度と歪度を増加させる変換
私は、観測値が正規分布しているという事実に依存するアルゴリズムに取り組んでおり、この仮定に対するアルゴリズムの堅牢性を経験的にテストしたいと思います。YYY これを行うために、の正規性を徐々に破壊する一連の変換を探していました。たとえば、が正常である場合、歪度および尖度になり、両方を漸進的に増加させる変換シーケンスを見つけると便利です。Y Y = 0 = 3T1()、… 、Tn()T1(),…,Tn()T_1(), \dots, T_n()YYYYYY= 0=0= 0= 3=3= 3 私のアイデアは、通常およそ分散されたデータをシミュレートし、そのアルゴリズムをテストすることでした。変換された各データセットT 1(Y )、… 、T n(y )のテストアルゴリズムよりも、出力がどの程度変化しているかを確認します。YYYT1(Y),…,Tn(y)T1(Y),…,Tn(y)T_1(Y), \dots, T_n(y) シミュレートされたの分布を制御していないことに注意してください。そのため、正規化を一般化する分布(歪んだ一般化誤差分布など)を使用してシミュレーションできません。YYY


2
正規分布の尖度が0ではなく3である理由
正規分布の尖度が3であるというステートメントの意味は何ですか。つまり、水平線では、3の値がピーク確率に対応することを意味します。つまり、3はシステムのモードです。 正常な曲線を見ると、ピークは中心、つまり0で発生しているように見えます。

5
応用統計コースで尖度を教えるべきですか?もしそうなら、どのように?
少なくとも直観的には、中心傾向、広がり、歪度はすべて比較的適切に定義できます。これらのものの標準的な数学的尺度も、直感的な概念に比較的よく対応しています。しかし、尖度は異なるようです。それは非常に紛らわしく、分布形状についての直観ともうまく一致しません。 適用された設定での尖度の典型的な説明は、Microsoft Excelを使用したビジネスおよび管理の応用統計 からの次の抜粋です。[ 1 ][1]^{[1]} 尖度とは、分布がどの程度ピークに達するか、逆に分布がどれだけ平坦になるかを指します。正規分布から予想されるものよりも多くのデータ値が裾にある場合、尖度は正です。逆に、正規分布で予想されるよりもテールのデータ値が少ない場合、尖度は負になります。Excelは、少なくとも4つのデータ値がない限り、この統計を計算できません。 「尖度」と「過剰尖度」の混同は別として(この本のように、他の著者が後者と呼ぶものを指すために前者の単語を使用するのが一般的です)、「ピークネス」または「フラットネス」に関する解釈その後、テールにあるデータ項目の数への注意の切り替えによって混乱します。「ピーク」と「テール」の両方を考慮する必要があります—カプランスキー[ 2 ][2]^{[2]}1945年に、当時の多くの教科書では、尖度は、テールを考慮せずに、分布のピークが正規分布のピークと比較してどれだけ高いかについて誤っていると述べていました。しかし、ピークとテールの両方の形状を明確に考慮する必要があるため、直感を把握するのが難しくなります。上記の抽出物は、これらの概念が同じであるかのようにテールのピークからヘビーに分離することでスキップします。 さらに、この古典的な尖度の「ピークとテール」の説明は、対称分布と単峰分布でのみうまく機能します(実際、そのテキストに示されている例はすべて対称です)。それでも、尖度を「ピーク」、「尾」、または「肩」のいずれで表現するかにかかわらず、尖度を解釈する「正しい」一般的な方法は、数十年間議論されてきました。[ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ][2][3][4][5][6]^{[2][3][4][5][6]} より厳密なアプローチが取られたときに矛盾や反例にぶつからない適用された設定で尖度を教える直感的な方法はありますか?尖度は、数学統計クラスとは対照的に、これらの種類の応用データ分析コースのコンテキストではまったく有用な概念ですらありますか?分布の「ピークネス」が直感的に役立つ概念である場合、代わりにLモーメントを使用してそれを教える必要がありますか?[ 7 ][7]^{[7]} [ 1 ][1][1] Herkenhoff、L.およびFogli、J.(2013)。Microsoft Excelを使用したビジネスおよび管理に適用される統計。ニューヨーク、NY:スプリンガー。 [ 2 ][2][2]カプランスキー、I。(1945)。「尖度に関する一般的なエラー」。 Journal of the American Statistics Association、40(230):259。 [ 3 ][3][3]ダーリントン、リチャードB(1970)。「尖度は本当に「ピーク」ですか?」アメリカ統計 24(2):19–22 [ 4 ][4][4] Moors、JJA。(1986)「尖度の意味:ダーリントンが再検討された」。アメリカの統計学者 …

2
指数加重移動歪度/尖度
指数加重移動平均と標準プロセスの偏差を計算するためのよく知られたオンライン式がある(xn)n=0,1,2,…(xn)n=0,1,2,…(x_n)_{n=0,1,2,\dots}。平均して、 μn=(1−α)μn−1+αxnμn=(1−α)μn−1+αxn\mu_n = (1-\alpha) \mu_{n-1} + \alpha x_n 分散について σ2n=(1−α)σ2n−1+α(xn−μn−1)(xn−μn)σn2=(1−α)σn−12+α(xn−μn−1)(xn−μn)\sigma_n^2 = (1-\alpha) \sigma_{n-1}^2 + \alpha(x_n - \mu_{n-1})(x_n - \mu_n) ここから標準偏差を計算できます。 指数加重された第3および第4中心モーメントのオンライン計算のための同様の公式はありますか?私の直感は、彼らが形をとるべきだということです M3,n=(1−α)M3,n−1+αf(xn,μn,μn−1,Sn,Sn−1)M3,n=(1−α)M3,n−1+αf(xn,μn,μn−1,Sn,Sn−1)M_{3,n} = (1-\alpha) M_{3,n-1} + \alpha f(x_n,\mu_n,\mu_{n-1},S_n,S_{n-1}) そして M4,n=(1−α)M4,n−1+αf(xn,μn,μn−1,Sn,Sn−1,M3,n,M3,n−1)M4,n=(1−α)M4,n−1+αf(xn,μn,μn−1,Sn,Sn−1,M3,n,M3,n−1)M_{4,n} = (1-\alpha) M_{4,n-1} + \alpha f(x_n,\mu_n,\mu_{n-1},S_n,S_{n-1},M_{3,n},M_{3,n-1}) あなたは歪度計算することができたからおよび尖度K N = M 4 、N / σ 4 Nが、私は、機能のための閉形式の単純なを見つけることができるされていませんでしたFとG。γn=M3,n/σ3nγn=M3,n/σn3\gamma_n = M_{3,n} / \sigma_n^3kn=M4,n/σ4nkn=M4,n/σn4k_n …

1
lmerモデルに使用する多重比較方法:lsmeansまたはglht?
1つの固定効果(条件)と2つのランダム効果(被験者内のデザインとペアによる参加者)を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました:exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 次に、固定効果(条件)のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。 私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

4
2つのサンプル分布の裾の比較
ほぼゼロを中心とした2つのデータセットがありますが、テールが異なると思われます。分布を正規分布と比較するいくつかのテストを知っていますが、2つの分布を直接比較したいと思います。 2つの分布の裾の太さを比較する簡単なテストはありますか? ありがとう fRed

3
仮説検定で尖度の高い尖度が問題になるのはなぜですか?
残差の高正尖度は、正確な仮説検定と信頼区間(したがって統計的推論の問題)にとって問題になる可能性があると聞きました(テキストへのリンクを提供することはできません)。これは本当ですか、もしそうなら、なぜですか?残差の高い正の尖度は、残差の大部分が残差平均0に近いことを示していないので、残差が少ないことがわかりますか (答えがある場合は、数学的にあまり傾いていないので、あまり詳しくない数学で答えてみてください)。


2
ANOVAの正規性の仮定からの逸脱:尖度または歪度はより重要ですか?
Kutnerらによる線形統計モデルの適用。ANOVAモデルの正規性の仮定から、次に関する逸脱を述べている:誤差分布の尖度は、(どちらか多かれ少なかれ、正規分布よりもピークに達した)推論への影響の点では分布の歪度よりも重要です。 私はこの声明に少し戸惑っていて、本やオンラインで関連情報を見つけることができませんでした。裾が重いQQプロットは線形回帰モデルにとって正規性の仮定が「十分」であることを示すのに対し、歪んだQQプロットはより重要である(つまり、変換が適切である)こともわかったため、混乱しています。 同じ推論がANOVAにも当てはまり、それらの単語の選択(推論への影響の観点からより重要)が不適切に選択されただけであることは正しいですか?つまり、歪んだ分布はより深刻な結果をもたらすため、避ける必要がありますが、少量の尖度は許容できる場合があります。 編集:rolando2によって扱われるように、すべての場合において一方が他方よりも重要であると述べることは困難ですが、私は単に一般的な洞察を探しています。私の主な問題は、単純な線形回帰では、F検定がこれに対して非常にロバストであるため、より重いテール(尖度?)を持つQQプロットはOKであることを教えられたことです。一方、歪んだQQプロット(放物線形状)は通常、大きな懸念事項です。これは、ANOVAモデルを回帰モデルに変換でき、同じ仮定を持つ必要があるにもかかわらず、私の教科書がANOVAに提供するガイドラインに直接反するようです。 私は何かを見落としているか、または誤った仮定を持っていると確信していますが、それが何であるかを理解することはできません。

3
レプトクルティック分布を正規性に変換する方法は?
正常に変換したいレプトクルティック変数があるとします。このタスクを達成できる変換は何ですか?データを変換することが常に望ましいとは限らないことをよく知っていますが、学術的な追求として、データを正常に「ハンマー」したいとします。さらに、プロットからわかるように、すべての値は厳密に正です。 さまざまな変換を試しました(これまでに使用したものはほとんどすべて、など)、しかし、どれも特にうまく機能しません。レプトクルティック分布をより正規にするためのよく知られた変換はありますか?1バツ、X−−√、asinh (X)1バツ、バツ、アシン(バツ)\frac 1 X,\sqrt X,\text{asinh}(X) 以下の標準QQプロットの例を参照してください。

5
分布の尖度は密度関数の幾何学とどのように関連していますか?
尖度は、分布のピークと平坦度を測定することです。分布の密度関数は、存在する場合、曲線と見なすことができ、その形状に関連する幾何学的特徴(曲率、凸性など)を持ちます。 それで、分布の尖度が密度関数の幾何学的特徴に関係しているかどうか疑問に思います。それは尖度の幾何学的意味を説明できますか?

2
分布の平均についての瞬間の直感?
なぜp(x)、3番目と4番目のモーメントのような確率分布のより高いモーメントが、それぞれ歪度と尖度に対応するのかについて、誰かが直感を提供できますか? 特に、平均の3乗または4乗の偏差は、なぜ歪度と尖度の測定値に変換されるのですか?これを関数の3次または4次導関数に関連付ける方法はありますか? 尖度のこの定義を考えてみましょう: Kurtosis(X)=E[(x−μX)4]/σ4Kurtosis(X)=E[(x−μX)4]/σ4Kurtosis(X) = E[(x - \mu_{X})^4] / \sigma^4 繰り返しますが、なぜを上げると「凸凹」が生じるのか、またはが歪むのはなぜかは明らかではありません。魔法のようで神秘的です。(X - μ )3(x−μ)4(x−μ)4(x-\mu)^4(x−μ)3(x−μ)3(x-\mu)^3 編集:クイックフォローアップ。尖度のような指標の中央値ではなく、平均についてモーメントを定義することの利点は何ですか?次のような推定量のプロパティは何ですか? MedianKurtosis(X)=E[(x−x~)4]/σ4MedianKurtosis(X)=E[(x−x~)4]/σ4MedianKurtosis(X) = E[(x - \tilde{x})^4] / \sigma^4 ここで、は中央値です。これはおそらく、平均を捨てる分布の外れ値の影響をあまり受けず、おそらくピーク度のより公平な尺度になるでしょうか?x~x~\tilde{x}

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.