タグ付けされた質問 「skewness」

歪度は、変数の分布の非対称性の程度を測定(または参照)します。

1
歪んだ正規分布のパラメーター推定
スキュー法線の公式パラメーター推定値は何ですか?可能であれば、MLEまたはMomによる派生もすばらしいでしょう。ありがとう 編集。 プロットが少し左に傾いていることで視覚的に確認できる一連のデータがあります。平均と分散を推定してから、適合度検定を実行したいのです(これがパラメーター推定が必要な理由です)。私はスキュー(アルファ)を​​推測する必要があると思っているのは正しいですか? 私は自分の理解のためにMLEの派生を望んでいます-私はMLEに慣れているので、MoMよりもMLEを好みます。 2つ以上の一般的なスキュー正常があるかどうか確信がありませんでした。可能であれば、スキュー指数指数パラメータの推定も役立ちます。

2
ロジスティック回帰の連続変数を変換する
大規模な調査データ、バイナリ結果変数、およびバイナリと連続を含む多くの説明変数があります。私はモデルセット(GLMと混合GLMの両方で実験)を構築し、情報理論的アプローチを使用して最上位モデルを選択しています。説明(連続およびカテゴリの両方)について相関関係を注意深く調べ、ピアソンまたはフィコール係数が0.3未満の同じモデルの説明のみを使用しています。すべての連続変数に、最上位モデルと競合するための公正な機会を与えたいと思います。私の経験では、必要なものをスキューに基づいて変換すると、それらが参加するモデルが改善されます(AICが低下します)。 私の最初の質問は次のとおりです。変換はロジットの線形性を改善するため、この改善はありますか?または、スキューを修正することで、データをより対称にすることで、説明変数のバランスがどういうわけか改善されますか?私はこれの背後にある数学的理由を理解したいと思いますが、今のところ、誰かがこれを簡単な言葉で説明できればそれは素晴らしいでしょう。私が使用できる参照があれば、私はそれを本当に感謝します。 多くのインターネットサイトでは、正規性はバイナリロジスティック回帰の仮定ではないため、変数を変換しないでください。しかし、変数を変換しないことにより、他のものと比較して不利な点を残し、トップモデルが何であるかに影響を与え、推論を変更する可能性があると感じています(まあ、通常はそうではありませんが、一部のデータセットではそうです)。いくつかの変数は、対数変換された場合、2乗された場合(スキューの方向が異なる場合)、および一部が変換されない場合にパフォーマンスが向上します。 ロジスティック回帰の説明変数を変換するときに注意すべき点をガイドラインで教えてもらえますか。それができない場合は、なぜそうしないのですか?

3
正規分布の歪度と尖度の値の範囲
データが正規分布していると見なされる歪度と尖度の値の範囲はどのくらいか知りたい。 私は多くの議論を読みました、そしてほとんど私は混同した答えを得ました。いくつかは歪度ため言うと(- 2 、2 )正規分布しているの許容範囲である尖度ため。いくつかは述べています(- 1.96 、1.96 )歪度については許容範囲です。私はここで詳細な議論を見つけました:この問題に関するデータの正規分布の歪度と尖度の許容範囲はどのくらいですか?しかし、私は決定的な発言を見つけることができませんでした。(- 1 、1 )(−1,1)(-1,1)(- 2 、2 )(−2,2)(-2,2)(- 1.96 、1.96 )(−1.96,1.96)(-1.96,1.96) そのような間隔を決定するための根拠は何ですか?これは主観的な選択ですか?または、これらの間隔の背後にある数学的説明はありますか?


3
高度に歪んだ変数を要約するための平均
私は高度に歪んだデータに取り組んでいるので、中心的な傾向を要約するために平均の代わりに中央値を使用しています。分散の測定値が欲しい中心傾向を要約するために、平均標準偏差±±\pmまたは中央値四分位数±±\pmを報告する人がよく見られますが、中央値中央値絶対分散(MAD)±±\pm を報告しても問題ありませんか?このアプローチには潜在的な問題がありますか? このアプローチは、特に数値でいっぱいの大きなテーブルでは、下位および上位の四分位数をレポートするよりもコンパクトで直感的だと思います。

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
多くの左にゆがんだ分布の視覚化
表示したい一連の左スキュー/ヘビーテール分布があります。(AS標識三つの要因を横切る42点の分布がありA、BそしてC以下が)。また、変動は因子全体で縮小していBます。 私が抱えている問題は、結果のスケール(比率または倍率変化)全体で分布を区別するのが難しいことです。 データをログに記録すると、左の歪度が過度に強調され、より多くのサンプルが裾に移動します(異常値ポイントのマッシュが作成されます)。 これらのデータを視覚化するための他の手法についての提案はありますか?

2
巨大な尖度?
株価指数の日次リターンの説明統計を行っています。即ち、もし及びP 2は、次いで、それぞれ、1日目と2日目に指数のレベルであるL O のG E(P 2P1P1P_1P2P2P_2は、私が使用しているリターンです(文献では完全に標準です)。loge(P2P1)loge(P2P1)log_e (\frac{P_2}{P_1}) したがって、これらのいくつかでは尖度が巨大です。私は約15年分の日次データを見ている(つまり、約∗ 15時系列観測)260∗15260∗15260 * 15 means sds mins maxs skews kurts ARGENTINA -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532 AUSTRIA 0.00003 0.00640 -0.03845 0.04621 0.19614 2.36104 CZECH.REPUBLIC 0.00008 0.00800 -0.08289 0.05236 -0.16920 5.73205 FINLAND 0.00005 0.00639 -0.03845 0.04622 0.19038 2.37008 HUNGARY -0.00019 0.00880 -0.06301 0.05208 …

3
歪度と尖度に相当する正規化されたものはありますか?
データと同じ単位を持つ歪度に正規化された同等のものは何ですか?同様に、尖度と正規化された同等物は何でしょうか?理想的には、これらの関数はデータに対して線形である必要があります。つまり、すべての観測値に係数を掛けるnと、結果として得られる正規化された歪度と尖度に同じ係数が掛けられnます。そのような正規化された同等物を持つ利点は、それらを標準的な箱ひげ図の上に重ねることができることです。

2
左スキューと対称分布の観察
これを説明するのはかなり難しいですが、問題を理解できるようにしようと思います。したがって、最初に、これまで非常に単純な線形回帰を行ったことを知っておく必要があります。係数を推定する前に、分布を観察しました。左に曲がって重いです。モデルを推定した後、QQ-Plotに左スキューの残差が確かにあるのを確認できましたが、絶対に確認できませんでした。このソリューションの理由は何でしょうか?間違いはどこですか?または、分布はエラー項の分布とは関係ありませんか?yyyyyy

1
任意の対称分布の構成に関して、常に正しい歪んだ分布を書き換えることはできますか?
2回微分可能な対称分布考えます。次に、次の意味で歪んだ2番目の2 階微分可能分布F Z rigthを考えます。FバツFX\mathcal{F}_XFZFZ\mathcal{F}_Z (1 )Fバツ⪯cFZ。(1)FX⪯cFZ.(1)\quad\mathcal{F}_X\preceq_c\mathcal{F}_Z. ここその結果バンZwet [0]の凸順序である(1 )に相当します。⪯c⪯c\preceq_c(1 )(1)(1) (2)F−1ZFX(x) is convex ∀x∈R.(2)FZ−1FX(x) is convex ∀x∈R.(2)\quad F^{-1}_ZF_X(x)\text{ is convex $\forall x\in\mathbb{R}.$} ここで、3番目の2 微分可能な分布F Yについて考えます。FYFY\mathcal{F}_Y (3)FY⪯cFZ.(3)FY⪯cFZ.(3)\quad\mathcal{F}_Y\preceq_c\mathcal{F}_Z. 私の質問は 、F Xと F Yの構成の観点から、F Z(上記で定義された3つすべて)を書き換えるために、分布と対称分布F Xを常に見つけられるかどうかです。FYFY\mathcal{F}_YFXFX\mathcal{F}_XFZFZ\mathcal{F}_ZFXFX\mathcal{F}_XFYFY\mathcal{F}_Y FZ(z)=FYF−1XFY(z)FZ(z)=FYFX−1FY(z)F_Z(z)=F_YF_X^{-1}F_Y(z) か否か? 編集: たとえば、が形状パラメーター3.602349(対称になるように)のワイブル分布であり、F Zが形状パラメーター3/2(右に歪んでいるため)のワイブル分布である場合、次のようになります。FXFX\mathcal{F}_XFZFZ\mathcal{F}_Z maxz|FZ(z)−FYF−1XFY(z)|≈0maxz|FZ(z)−FYFX−1FY(z)|≈0\max_z|F_Z(z)-F_YF_X^{-1}F_Y(z)|\approx 0 FYFY\mathcal{F}_Y F−X=FX⪯cFY⪯cFZ,F−X=FX⪯cFY⪯cFZ,\mathcal{F}_{-X}=\mathcal{F}_X\preceq_c\mathcal{F}_Y\preceq_c\mathcal{F}_Z, [0] van Zwet、WR(1979)。平均、中央値、モードII(1979)。Statistica Neerlandica。33巻、1号、1〜5ページ。

1
スキューを使いこなす…なぜ多くのスキュー関数があるのですか?
このコミュニティからの4種類のスキューについて、もっと洞察を得たいと思っています。 私が参照するタイプは、http://www.inside-r.org/packages/cran/e1071/docs/skewnessヘルプページに記載されています。 古い方法はヘルプページには記載されていませんが、それでも含めています。 require(moments) require(e1071) x=rnorm(100) n=length(x) hist(x) ###############type=1 e1071::skewness(x,type=1) sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2) g_1(x) ##from e1071::skewness help moments::skewness(x) ##from e1071::skewness help (sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page ###############type=2 …
9 skewness 

2
PCAまたは因子分析における歪んだ変数
22の変数に基づいてSPSSの主成分分析(因子分析)を実行したいと考えています。ただし、一部の変数は非常に歪んでいます(SPSSの範囲から計算された歪度は2〜80です)。 だからここに私の質問があります: そのように歪んだ変数を保持する必要がありますか、それとも主成分分析で変数を変換できますか?はいの場合、どのように因子得点を解釈しますか? どのタイプの変換を行う必要がありますか?log10またはln? 元々、私のKMO(Kaiser–Meyer–Olkin)は0.413です。多くの文献では、最低でも0.5を推奨しています。それでも因子分析を行うことはできますか、またはKMOを0.5に上げるために変数を削除する必要がありますか?

2
主軸因数分解抽出法を使用する場合、探索的因子分析に非正規データのデータ変換が必要ですか?
私は霊性を構成する4つの要素を測定するためのアンケートを作成しています。次の質問をしたいと思います。 主軸因数分解抽出法を使用する場合、探索的因子分析に非正規データのデータ変換が必要ですか? 昨日、データのスクリーニングを終了しました。20問中3問が正に歪んでいるのに対し、20問中1問が負に歪んでいることがわかりました(質問6 = 4.88、質問9 = 7.22、質問12 = 11.11、質問16 = -6.26)。また、質問の1つ(20問中)はレプトクルト(質問12 = 12.21)であることがわかりました。 主軸因数分解抽出法を選択したのは、「最重要度が通常ではないデータ」で使用され、最尤法が通常のデータで使用されることを読んだためです。 データが「非常に」非正常であるかどうかはどのようにしてわかりますか? 私のデータが「ひどく正常でない」場合、これはデータをそのままにして(変換せずに)主軸因数分解抽出法を使用して分析できることを意味しますか?または、EFAに進む前にデータを変換する必要がありますか? データを変換する必要がある場合、ポジティブスキュー、ネガティブスキュー、およびレプトクールアイテムにどの変換を使用しますか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.