タグ付けされた質問 「skewness」

歪度は、変数の分布の非対称性の程度を測定(または参照)します。

7
歪んだデータがモデリングに好ましくないのはなぜですか?
多くの場合、人々が変数変換(予測変数と応答変数の両方)について話すとき、データの歪度を処理する方法(ログ変換、ボックスおよびcox変換など)について議論します。私が理解できないのは、歪度を除去することがこのような一般的なベストプラクティスと考えられる理由です。歪度は、ツリーベースのモデル、線形モデル、非線形モデルなどのさまざまな種類のモデルのパフォーマンスにどのように影響しますか?どのようなモデルが歪度の影響をより強く受けますか?その理由は?

2
ガンマランダム変数の対数の歪度
考えてみましょガンマ確率変数 バツ〜Γ (α 、θ )バツ〜Γ(α、θ)X\sim\Gamma(\alpha, \theta)。平均、分散、歪度にはきちんとした式があります。 E [X]ヴァール[ X]歪度[ X]= α θ= α θ2= 1 / α ⋅ E [ X]2= 2 / α−−√E[バツ]=αθヴァール⁡[バツ]=αθ2=1/α⋅E[バツ]2歪度⁡[バツ]=2/α\begin{align} \mathbb E[X]&=\alpha\theta\\ \operatorname{Var}[X]&=\alpha\theta^2=1/\alpha\cdot\mathbb E[X]^2\\ \operatorname{Skewness}[X]&=2/\sqrt{\alpha} \end{align} ここで、対数変換されたランダム変数考えますY= ログ(X)Y=ログ⁡(バツ)Y=\log(X)。ウィキペディアには、平均と分散の公式があります。 E [Y]ヴァール[ Y]= ψ (α )+ log(θ )= ψ1(α )E[Y]=ψ(α)+ログ⁡(θ)ヴァール⁡[Y]=ψ1(α)\begin{align} \mathbb E[Y]&=\psi(\alpha)+\log(\theta)\\ \operatorname{Var}[Y]&=\psi_1(\alpha)\\ \end{align} ガンマ関数の対数の1次および2次導関数として定義されるディガンマおよびトリガンマ関数を介して。 歪度の式は何ですか? テトラガンマ関数は表示されますか? (これについて不思議に思ったのは、対数正規分布とガンマ分布の選択です。ガンマ対対数正規分布を参照してください。とりわけ、歪度特性が異なります。特に、対数正規の対数の歪度はゼロです。ガンマのログの歪度は負ですが、どの程度負ですか?..)

1
非常に歪んだデータでt検定を使用する必要がありますか?科学的証拠をお願いします?
ユーザーの参加(例:投稿数)に関する、非常に歪んだ(指数分布のように見える)データセットのサンプルがあり、サイズが異なる(ただし200以上)ので、平均を比較したいと思います。そのために、2つのサンプルの対応のないt検定を使用しています(サンプルの分散が異なる場合は、ウェルチ係数を使用したt検定)。私が聞いたように、本当に大きなサンプルの場合、サンプルが正規分布していないことは問題ではありません。 私がやったことを検討している人が、私が使用しているテストは私のデータには適さないと言った。彼らは、t検定を使用する前に私のサンプルをログ変換することを提案しました。 私は初心者なので、研究の質問に「参加指標のログ」で答えるのは本当に混乱しているように思えます。 彼らは間違っていますか?私が間違っている?それらが間違っている場合、私がそれらを引用/表示できる本または科学論文はありますか?私が間違っている場合、どのテストを使用する必要がありますか?

5
相関する非正規データを生成する方法
相関する非正規データを生成する方法を見つけることに興味があります。理想的には、共分散(または相関)行列をパラメーターとして受け取り、それに近似するデータを生成するある種の分布です。しかし、ここに問題があります。私が見つけようとしている方法には、その多変量歪度や尖度も制御できる柔軟性が必要です。 Fleishmanの方法と通常の変量のべき乗法の使用はおなじみですが、これらの拡張機能のほとんどは、ユーザーが限界歪度と尖度の特定の組み合わせのみを許可し、多変量歪度/尖度をそのまま残していると思います。私が疑問に思ったのは、相関/共分散構造とともに、多変量歪度および/または尖度を指定するのに役立つ方法があるかどうかです。 約1年前、コピュラの分布に関するセミナーを受講しましたが、教授がぶどうのコピュラを使用することで、たとえば1次元の周辺それぞれで対称的であるが、共同で歪曲されたデータを生成できることをさりげなく言及したことを覚えています-その逆。または、さらに低い次元の余白には、最大の次元を対称(または非対称)に保ちながら、ゆがみや尖度を持たせることができます。私はそのような柔軟性が存在する可能性があるというアイデアに驚いていました。私は、前述の方法を説明する何らかの記事または会議論文を見つけようとしましたが、失敗しました:(。コピュラを使用する必要はありません。うまくいくものなら何でもオープンです。 編集:私が意味することを示すために、いくつかのRコードを追加しました。これまでのところ、Mardiaの多変量歪度と尖度の定義に精通しています。私が最初に問題に近づいたとき、対称コピュラ(この場合はガウス)を歪んだ周辺(この例ではベータ)で使用すると、周辺の単変量テストが重要になりますが、マルディアの多変量スキューネス/尖度のテストは重要だと思いました重要ではありません。私はそれを試してみましたが、期待通りに出ませんでした。 library(copula) library(psych) set.seed(101) cop1 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), c("beta", "beta"),list(list(shape1=0.5, shape2=5), list(shape1=0.5, shape2=5)))} Q1 <- rmvdc(cop1, 1000) x1 <- Q1[,1] y1 <- Q1[,2] cop2 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), c("norm", "norm"),list(list(mean=0, sd=1), list(mean = 0, sd=1)))} Q2 <- rmvdc(cop2, 1000) x2 <- Q2[,1] y2 <- Q2[,2] mardia(Q1) …

4
データが歪んでいるときに平均を使用する必要がありますか?
多くの場合、導入された導入統計テキストは、平均がサンプルデータおよび/または外れ値に敏感であることを説明することにより、平均を中央値と区別します偏った母集団分布に対して、これは、データが対称的でない場合に中央値が優先されるという主張の正当化として使用されます。 例えば: 特定のデータセットの中心傾向の最適な測定値は、値の分布方法によって異なります。...データが対称でない場合、中央値が中心傾向の最適な測定値であることがよくあります。平均値は極端な観測値に敏感であるため、外れたデータ値の方向に引っ張られ、結果として過度に膨張または過度に収縮する可能性があります。」— Pagano and Gauvreau、(2000)Principles of Biostatistics 、第2版。 (P&Gは、BTW、手元にあったそれらを選び出していないそれ自体)。 著者はこうして「中心傾向」を定義します:「データのセットの最も一般的に調査された特性はその中心、または観察が集中する傾向があるポイントです。」 これは、データ/分布が対称であるときに平均を使用することだけが、中央値に等しいときにのみ平均を使用するということと同じことなので、中央値、期間のみを使用するという率直な方法として私を襲います。編集: whuberは、中心傾向の堅牢な測定値と中央値を混同していることを正しく指摘しています。したがって、導入された統計の算術平均と中央値の特定のフレーミングについて議論していることに留意することが重要です(ここで、モードは別として、中心傾向の他の尺度は動機付けられていません)。 平均値の効用を中央値の挙動からどれだけ逸脱するかで判断するのではなく、これらを中心性の2つの異なる尺度として単純に理解すべきではないでしょうか?言い換えれば、歪度に敏感であることは平均の特徴です。同様に、「中央値は歪度にほと​​んど影響されないため、中央値は良くありません。したがって、中央値は平均と等しい場合にのみ使用してください」と有効に主張できます。 (モードは、この質問に関与していないのが非常に賢明です。)

3
非常に歪んだ分布の変換
分布が非常に高度に正に歪んでいる変数があると仮定します。そのため、正規分布の歪度の範囲内にログを入れるにはログを取るだけでは十分ではありません。この時点で私のオプションは何ですか?変数を正規分布に変換するにはどうすればよいですか?


11
正規分布ですが、非常に歪んだ分布はガウスと見なされますか?
この質問があります:YouTubeで1日あたりに費やされる時間の分布はどのように見えると思いますか? 私の答えは、おそらく正規分布であり、非常に歪んでいるということです。一部のユーザーはパワーユーザーを圧倒しているため、ほとんどのユーザーが平均的な時間を費やしてから右の長いテールを使用するモードが1つあると思います。 それは公平な答えですか?その分布についてより良い言葉はありますか?

2
ANOVAの正規性の仮定からの逸脱:尖度または歪度はより重要ですか?
Kutnerらによる線形統計モデルの適用。ANOVAモデルの正規性の仮定から、次に関する逸脱を述べている:誤差分布の尖度は、(どちらか多かれ少なかれ、正規分布よりもピークに達した)推論への影響の点では分布の歪度よりも重要です。 私はこの声明に少し戸惑っていて、本やオンラインで関連情報を見つけることができませんでした。裾が重いQQプロットは線形回帰モデルにとって正規性の仮定が「十分」であることを示すのに対し、歪んだQQプロットはより重要である(つまり、変換が適切である)こともわかったため、混乱しています。 同じ推論がANOVAにも当てはまり、それらの単語の選択(推論への影響の観点からより重要)が不適切に選択されただけであることは正しいですか?つまり、歪んだ分布はより深刻な結果をもたらすため、避ける必要がありますが、少量の尖度は許容できる場合があります。 編集:rolando2によって扱われるように、すべての場合において一方が他方よりも重要であると述べることは困難ですが、私は単に一般的な洞察を探しています。私の主な問題は、単純な線形回帰では、F検定がこれに対して非常にロバストであるため、より重いテール(尖度?)を持つQQプロットはOKであることを教えられたことです。一方、歪んだQQプロット(放物線形状)は通常、大きな懸念事項です。これは、ANOVAモデルを回帰モデルに変換でき、同じ仮定を持つ必要があるにもかかわらず、私の教科書がANOVAに提供するガイドラインに直接反するようです。 私は何かを見落としているか、または誤った仮定を持っていると確信していますが、それが何であるかを理解することはできません。


2
一部の時点で応答が大幅に歪んでおり、一部の時点で反復測定研究が行われていない場合はどうすればよいですか?
通常、縦断的デザインで連続的ではあるが歪んだ結果測定値に遭遇すると(たとえば、被験者間効果が1つ)、一般的なアプローチは結果を正常性に変換することです。切り捨てられた観測値など、状況が極端な場合は、空想を得てTobit成長曲線モデルなどを使用する可能性があります。 しかし、特定の時点で通常分布し、その後他の時点で大きく歪んだ結果を見ると、私は途方に暮れています。変換は、あるリークを埋めるが、別のリークを引き起こす可能性があります。そのような場合、何を提案できますか?私が知らない混合効果モデルの「ノンパラメトリック」バージョンはありますか? 注:適用例は、一連の教育的介入の前後の知識テストのスコアです。スコアは正常に始まりますが、その後、スケールの上限でクラスター化します。


2
分布の平均についての瞬間の直感?
なぜp(x)、3番目と4番目のモーメントのような確率分布のより高いモーメントが、それぞれ歪度と尖度に対応するのかについて、誰かが直感を提供できますか? 特に、平均の3乗または4乗の偏差は、なぜ歪度と尖度の測定値に変換されるのですか?これを関数の3次または4次導関数に関連付ける方法はありますか? 尖度のこの定義を考えてみましょう: Kurtosis(X)=E[(x−μX)4]/σ4Kurtosis(X)=E[(x−μX)4]/σ4Kurtosis(X) = E[(x - \mu_{X})^4] / \sigma^4 繰り返しますが、なぜを上げると「凸凹」が生じるのか、またはが歪むのはなぜかは明らかではありません。魔法のようで神秘的です。(X - μ )3(x−μ)4(x−μ)4(x-\mu)^4(x−μ)3(x−μ)3(x-\mu)^3 編集:クイックフォローアップ。尖度のような指標の中央値ではなく、平均についてモーメントを定義することの利点は何ですか?次のような推定量のプロパティは何ですか? MedianKurtosis(X)=E[(x−x~)4]/σ4MedianKurtosis(X)=E[(x−x~)4]/σ4MedianKurtosis(X) = E[(x - \tilde{x})^4] / \sigma^4 ここで、は中央値です。これはおそらく、平均を捨てる分布の外れ値の影響をあまり受けず、おそらくピーク度のより公平な尺度になるでしょうか?x~x~\tilde{x}

5
スキュー正常データの仮説検定はできますか?
もともとは通常配布されていると思っていたデータのコレクションがあります。次に、実際にそれを見て、そうではないことに気づきました。ほとんどの場合、データが歪んでいるためです。また、shapiro-wilksテストも行いました。 それでも統計的手法を使用して分析したいので、スキュー正規性の仮説検定を行いたいと思います。 したがって、スキューの正常性をテストする方法があるかどうか、また可能であれば、テストを行うためのライブラリがあるかどうかを知りたいのです。

4
病院ベースのRCTでの滞在期間データの分析に最適な方法は?
RCTからの入院期間(LOS)データを分析する最適な方法についてコンセンサスがあるかどうか知りたいです。これは通常、非常に右に歪んだ分布であり、ほとんどの患者は数日から1週間以内に退院しますが、残りの患者は非常に予測できない(時にはかなり長い)滞在をしていて、分布の右端を形成します。 分析のオプションは次のとおりです。 t検定(存在しない可能性が高い正常性を想定) マンホイットニーUテスト ログランク検定 グループ割り当てに関する条件付きCox比例ハザードモデル これらの方法のどれかが明らかに高い力を持っていますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.