タグ付けされた質問 「skewness」

歪度は、変数の分布の非対称性の程度を測定(または参照)します。

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 


6
歪度がゼロであるが対称ではない単峰性分布の例を誰かが提供できますか?
2010年5月、WikipediaユーザーのMcorazaoは、歪度の記事に「ゼロの値は、値が平均の両側に比較的均等に分布していることを示します。通常、対称分布を意味するわけではありません」ただし、wikiページには、この規則に違反する分布の実際の例はありません。「歪みがゼロの非対称分布の例」をグーグルで検索しても、少なくとも最初の20の結果では実際の例はありません。 定義を用いてスキューによって算出される、およびR式E[ (X- μσ)3]E⁡[(X−μσ)3] \operatorname{E}\Big[\big(\tfrac{X-\mu}{\sigma}\big)^{\!3}\, \Big] sum((x-mean(x))^3)/(length(x) * sd(x)^3) 歪度を低くするために、小さな任意の分布を作成できます。たとえば、分布 x = c(1, 3.122, 5, 4, 1.1) スキュー生み出す。しかし、これは小さなサンプルであり、さらに対称性からの逸脱は大きくありません。それで、非常に非対称であるが、歪度がほぼゼロである1つのピークを持つより大きな分布を構築することは可能ですか?- 5.64947 ⋅ 10− 5−5.64947⋅10−5-5.64947\cdot10^{-5}

4
mean = modeは対称分布を意味しますか?
mean = medianの場合にこの質問が行われたことは知っていますが、mean = modeに関連するものは見つかりませんでした。 モードが平均に等しい場合、これは常に対称分布であると結論付けることができますか?この方法の中央値も知る必要がありますか?

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

3
歪んだ分布での外れ値の検出
データポイントとしての上位値または下位四分位数からの1.5 * IQRを超える外れ値の古典的な定義では、非歪分布の仮定があります。歪んだ分布(指数関数、ポアソン、幾何学など)の場合、元の関数の変換を分析して外れ値を検出するのに最適な方法ですか? たとえば、指数分布で緩やかに管理されている分布は、対数関数で変換できます-どの時点で、同じIQR定義に基づいて外れ値を探すことは許容できますか?

2
テストセットとトレーニングセットの分布の違いを処理する方法
機械学習またはパラメーター推定の基本的な前提の1つは、目に見えないデータがトレーニングセットと同じ分布に由来するということです。ただし、実際のケースによっては、テストセットの分布はトレーニングセットとほとんど異なります。 製品の説明を約17,000クラスに分類しようとする大規模な複数分類問題について考えてみましょう。トレーニングセットには、非常に歪んだクラス事前分布があります。そのため、一部のクラスには多くのトレーニング例があり、一部のクラスにはほんのわずかしかありません。クライアントから未知のクラスラベルを持つテストセットが与えられたとします。トレーニングセットでトレーニングされた分類器を使用して、テストセットの各製品を17,000クラスのいずれかに分類しようとします。テストセットのクラス分布は歪んでいる可能性がありますが、異なるビジネス分野に関連している可能性があるため、トレーニングセットのそれとはおそらく非常に異なっています。2つのクラス分布が大きく異なる場合、トレーニングされた分類器はテストセットでうまく機能しない可能性があります。これは、Naive Bayes分類器で特に明らかです。 確率的分類器のトレーニングセットと特定のテストセットの違いを処理する原則的な方法はありますか?「トランスダクティブSVM」はSVMでも同様のことを行うと聞きました。特定のテストセットで最高のパフォーマンスを発揮する分類器を学習するための同様の手法はありますか?次に、この実用的なシナリオで許可されているように、異なるテストセットに対して分類器を再トレーニングできます。

4
データの分布が対称かどうかを確認するにはどうすればよいですか?
中央値と平均値がほぼ等しい場合、対称分布が存在することを意味しますが、この特定のケースでは確信がありません。平均値と中央値は非常に近い(差額は0.487m / gallのみ)ため、対称分布があると言えますが、箱ひげ図を見ると、わずかに正に歪んでいるように見えます(中央値はQ3よりもQ1に近いことが確認されています)値によって)。 (このソフトウェアについて特別なアドバイスがあれば、Minitabを使用しています。)

12
負の歪度を持つ分布の実際の例
「一般的な分布の実際の例」に触発されて、負のゆがみを示すために人々がどのような教育例を使用するのだろうか?教育で使用される対称分布または正規分布の「標準的な」例は数多くあります-身長や体重のようなものがより密接な生物学的精査に耐えられない場合でも!血圧は正常に近い可能性があります。私は天文学的な測定誤差が好きです-歴史的に興味深いことですが、それらは直感的にはある方向に他の方向にある可能性は低く、小さな誤差は大きな方向にある可能性が高くなります。 正の歪度の一般的な教育学的例には、人々の収入が含まれます。販売のための中古車の走行距離; 心理学実験における反応時間; 住宅価格; 保険顧客による事故請求の数; 家族の子供の数。それらの物理的妥当性は、しばしば下限値(通常はゼロ)に制限されているために生じます。 ネガティブスキューについては、明確な上限がある現実の分布が少ないため、若い視聴者(高校生)が直感的に把握できる明確で鮮明な例を与えることは困難です。学校で教えられた悪い味の例は「指の数」でした。ほとんどの人は10人ですが、事故で1人以上を失う人もいます。結果は「99%の人が平均以上の指を持っている」ということでした!10は厳密な上限ではないため、多指症は問題を複雑にします。指の紛失と余分な指の両方はまれなイベントであるため、優勢に影響する学生には不明確かもしれません。 通常、高い二項分布を使用します。しかし、学生はしばしば、「バッチ内の不良コンポーネントの数が正に歪んでいる」という補完的な事実よりも「バッチ内の満足できるコンポーネントの数が負に歪んでいる」と感じる。(教科書は産業をテーマにしています。12個入りの箱に入った割れた卵と無傷の卵を好みます。)生徒は「成功」はめったにないと思うかもしれません。ppp 別のオプションは、が正に歪んでいる場合、が負に歪んでいることを指摘することですが、これを実用的なコンテキスト(「負の住宅価格が負に歪んでいる」)に置くことは、教育的失敗の運命にあるように思われることです。データ変換の効果を教えることには利点がありますが、最初に具体的な例を挙げるのが賢明なようです。ネガティブスキューが非常に明確であり、学生の生活経験が分布の形状を認識できるようにする、人工的ではないものを好むでしょう。− XバツバツX− X−バツ-X

4
正常なrvの尖度と歪度を増加させる変換
私は、観測値が正規分布しているという事実に依存するアルゴリズムに取り組んでおり、この仮定に対するアルゴリズムの堅牢性を経験的にテストしたいと思います。YYY これを行うために、の正規性を徐々に破壊する一連の変換を探していました。たとえば、が正常である場合、歪度および尖度になり、両方を漸進的に増加させる変換シーケンスを見つけると便利です。Y Y = 0 = 3T1()、… 、Tn()T1(),…,Tn()T_1(), \dots, T_n()YYYYYY= 0=0= 0= 3=3= 3 私のアイデアは、通常およそ分散されたデータをシミュレートし、そのアルゴリズムをテストすることでした。変換された各データセットT 1(Y )、… 、T n(y )のテストアルゴリズムよりも、出力がどの程度変化しているかを確認します。YYYT1(Y),…,Tn(y)T1(Y),…,Tn(y)T_1(Y), \dots, T_n(y) シミュレートされたの分布を制御していないことに注意してください。そのため、正規化を一般化する分布(歪んだ一般化誤差分布など)を使用してシミュレーションできません。YYY

3
ボックスプロットから歪度を評価する方法は?
このデータから作成された箱ひげ図を見て歪度を決定する方法: 340、300、520、340、320、290、260、330 ある本は、「下位の四分位数が上位の四分位数よりも中央値から遠い場合、分布は負に歪んでいます」と述べています。他のいくつかの情報源は、ほぼ同じことを言った。 Rを使用して箱ひげ図を作成しました。次のようなものです。 下の四分位数は上の四分位数よりも中央値から遠いので、それは負に歪んでいると思います。しかし、問題は、歪度を決定するために別の方法を使用する場合です。 平均(337.5)>中央値(325) これは、データが正に歪んでいることを示します。私は何か見落としてますか?

3
非正規分布サンプルの平均の信頼区間を計算するにはどうすればよいですか?
非正規分布サンプルの平均の信頼区間を計算するにはどうすればよいですか? ここではブートストラップ方式が一般的に使用されていることを理解していますが、他のオプションも受け入れています。ノンパラメトリックオプションを探していますが、パラメトリックソリューションが有効であることを誰かが私に納得させることができれば、それは問題ありません。サンプルサイズは400を超えています。 誰かがRでサンプルを提供できれば、とてもありがたいです。


3
非常に歪んだデータのt検定
私は、医療費データの数万件の観測データセットを持っています。このデータは非常に右に偏っており、多くのゼロがあります。2組の人々(この場合、それぞれ3000を超えるobsを持つ2つの年齢層)の場合、次のようになります。 Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4536.0 302.6 395300.0 Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4964.0 423.8 721700.0 このデータに対してウェルチのt検定を実行すると、結果が返されます。 Welch Two Sample t-test data: x and y t = -0.4777, df = 3366.488, p-value = 0.6329 alternative hypothesis: true …


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.