負の歪度を持つ分布の実際の例


20

一般的な分布の実際の例」に触発されて、負のゆがみを示すために人々がどのような教育例を使用するのだろうか?教育で使用される対称分布または正規分布の「標準的な」例は数多くあります-身長や体重のようなものがより密接な生物学的精査に耐えられない場合でも!血圧は正常に近い可能性があります。私は天文学的な測定誤差が好きです-歴史的に興味深いことですが、それらは直感的にはある方向に他の方向にある可能性は低く、小さな誤差は大きな方向にある可能性が高くなります。

正の歪度の一般的な教育学的例には、人々の収入が含まれます。販売のための中古車の走行距離; 心理学実験における反応時間; 住宅価格; 保険顧客による事故請求の数; 家族の子供の数。それらの物理的妥当性は、しばしば下限値(通常はゼロ)に制限されているために生じます。

ネガティブスキューについては、明確な上限がある現実の分布が少ないため、若い視聴者(高校生)が直感的に把握できる明確で鮮明な例を与えることは困難です。学校で教えられた悪い味の例は「指の数」でした。ほとんどの人は10人ですが、事故で1人以上を失う人もいます。結果は「99%の人が平均以上の指を持っている」ということでした!10は厳密な上限ではないため、多指症は問題を複雑にします。指の紛失と余分な指の両方はまれなイベントであるため、優勢に影響する学生には不明確かもしれません。

通常、高い二項分布を使用します。しかし、学生はしばしば、「バッチ内の不良コンポーネントの数が正に歪んでいる」という補完的な事実よりも「バッチ内の満足できるコンポーネントの数が負に歪んでいる」と感じる。(教科書は産業をテーマにしています。12個入りの箱に入った割れた卵と無傷の卵を好みます。)生徒は「成功」はめったにないと思うかもしれません。p

別のオプションは、が正に歪んでいる場合、が負に歪んでいることを指摘することですが、これを実用的なコンテキスト(「負の住宅価格が負に歪んでいる」)に置くことは、教育的失敗の運命にあるように思われることです。データ変換の効果を教えることには利点がありますが、最初に具体的な例を挙げるのが賢明なようです。ネガティブスキューが非常に明確であり、学生の生活経験が分布の形状を認識できるようにする、人工的ではないものを好むでしょう。Xバツバツ


4
分布の形状を変更せずに定数を追加するオプションがあるため、変数の否定が「教育的失敗」になることは明らかではありません。多くの歪んだ分布には、たとえば比率が関係します。補完的な比率は通常、元の比率と同じくらい自然で解釈しやすいです。住宅価格の場合でも、がエリア内の最大住宅価格であるの値は興味深い場合があり、理解するのは難しくありません。また、ログと負のべき乗変換を使用して、負のスキューを作成することを検討してください。1 - X X C - X Cバツ1バツバツCバツC
whuber

2
住宅価格の場合のが少し不自然になることに同意します。しかし、はそうではありません。「1ドルあたり購入できる家の量」になります。合理的に均一な領域では、これは強い負のスキューを持つと思われます。そのような例は、歪度がデータの表現方法の関数であるというより深い教訓を教えることができます。1 / XCバツ1/バツ
whuber

3
@whuberまったく不自然ではありません。市場参加者による異なる評価を反映するものとして、市場における潜在的な最大価格と最小価格が自然に生じます。買い手の中には、特定の家に最高価格を支払う人がいると考えられます。そして、売り手の中には最低価格を受け入れると思われるものがあります。しかし、この情報は公開されていないため、実際に観察される取引価格は、不完全な情報の存在の影響を受けます。(続き)
アレコスパパドプロ

1
続きます... Kumbhakar and Parmeter(2010)による次の論文は、まさにそれをモデル化し(対称性の場合も許可します)、家市場でのアプリケーションを使用しています:link.springer.com/article/10.1007/s00181-009 -0292-8#page-1
アレコスパパドプロ

3
先進国では、死亡年齢がマイナスに偏っています。
ニックコックス14年

回答:


3

英国では、本の価格。一般にモーダル価格になる「推奨小売価格」があり、実質的にどこにもこれ以上支払う必要はありません。しかし、一部の店は値引きし、いくつかの店は大幅に値引きします。

また、退職年齢。ほとんどの人は65〜68歳で退職します。これは州の年金が始まるときで、長く働く人はほとんどいません。

それから、人々が得るGCSEの数。ほとんどの子供は8〜10歳で入場するため、8〜10歳になります。少数ではありません。一部の子供たちはすべての試験に合格しないため、0から7に着実に増加しています。


1
これはおそらくGCSEがイギリスの中等学校といくつかの関連システムの試験であり、最も一般的には16歳頃に受験されるという説明が必要です。例えば、数学は一般的に1つの科目です。
ニックコックス

18

ニック・コックスは、「先進国では死の年齢が負に歪んでいる」と正確にコメントしており、これは素晴らしい例だと思いました。

オーストラリアの統計局(特に、このExcelシートを使用)からに入れられる最も便利な数字は、年齢ビンが100歳になり、オーストラリア最年長の男性が111だったためです。 110年で最終ビンを快適に切断できました。他の国家統計機関はしばしば95で停止するように見え、最終ビンが不快なほど広くなりました。結果のヒストグラムは、非常に明確な負のゆがみと、幼児の死亡率の小さなピークなど、クラスの議論や解釈に適した他の興味深い特徴を示しています。

2012年のオーストラリア人男性の死亡年齢

生データを含むRコードが続きます。HistogramTools パッケージは、集計データに基づいたプロットに非常に有用であることが判明しました。このStackOverflowの質問に感謝します。

library(HistogramTools)

deathCounts <- c(565, 116, 69, 78, 319, 501, 633, 655, 848, 1226, 1633, 2459, 3375, 4669, 6152, 7436, 9526, 12619, 12455, 7113, 2104, 241)
ageBreaks <- c(0, 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110)

myhist <- PreBinnedHistogram(
    breaks = ageBreaks,
    counts = deathCounts,
    xname = "Age at Death of Australian Males, 2012")
plot(myhist)

2
この投稿にある程度関連して、定年は負の歪度があると聞いています。ほとんどの人は名目年齢(多くの国で65または67)で退職しますが、一部(炭鉱の労働者)はもっと早く退職します。
クリストフハンク

死亡年齢は、既知の分布に従って経験的に追跡されますか?
StubbornAtom

11

以下は、2012年オリンピック男子ロングジャンプの予選ラウンドで合法的なジャンプを正常に完了した40人のアスリートの結果です。

ロンドン2012オリンピックロングジャンプ男子予選ラウンド結果

負の歪度を説明する前のメーターよりも、競合他社のメイングループの後ろにメーターを置く方がはるかに簡単なようです。

トップエンドでのバンチングの一部は、アスリートが可能な限り最長の距離を達成するのではなく、資格(トップ12のフィニッシュまたは8.10メートル以上の結果を必要とする)をターゲットにしているためと思われます。上位2つの結果が自動予選マークのすぐ上の8.11メートルであったという事実は、決勝でメダルを獲得したジャンプが8.31、8.16および8.12メートルで長く広がった方法と同様に、強く示唆しています。ファイナルの結果には、わずかな、有意ではない、負のスキューがありました。

比較のために、1988年ソウル五輪の結果heptathlonは、Rパッケージのデータセットで利用できますHSAUR。その競争では予選ラウンドはありませんでしたが、各イベントは最終的な分類に向けてポイントを提供しました。女性の競技者は、高跳びの結果で顕著な負の歪度を示し、長跳びではやや負の歪度を示しました。興味深いことに、これはスローイベント(ショットとジャベリン)でも再現されませんでしたが、それらはより高い数値がより良い結果に対応するイベントでもあります。最終的なポイントスコアもややマイナスに歪んでいました。

データとコード

require(moments)
require(ggplot2)

sourceAddress <- "http://www.olympic.org/olympic-results/london-2012/athletics/long-jump-m"

longjump.df <- read.csv(header=TRUE, sep=",", text="
rank,name,country,distance
1,Mauro Vinicius DA SILVA,BRA,8.11 
2,Marquise GOODWIN,USA,8.11
3,Aleksandr MENKOV,RUS,8.09
4,Greg RUTHERFORD,GBR,8.08
5,Christopher TOMLINSON,GBR,8.06
6,Michel TORNEUS,SWE,8.03
7,Godfrey Khotso MOKOENA,RSA,8.02
8,Will CLAYE,USA,7.99
9,Mitchell WATT,AUS,7.99,
10,Tyrone SMITH,BER,7.97,
11,Henry FRAYNE,AUS,7.95,
12,Sebastian BAYER,GER,7.92,
13,Christian REIF,GER,7.92,
14,Eusebio CACERES,ESP,7.92,
15,Aleksandr PETROV,RUS,7.89,
16,Sergey MORGUNOV,RUS,7.87,
17,Mohammad ARZANDEH,IRI,7.84,
18,Ignisious GAISAH,GHA,7.79,
19,Damar FORBES,JAM,7.79,
20,Jinzhe LI,CHN,7.77,
21,Raymond HIGGS,BAH,7.76,
22,Alyn CAMARA,GER,7.72,
23,Salim SDIRI,FRA,7.71,
24,Ndiss Kaba BADJI,SEN,7.66,
25,Arsen SARGSYAN,ARM,7.62,
26,Povilas MYKOLAITIS,LTU,7.61,
27,Stanley GBAGBEKE,NGR,7.59,
28,Marcos CHUVA,POR,7.55,
29,Louis TSATOUMAS,GRE,7.53,
30,Stepan WAGNER,CZE,7.50,
31,Viktor KUZNYETSOV,UKR,7.50,
32,Luis RIVERA,MEX,7.42,
33,Ching-Hsuan LIN,TPE,7.38,
33,Supanara SUKHASVASTI N A,THA,7.38,
35,Boleslav SKHIRTLADZE,GEO,7.26,
36,Xiaoyi ZHANG,CHN,7.25,
37,Mohamed Fathalla DIFALLAH,EGY,7.08,
38,Roman NOVOTNY,CZE,6.96,
39,George KITCHENS,USA,6.84,
40,Vardan PAHLEVANYAN,ARM,6.55,
NA,Luis MELIZ,ESP,NA,
NA,Irving SALADINO,PAN,NA")

roundedSkew <- signif(skewness(longjump.df$distance, na.rm=TRUE), 3)

ggplot(longjump.df, aes(x=distance)) + 
    xlab("Distance in metres") +
    ggtitle("London 2012 Men's Long Jump qualifying round results") +
    geom_rug(size=0.8) + 
    geom_density(fill="steelblue") +
    annotate("text", x=7.375, y=0.0625, colour="white", label=paste("Source:", sourceAddress), size=3) +
    annotate("rect", xmin = 6.25, xmax = 7.25, ymin = 0.5, ymax = 1.125, fill="white") +
    annotate("text", x=6.75, y=1, colour="black", label="Best jump in up to 3 attempts") +
    annotate("text", x=6.75, y=.875, colour="black", label="42 athletes competed") +
    annotate("text", x=6.75, y=.75, colour="black", label="2 athletes had no legal jump") +
    annotate("text", x=6.75, y=.625, colour="black", label=paste("Skewness = ", roundedSkew))


# Results of the top twelve who qualified for the Final were closer to symmetric
skewness(longjump.df$distance[1:12])
# -0.1248782

# Results in the Final (some had 3 jumps, others 6) were only slightly negatively skewed
skewness(c(8.31, 8.16, 8.12, 8.11, 8.10, 8.07, 8.01, 7.93, 7.85, 7.80, 7.78, 7.70))
# -0.08578357

# Compare to Seoul 1988 Heptathlon
require(HSAUR)
skewness(heptathlon)

11

簡単なテストのスコア、あるいは生徒が特にやる気のあるテストのスコアは、偏ったままになる傾向があります。

その結果、大学を求めて入学する学生のSAT / ACTスコア(さらにはGPA)は歪んでいる傾向があります。collegeapps.about.comには多くの例がありますたとえば、シカゴ大学のSAT / ACTとGPAのプロットはこちらです。

同様に、卒業生のGPAはしばしば左斜めになります。たとえば、ティムのグラムリングの図5から取られた営利大学の白人および黒人卒業生のGPAの下のヒストグラム。「5つの学生の特性が、営利目的の大学卒業率を正確に予測する方法。」SAGE Open 3.3(2013):2158244013497026。

負のスキューを示すGPAのヒストグラム

(他の同様の例を見つけるのは難しくありません。)


2
入門的な統計クラスについては、この例は教育的にうまく機能すると思います-学生が実際の経験を持ち、直感的に推論し、広く利用可能なデータセットに対して確認できる可能性が高いものです。
シルバーフィッシュ14年

9

確率的フロンティア分析、特に歴史的に最初の焦点である生産では、一般に企業/生産ユニットの生産機能は確率的に次のように指定されます。

q=fバツ+あなたはw

qfバツバツあなたはw計量経済学者は知らないかもしれないが、彼はこのセットアップを介して測定することができます。この確率変数は通常、半正規分布または指数分布に従うと想定されます。(理由のために)通常の半分を仮定すると、

あなたはN0σあなたは2wHN2πσ212πσ22

σ2

ε=あなたはw

fεε=2s2ϕε/s2Φσ2σあなたはε/s2s22=σあなたは2+σ22

0s2σ2σあなたはϕΦσあなたは=1σ2=3ここに画像の説明を入力してください

ネガティブスキューネスは、人類の努力の最も自然なモデリングです:常にその理想から逸脱しています-ほとんどの場合、それよりも遅れています(密度のマイナス部分)が、比較的少ないケースでは、知覚限界を超える(密度の正の部分)。学生自身は、そのような生産機能としてモデル化できます。対称外乱と片側誤差を現実の側面にマッピングするのは簡単です。どれほど直感的に理解できるか想像できません。


1
この答えは、@ Glen_bのgrad GPAの提案を反映しているようです。とらえどころのない理想を目指した非常にやる気のある人間の行動は、確かにそのシナリオに適合します!一般的な効率は素晴らしい例です。
ニックスタウナー14年

2
@Nick Staunerここで重要な点は、絶対値の「距離」ではなく、「実際のマイナス目標」の符号を考慮することです。目標を上回るか下回るかを知るために、標識を維持します。ここでの直感は、まさにあなたが書いているように、「非常にやる気のある」行動は「実際の」を「ターゲット」に近づけ、非対称性を生み出すということです。
アレコスパパドプロス14年

1
@NickStaunerは確かに、走り幅跳び予選結果の紙魚自身のポストも「意欲的な行動」(人間は現在、非公式の「とらえどころのない理想的な」のようなものとして実現することができるものの限界を考慮して)に関し、
Glen_b -Reinstateモニカ

6

負の歪度は、洪水水文学では一般的です。以下は、オーストラリアのエンジニアが開発した洪水推定のガイドである「オーストラリアの降雨と流出」(ARR)から取った洪水頻度曲線の例です(サウスクリーク、マルゴアロード、緯度-33.8783、経度150.7683)。

ARRにはコメントがあります。

オーストラリアの洪水の対数値で一般的な負のスキューでは、対数Pearson III分布に上限があります。これにより、分布から引き出せる洪水の上限が与えられます。場合によっては、これは低AEPの洪水の推定に問題を引き起こす可能性がありますが、多くの場合、実際には問題を引き起こしません。[オーストラリアの降雨と流出から抽出-第1巻、第IV部第2節。]

多くの場合、特定の場所での洪水には、「Probable Maximum Flood」(PMF)と呼ばれる上限があると見なされます。PMFを計算する標準的な方法があります。

ここに画像の説明を入力してください


7
+1この例は、質問が実際にいかにarbitrary意的であるかをうまく示しています。洪水をピーク流量に関して測定すると、それらは正に歪められますが、ログ放電では測定されます。同様に正の変数は、その分布を負に歪める単純な方法で再表現できます(単に適切な負のBox-Coxパラメーターを使用することにより)。それはすべて、「簡単に把握できる」という意味に帰着しますが、それは統計に関するものではなく、学生に関する問題です。
whuber

5

資産価格の変更(リターン)には、通常、マイナスのスキューがあります-いくつかの大きな値下げで多くの小さな価格が上昇します。スキューは、株価、商品価格など、ほぼすべての種類の資産に当てはまります。マイナスのスキューは、毎月の価格変動で観察できますが、毎日または毎時の価格変動を見始めると、より明確になります。スキューの周波数の影響を示すことができるので、これは良い例だと思います。

詳細:http : //www.fusioninvesting.com/2010/09/what-is-skew-and-why-is-it-important/


私はこの例をとても気に入っています!それを説明する直感的な方法はありますか-基本的に、「下向きのショックは上向きのショックよりも可能性が高い(または少なくとも、より深刻である可能性が高い)」
シルバーフィッシュ14年

2
@Silverfish極端なマイナスの市場結果は、極端なプラスの市場結果よりも可能性が高いと言います。市場にも非対称的な変動があります。一般に、市場のボラティリティは、プラスのリターンよりもマイナスのリターンのほうが大きくなります。これは多くの場合、GJR-GarchなどのGarchモデルでモデル化されます(Arch wikipediaのエントリを参照)。
ジョン14年

3
また、悪いニュースが大量にリリースされるという説明も見ました。GJR-GARCHは使用していません。マルチフラクタルブラウン運動(マンデルブロ)を使用して非対称性をモデル化しようとしましたが、動作させることができませんでした。
wcampbell 14年

4
これはせいぜい単純です。たとえば、31の株価指数の日次リターンのデータセットを取得しました。それらの半分以上が正のスキューを持ち(ピアソンの歪度を使用)、メジャー3 *(平均-中央値)/ stdevで70%以上が正です。コモディティについては、需要と供給の両方のショックが価格を急速に上昇させる可能性があるため(たとえば、近年の石油、ガス、トウモロコシなど)、さらにプラスのスキューが見られる傾向があります。
クリステイラー14年

5

分娩時の妊娠期間(特に出生時)は歪んでいます。乳児は非常に早い時期に生まれることができますが(早すぎると生存が継続する可能性はわずかですが)、36〜41週間の間にピークに達し、急速に落ちます。41/42週間で米国の女性が誘発されるのは一般的であるため、それ以降は多くの分娩は通常見られません。


4

漁業では、規制要件のためにマイナスのスキューの例がしばしばあります。たとえば、レクリエーション漁業で放出される魚の長さの分布。魚が保持されるために必要な最小長が時々あるため、制限内のすべての魚は破棄されます。しかし、人々は合法的な長さの魚がいる傾向がある場所で釣りをするので、法的な上限に向かって負のゆがみとモードがある傾向があります。ただし、正当な長さは厳密な切り捨てではありません。バッグの制限(またはドックに持ち帰ることができる魚の数の制限)により、人々はより大きな魚を捕まえた場合でも合法的なサイズの魚を捨てます。

例:Sauls、B.2012。メキシコ湾でのレクリエーション漁業調査からのレッドスナッパー廃棄物のサイズ分布と放出条件に関するデータの要約。SEDAR31-DW11。SEDAR、ノースチャールストン、SC。29ページ


「大きなサイズへのスキュー」は通常、「負」ではなく正のスキューとして解釈されます。おそらく、典型的な分布の図でこの答えを明確にできますか?あなたが説明するメカニズム-規制の上限とそれを超えるいくつかの傾向-は、小型魚の切り捨てられた分布に応じて(および魚の測定方法に応じて:歪度それらの質量分布の長さ分布の歪度と同じではありません)。
whuber

3

このスレッドではいくつかの素晴らしい提案がなされています。年齢に関連した死亡率のテーマでは、機械の故障率はしばしば機械の年齢の関数であり、このクラスの分布に分類されます。すでに指摘した財務的要因に加えて、特にBIS III(国際決済銀行)の予想不足額(ES)の推定値に見られるように、極端な価値のある損失の場合、財務損失関数と分布は通常これらの形状に似ています。または、BIS IIでは、資本準備金配分の規制要件への入力としてのバリューアットリスク(VAR)。


2

米国の退職年齢はマイナスに歪んでいます。退職者の大部分は高齢で、退職者は比較的若い。


2

ランダム行列理論では、Tracy Widom分布は右に歪んでいます。これは、ランダム行列の最大固有値の分布です。対称性により、最小の固有値は負のTracy Widom分布を持つため、左に歪んでいます。

これはおおよそ、ランダムな固有値が互いに反発する荷電粒子に似ているという事実によるものです。したがって、最大の固有値は残りから押し出される傾向があります。これは誇張された写真です(ここから取られます):

ここに画像の説明を入力してください


右スキュー分布は正の歪度を持っているため、質問に応答しません。
whuber

@whuber:最小の固有値を使用することを意味します。修正しました。
アレックスR.
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.