トリミング率とトリミング平均のプロットをどのように解釈できますか?


12

宿題の質問の一部として、最小と最大の観測値を削除してデータセットのトリミング平均を計算し、結果を解釈するように求められました。トリミングされた平均は、トリミングされていない平均よりも低かった。

私の解釈では、これは基礎となる分布が正に歪んでおり、そのため、左尾が右尾よりも密度が高いためだと考えられました。このゆがみの結果、高いデータムを削除すると、低いデータを削除するよりも平均が下にドラッグされます。これは、非公式に言えば、「代わりに待機している」データが少ないためです。(これは合理的ですか?)

その後、私はトリム平均計算にトリミングパーセンテージが、これをどのように影響するか不思議に始め種々のために。興味深い放物線の形になりました: バツ¯trkk=1/n2/nn21/nトリミング率とトリミング平均のプロット。 ほぼ放物線に見える凹状の曲線を形成します

これをどのように解釈するのかよくわかりません。直観的には、グラフの勾配は中央値のデータポイント内の分布の部分の負の歪度(に比例)であるように思われます。(この仮説は私のデータでチェックアウトしますが、私はしか持っていないので、あまり自信がありません。)kn=11

このタイプのグラフには名前がありますか、それとも一般的に使用されていますか?このグラフからどのような情報を収集できますか?標準的な解釈はありますか?


参考のため、データは4、5、5、6、11、17、18、23、33、35、80です。

回答:


11

@gungおよび@kjetil b。halvorsenは両方とも正しいです。

私はそのようなグラフを見つけました

ローゼンバーガー、JL、M。ガスコ。1983.位置推定器の比較:トリミングされた平均値、中央値、および平均値。で理解堅牢かつ探索的データ解析編。DC Hoaglin、F。Mosteller、およびJW Tukey、297–338。ニューヨーク:ワイリー。

そして

Davison、AC、DV Hinkley。1997. ブートストラップメソッドとそのアプリケーション。 ケンブリッジ:ケンブリッジ大学出版局。

さらに例を挙げます

コックス、ニュージャージー州2013。味へのトリミング。Stata Journal 13:640–666。http://www.stata-journal.com/article.html?article=st0313 [pdfへの無料アクセス]

トリミングされた平均の多くの側面を議論しました。

私の知る限り、グラフには明確な名前はありません。すべての可能なプロットの個別の名前は、実際には小さな悪夢です。グラフィカルな用語はすでに恐ろしい混乱です。私はそれを、トリミングされた平均対トリミングされた数、分数、またはパーセントのプロットと呼んでいます(したがって、OPの文言を逆にします)。

「対」に関するさらに小さなコメントについては、「回帰における異分散性」の私の答えを参照してください。

編集:対(言語Mavenのみ)の詳細については、こちらを参照してください


10

このグラフは聞いたことがありませんが、かなりきれいだと思います。おそらく誰かがこれを以前にやったことがあります。これで何ができるかは、データの割合の違いを外れ値と見なした場合に平均がどのようにシフトおよび/または安定化するかを確認することです。放物線形状になる理由は、(初期)分布が全体として右に歪んでいるが、歪の程度は分布の中心で同じではないためです。比較のために、以下のカーネル密度プロットを検討してください。

ここに画像の説明を入力してください

左側は、1つずつトリミングされるデータです。右側には次のデータがあります。y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416)、等間隔のパーセンタイルから取得した標準対数正規分布の分位数で、20を掛けて値の範囲を類似させます。

データは右に偏り始めますが、行5までは左に偏っているため、より多くのデータをトリミングすると平均が回復します。右側のデータは、トリミングが続行されるときに同様のスキューを維持します。

以下は、対数正規データと均一データのプロットです(z = 1:11、スキューなし-完全に対称)。

ここに画像の説明を入力してください ここに画像の説明を入力してください


4

この種のグラフに名前があるとは思わないが、あなたがしていることは合理的であり、あなたの解釈は妥当だと思う。あなたがしていることは、ハンペルのインフルエンス関数に関連していると思います。https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function、 特に経験的インフルエンス関数に関するセクションを参照してください。データが完全に対称である場合、プロットはフラットになるため、プロットは確かにデータの歪度の何らかの尺度に関連している可能性があります。あなたはそれを調査する必要があります!

            EDIT     

このプロットの1つの拡張は、左右で異なるトリミングを使用した効果も示すことです。これは、Rのmean引数trimを持つ通常の関数では実装されていないため、独自のトリム平均関数を作成しました。より滑らかなプロットを得るために、トリミング部分が非整数のポイントの削除を意味する場合、線形補間を使用します。これは次の機能を提供します。

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

次に、いくつかのデータをシミュレートし、結果を等高線図として表示します。

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

この結果を与える:

トリミングの効果を示す等高線図

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.