見出し:
よりゆっくりと、そしてSawitzkiの仕事に正義をしようとすることなく:
の値のサンプルの順序統計量は、次によって定義されます。んバツ
バツ(1 )≤ X(2 )≤ ⋯ ≤ X(n − 1 )≤ X(n )。
してみましょう。次に、ランクからランクまでのデータの最短半分を識別して、を最小化します。この間隔を最も短い半分の長さと呼びます。H = ⌊ N / 2 ⌋kk + hバツ(k + h )− x(k )k = 1 、⋯ 、n − h
shorthはJW Tukeyによって命名され、Andrews、Bickel、Hampel、Huber、RogersおよびTukey(1972、p.26)による位置の推定量のプリンストンロバストネス研究での平均として紹介されました。それはその異常な漸近的性質(pp.50-52)のために注目を集めました:それらについては、Shorack and Wellner(1986、pp.767-771)とKim and Pollard(1990)の後の説明も参照してください。それ以外の場合は、約10年間すぐに見えなくなりました。ちなみに、Hampel(1997)は、非対称状況に関するプリンストンの研究で利用できるが、現時点では完全には分析されていない結果が、ショーツを当時の評価よりもよく理解していることを示しています。バツ(k )、⋯ 、x(k + h )
ハンペル(1975)の提案に基づいてRousseeuw(1984)が最短の半分の中点がの位置の最小二乗中央値(LMS)推定量。LMSの応用と回帰およびその他の問題への関連アイデアについては、Rousseeuw(1984)およびRousseeuw and Leroy(1987)を参照してください。このLMSの中間点は、最近のいくつかの文献では「shorth」とも呼ばれていることに注意してください(David and Nagaraja 2003、p.223; Maronna、Martin and Yohai 2006、p.48)。さらに、最短の半分自体は、グリューベル(1988)のタイトルが示すように、ショーフと呼ばれることもあります。x(x(k )+ x(k + h ))/ 2バツ
最短の半分の長さは、スケールまたはスプレッドの強力な尺度です。詳細な分析と議論については、Rousseeuw and Leroy(1988)、Grübel(1988)、Rousseeuw and Croux(1993)、およびMartin and Zamar(1993)を参照してください。
平均が0、標準偏差が1のガウス(正規)の最も短い半分の長さは1.349〜3 dpです。したがって、観測された長さから標準偏差を推定するには、このガウスの長さで割ります。
いくつかの大まかなコメントは、数学的または理論的な統計学者と同様に実用的なデータ分析者の観点から、最短の半分のアイデアの利点と欠点に続きます。プロジェクトが何であれ、shorthの結果を標準の要約測度(他の手段、特に幾何平均と調和平均を含む)と比較し、結果を分布のグラフに関連付けることは常に賢明です。さらに、関心がバイモダリティまたはマルチモダリティの存在または範囲にある場合は、密度関数の適切に平滑化された推定値を直接見るのが最善です。
単純性 最短の半分のアイデアは、統計の専門家とは見なされない学生や研究者に簡単に説明できます。これは、位置の2つの尺度と、かなり直感的な広がりの1つに直接つながります。また、プリミティブツール(鉛筆と紙、電卓、スプレッドシート)を使用した手計算にも比較的適しています。
接続 最短の半分の長さ、四分位範囲、および中央値からの絶対偏差の中央値(MAD)(あるいはその可能性のあるエラー)の類似点と相違点はすぐにわかります。したがって、最短の半分のアイデアは、すでに多くのデータアナリストに馴染みのある他の統計的アイデアにリンクされています。
グラフィックの解釈 最短の半分は、累積分布や分位点プロット、ヒストグラム、幹葉図などの分布の標準表示に簡単に関連付けることができます。
モード データが最も密集している場所を平均化することにより、shorthとLMSの中間点は、場所の概要にモードフレーバーをもたらします。ほぼ対称的な分布に適用すると、shorthは平均と中央値に近くなりますが、どちらかの裾の外れ値に対する平均よりも耐性が高く、形状がガウス(正規)に近い分布の中央値よりも効率的です。単峰性で非対称な分布に適用すると、shorthとLMSは通常、平均値または中央値のどちらよりもモードに近くなります。一定数の観測値を含む最短区間の中間点としてモードを推定するという考えは、少なくともダレニウス(1965)にまで遡ります。モードの他の推定量については、Robertson and Cryer(1974)、Bickel(2002)、Bickel andFrühwirth(2006)も参照してください。BickelとFrühwirthのハーフサンプルモード推定器は、最短のハーフの再帰的選択として特に興味深いものです。Stataユーザーは、次の方法でStata実装をダウンロードできます。ssc inst hsmode
。
外れ値の識別 (値-shorth)/長さなどの耐性のある標準化は、外れ値の識別に役立つ場合があります。関連するアイデアの議論については、キャリー他を参照してください。(1997)そして含まれた参照。
最短の部分 に一般化するアイデアは、半分以外の比率に一般化できます。
同時に、
すべての分布に役立つわけではない ほぼJ形の分布に適用すると、shorthはデータの下半分の平均に近くなり、LMSの中間点はかなり高くなります。ほぼU字型の分布に適用すると、shorthとLMSの中間点は、分布の半分の平均密度が高い方の範囲内になります。どちらの動作も特に興味深いものでも有用なものでもありませんが、同様に、J字型またはU字型の分布に対して単一モードのような要約を求める要求はほとんどありません。J形状の場合、モードは最小またはU形状である必要があり、U形状の場合、バイモダリティは無効ではないにしても、単一モードの考えを無効にします。
ネクタイ 最短の半分は一意に定義されない場合があります。測定されたデータであっても、報告された値の丸めは、しばしば関係を生じさせる可能性があります。2つ以上の最短の半分をどうするかは、文献ではほとんど議論されていません。結ばれた半分は重なるか、ばらばらになることに注意してください。実装が異なれば、少しずつ異なる方法でこれに取り組むことができます。
ウィンドウ長の根拠 なぜ半分がを意味するのかについても説明されていないようです。明らかに、奇数と偶数の両方のに対してウィンドウ長を生成するルールが必要です。ルールは単純であることが望ましい。そして、通常、この種のルールの選択には若干の恣意性があります。また、が小さい場合にルールが適切に動作することも重要です。非常に小さいサンプルサイズに対してプログラムが意図的に呼び出されなかった場合でも、使用されるプロシージャはすべての可能なサイズに対して意味を持つはずです。このルールでは、、shorthは単一のサンプル値であり、場合、N 、N 、N = 1 、N = 2 ⌈ N / 2 ⌉ 1 + ⌊ N / 2 ⌋1 + ⌊ N / 2 ⌋んんn = 1n = 2shorthは、2つのサンプル値の平均です。このルールの詳細は、常にわずかな過半数を定義し、データに関する民主的な決定を強制することです。ただし、shorthのすべての作成者が従っているように見える場合を除いて、をさらに単純な規則として 使用しない強い理由はないようです。⌈ N / 2 ⌉1 + ⌊ N / 2 ⌋
重み付けされたデータでの使用 最短の半分の識別は、観測値が等しくない重みに関連付けられている状況にかなり乱雑に拡張されているように見えます。
ほとんどの値が同一である 場合の長さサンプル内の値の少なくとも半分が定数と等しい場合、最短の半分の長さは0です。したがって、たとえば、ほとんどの値が0で、一部の値が大きい場合、最短の長さ半分は、スケールまたは広がりの尺度として特に有用ではありません。
アンドリュース、DF、PJビケル、FRハンペル、PJヒューバー、WHロジャース、JWチューキー。1972年。 ロバストな場所の推定:調査と進歩。 ニュージャージー州プリンストン:プリンストン大学出版局。
Bickel、DR2002。連続データのモードと歪度のロバスト推定量。計算統計とデータ分析 39:153-163。
ビッケル、DR、R。フリューワース。2006.モードの高速で堅牢な推定量について:他の推定量とアプリケーションとの比較。 計算統計とデータ分析 50:3500-3530。
キャリー、VJ、EEウォルターズ、CGウェイジャー、BAロズナー。1997.耐性およびテストベースの外れ値の拒否:ガウスの1サンプルおよび2サンプルの推論への影響。 テクノメトリクス 39:320-330。
Christmann、A.、U。GatherおよびG. Scholz。最短の半分の長さのいくつかの特性。 Statistica Neerlandica 48:209-213。
Dalenius、T。1965。モード-無視された統計パラメーター。 ジャーナル、王立統計学会A 128:110-117。
グリューベル、R。1988。ショーツの長さ。 統計年報 16:619-628。
Hampel、FR1975。ロケーションパラメータを超えて:堅牢な概念と方法。 Bulletin、International Statistical Institute 46:375-382。
Hampel、FR1997。「プリンストンロバストネス年」に関するいくつかの追加注記。ブリリンジャー、DR、LT Fernholz、S。Morgenthaler(編)データ分析の実践:ジョンW.チューキーに敬意を表してのエッセイ。 ニュージャージー州プリンストン:プリンストン大学出版局、133-153。
キム・J・D・ポラード。1990。立方根の漸近。 統計学年報18:191-219。
マロンナ、RA、RDマーティン、VJヨハイ。2006. ロバスト統計:理論と方法。チチェスター:ジョン・ワイリー。
マーティン、RD、RHザマール。1993年。バイアスのロバストなスケール推定。 統計年報 21:991-1017。
Robertson、T.とJD Cryer。1974。モードを推定するための反復手順。
Journal、American Statistical Association 69:1012-1016。
Rousseeuw、PJ1984。最小二乗回帰の中央値。 Journal、American Statistical Association 79:871-880。
Rousseeuw、PJおよびC. Croux。1993.絶対偏差中央値の代替案。 Journal、American Statistical Association 88:1273-1283。
Rousseeuw、PJ、AM Leroy。1987。 堅牢な回帰と異常値の検出。 ニューヨーク:ジョン・ワイリー。
Rousseeuw、PJ、AM Leroy。1988年。最短の半分に基づく堅牢なスケール推定量。Statistica Neerlandica 42:103-116。
Shorack、GR、JA Wellner。1986. 統計への応用を伴う経験的プロセス。 ニューヨーク:ジョン・ワイリー。