すべての値の指定された割合を含む最小幅を取得する

配列または数値のコレクションの要素の総数の特定の割合を含む最小サイズのスライディングウィンドウの最小/最大境界を見つけたいのですが。

例：説明を簡単にするために整数を取る場合、この配列で探している要素の比率が50％だとします。

[1,1,2,3,3,3,3,3,3,4,5,6,7,8,9,10]

ミステリー関数は（2、4）のようなものを返します。これは、最小値が2で最大値が4であることを意味します（包括的であり、これらはインデックスではなくVALUESであることに注意してください）。その小さなウィンドウには16個の値のうち8個が含まれ、その幅は2ユニットのみであり、値の数の半分を含む最も狭いウィンドウです。

注：四分位数は[1,1,2,3]、[3,3,3,3]、[3,4,5,6]、[7,8,9,10]であるため、私は探しています。

私はそれをコード化することができます...それがうまくいくのに時間がかかるかもしれません。うまくいけば、誰かが以前にそれに遭遇したことがあります。名前はありますか？誰かが知っている既存の方法はありますか？

Pythonの実装に興味があります。

更新：

「short-half」と「shortest interval」という名前を付けたGlen_bのおかげで、これを思い付くことができました。確率密度間隔を見つける

python descriptive-statistics shortest-half

— user1269942
ソース

" これをstats AND stackoverflowに入れても大丈夫だと思います "- ヘルプが示すように、これはお勧めしません： " ただし、SEサイトではクロスポストは推奨されていません。質問を投稿するのに最適な場所を1つ選択してください。後で、それが別のサイトに適していることが判明した場合は、移行できます。 " 1つを選択し、もう1つを削除します。

— Glen_b-2013

50％になると、そのような間隔は、短い半分と呼ばれることがあります。より一般的には、最短間隔と呼ばれることもあります。

— Glen_b-2013

おっとっと。ヘッドアップをありがとう。Stackoverflowで投稿を削除しました。「短い半分」を検索します

— user1269942 '18

（リンクを見てください）興味深いことに、HPD間隔について言及することについて議論しましたが、実際には分布に適用されます。人々はサンプルに同じ用語を適用しないだろうと思いましたが、彼らが何を呼ばれるべきかを見つけることができませんでした。私は間違っていたことがわかりました。

— Glen_b-2013

ちなみに、四分位数は四分位数ではなく、連続する四分位間のデータ（最初と3番目の四分位より下/上）です

— Glen_b -Reinstate Monica

見出し：

キーワードはshorthです。
Rの実装と出版物を含む現在のプロジェクトへのリンクについては、http： //www.statlab.uni-heidelberg.de/people/gs/にあるGüntherSawitzkiのページを参照してください。
によってインストール可能なStata実装がありますssc inst shorth。

よりゆっくりと、そしてSawitzkiの仕事に正義をしようとすることなく：

の値のサンプルの順序統計量は、次によって定義されます。 $n$ $x$

$x_{(1)} \le x_{(2)} \le \cdots \le x_{(n-1)} \le x_{(n)}.$

してみましょう。次に、ランクからランクまでのデータの最短半分を識別して、を最小化します。この間隔を最も短い半分の長さと呼びます。 $h = \lfloor n / 2\rfloor$ $k$ $k + h$ $x_{(k + h)} - x_{(k)}$ $k = 1, \cdots, n - h$

shorthはJW Tukeyによって命名され、Andrews、Bickel、Hampel、Huber、RogersおよびTukey（1972、p.26）による位置の推定量のプリンストンロバストネス研究での平均として紹介されました。それはその異常な漸近的性質（pp.50-52）のために注目を集めました：それらについては、Shorack and Wellner（1986、pp.767-771）とKim and Pollard（1990）の後の説明も参照してください。それ以外の場合は、約10年間すぐに見えなくなりました。ちなみに、Hampel（1997）は、非対称状況に関するプリンストンの研究で利用できるが、現時点では完全には分析されていない結果が、ショーツを当時の評価よりもよく理解していることを示しています。 $x_{(k)}, \cdots, x_{(k + h)}$

ハンペル（1975）の提案に基づいてRousseeuw（1984）が最短の半分の中点がの位置の最小二乗中央値（LMS）推定量。LMSの応用と回帰およびその他の問題への関連アイデアについては、Rousseeuw（1984）およびRousseeuw and Leroy（1987）を参照してください。このLMSの中間点は、最近のいくつかの文献では「shorth」とも呼ばれていることに注意してください（David and Nagaraja 2003、p.223; Maronna、Martin and Yohai 2006、p.48）。さらに、最短の半分自体は、グリューベル（1988）のタイトルが示すように、ショーフと呼ばれることもあります。 $(x_{(k)} + x_{(k + h)}) / 2$ $x$

最短の半分の長さは、スケールまたはスプレッドの強力な尺度です。詳細な分析と議論については、Rousseeuw and Leroy（1988）、Grübel（1988）、Rousseeuw and Croux（1993）、およびMartin and Zamar（1993）を参照してください。

平均が0、標準偏差が1のガウス（正規）の最も短い半分の長さは1.349〜3 dpです。したがって、観測された長さから標準偏差を推定するには、このガウスの長さで割ります。

いくつかの大まかなコメントは、数学的または理論的な統計学者と同様に実用的なデータ分析者の観点から、最短の半分のアイデアの利点と欠点に続きます。プロジェクトが何であれ、shorthの結果を標準の要約測度（他の手段、特に幾何平均と調和平均を含む）と比較し、結果を分布のグラフに関連付けることは常に賢明です。さらに、関心がバイモダリティまたはマルチモダリティの存在または範囲にある場合は、密度関数の適切に平滑化された推定値を直接見るのが最善です。

単純性 最短の半分のアイデアは、統計の専門家とは見なされない学生や研究者に簡単に説明できます。これは、位置の2つの尺度と、かなり直感的な広がりの1つに直接つながります。また、プリミティブツール（鉛筆と紙、電卓、スプレッドシート）を使用した手計算にも比較的適しています。
接続最短の半分の長さ、四分位範囲、および中央値からの絶対偏差の中央値（MAD）（あるいはその可能性のあるエラー）の類似点と相違点はすぐにわかります。したがって、最短の半分のアイデアは、すでに多くのデータアナリストに馴染みのある他の統計的アイデアにリンクされています。
グラフィックの解釈 最短の半分は、累積分布や分位点プロット、ヒストグラム、幹葉図などの分布の標準表示に簡単に関連付けることができます。
モード データが最も密集している場所を平均化することにより、shorthとLMSの中間点は、場所の概要にモードフレーバーをもたらします。ほぼ対称的な分布に適用すると、shorthは平均と中央値に近くなりますが、どちらかの裾の外れ値に対する平均よりも耐性が高く、形状がガウス（正規）に近い分布の中央値よりも効率的です。単峰性で非対称な分布に適用すると、shorthとLMSは通常、平均値または中央値のどちらよりもモードに近くなります。一定数の観測値を含む最短区間の中間点としてモードを推定するという考えは、少なくともダレニウス（1965）にまで遡ります。モードの他の推定量については、Robertson and Cryer（1974）、Bickel（2002）、Bickel andFrühwirth（2006）も参照してください。BickelとFrühwirthのハーフサンプルモード推定器は、最短のハーフの再帰的選択として特に興味深いものです。Stataユーザーは、次の方法でStata実装をダウンロードできます。ssc inst hsmode。
外れ値の識別 （値-shorth）/長さなどの耐性のある標準化は、外れ値の識別に役立つ場合があります。関連するアイデアの議論については、キャリー他を参照してください。（1997）そして含まれた参照。
最短の部分 に一般化するアイデアは、半分以外の比率に一般化できます。

同時に、

すべての分布に役立つわけではない ほぼJ形の分布に適用すると、shorthはデータの下半分の平均に近くなり、LMSの中間点はかなり高くなります。ほぼU字型の分布に適用すると、shorthとLMSの中間点は、分布の半分の平均密度が高い方の範囲内になります。どちらの動作も特に興味深いものでも有用なものでもありませんが、同様に、J字型またはU字型の分布に対して単一モードのような要約を求める要求はほとんどありません。J形状の場合、モードは最小またはU形状である必要があり、U形状の場合、バイモダリティは無効ではないにしても、単一モードの考えを無効にします。
ネクタイ 最短の半分は一意に定義されない場合があります。測定されたデータであっても、報告された値の丸めは、しばしば関係を生じさせる可能性があります。2つ以上の最短の半分をどうするかは、文献ではほとんど議論されていません。結ばれた半分は重なるか、ばらばらになることに注意してください。実装が異なれば、少しずつ異なる方法でこれに取り組むことができます。
ウィンドウ長の根拠 なぜ半分がを意味するのかについても説明されていないようです。明らかに、奇数と偶数の両方のに対してウィンドウ長を生成するルールが必要です。ルールは単純であることが望ましい。そして、通常、この種のルールの選択には若干の恣意性があります。また、が小さい場合にルールが適切に動作することも重要です。非常に小さいサンプルサイズに対してプログラムが意図的に呼び出されなかった場合でも、使用されるプロシージャはすべての可能なサイズに対して意味を持つはずです。このルールでは、、shorthは単一のサンプル値であり、場合、 $1 + \lfloor n / 2\rfloor$ $n$ $n$ $n = 1$ $n = 2$ shorthは、2つのサンプル値の平均です。このルールの詳細は、常にわずかな過半数を定義し、データに関する民主的な決定を強制することです。ただし、shorthのすべての作成者が従っているように見える場合を除いて、をさらに単純な規則として使用しない強い理由はないようです。 $\lceil n / 2\rceil$ $1 + \lfloor n / 2\rfloor$
重み付けされたデータでの使用 最短の半分の識別は、観測値が等しくない重みに関連付けられている状況にかなり乱雑に拡張されているように見えます。
ほとんどの値が同一である 場合の長さサンプル内の値の少なくとも半分が定数と等しい場合、最短の半分の長さは0です。したがって、たとえば、ほとんどの値が0で、一部の値が大きい場合、最短の長さ半分は、スケールまたは広がりの尺度として特に有用ではありません。

アンドリュース、DF、PJビケル、FRハンペル、PJヒューバー、WHロジャース、JWチューキー。1972年。 ロバストな場所の推定：調査と進歩。 ニュージャージー州プリンストン：プリンストン大学出版局。

Bickel、DR2002。連続データのモードと歪度のロバスト推定量。計算統計とデータ分析 39：153-163。

ビッケル、DR、R。フリューワース。2006.モードの高速で堅牢な推定量について：他の推定量とアプリケーションとの比較。 計算統計とデータ分析 50：3500-3530。

キャリー、VJ、EEウォルターズ、CGウェイジャー、BAロズナー。1997.耐性およびテストベースの外れ値の拒否：ガウスの1サンプルおよび2サンプルの推論への影響。 テクノメトリクス 39：320-330。

Christmann、A.、U。GatherおよびG. Scholz。最短の半分の長さのいくつかの特性。 Statistica Neerlandica 48：209-213。

Dalenius、T。1965。モード-無視された統計パラメーター。 ジャーナル、王立統計学会A 128：110-117。

グリューベル、R。1988。ショーツの長さ。 統計年報 16：619-628。

Hampel、FR1975。ロケーションパラメータを超えて：堅牢な概念と方法。 Bulletin、International Statistical Institute 46：375-382。

Hampel、FR1997。「プリンストンロバストネス年」に関するいくつかの追加注記。ブリリンジャー、DR、LT Fernholz、S。Morgenthaler（編）データ分析の実践：ジョンW.チューキーに敬意を表してのエッセイ。 ニュージャージー州プリンストン：プリンストン大学出版局、133-153。

キム・J・D・ポラード。1990。立方根の漸近。統計学年報18：191-219。

マロンナ、RA、RDマーティン、VJヨハイ。2006. ロバスト統計：理論と方法。チチェスター：ジョン・ワイリー。

マーティン、RD、RHザマール。1993年。バイアスのロバストなスケール推定。 統計年報 21：991-1017。

Robertson、T.とJD Cryer。1974。モードを推定するための反復手順。 Journal、American Statistical Association 69：1012-1016。

Rousseeuw、PJ1984。最小二乗回帰の中央値。 Journal、American Statistical Association 79：871-880。

Rousseeuw、PJおよびC. Croux。1993.絶対偏差中央値の代替案。 Journal、American Statistical Association 88：1273-1283。

Rousseeuw、PJ、AM Leroy。1987。 堅牢な回帰と異常値の検出。 ニューヨーク：ジョン・ワイリー。

Rousseeuw、PJ、AM Leroy。1988年。最短の半分に基づく堅牢なスケール推定量。Statistica Neerlandica 42：103-116。

Shorack、GR、JA Wellner。1986. 統計への応用を伴う経験的プロセス。 ニューヨーク：ジョン・ワイリー。

— ニックコックス
ソース

ありがとう。短い半分を言ったとき、略語があることは知っていましたが、それが何であるか考えられませんでした。

— Glen_b-2013

+6すばらしい投稿：有益で、洞察に富み、読むのが楽しい。

— whuber

@whuberありがとうございます。賞賛に値するものからの賞賛は確かに賞賛です。ほとんどの場合、私のStata実装のドキュメントのバージョンであり、Stataユーザーがeconpapers.repec.org/software/bocbocode/s456728.htmlからダウンロードできるssc inst shorthようになっています（Stata以外のユーザーは、そこを見るだけで余分な情報を得ることはありません）。

— Nick Cox

非常に素晴らしい！それを答えとして受け入れるのにとても時間がかかったことについての謝罪...それはかなり素早くレーダーから落ちました。

— user1269942