ロバスト平均推定のクラッシュコース


15

私にはたくさんの(約1000)の推定値があり、それらはすべて長期的な弾力性の推定値であると想定されています。もう少しこれらの半分以上が、私は、メソッドBが何か推計だと思う」のようなB.どこかに私が何かを読む方法使用方法Aと休息を用いて推定される非常に見積もりが高い(50から60パーセント)くらいあるので、方法Aとは異なるが「。堅牢な統計に関する私の知識はほとんどないため、両方のサンプルのサンプル平均と中央値のみを計算しました...すぐに違いがわかりました。方法Aは非常に集中しており、中央値と平均値の差はほとんどありませんが、方法Bのサンプルは大きく異なります。

外れ値と測定誤差がメソッドBのサンプルを歪めると結論付けたので、理論と非常に矛盾する約50の値(約15%)を捨てました...そして突然、両方のサンプル(CIを含む)の平均は非常に似ていました。密度もプロットします。

(外れ値を排除するために、サンプルAの範囲を調べ、その範囲外にあるBのすべてのサンプルポイントを削除しました。)手段の堅牢な推定の基本を見つけることができる場所を教えてくださいこの状況をより厳密に判断させてください。そして、いくつかの参照があります。さまざまな手法を深く理解する必要はありませんが、堅牢な推定の方法論に関する包括的な調査を読んでください。

外れ値を削除した後の平均差の有意性についてt検定を行い、p値は0.0559(t約1.9)であり、完全なサンプルの場合、t statは約4.5でした。しかし、それは実際にはポイントではありません。平均は少し異なる可能性がありますが、上記のように50〜60%異なることはありません。そして、彼らはそうは思わない。


3
このデータを使用して意図した分析は何ですか?外れ値を削除する方法は、統計上の信頼性が疑わしいものです。「データを作成」することで、任意のレベルで有意性または有意性の欠如を示すことができます。方法AとBを使用して測定値を受け取った母集団AとBは、本当に同種の母集団ですか、それとも、あなたの方法で異なる母集団が与えられた可能性はありますか?
AdamO

データに対してこれ以上計算や分析を行う必要はありません。言及された方法は両方とも一貫しているため、最近の調査によると、母集団は均質でなければなりません。しかし、データの品質はそれほど高くなく、Bの値の一部が誤って存在することは明らかです(この方法はエラーが発生しやすいため)。これらは経済的にまったく意味がありません。私は除去が疑わしいこと知っています、それが私がより厳密で信頼できる何かを探している理由です。
オンドレイ

回答:


18

理論や実用的なものをお探しですか?

あなたが本を探しているなら、ここに私が役に立つとわかったものがあります:

  • FR Hampel、EM Ronchetti、PJRousseeuw、WA Stahel、Robust Statistics:The Approach Based on In fluence Functions、John Wiley&Sons、1986。

  • PJ Huber、Robust Statistics、John Wiley&Sons、1981年

  • PJ Rousseeuw、AM Leroy、Robust Regression and Outlier Detection、John Wiley&Sons、1987

  • RG Staudte、SJ Sheather、ロバスト推定およびテスト、John Wiley&Sons、1990。

実用的な方法を探している場合は、平均を推定する堅牢な方法がいくつかあります(「位置の推定器」は、より原則的な用語だと思います)。

  • 中央値は単純で、有名で、非常に強力です。外れ値に対して優れた堅牢性を備えています。堅牢性の「価格」は約25%です。

  • 5%トリミング平均も別の可能な方法です。ここでは、最高5%と最低5%の値を捨て、結果の平均(平均)を取得します。これは外れ値に対する堅牢性が低くなります。データポイントの破損が5%を超えない限り良好ですが、5%を超えても破損すると突然ひどくなります(正常に劣化しません)。堅牢性の「価格」は中央値を下回りますが、正確には何なのかわかりません。

  • {バツ+バツj/21jn}nn+1/2バツ1バツn観測です。これは非常に優れた堅牢性を備えています。完全にバラバラにならずに、データポイントの最大約29%の破損を処理できます。また、堅牢性の「価格」は低く、約5%です。中央値のもっともらしい代替手段です。

  • 四分位平均は、時々使用される別の推定量です。1番目と3番目の四分位数の平均を計算するため、計算は簡単です。非常に優れた堅牢性を備えており、最大25%のデータポイントの破損に耐えることができます。ただし、堅牢性の「価格」は重要であり、約25%です。結果として、これは中央値よりも劣っているようです。

  • 提案されている他の多くの手段がありますが、上記の手段は合理的と思われます。

要するに、中央値またはおそらくホッジス・レーマン推定量を提案します。

PSああ、私は堅牢性の「価格」が意味することを説明する必要があります。堅牢な推定器は、データポイントの一部が破損しているか、外れ値である場合でも適切に機能するように設計されています。しかし、外れ値や破損がないデータセットで堅牢な推定器を使用するとどうなりますか?理想的には、データを最大限に活用するために堅牢な推定器が必要です。ここでは、標準誤差(直感的には、推定器によって生成された推定値の典型的な誤差量)によって効率を測定できます。観測値がガウス分布(iid)からのものであり、ロバスト性が不要であることがわかっている場合、平均が最適であり、推定誤差が最小になることがわかっています。上記の堅牢性の「価格」この状況に特定の堅牢な推定量を適用した場合、標準誤差がどれだけ増加するかです。中央値の25%のロバストネスの価格は、中央値での典型的な推定誤差のサイズが、平均での典型的な推定誤差のサイズよりも約25%大きいことを意味します。明らかに、「価格」が低いほど良い。


nn+1/2バツ+バツj/21jnwilcox.test(..., conf.int=TRUE)

+1、これは本当に優れています。しかし、私は1つの注意点を持っています。最後の段落で「エラー用語」という語句を使用することはありません。代わりに、「サンプリング分布の標準誤差」または単に「標準誤差」を使用します。
GUNG -復活モニカ

非常によく構成された簡潔な答え、ありがとう!概要は私が必要とするものであり、ヘンリックによって提案された論文を読んでカバーされるべきです。長い夏の夜のエンターテインメントについては、あなたとjbowmanが提案した本を必ずチェックしてください。
オンドレイ

@caracal、あなたは正しいです。HL推定器の私の特性は間違っていました。修正していただきありがとうございます。それに応じて回答を更新しました。
DW

ありがとう、@ gung!あなたが提案するように「標準エラー」を使用するように回答を編集しました。
DW

7

短くて消化しやすいものが好きなら、心理学の文献から次の論文を見てください:

Erceg-Hurn、DM、Mirosevich、VM(2008)。最新の堅牢な統計手法:研究の精度とパワーを最大化する簡単な方法。 アメリカ心理学者、63(7)、591〜601。doi:10.1037 / 0003-066X.63.7.591

彼らは主にRand R Wilcoxの本に依存しています(確かに数学的なことでもありません):

ウィルコックス、RR(2001)。最新の統計手法の基礎:電力と精度を大幅に向上させます。ニューヨーク; ベルリン:スプリンガー。
ウィルコックス、RR(2003)。現代の統計手法を適用します。アムステルダム; ボストン:Academic Press。
ウィルコックス、RR(2005)。堅牢な推定と仮説検定の紹介。アカデミックプレス。


5

JurečkováとPicekによる、理論と実践をかなりうまく組み合わせた1つの本は、Rを使用したロバスト統計法です。また、Maronna et al。のRobust Statisticsも気に入っています。ただし、これらの両方に、あなたが気にするよりも多くの数学があるかもしれません。Rに焦点を当てたより応用されたチュートリアルについては、このBelVenTutorial pdfが役立ちます。


ああ、教授 Jurečková—私たちの大学の教師、オッズはどうですか。両方の本をチェックします。もっと...短い文書を探していましたが(この問題は私にとって非常に限界があるため)、もう少し深く掘り下げても害はありません。ありがとう!
オンドレイ

1
世界は狭い!まあ、少なくとも私はあなたのコメントからコピーしてスペルを修正しました
...-jbowman
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.