タグ付けされた質問 「winsorizing」

4
データのウィンザライズとトリミングの相対的なメリットは何ですか?
データのウィンソライズとは、データセットの極値を各端から特定のパーセンタイル値に置き換えることを意味し、トリミングまたは切り捨てにはこれらの極値の削除が含まれます。 平均または標準偏差などの統計を計算する際に、外れ値の影響を軽減するための実行可能なオプションとして、両方の方法について説明していますが、一方を選択する理由はわかりません。 WinsorizingまたはTrimmingを使用することに相対的な利点または欠点はありますか?1つの方法が望ましい特定の状況はありますか?実際にはもっと頻繁に使用されていますか、それとも基本的に交換可能ですか?

8
外れ値を平均で置き換える
この質問は、インターネットに精通していない友人によって尋ねられました。私は統計のバックグラウンドがなく、この質問をインターネットで検索しています。 問題は、外れ値を平均値で置き換えることは可能ですか?可能であれば、この声明をバックアップするための書籍の参照/ジャーナルはありますか?

5
実際に使用されている堅牢な相関法はどれですか?
いくつかのロバストな相関手法のパフォーマンスを異なる分布(スキュー、外れ値など)と比較するシミュレーション研究を行う予定です。で堅牢、私は)歪んだ分布、b)の外れ値、およびc)重い尾に対して堅牢であることの理想的なケースを意味します。 ベースラインとしてのピアソン相関に加えて、次のより堅牢な測定を含めることを考えていました。 スピアマンのρρ\rho パーセント曲げ相関(Wilcox、1994、[1]) 最小量は(共分散行列式、最小楕円体cov.mve/ cov.mcdとcor=TRUEオプション) おそらく、ウィンザー化された相関 もちろん、さらに多くのオプションがあります(特に堅牢な回帰手法も含める場合)が、ほとんど使用されている/ほとんど有望なアプローチに限定したいと思います。 現在、3つの質問があります(1つだけお気軽に回答してください)。 他に含めることができる/含めるべき堅牢な相関法はありますか? あなたの分野で実際に 使用されて いる堅牢な相関技術はどれですか?(心理学の研究について言えば、スピアマンの除いて、技術論文以外ではロバストな相関技術を見たことはありません。ブートストラップはますます一般的になっていますが、他のロバストな統計は多かれ少なかれ存在しません)。ρρ\rho すでに知っている複数の相関手法の体系的な比較はありますか? また、上記のメソッドのリストにコメントしてください。 [1]ウィルコックス、RR(1994)。曲げ相関係数のパーセンテージ。Psychometrika、59、601から616まで。

4
データが歪んでいるときに平均を使用する必要がありますか?
多くの場合、導入された導入統計テキストは、平均がサンプルデータおよび/または外れ値に敏感であることを説明することにより、平均を中央値と区別します偏った母集団分布に対して、これは、データが対称的でない場合に中央値が優先されるという主張の正当化として使用されます。 例えば: 特定のデータセットの中心傾向の最適な測定値は、値の分布方法によって異なります。...データが対称でない場合、中央値が中心傾向の最適な測定値であることがよくあります。平均値は極端な観測値に敏感であるため、外れたデータ値の方向に引っ張られ、結果として過度に膨張または過度に収縮する可能性があります。」— Pagano and Gauvreau、(2000)Principles of Biostatistics 、第2版。 (P&Gは、BTW、手元にあったそれらを選び出していないそれ自体)。 著者はこうして「中心傾向」を定義します:「データのセットの最も一般的に調査された特性はその中心、または観察が集中する傾向があるポイントです。」 これは、データ/分布が対称であるときに平均を使用することだけが、中央値に等しいときにのみ平均を使用するということと同じことなので、中央値、期間のみを使用するという率直な方法として私を襲います。編集: whuberは、中心傾向の堅牢な測定値と中央値を混同していることを正しく指摘しています。したがって、導入された統計の算術平均と中央値の特定のフレーミングについて議論していることに留意することが重要です(ここで、モードは別として、中心傾向の他の尺度は動機付けられていません)。 平均値の効用を中央値の挙動からどれだけ逸脱するかで判断するのではなく、これらを中心性の2つの異なる尺度として単純に理解すべきではないでしょうか?言い換えれば、歪度に敏感であることは平均の特徴です。同様に、「中央値は歪度にほと​​んど影響されないため、中央値は良くありません。したがって、中央値は平均と等しい場合にのみ使用してください」と有効に主張できます。 (モードは、この質問に関与していないのが非常に賢明です。)

5
時系列データ予測で検出された外れ値を修正するにはどうすればよいですか?
時系列データで異常値を見つけて検出したら、異常値を修正する方法を見つけようとしています。Rのnnetarのようないくつかのメソッドは、大きな/大きな外れ値を持つ時系列にいくつかのエラーを与えます。私はすでに欠損値を修正することができましたが、外れ値は私の予測にまだ悪影響を及ぼしています...
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.