ランクベースのテストを使用するとき、外れ値について心配する必要がありますか？

これが非常に基本的な質問である場合はお詫びします。

正規分布されていないデータがあり（たとえば、ゆがんだ、Shapiro-Wilk検定が重要である）、ランクベースの方法（たとえばWilcoxon Signed Rank test）に頼る場合、異常値を考慮する必要がありますか？

たとえば、ボックスプロットを使用してデータをプロットし、少数のデータポイントが外れ値としてマークされていると想像してください。これらのポイントを変換する必要がありますか？またはそれらを削除しますか？多くの教科書が外れ値の扱いについて話しているように思えますが、それはそれらが平均や標準偏差などのパラメーターに大きな影響を与えるからです。ただし、ランクベースのテストを使用する場合、それらはすでにランクの次の値になるように「変換」されるため、テストに大きな影響を与えることはありません。これまでのところ、統計の本に明記されていないので、ここで質問したいと思いました。

outliers ranks

— トレフ
ソース

統計的にランク付けされたテストは、外れ値に対してロバストです。しかし、異常値は異常値であり、運用レベルでは、アナリストは引き続きそのケースを調査する必要があります。したがって、私たちは依然として異常値について「部分的に」心配する必要があると思います。

— Penguin_Knight 2013

非常に基本的な質問であっても問題ありません。このサイトで質問が出されない限り、基本的な質問でも良い質問です

— 穂高

いいえ。データがランク付けされると、外れ値は、次に極端でないケースの1つ上（または下）にランク付けされたケースとして認識されます。最も大きい値と2番目に大きい値の間に0.01または5の標準偏差があるかどうかに関係なく、その差の程度はデータがランク付けされるときに破棄されます。

実際、ランクベース（またはノンパラメトリック）のテストを使用する理由の多くは、外れ値が原因です。

— 穂高
ソース

また、ノンパラメトリックメソッドとセミパラメトリックメソッドの優れた効率は、正規性を事前にテストしない理由です（正規性テストの不十分な検出力に加えて）。

— フランクハレル2013

このすばらしい簡潔な回答を受け入れるか、@ NickCoxからの示唆に富む詳細な回答を受け入れるかについて、私は途方に暮れています。私は数日待って、どちらが最も多くの票を獲得するかを確認します！

— trev、2013

@穂高の答えはかなり正しいです。ランク付けは変換を不要にします。それ自体が、ランクの違いにつながる場合を除いて、正確な値を無視する変換です。実際、少し考えてみると、いくつかの計算例では、対数や平方根、またはその他の単調変換をランク付けした後の結果は、元のデータをランク付けした後の結果とまったく同じであることがわかります。

しかし、もっと言うことができます。どちらかまたは考え

私のデータは通常は分散されており、標準または従来の手順を使用できます。
または、ランクベースのテストに頼る必要があります。

少し厳しく、（推奨される場合もありますが）過度に単純化されています。データと正確な目標を確認せずに、何をすべきかを正確に提案することは困難ですが、他の視点もあります。

統計の多くのユーザーは、限界（一変量）分布を見て、それらが正規性に近いかどうかを評価しますが、それは関連性がない場合もあります。たとえば、回帰タイプの手順では、限界正規性は必要ありません。多くの手順では、データがどのように動作するかではなく、平均がどのように動作するかが重要であり、主な前提条件に近くなっています。
Shapiro-Wilkテストの従来のレベルでの重要な結果でさえ（後で）、後の分析を導くという点ではあいまいです。それは単に「あなたの分布は正規分布とは明らかに異なる」ということです。それ自体は、あなたが持っている非正規性の程度が、あなたが考えていることをすべて無効または不条理にすることを意味するものではありません。それは単に意味するかもしれません：根本的な仮定が正確に満たされていないので、慎重に行ってください。（実際には、決して満足することは決してありません。）育成する習慣は、すべてのP値が近似値であると考える習慣です。（分布に関する仮定が行われていない場合でも、通常、サンプリングまたは独立性またはエラーのない測定に関する仮定は暗黙的です。）
多くのテキストとコースは別の意味を含んでいますが、ノンパラメトリック統計は見事な行き止まりのようなものです：時には有用なテストのバンドルがありますが、実際には、現代の統計の中心となる有用なモデリングのほとんどをあきらめます。
外れ値はここで言及されており、常に注意を払う必要があります。それらが不便であったり、仮定が満たされない理由であると思われるからといって、それらを省略してはなりません。時には、変換されたスケールでの分析が最善の方法です。いくつかの穏やかな外れ値は、統計の経験の浅いユーザーが恐れているほど問題ではない場合があります。小さなサンプルでは、生成プロセスが正常に行われている場合でも、データが不規則または不規則に見えることがよくあります。大きなサンプルでは、単一の外れ値が残りのデータを支配する必要はありません。
スチューデントtやマンホイットニーウィルコクソンなど、常に両方の種類のテストを実行するオプションがあります。まったく同じ質問をするわけではありませんが、同じ方向を向いているかどうかは簡単にわかります。つまり、テスト時と他のテストの両方で2つのグループが異なるという明確な信号が出された場合、結論が十分にサポートされていることをある程度確信できます（そして、非正規の風味を与えられた1つまたは他の手順に不信感を抱く懐疑者に対するある程度の防御））。2つのテストが非常に異なる答えを出す場合、これ自体が、データを分析する最良の方法について非常に慎重に検討する必要があるという有用な証拠です。（おそらく、その大規模な外れ値が、答えが出てくる方法を実際に決定します。）

$P < 0.05$

— ニックコックス
ソース

詳しい回答ありがとうございます。方法の選択に関しては、統計のほとんどのユーザーは、データを最初に見たときにかなり探索的であると信じることができます。しかし、彼らが記事を書くとき、彼らは彼らが選んだ方法を正当化する必要があります。これは、フィールドや、大量のデータのモデリングと仮説のテストのどちらに関心があるかによって部分的に異なると思います。後者の場合、Shapiro-Wilkは、どのように十分に機能していなくても、テストなしで歪度を報告してから、ノンパラメトリックテストを実施するよりも見栄えがよくなければなりません。

— trev、2013

私は、パラメトリックテストとノンパラメトリックテストの両方を実行する（5）のアイデアが非常に気に入っています。しかし、「少なくとも心理学において」「ここにさまざまな代替統計検定の結果があります」という記事はほとんど見たことがありません。彼らは1つの方法を選択してそれを報告しますが、これは問題となる可能性があります。なぜなら、心理学の記事で強調されているように、重要な結果をもたらす方法を選択できるからです。bit.ly

— trev

もちろん、複数の方法を報告する代替案は、ほぼ確実にいくつかの曖昧さをもたらします。つまり、いくつかの方法は重要であり、他の方法は重要ではありません。効果があると結論付けるには、いくつ必要ですか？5のうち4つは重要ですか？5つのうち3つはどうですか？

— trev、2013

あなたの思慮深いコメントは非常に詳細な議論に値します。私の経験では、多くの分野の人々が、与えられたデータセットの単一の正しい分析があることを示すことに非常に関心があり、それが彼らのしたことであることを確認しています。

— Nick Cox