最近、ジャーナルの投稿からレビュアーコメントを受け取りました。
外れ値とフリンジリアをどのように処理したかを報告します。
「フリンジリア」という言葉を聞いたことがなく、グーグルで検索すると、いくつかの記事がありましたが、簡潔な定義はありませんでした。したがって、「フリンジリア」とは何かを明確にし、同じ質問をする自分と将来の人々の両方に定義を提供できるような質問をするのは良いことだと思いました。
最近、ジャーナルの投稿からレビュアーコメントを受け取りました。
外れ値とフリンジリアをどのように処理したかを報告します。
「フリンジリア」という言葉を聞いたことがなく、グーグルで検索すると、いくつかの記事がありましたが、簡潔な定義はありませんでした。したがって、「フリンジリア」とは何かを明確にし、同じ質問をする自分と将来の人々の両方に定義を提供できるような質問をするのは良いことだと思いました。
回答:
フリンジリアは、それほど極端ではない種類の異常値として定義されているようです。すなわち、分布の周辺に関するデータ。
たとえば、外れ値のカットオフを定義した場合、フリンジリアは、カットオフのどちらかの側に近い値になるように操作できる場合があります(たとえば、3 SDカットオフの場合、平均から2.7から3.3 SDの間)。
Osborne and Overbay(2008)は次のように書いています:
定義はさまざまですが、外れ値は通常、変数または母集団の基準からはるかに離れたデータポイントと見なされます(たとえば、Jarrell、1994、Rasmussen、1988、Stevens、1984)。Hawkins(1980)は、異常値を「別のメカニズムによって生成されたという疑惑を喚起するほど他の観測値から大幅に逸脱している」と述べています(p。1)。外れ値は、「研究者の目には疑わしい」値(Dixon、1950、p。488)および汚染物質(Wainer、1976)としても定義されています。
そして、ワイナー(1976)から「フリンジリア」という用語を紹介します。
Wainer(1976)は、「まれにしか発生しない異常なイベント」(p。286)を参照して、「フリンジリア」の概念を導入しました。これらのポイントは、平均からの3つの標準偏差の近くにあるため、パラメーターの推定に不釣り合いに強い影響を与える可能性がありますが、分布中心に比較的近いため、通常の外れ値ほど明白ではなく、簡単に特定できません。
一部のコンテキストでは、外れ値がデータが無効であることを示唆しています。たとえば、男性の身長が8フィート(平均値より6.5 SD高い)と記録されている場合、これはおそらく無効な測定値です。対照的に、誰かの身長が6フィート10インチ(平均より3 SD上-フリンジアー)と記録されている場合、これは有効な測定値である可能性がありますが、これは非常にまれであるため、測定に問題がある可能性があります。ポイントは、値が無効かどうかを判断するのが難しくなるほど、値の極端さが少なくなるということです。
他の状況では、特に最小二乗法などを使用した標準的な統計手法を使用する場合、異常値はパラメーター推定に過度の影響を与えるため、懸念事項です。したがって、フリンジリアは一部のほとんどのケースよりも大きな影響を与える可能性がありますが、モデル化の目的でデータを保持するかどうかの決定はあまり明確ではない場合があります。
カットオフより下にあるデータポイントに対するフリンジリアの頻度を考慮する必要があると思います。「有効な」データに対するフリンジリアの比率が高い場合(いくつかの要因に基づく)、おそらくカットオフは非現実的に定義されます。あなたがテントの中にいて、この地域で唯一のクマが3マイル離れていると想像してください。しかし、それらは500あります。:)