タグ付けされた質問 「outliers」

外れ値は、データセットの単純な特徴付けと比較して、異常であるか、十分に説明されていないように見える観察です。不愉快な可能性は、これらのデータが、調査対象の人々とは異なる母集団からのものであるということです。

3
極端な外れ値を持つボックスプロットを表示する方法は?
データの提示に関するガイダンスを使用できます。 この最初のプロットは、サイトカインIL-10の症例対照比較です。y軸を手動で設定して、データの99%を含めました。 これを手動で設定したのは、ケースグループに極端な異常値があるためです。 私の共同研究者は、データセットの外れ値の削除をためらっています。私はそれでいいですが、彼らはむしろそうではありません。それは明らかな解決策です。しかし、すべてのデータを保持し、この外れ値を削除しない場合、どのようにこの箱ひげ図を最適に提示できますか?軸を分割しますか?最初のグラフだけを使用して、すべてのデータを含むように作成されていることに注意してください。(このオプションは私にとって不誠実です)。どんなアドバイスも素晴らしいでしょう。

5
データクリーニングは統計分析の結果を悪化させることがありますか?
ウイルスの循環(2002年の米国の西ナイルウイルスなど)または人々の抵抗の減少、食物や水の汚染の減少、または感染者蚊。これらの流行は、1〜5年ごとに発生する可能性のある外れ値として現れます。これらの外れ値を削除することにより、予測と病気の理解の重要な部分を形成する流行の証拠を削除しています。 流行によって引き起こされた外れ値に対処する際にデータクリーニングが必要ですか? 結果を改善するか、統計分析の結果を悪化させるか?

2
Rで異常値を検出して予測を行う方法 -時系列分析の手順と方法
私は毎月の時系列データを持っていますが、外れ値を検出して予測を行いたいです。 これは私のデータセットのサンプルです。 Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 7.71 7.67 7.85 7.82 7.91 7.91 8.00 7.82 7.90 7.93 7.99 7.93 2008 8.46 8.48 9.03 9.43 11.58 12.19 12.23 11.98 12.26 …

3
財務時系列における堅牢な異常値検出
金融の時系列データ(つまりtickdata)から外れ値とエラー(原因が何であれ)を除去するための堅牢な手法を探しています。 ティックごとの財務時系列データは非常に乱雑です。これには、取引所が閉じられたときに大きな(時間)ギャップが含まれ、取引所が再び開かれたときに大きなジャンプが行われます。取引所が開いているとき、あらゆる種類の要因が間違った(発生しなかった)価格レベルでの取引を引き起こします、および/または市場を代表しません(例えば、誤って入力された入札または売値によるスパイク)。tickdata.com(PDF)によるこの論文は、問題の概要を説明するのに適していますが、具体的な解決策はほとんどありません。 この問題について言及している私がオンラインで見つけることができるほとんどの論文は、それを無視するか(tickdataがフィルターされていると想定されます)、または便利なフィルター手順を隠す巨大な取引モデルの一部としてフィルターを含めます。 この分野でより詳細な作業を知っている人はいますか? 更新: この質問は表面上は似ているように見えますが: 財務時系列は(少なくともティックレベルで)非周期的です。 開封効果は大きな問題です。なぜなら、本当にしたいのに、それ以外の場合は何も持っていないので、最終日のデータを初期化として単純に使用できないからです。外部の出来事により、新しい日のオープンは、絶対レベルと前日のボラティリティの両方で劇的に異なる場合があります。 着信データの非常に不規則な頻度。1日のほぼ開いた状態と閉じた状態では、1秒あたりのデータポイントの量は、1日の平均の10倍になります。もう1つの質問は、定期的にサンプリングされたデータに関するものです。 金融データの「外れ値」は、他のドメインでは適用できない特定の手法で検出できる特定のパターンを示しており、その特定の手法を部分的に探しています。 より極端な場合(フラッシュクラッシュなど)、外れ値は長い間隔(> 10分)でデータの75%を超える可能性があります。さらに、着信データの(高)頻度には、状況の異常値の側面に関する情報が含まれています。

5
回帰モデルを改善するために平均絶対誤差の箱ひげ図に基づいて外れ値を削除するのはごまかしですか
下の箱ひげ図に示すように、4つの方法でテストされた予測モデルがあります。モデルが予測する属性の範囲は0〜8です。 すべてのメソッドで、1つの上限外れ値と3つの下限外れ値が示されていることに気付くかもしれません。これらのインスタンスをデータから削除することが適切かどうか疑問に思いますか?または、これは予測モデルを改善するための一種の不正行為ですか?

2
影響力のあるポイント、高レバレッジポイント、および外れ値の正確な意味と比較?
ウィキペディアから 影響力のある観測とは、回帰モデルの予測に比較的大きな影響を与える観測です。 ウィキペディアから レバレッジポイントは、独立変数の極値または外れ値で行われた観測値であり、隣接する観測値の欠如は、近似回帰モデルがその特定の観測値の近くを通過することを意味します。 ウィキペディアからの次の比較はなぜですか 通常、影響力のあるポイントには高いレバレッジがありますが、高いレバレッジポイントは必ずしも影響力のあるポイントではありません。

2
正規分布のパラメーターの推定:平均ではなく中央値?
正規分布のパラメーターを推定するための一般的なアプローチは、平均とサンプルの標準偏差/分散を使用することです。 ただし、外れ値がある場合は、中央値と中央値からの中央値偏差がより堅牢になりますよね? いくつかのデータセットでは、私は、によって推定正規分布しようとしたN(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|)古典よりもはるかに優れフィット作るように思わN(μ^,σ^)N(μ^,σ^)\mathcal{N}(\hat\mu, \hat\sigma)の平均を使用してのRMS偏差。 データセットにいくつかの異常値があると仮定した場合、中央値を使用しない理由はありますか?このアプローチのリファレンスを知っていますか?Googleでのクイック検索では、ここで中央値を使用する利点を説明する有用な結果が見つかりませんでした(ただし、明らかに、「正規分布パラメーター推定中央値」は検索用語の特定のセットではありません)。 偏差の中央値は偏っていますか?乗算する必要がありn−1nn−1n\frac{n-1}{n}バイアスを減らすためにますか? ガンマ分布や指数関数的に修正されたガウス分布(パラメーター推定にスキューネスが必要であり、外れ値が実際にこの値を台無しにする)などの他の分布に対する同様の堅牢なパラメーター推定アプローチを知っていますか?

3
ロバスト平均推定のクラッシュコース
私にはたくさんの(約1000)の推定値があり、それらはすべて長期的な弾力性の推定値であると想定されています。もう少しこれらの半分以上が、私は、メソッドBが何か推計だと思う」のようなB.どこかに私が何かを読む方法使用方法Aと休息を用いて推定される非常に見積もりが高い(50から60パーセント)くらいあるので、方法Aとは異なるが「。堅牢な統計に関する私の知識はほとんどないため、両方のサンプルのサンプル平均と中央値のみを計算しました...すぐに違いがわかりました。方法Aは非常に集中しており、中央値と平均値の差はほとんどありませんが、方法Bのサンプルは大きく異なります。 外れ値と測定誤差がメソッドBのサンプルを歪めると結論付けたので、理論と非常に矛盾する約50の値(約15%)を捨てました...そして突然、両方のサンプル(CIを含む)の平均は非常に似ていました。密度もプロットします。 (外れ値を排除するために、サンプルAの範囲を調べ、その範囲外にあるBのすべてのサンプルポイントを削除しました。)手段の堅牢な推定の基本を見つけることができる場所を教えてくださいこの状況をより厳密に判断させてください。そして、いくつかの参照があります。さまざまな手法を深く理解する必要はありませんが、堅牢な推定の方法論に関する包括的な調査を読んでください。 外れ値を削除した後の平均差の有意性についてt検定を行い、p値は0.0559(t約1.9)であり、完全なサンプルの場合、t statは約4.5でした。しかし、それは実際にはポイントではありません。平均は少し異なる可能性がありますが、上記のように50〜60%異なることはありません。そして、彼らはそうは思わない。

3
多項式回帰から信頼帯を理解する
以下のグラフに表示される結果を理解しようとしています。通常、Excelを使用して線形回帰線を取得する傾向がありますが、以下の場合はRを使用しており、コマンドで多項式回帰を取得します: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() だから私の質問はこれに要約されます: 青い回帰線の周りの灰色の領域(矢印#1)は何ですか?これは多項式回帰の標準偏差ですか? 灰色の領域の外側(矢印#2)が「外れ値」であり、灰色の領域の内側(矢印#3)が標準偏差内にあると言えますか?

5
外れ値を検出する簡単な方法はありますか?
外れ値を検出する簡単な方法があるかどうか疑問に思っています。 基本的に、回答者が1週間に身体活動に参加する回数と1週間に家の外で食べる回数(ファーストフード)の相関関係である私のプロジェクトの1つで、散布図を描き、文字通り削除しました極端なデータポイント。(散布図は負の相関を示しました。) これは価値判断に基づいていました(これらのデータポイントが明らかに極端である散布図に基づいています)。統計的検定はしませんでした。 これが外れ値に対処する健全な方法であるかどうか疑問に思っています。 私は350人からのデータを持っているので、(たとえば)20データポイントの損失は私にとって心配ではありません。

1
「RMSEの2.5倍」に基づく外れ値の削除
でカーネマンとDeaton(2010)†††^\dagger、著者は次のように記述します。 この回帰により、分散の37%が説明され、二乗平均平方根誤差(RMSE)は0.67852です。外れ値と妥当でない収入レポートを排除するために、ログ収入とその予測の差の絶対値がRMSEの2.5倍を超える観測値を削除しました。 これは一般的な慣習ですか?そうすることの背後にある直感は何ですか?そもそも明確に指定されていない可能性のあるモデルに基づいて外れ値を定義することは、やや奇妙に思えます。外れ値の決定は、モデルが実際の値をどれだけうまく予測するのではなく、もっともらしい値を構成するもののいくつかの理論的根拠に基づいてはいけませんか? ††\dagger:Daniel Kahneman、Angus Deaton(2010):高収入は人生の評価を改善しますが、感情的な幸福は改善しません。全米科学アカデミーの論文集2010年9月、107(38)16489-16493; DOI:10.1073 / pnas.1011492107


2
入力データの近傍情報の使用またはオフデータの検索(R)
最近傍が最適な予測子であるという仮定のデータセットがあります。視覚化された双方向グラデーションの完璧な例 欠落している値がほとんどない場合があると仮定すると、近傍と傾向に基づいて簡単に予測できます。 Rの対応するデータマトリックス(トレーニングのダミーの例): miss.mat <- matrix (c(5:11, 6:10, NA,12, 7:13, 8:14, 9:12, NA, 14:15, 10:16),ncol=7, byrow = TRUE) miss.mat [,1] [,2] [,3] [,4] [,5] [,6] [,7] [1,] 5 6 7 8 9 10 11 [2,] 6 7 8 9 10 NA 12 [3,] 7 8 9 10 11 12 13 …

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

4
サンプルから2つの母集団を分離する
1つのデータセットから2つのグループの値を分離しようとしています。母集団の1つは正規分布しており、サンプルのサイズの少なくとも半分であると想定できます。2番目の値は、最初の値よりも低いか高いです(分布は不明です)。私がやろうとしているのは、通常の分布人口を他の人口から囲む上限と下限を見つけることです。 私の仮定は出発点を提供します: サンプルの四分位範囲内のすべてのポイントは、正規分布の母集団からのものです。 私は、それらが通常の分布の母集団の3 st.devに収まらないまで、残りのサンプルからそれらを取得する外れ値をテストしようとしています。これは理想的ではありませんが、十分に妥当な結果が得られるようです。 私の仮定は統計的に正しいですか?これについて行くためのより良い方法は何でしょうか? 誰かタグを修正してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.