統計とビッグデータ outliers

1

週ごとの季節性を持つかなり予測可能な毎日の時系列があります。休日がない場合、かなり正確であると思われる予測（クロスバリデーションによって確認された）を思いつくことができます。ただし、休日がある場合、次の問題があります。過去のすべての休日が0であっても、予測では休日に0以外の数値が表示されます。これは実際には主要な問題ではありません。問題は... 休日に発生しない処理は、休日の翌日に「波及」するため、これらの異常値は短期的な革新的であるように見えるため、単純なダミー変数はそれをカットしません。週ごとの季節性がない場合は、休日の5日前後にわたって休日に未処理のデータを配布するための見積もりを考え出すことができます（休日のリード/ラグの影響を反映する変数の作成方法/時系列分析におけるカレンダー効果？）ただし、「スピルオーバー」の分布は、休日が発生する曜日、および休日がクリスマスまたは感謝祭であるかどうかに依存します。クリスマスまたは感謝祭では、年の残りよりも低いレートで注文が行われます。クロスバリデーションのいくつかのスナップショットを以下に示します。これらのスナップショットは、異なる曜日に表示される休日の予測結果（青）と実際の結果（赤）を示しています。また、クリスマスの影響はそれが属する曜日に依存するのではないかと心配しています。また、6年ほどの履歴データしかありません。予測の文脈でこれらのタイプの革新的な外れ値に対処する方法についての提案はありますか？（残念ながら、データを共有することはできません）

12 time-series forecasting arima outliers

3

ブースティング法が外れ値に敏感な理由

ブースティング方法は外れ値に敏感であると述べている記事を多く見つけましたが、その理由を説明する記事はありません。私の経験では、外れ値はどの機械学習アルゴリズムにとっても悪いのですが、なぜブースティング法が特に敏感であると特定されているのですか？ブースターツリー、ランダムフォレスト、ニューラルネットワーク、SVM、ロジスティック回帰などの単純な回帰法など、外れ値に対する感度の観点から、次のアルゴリズムはどのようにランク付けされますか？

12 machine-learning svm outliers cart boosting

4

外れ値を削除するのに適した形式ですか？

私はソフトウェアビルドの統計情報に取り組んでいます。成功/失敗および経過時間に関する各ビルドのデータがあり、1週間あたり約200を生成します。成功率は簡単に集計でき、45％がどの週にも合格したと言えます。しかし、経過時間も集計したいので、データを不当に誤って伝えないようにしたいと思います。私はプロに尋ねた方が良いと考えました:-) 期間が10あるとします。それらは、成功と失敗の両方のケースを表します。一部のビルドはすぐに失敗します。これにより、時間が非常に短くなります。テスト中にハングし、最終的にタイムアウトになるものがあり、非常に長い時間がかかります。さまざまな製品をビルドしているため、成功したビルドでも90秒から4時間の間で異なります。私はこのようなセットを得るかもしれません： [50, 7812, 3014, 13400, 21011, 155, 60, 8993, 8378, 9100] 私の最初のアプローチは、セットをソートして中央値を選択することにより中央値時間を取得することでした。この場合は7812です（偶数セットの算術平均は気にしませんでした）。残念ながら、特定の値を1つだけ選択するため、これは多くのバリエーションを生成するようです。したがって、この値をトレンドにした場合、どのビルドが中央値にあったかに応じて、5000〜10000秒の間で跳ね返ります。そこで、これを滑らかにするために、別のアプローチを試みました。外れ値を削除して、残りの値の平均を計算します。私はそれを三分位に分割し、中央のものだけで作業することにしました： [50, 60, 155, 3014, 7812, 8378, 8993, 9100, 13400, 21011] -> [50, 60, 155], [3014, 7812, 8378, 8993], [9100, 13400, 21011] -> [3014, 7812, 8378, 8993] これが私にとって良く見える理由は2つあります：より高速なビルドではアクションは必要ありません。既に問題ありません最も長いビルドはタイムアウトが原因である可能性が高く、常に存在します。それらを検出する他のメカニズムがありますだから、これは私が探しているデータであるように思えますが、まあ、真実を取り除くことで滑らかさを達成したのではないかと心配しています。これは議論の余地がありますか？メソッドは正常ですか？ありがとう！

12 outliers robust average

3

異常検出の欠損値を含む時系列のSTL

私は、時系列の気候データから異常値を検出しようとしていますが、いくつかの観測値が欠落しています。Webを検索すると、利用可能な多くのアプローチが見つかりました。これらのうち、トレンドおよび季節成分を除去し、残りを調査するという意味で、stl分解は魅力的であるように思われます。STLの読み取り：黄土に基づく季節トレンド分解手順はstl、外れ値の影響を受けず、値が欠落していても適用できる変動性の割り当て設定を柔軟に決定できるようです。しかし、R4年の観察でそれを適用しようとし、http：//stat.ethz.ch/R-manual/R-patched/library/stats/html/stl.htmlに従ってすべてのパラメータを定義すると、私は遭遇しますエラー： "time series contains internal NAs"（when na.action=na.omit）、および "series is not periodic or has less than two periods"（when na.action=na.exclude）。周波数が正しく定義されていることを再確認しました。ブログで関連する質問を見てきましたが、これを解決できる提案は見つかりませんでした。stl欠損値があるシリーズに適用することはできませんか？アーティファクトを導入する（および結果として検出する）ことは望ましくないため、それらを補間することは非常に嫌です。同じ理由で、代わりにARIMAアプローチを使用することがいかに望ましいかはわかりません（値の欠落が依然として問題になる場合）。 stl欠損値のあるシリーズに適用する方法を知っている場合、私の選択が方法論的に適切でないと思われる場合、またはより良い提案がある場合は共有してください。私はこの分野ではかなり新しく、関連情報の山（一見...）に圧倒されています。

12 r time-series outliers missing-data

1

RのPROC Mixedとlme / lmerの違い-自由度

注：法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。次のデータセットから開始します（以下のRコード）。 ind：測定が行われる個人を示す因子 fac：測定が行われる臓器 trt：治療を示す因子 y：連続応答変数アイデアは、次の単純なモデルを構築することです： y ~ trt + (ind)：indランダムな要因として y ~ trt + (fac(ind))：facにネストされたindランダムな要因として、最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

3

非常に小さなセットでの異常値の検出

12のサンプル光度値が与えられた場合、主に安定した光源の明るさの値をできるだけ正確にする必要があります。センサーは不完全であり、光は時々明るくまたは暗く「ちらつく」ことがありますが、無視してかまいません。そのため、外れ値を検出する必要があると思います（そうでしょうか）。私はここでさまざまなアプローチについていくつか読んだことがありますが、どのアプローチを採用するか決定できません。外れ値の数は事前にわからないため、多くの場合ゼロになります。フリッカーは通常、安定した明るさからの非常に大きな偏差です（大きなものが存在する場合、平均値を実際に乱すのに十分です）が、必ずしもそうではありません。質問を完全にするための12の測定値のサンプルセットを次に示します。 295.5214、277.7749、274.6538、272.5897、271.0733、292.5856、282.0986、275.0419、273.084、273.1783、274.0317、290.1837 292と295は少し高いように見えますが、私の直感では、その特定のセットにはおそらく異常値はありません。だから、私の質問は、ここでの最善のアプローチは何でしょうか？値は、ゼロ（黒）ポイントからの光のRGおよびBコンポーネントのユークリッド距離をとることから得られることを述べておかなければなりません。必要に応じてこれらの値に戻すのは、プログラム的には困難ですが可能です。ユークリッド距離は、「全体的な強さ」の尺度として使用されました。私は色に興味がなく、出力の強さだけだからです。ただし、私が言及したフリッカーは、通常の出力とは異なるRGB構成になる可能性があります。現時点では、許可された測定値の安定したメンバーシップに到達するまで繰り返される、ある種の機能をいじっています。標準偏差を見つける外のすべてのものを無視リストに2 SDと表示する無視リストを除外して平均とSDを再計算する新しい平均とSDに基づいて無視するユーザーを再決定（12をすべて評価）安定するまで繰り返します。そのアプローチに価値はありますか？すべてのコメントはありがたいことに受け入れられました！

12 classification outliers algorithms

4

時系列の異常値の検出：誤検知を減らす方法は？

私は、時系列で異常値の検出を自動化しようとしています。ここでは、Rob Hyndmanによって提案されたソリューションの修正を使用しました。たとえば、さまざまな国からのWebサイトへの毎日のアクセスを測定します。毎日の訪問が数回または数千回であるいくつかの国では、私の方法は合理的に機能しているようです。ただし、国が1日に1回または2回しか訪問しない場合、アルゴリズムの制限は非常に狭く（1±0.001など）、2回の訪問は異常値と見なされます。どのようにしてそのようなケースを自動的に検出し、どのようにそれらを処理して異常値を特定できますか？たとえば、1日あたり100回の訪問という手動のしきい値を設定したくありません。ありがとうございました！

11 time-series outliers computational-statistics

1

尖度のロバストな推定？

尖度の通常の推定量であるを使用していますが、経験的分布では小さな「外れ値」でさえあることに気付きました、つまり中心から離れた小さなピークは、それを大きく影響します。より堅牢な尖度推定器はありますか？K^=μ^4σ^4K^=μ^4σ^4\hat{K}=\frac{\hat{\mu}_4}{\hat{\sigma}^4}

11 outliers robust moments kurtosis

2

一般化線形混合モデル：診断

ランダムな切片ロジスティック回帰（繰り返し測定による）があり、特に外れ値と影響力のある観測に関して、いくつかの診断を行いたいと思います。残差を見て、目立つ観測があるかどうかを確認しました。しかし、クックの距離やDFFITSのようなものも見てみたいと思います。HosmerとLemeshow（2000）は、相関データのモデル診断ツールがないため、相関を無視して通常のロジスティック回帰モデルに適合させ、通常のロジスティック回帰に使用できる診断ツールを使用する必要があると述べています。彼らは、これは診断をまったく行わないよりもましだと主張している。この本は2000年のもので、混合効果ロジスティック回帰によるモデル診断に現在利用できる方法はあるのでしょうか。外れ値をチェックするための良いアプローチは何でしょうか？編集（2013年11月5日）：応答がないため、混合モデルで診断を行うことが一般的に行われていないのか、それともデータのモデリング時に重要なステップではないのかと思います。だから私の質問を言い換えましょう：「良い」回帰モデルを見つけたらどうしますか？

11 mixed-model outliers glmm cooks-distance

1

異常検出のための自動機能選択

異常検出の機能を自動的に選択する最良の方法は何ですか？私は通常、異常検出を専門家が機能を選択するアルゴリズムとして扱います。重要なのは出力範囲（「異常な入力-異常な出力」など）なので、多くの機能を組み合わせても、はるかに小さなサブセットを思い付くことができます。機能。ただし、一般的には機能リストが膨大になる可能性があると仮定すると、おそらく自動学習が望ましい場合があります。私が見る限り、いくつかの試みがあります：サポートベクトルデータ記述を一般化する「異常検出の自動機能選択」（pdf）「ラフセット理論を使用した高速なホストベースの侵入検知システム」（PDFはありませんか？）ラフセット理論を使用していると思います統計的手法を用いた「敵意のあるネットワークトラフィックの異常検出のための学習ルール」（pdf、ビデオ）だから今私は誰かが言うことができるのだろうか-異常検出と本当に大きな（数百？）機能セットを想定：それらの巨大な機能セットはまったく意味がありますか？機能の設定を、たとえば、数十個に減らすだけでいいのではないでしょうか。それだけです。巨大な機能セットが理にかなっている場合、上記のアプローチのどれがより良い予測を与えるでしょう、そしてなぜですか？記載されていないものはありますか？クラスタリング/ランク付けなどによる次元削減や機能構築などと比較して、より良い結果が得られるのはなぜですか？

11 feature-selection outliers

3

平均GPSポイントを見つける

ポイントの母集団から平均GPSポイントを見つけるプログラムを書く必要があります。実際には、次のことが起こります。毎月、人は同じ静的アセットのGPSポイントを記録します。 GPSの性質上、これらのポイントは毎月若干異なります。時々人は間違いを犯し、完全に別の場所で間違った評価を記録します。各GPSポイントには、現在のGPSデータがどれだけ正確であるかを示す確信度の重み（HDOP）があります。より良いHDOP値を持つGPSポイントが、低いものよりも優先されます。以下をどのように判断しますか： 2つの値と、年齢などの単一の値を持つデータを扱います。（人口の平均年齢を見つける）外れ値を決定します。以下の例では、これらは[-28.252、25.018]と[-28.632、25.219]になります。外れ値を除外した後、これで平均GPSポイントを見つけます[-28.389、25.245]。各ポイントのHDOP値によって提供される「ウェイト」を機能させることができれば、それはボーナスになります。

11 outliers spatial

6

非線形回帰の異常値の特定

ダニの機能的反応の研究をしています。ロジャースタイプII関数のパラメーター（攻撃率と処理時間）を推定するために回帰を行いたいと思います。測定のデータセットがあります。どうすれば外れ値を最も正確に特定できますか？私の回帰のために私はR（非線形回帰）で次のスクリプトを使用します（datesetと呼ばれるシンプルな2カラムのテキストファイルであるdata.txtと、ファイルN0の値（初期獲物の数）とFR値（24時間の間に食べた獲物の数）： library("nlstools") dat <- read.delim("C:/data.txt") #Rogers type II model a <- c(0,50) b <- c(0,40) plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR") rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)} params1 <- list(attackR3_N=0.04,Th3_N=1.46) RogersII_N <- nls(FR~rogers.predII(N0,attackR3_N,Th3_N,T=24),start=params1,data=dat,control=list(maxiter= 10000)) hatRIIN <- predict(RogersII_N) lines(spline(N0,hatRIIN)) summary(RogersII_N)$parameters カルセック残差グラフをプロットするには、次のスクリプトを使用します。 res <- nlsResiduals (RogersII_N) plot (res, type = 0) hist (res$resi1,main="histogram …

11 r outliers nonlinear-regression

3

データの前処理と外れ値の検出手法を扱った優れた本

タイトルが進むにつれ、データの前処理全般、特に外れ値の検出手法を扱った最新の優れた本を知っている人はいますか？本はそれだけに焦点を合わせる必要はありませんが、前述のトピックを徹底的に扱う必要があります-私は出発点であるものに満足せず、論文のリストを引用し、さまざまな手法の説明が本自体。欠落データを処理するための手法が望ましいが、必須ではない...

11 dataset data-mining references outliers

2

外れ値を検出するためのIQRの精度

プロセスの実行時間を分析するスクリプトを書いています。それらの分布はわかりませんが、プロセスが「長すぎる」かどうかを知りたいです。これまでのところ、最後の実行時間の3つの標準偏差（n> 30）を使用してきましたが、データが正常でない場合（これは正常ではないように見える）、これは有用なものではないと言われました。私は次のような異常値テストを見つけました： IQR = Q3-Q1である四分位範囲を見つけます。Q3は3番目の四分位数、Q1は最初の四分位数です。次に、次の2つの数値を見つけます。 a）Q1-1.5 * IQR b）Q3 + 1.5 * IQR <aまたは> bの場合、ポイントは異常値です私のデータは2秒、3秒、2秒、5秒、300秒、4秒などの傾向があります。ここで、300秒は明らかに異常値です。どちらの方法が良いですか？IQR法または標準偏差法？

11 outliers reliability average

2

回帰を使用した異常値の検出

外れ値の検出に回帰を使用できますか。外れ値を削除して回帰モデルを改善する方法があることを理解しています。ただし、ここでの主な目的は、回帰モデルを適合させることではなく、回帰を使用してライアを見つけることです

11 regression outliers

タグ付けされた質問 「outliers」

タグ付けされた質問「outliers」