タグ付けされた質問 「outliers」

外れ値は、データセットの単純な特徴付けと比較して、異常であるか、十分に説明されていないように見える観察です。不愉快な可能性は、これらのデータが、調査対象の人々とは異なる母集団からのものであるということです。

2
異常検出:使用するアルゴリズムは?
コンテキスト:私は、臨床データを分析して、タイプミスの可能性がある妥当ではないデータを除外するシステムを開発しています。 これまでに行ったこと: 妥当性を定量化するために、これまでの私の試みは、データを正規化し、セットD(=トレーニングセット)の既知のデータポイントまでの距離に基づいてポイントpの妥当性値を計算することでした: plausibility(p)=∑q∈DGauss(distance(p,q))plausibility(p)=∑q∈DGauss(distance(p,q))\text{plausibility}(p)=\sum_{q\in D}\text{Gauss}(\text{distance}(p,q)) その定量化により、妥当なデータと妥当でないデータを区別するしきい値を選択できます。私はpython / numpyを使用しています。 私の問題: このアルゴリズムは、独立した次元を検出できません。理想的には、レコードについて知っていることなら何でもアルゴリズムに入れて、次元Xがレコードの妥当性に影響を及ぼさないことをそれ自体で見つけることができます。 このアルゴリズムは、ブール値や選択入力などの離散値には実際には機能しません。それらは連続値にマッピングできますが、選択1が選択3よりも選択2に近いというのは直観に反しています。 質問: このタスクにはどのようなアルゴリズムを検討する必要がありますか?最近傍に基づく、クラスタリングに基づく、および統計的アプローチを含む多くのオプションがあるようです。また、この複雑さの異常検出に関する論文を見つけるのも困難です。 アドバイスは大歓迎です。 [編集]例: データが人の身長、人の体重、タイムスタンプで構成されているとしましょう。つまり、3Dデータです。体重と身長は相関していますが、タイムスタンプは完全に独立しています。ユークリッド距離を考慮する場合、交差検証データのほとんどに適合するように小さなしきい値を選択する必要があります。タイムスタンプは他のディメンションとまったく相関しないため、レコードが妥当であるかどうかを判断することは重要ではないため、アルゴリズムはタイムスタンプディメンションを無視するのが理想的です。どんなタイムスタンプももっともらしいです。 一方、タイムスタンプが重要な例を構成することができます。たとえば、フィーチャXの値Yは、特定の日付より前ではなく特定の日付より後に測定された場合に妥当である可能性があります。

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
均一ビンと非均一ビンのヒストグラム
この質問では、均一ヒストグラムと非均一ヒストグラムの基本的な違いについて説明します。そして、この質問は、ヒストグラムがデータサンプルの抽出元の分布を表す度合いを(ある意味で)最適化する均一なヒストグラムのビンの数を選択するための経験則について説明します。 均一ヒストグラムと非均一ヒストグラムについて同じ種類の「最適性」の議論を見つけることができないようです。遠く離れた外れ値を持つクラスター化されたノンパラメトリック分布があるので、不均一なヒストグラムは直感的に理解しやすくなります。しかし、私は次の2つの質問のより正確な分析を見たいです。 均一ビンのヒストグラムは、非均一ビンのヒストグラムよりも優れているのはいつですか? 不均一なヒストグラムのビンの適切な数はいくつですか? 不均一なヒストグラムのために、私たちが取る最も単純なケースと考えています順序得られ、未知の分布からサンプルをN値、及びにそれらを分離するk個の各ビンを有するようにビンkはんnnんnnkkkkんkn\frac{k}{n}N ≡ CのKn≡ckn \equiv c kccc最高max\max私ii分分\mini + 1私+1i+1

2
影響力のある残差と外れ値
まず、私はこのサイトで答えを検索したことを述べなければなりません。私の質問に答える質問が見つからなかったか、知識レベルが非常に低いため、すでに回答を読んでいることに気づきませんでした。 AP統計試験のために勉強しています。線形回帰を学ぶ必要があり、トピックの1つは残差です。253ページに統計とデータ分析の概要のコピーがあります。 2変量データセットの異常な点は、散布図の他のほとんどの点から方向または方向のいずれかに離れている点ですyバツxxyyy 観測値は、残りのデータから離れた(方向の残りのデータから分離された)値を持っている場合、潜在的に影響力のある観測値です。観測が実際に影響力があるかどうかを判断するために、この観測の削除が最小二乗ラインの勾配または切片の値に大きな影響を与えるかどうかを評価します。xバツxxバツxx 観測値に大きな残差がある場合、観測値は異常値です。外れ値の観測値は、最小二乗線から方向に大きく離れています。yyy Stattreck.comは、残差から外れ値を決定する4つの方法を述べています。 全体的なパターンから大きく逸脱するデータポイントは、外れ値と呼ばれます。データポイントを外れ値と見なす方法は4つあります。 他のデータポイントと比較して、極端なX値になる可能性があります。 他のデータポイントと比較して、極端なY値を持つ可能性があります。 X値とY値が極端になる可能性があります。 極端なXまたはY値がなくても、他のデータから離れている可能性があります。 これらの2つのソースは互いに競合しているようです。誰かが私の混乱を片付けてくれませんか。また、どのように極端を定義しますか。AP統計では、データポイントが(Q1-1.5IQR、Q3 + 1.5IQR)の外にある場合、ルールが使用されます。これは異常値です。残差のグラフだけからそれを適用する方法がわかりません。

4
オンライン異常値検出
高スループットイメージングパイプラインの一部として、自動セグメント化された顕微鏡画像を処理して、欠陥のある画像や欠陥のあるセグメンテーションを検出したい。生の画像とセグメンテーションごとに計算できる多数のパラメータがあり、画像に欠陥があると「極端」になります。たとえば、画像内のバブルは、検出された「セル」の1つに巨大なサイズなどの異常、またはフィールド全体の異常に低いセル数をもたらします。これらの異常なケースを検出する効率的な方法を探しています。理想的には、次の特性を持つメソッドをお勧めします(ほぼ望ましい順に)。 事前定義された絶対しきい値は必要ありません(ただし、事前定義されたパーセンテージは問題ありません)。 すべてのデータをメモリに保存したり、すべてのデータを確認したりする必要はありません。メソッドが適応可能で、さらに多くのデータが表示されたら基準を更新しても問題ありません。(明らかに、わずかな確率で、システムが十分なデータを確認する前に異常が発生し、見逃される可能性があります。) は並列化可能です。たとえば、最初のラウンドでは、並行して動作する多くのノードが中間候補の異常を生成し、最初のラウンドが完了した後、2番目のラウンドの選択を受けます。 私が探している異常は微妙ではありません。これらは、データのヒストグラムを見ると明白にわかる種類です。しかし、問題のデータ量、および画像が生成されているときにリアルタイムでこの異常検出を実行するという最終目標は、人間の評価者によるヒストグラムの検査を必要とするソリューションを排除します。 ありがとう!
10 outliers  online 

5
時系列データ予測で検出された外れ値を修正するにはどうすればよいですか?
時系列データで異常値を見つけて検出したら、異常値を修正する方法を見つけようとしています。Rのnnetarのようないくつかのメソッドは、大きな/大きな外れ値を持つ時系列にいくつかのエラーを与えます。私はすでに欠損値を修正することができましたが、外れ値は私の予測にまだ悪影響を及ぼしています...

1
外れ値と外れ値の違い
私は、LOFメジャー(Local Outlier Factor)で「inlier」という用語に出会いましたが、「outliers」という用語に精通しています(基本的にはliers-他のインスタンスとして動作しないインスタンス)。 異常検出のコンテキストで「インライア」とはどういう意味ですか?そしてそれはどのように外れ値と(異なる)関係があるのですか?

2
tsoutliersパッケージとauto.arimaを使用して予測を解釈および実行する方法
1993年から2015年までの月次データがあり、これらのデータを予測したいと思います。私はtsoutliersパッケージを使用して外れ値を検出しましたが、自分のデータセットを使用して予測を続行する方法がわかりません。 これは私のコードです: product.outlier<-tso(product,types=c("AO","LS","TC")) plot(product.outlier) これはtsoutliersパッケージからの私の出力です ARIMA(0,1,0)(0,0,1)[12] Coefficients: sma1 LS46 LS51 LS61 TC133 LS181 AO183 AO184 LS185 TC186 TC193 TC200 0.1700 0.4316 0.6166 0.5793 -0.5127 0.5422 0.5138 0.9264 3.0762 0.5688 -0.4775 -0.4386 s.e. 0.0768 0.1109 0.1105 0.1106 0.1021 0.1120 0.1119 0.1567 0.1918 0.1037 0.1033 0.1040 LS207 AO237 TC248 AO260 AO266 0.4228 …

2
モデル構築プロセスがインタラクティブだった場合のバックテストまたは相互検証
パフォーマンスをバックテストしたい予測モデルがいくつかあります(つまり、データセットを取得し、それを前の時点に「巻き戻し」、モデルがどのように予測的に実行されたかを確認します)。 問題は、私のモデルの一部がインタラクティブなプロセスを介して構築されたことです。たとえば、フランクハレルの回帰モデリング戦略のアドバイスに従って、1つのモデルで制限された3次スプラインを使用して、機能と応答の間の可能な非線形の関連付けを処理しました。ドメインの知識と関連の強さの一変量の測定値の組み合わせに基づいて、各スプラインの自由度を割り当てました。しかし、モデルに許可したい自由度は、データセットのサイズに明らかに依存します。これは、バックテスト時に大幅に変化します。モデルがバックテストされるたびに自由度を個別に選択したくない場合、他のオプションは何ですか? 別の例として、私は現在、高いレバレッジでポイントを見つけることによる外れ値の検出に取り組んでいます。手作業でこれを実行できた場合は、レバレッジの高い各データポイントを確認し、データがクリーンであることをサニティチェックして、フィルターで取り除くか、手動でクリーンアップします。しかし、これは一連のドメイン知識に依存しているため、プロセスを自動化する方法がわかりません。 (a)モデル作成プロセスのインタラクティブな部分を自動化する一般的な問題に対するアドバイスと解決策、または(b)これら2つのケースに対する特定のアドバイスの両方をいただければ幸いです。ありがとう!

6
異常検出のための機能を準備/構築する方法(ネットワークセキュリティデータ)
私の目標は、侵入検出の目的でクラスタリング/異常検出を使用して、ネットワークログ(Apache、syslog、Active Directoryセキュリティ監査など)を分析することです。 ログから、IPアドレス、ユーザー名、ホスト名、宛先ポート、送信元ポートなどのテキストフィールドがたくさんあります(合計15〜20フィールド)。ログに攻撃があるかどうかはわかりませんが、最も疑わしいイベント(異常値)を強調表示したいと思います。 通常、異常検出は、確率/頻度が低いポイントを異常としてマークします。ただし、ログレコードの半分には、フィールドの一意の組み合わせが含まれています。したがって、データセット内のレコードの半分は、可能な限り低い頻度になります。 クラスタリングに基づく異常検出を使用する場合(たとえば、クラスタを見つけてから、すべてのクラスタの中心から離れているポイントを選択する)、異なるポイント間の距離を見つける必要があります。私は15〜20個のフィールドを持っているので、ユーザー名、ポート、IPアドレスなどの次元の多次元スペースになります。ただし、マハラノビス距離は正規分布の特徴にのみ適用できます。これは、データポイント間の距離を見つけてクラスターを構築する方法がないことを意味します... たとえば、20レコードのデータセットに、ユーザーAlice、Bob、Carol、Dave、Eve、Frankがいるとします。それらは、データベース内で次の数の発生を持つ可能性があります:2,5,2,5,1,5。ユーザー名を数字に単にマッピングする場合、例えば Alice --> 1 Bob --> 2 Carol --> 3 Dave --> 4 Eve --> 5 Frank --> 6 次に、ユーザー名の確率分布は次のようになります。 p(1)= 0.1、p(2)= 0.25、p(3)= 0.1、p(4)= 0.25、p(5)= 0.05、p(6)= 0.25 もちろん、これは正規分布ではなく、ユーザー名を別の方法でマッピングできるため、これもあまり意味がありません... したがって、ユーザー名、アクション、ポート番号、IPアドレスなどのフィールドを番号に単純にマッピングしても、何も起こりません。 したがって、教師なしの異常/外れ値の検出を可能にするために、テキストフィールドがどのように処理/機能が通常構築されるかについてお聞きしたいと思います。 編集:データ構造。 データベーステーブルに約100列あり、Active Directoryイベントからの情報が含まれています。この100列から(私の観点から)最も重要なのは、SubjectUser、TargetUser、SourceIPaddress、SourceHostName、SourcePort、Computer、DestinationIPaddress、DestinationHostName、DestinationPort、Action、Status、FilePath、EventID、WeekDay、DayTimeです。 イベントはActive Directoryイベントであり、EventIDはログに記録されたもの(たとえば、Kerberosチケットの作成、ユーザーログオン、ユーザーログオフなど)を定義します。 データサンプルは次のようになります。 + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -+ | ID …

2
トリミングされた平均と中央値
緊急サービスへのすべての呼び出しと救急車部門の応答時間のデータセットがあります。記録を開始しなかった(値が0である)場合や、クロックを停止しなかった(値が非常に高くなる可能性がある)場合があるため、応答時間にいくつかの誤りがあることを認めました。 私は中心的な傾向を知りたいのですが、異常値を取り除くために中央値またはトリミングされた平均値を使用する方が良いかどうか疑問に思っていましたか?

1
Local Outlier Factor(LOF)検出分析のk値の選択
一連の3次元データがあり、局所異常値因子分析を使用して、最もユニークまたは奇妙な値を特定しようとしています。LOF分析で使用するk値をどのように決定しますか?私はk値が何を決定するかを理解しているので、異なるkを使用してわずかに異なる結果が表示されても驚くことはありませんが、他の値よりも1つの値に向かわせるデータセットの特性があるかどうかはわかりません。ありがとう!


1
クックの距離カットオフ値
私は料理の距離を読んで、私の回帰に大きな影響を与える異常値を特定しています。クックの最初の研究では、影響因子を特定するためにカットオフ率1は同等である必要があると彼は述べています。ただし、他のさまざまな研究では、またはをカットオフとして使用しています。4ん4n\frac{4}{n}4n − k − 14n−k−1\frac{4}{n-k-1} 私の研究では、1を超える残差のDはありません。ただし、をカットオフ、さまざまなデータがありますインフルエンサーと見なされるポイント。これらのデータポイントを削除すると、一般的な線形回帰に違いが生じるかどうかをテストすることにしました。私のIVはすべてその重要性を保持しており、明らかな変化は見られませんでした。4ん4n\frac{4}{n}(4149= .026 )(4149=.026)(\frac{4}{149}= .026) すべてのデータポイントを保持し、カットオフレート1を使用する必要がありますか?またはそれらを削除しますか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.