非常に小さなセットでの異常値の検出


12

12のサンプル光度値が与えられた場合、主に安定した光源の明るさの値をできるだけ正確にする必要があります。センサーは不完全であり、光は時々明るくまたは暗く「ちらつく」ことがありますが、無視してかまいません。そのため、外れ値を検出する必要があると思います(そうでしょうか)。

私はここでさまざまなアプローチについていくつか読んだことがありますが、どのアプローチを採用するか決定できません。外れ値の数は事前にわからないため、多くの場合ゼロになります。フリッカーは通常、安定した明るさからの非常に大きな偏差です(大きなものが存在する場合、平均値を実際に乱すのに十分です)が、必ずしもそうではありません。

質問を完全にするための12の測定値のサンプルセットを次に示します。

295.5214、277.7749、274.6538、272.5897、271.0733、292.5856、282.0986、275.0419、273.084、273.1783、274.0317、290.1837

292と295は少し高いように見えますが、私の直感では、その特定のセットにはおそらく異常値はありません。

だから、私の質問は、ここでの最善のアプローチは何でしょうか?値は、ゼロ(黒)ポイントからの光のRGおよびBコンポーネントのユークリッド距離をとることから得られることを述べておかなければなりません。必要に応じてこれらの値に戻すのは、プログラム的には困難ですが可能です。ユークリッド距離は、「全体的な強さ」の尺度として使用されました。私は色に興味がなく、出力の強さだけだからです。ただし、私が言及したフリッカーは、通常の出力とは異なるRGB構成になる可能性があります。

現時点では、許可された測定値の安定したメンバーシップに到達するまで繰り返される、ある種の機能をいじっています。

  1. 標準偏差を見つける
  2. 外のすべてのものを無視リストに2 SDと表示する
  3. 無視リストを除外して平均とSDを再計算する
  4. 新しい平均とSDに基づいて無視するユーザーを再決定(12をすべて評価)
  5. 安定するまで繰り返します。

そのアプローチに価値はありますか?

すべてのコメントはありがたいことに受け入れられました!


痛みを伴いますが、フリッカーが実際には異なるRGBコンポーネントを持っている可能性があるという推測(黒からの距離が似ている場合もあります)は、追跡する価値があります。別のオプションは、目的に応じて、平均ではなく中央値を使用することです。
ウェイン

回答:


7

小さなサンプルの異常値は、常に検出が非常に難しい場合があります。ほとんどの場合、実際に私が主張するのは、データがはっきりと破損していないと感じた場合、「異常な」値は問題にならない可能性があり、その除外は無理かもしれないということです。おそらく、堅牢な統計手法を使用する方が賢明であり、中間的なソリューションに近いでしょう。小さなサンプルがあります。すべてのサンプルポイントを数えるようにしてください。:)

あなたの提案するアプローチについて:68-95-99.7ルールを使用して、データに正規性の仮定を急いで強制しません(2SDヒューリスティックルールで何らかの方法で行うようです)。チェビシェフの1回の不等式は、75-88.9-93.8ルールを前提としていますが、これは明らかに厳格ではありません。他の「ルール」も存在します。ウィキペディアの外れ値補題の外れ値識別セクションには、ヒューリスティックのバンドルがあります。

私が問題に遭遇してきた自由帳参照、:ここでは別のものである NIST / SEMATECH統計的方法の電子ハンドブック IglewiczとHoaglin(1993)によって、プレゼント、次のアイデアは:使用して変更さ -scores:そのようにZM

Mi=.6745(xix~)/MAD

ここで、は中央値で、MADはサンプルの絶対偏差中央値です。次に、3.5を超える絶対値が潜在的な外れ値であると仮定します。これはセミパラメトリックな提案です(それらのほとんどがそうであるように、ここのパラメーターは)。あなたの例の場合、それはあなたの295.5をわずかに除外しますが、あなたの292.6の測定値を明らかに保持します...(価値があるため、私はあなたの例のケースから値を除外しません。)x~M3.5

繰り返しますが、サンプルが非常に小さい場合、サンプルが明らかに破損していない(人間の身長9'4 ")と思われる場合は、データを急いで除外しないことをお勧めします。「疑わしい外れ値」は破損していないデータかもしれません。それらの使用は、分析に害を与えるのではなく、実際に役立つ可能性があります。


1
小さな点ですが、特にドキュメントを不注意に読んだり引用したりした場合にかみつく可能性があります。平均値の非常に一般的な使用を、中央値の表記は強くお勧めしません。奇妙なことに、そうでない場合でも、中央値には一般的に表記法が使用されていないようですが、ほとんどの場合、よりも優れてい(例:medまたは。x¯x¯x~
Nick Cox

1
+1は、ロバストな要約の価値を強く強調します。このサイトの他のスレッドも参照してください。
Nick Cox

1
@NickCox:良い点、そもそも何を考えていたのかわからない。今それを変えた。提案をありがとう。
usεr11852


0

最初にポイントしてください-RGBカラーに戻る価値があるかもしれません。データを捨てることはめったにありません、そしてRGBベクトルの大きさは明るさを表す唯一の方法ではありません- 知覚される明るさはHSVのと同様に異なります。

しかし、それを片側に置いて、あなたが持っているデータを扱う場合、これをモデル化ではなく分類問題として形成し、機械学習を行うことを検討しましたか?入力があり、これは12個の実際の値(輝度の読み取り値)を持つベクトルです。出力があり、これは12のバイナリ値のベクトルです(1 = inlier、0 = outlier)。輝度の読み取り値のセットをいくつか取得し、手動でラベルを付け、各セットのどの輝度の読み取り値がインライア/アウトライアであるかを示します。このようなもの:

x1 = {212.0、209.6、211.5、、213.0}、y1 = {1,0,1、、1}

x2 = {208.1、207.9、211.2、、208.2}、y2 = {1,1,0、、1}

x3 = {223.4、222.9、222.8、、223.0}、y3 = {1,1,1、、1}

次に、ある種の分類子を使用してロット全体を実行します。

  • 12の異なるバイナリ値を出力する単一の分類子を使用できます。ニューラルネットワークを使用すると、これを簡単に設定できます。
  • または、標準のバイナリ分類子(SVMliteなど)を使用して、12の異なるモデルをトレーニングし、1つは出力の各要素がインライア/アウトライアかどうかを分類します。

これで完了です。自分で外れ値と外れ値を区別する「ルール」を探すのに大騒ぎする必要はありません。賢明に見えるいくつかのデータセットを取得し、マシンにそれを実行させます:)

~~~

編集:ちなみに、ガウシアンを繰り返し当てはめて、各サンプルを2標準偏差以上離れた外れ値として分類する提案された方法は、期待値最大化アルゴリズムによく似ています。このようなもの:

  • 単一のガウス成分(インライアのモデリング)
  • 均一な背景コンポーネント(外れ値)
  • ガウスの幅に明白ではない方法で依存するそれぞれの事前確率(「2つの標準偏差で分類する」ルール)。
  • 期待段階でのハード分類。

その経路をたどる場合は、EMアルゴリズムを調べて、モデルに組み込む前提を確認することをお勧めします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.