回答:
直感:直感は次のとおりです:ノイズはまれなイベントであり、他のイベントと比較すると、実際には存在しないはずの異常値のように見えます。
たとえば、高速道路を通過するすべての車の速度を測定してプロットすると、通常は次のような範囲にあることがわかります。 時速 mph。ただし、上司のデータを検査していると、速度を記録したことがわかります。mph。この値は、高速道路での実際の車の速度を物理的に理解できないだけでなく、他のデータからも大きく突き出しています。このイベントを奇妙な測定エラーまでチョーキングし、それを削除して、残りのデータを上司に渡します。
ただし、毎日測定を続けると、時々、速度のワイルドな測定値が得られることに気づきます。たとえば、1時間のスパンで1000台の車を測定し、その速度は そして mph、しかしそれらの3つはの速度を持っています mph、 mph、そして 時々、地方の法律だけでなく、理論物理学の法律も破ります。
あなたは継続的に立ち入る必要があることにうんざりし、手で安いレーダーによって引き起こされたこれらの誤ったデータポイントを削除します。結局のところ、あなたの上司は実際には速度の統計にのみ関心があり、実際のすべての値に関心があるわけではありません。彼はのために素敵なヒストグラムを作るのが好き彼の上司。
これらの誤った数値は、みなさんが考える「ノイズ」の一種です。「ノイズ」は、怪しげな質屋から購入した安値レーダーが原因です。ノイズはホワイトガウスノイズの加法性ですか?(AWGN)。はい、いいえ-スペクトルは広帯域で白色ですが、一時的にまれで、まばらで、非常に局所化されています。これは「ソルトアンドペッパー」ノイズと呼ばれる方がよい(特に画像処理ドメインでは)。
したがって、実行できることは、中央値フィルターを介してデータを実行することです。あなたの中央値フィルターは一言言うでしょう、速度ポイント(ポイント1〜5)は中央値を見つけ、その値を「平均」速度として吐き出します。次に、次の5ポイント(ポイント2〜6)を取り、その中央値を取り、これを平均として吐き出します。
光速よりも速い速度の1つに遭遇するとどうなりますか?あなたの5つの速度が[45、65、50、999999、75]であったとしましょう。通常の平均を取ると、ここでの「平均」速度はかなり大きくなります。ただし、中央値を取ると、「平均」は65になります。実際に測定しようとしている平均に最も近いのはどれですか。中央値メトリック。
したがって、メジアンフィルターでデータをフィルター処理すると、それらの外れ値が確実に削除され、信号が忠実に「ノイズ除去」されます。対照的に、従来のフィルタリングを介してノイズを除去しようとした場合(移動加重和以外はありません)、代わりにデータ全体のエラーを「塗りつぶし」、それを取り除きません。
数学:数学はこれです:測定値の中央値は、オーダー統計と呼ばれるものです。つまり、注文された後、ある時点に沿ってデータの値を返します。maxとminはどちらも順序統計です-順序付けされた後、データの極値を返します。中央値を取ると、順序付けされたデータの値も返されますが、真ん中からです。
しかし、なぜそれらが平均フィルターと異なるのですか?まあ、平均フィルターはすべてのデータを使用して平均を計算します。最大値、最小値、中央値から気づいた場合、すべてのデータを使用せずに回答を得ています。実際、中央値で行うことは、データを並べて、真ん中の値を選択することだけです。測定した大きな速度のように、外れ値に「触れる」ことはありません。
これが中央値-注文統計-が異常値ノイズを「除去」できる理由です。外れ値ノイズは中央値の前にそれ自体を分離し、中央値はそれに近づいたり考慮したりすることはありませんが、中心傾向の良い見積もりを提供します。