2Dデータの平滑化


8

データは、さまざまな時間に記録された光学スペクトル(周波数に対する光強度)で構成されています。ポイントは、x(時間)、y(周波数)の通常のグリッドで取得されました。特定の周波数での時間発展を分析するために(急上昇、続いて指数関数的減衰)、データに存在するノイズの一部を削除したいと思います。このノイズは、固定周波数の場合、ガウス分布のランダムとしてモデル化できます。ただし、一定の時間に、データは異なる種類のノイズを示し、大きなスプリアススパイクと高速振動(+ランダムガウスノイズ)を伴います。2つの軸に沿ったノイズは物理的な起源が異なるため、相関関係がないはずです。

データを平滑化するための合理的な手順は何ですか?目標は、データを歪めることではなく、「明白な」ノイズの多いアーティファクトを削除することです。(そして、過度のスムージングは​​調整/定量化できますか?)1つの方向に沿って他の方向から独立してスムージングすることが意味があるのか​​、それとも2Dでスムージングする方が良いのかわかりません。

2Dカーネル密度推定、2D多項式/スプライン補間などについて読みましたが、専門用語や基礎となる統計理論に精通していません。

私はRを使用していますが、関連しているように見える多くのパッケージ(MASS(kde2)、フィールド(smooth.2d)など)が表示されますが、どの手法を適用するかについてのアドバイスはここでは見つかりません。

あなたが私を指摘する特定の参照があれば、私はもっと学ぶことができて嬉しいです(MASSは良い本だと思いますが、おそらく非統計家には技術的すぎるかもしれません)。

編集:データを表すダミーのスペクトログラムは、時間と波長の次元に沿ったスライスです。

image2d

ここでの実際的な目標は、各波長(またはノイズが多すぎる場合はビン)の指数関数的減衰率を時間で評価することです。


測定はいくつの周波数で行われましたか?それが大きな数ではない場合、これを個々の(しかし関連する)時系列のセットとして特定することが現実的でしょうか?
Peter Ellis

@PeterEllis多数(500を言うが、一般性のために、それはさらに大きくすることができる)
バティスト

私の直感は、それらを500以上の相関する時系列として扱い、移動平均や指数平滑法などの時系列手法を使用することです。その後、2Dスムージングのみを使用し、様式化されたグラフィック表現に必要な場合にのみ使用します。私はこれを適切な「答え」に変えるのに十分なバックアップがありません。
Peter Ellis

1
「ロバスト」な方法を検討します。これらのメソッドは、外れ値の重み付けを解除しようとします。たとえば、R にはロバストなスプラインアルゴリズムがあります
。– user12719

時系列を特定のタイプの統計分析にする、時間変数に固有の何かはありますか?
バプティスト2013年

回答:


4

信号とノイズを分離するモデルを指定する必要があります。

ガウシアンと想定する測定レベルのノイズの成分があります。他のコンポーネントは、測定に依存します:

  • 「この周波数は、固定周波数の場合、ガウス分布のランダムとしてモデル化できます」。明確化が必要—周波数を考えると、ノイズコンポーネントはすべての時点で共通ですか?すべての周波数の標準偏差は同じですか?等。

  • 「しかし、一定の時間に、データは大きなスプリアススパイクと高速振動を伴う異なる種類のノイズを示します」おそらく、周波数全体にわたる強度の変化に関心があるため、それを信号からどのように分離しますか。興味深いバリエーションは、興味のないバリエーションとどういうわけか違いますか。

一般に、その特性について現実的な考えがあれば、偽のオシレーションや非ガウスノイズは大きな問題ではありません。これは、データを変換して(そしてガウスモデルを使用して)、または非ガウスエラー分布を明示的に使用してモデル化できます。測定に関連するノイズのモデリングは、より困難です。

ノイズとデータモデルの状態に応じて、mgcvパッケージのGAMのような汎用ツールでデータをモデル化できる場合や、かなりカスタマイズされたベイズ設定に簡単につながる、より柔軟なツールが必要な場合があります。 。そのようなモデル用のツールはありますが、統計学者でない場合は、それらを使用するための学習にしばらく時間がかかります。

スペクトル分析に固有のソリューションかmgcvパッケージのどちらかがあなたの最善の策だと思います。


健全な助言、おかげで、私はこれらのオプションを見て、ノイズの説明についてもっと注意深く考える必要があります。
baptiste 2013

1
光スペクトルのノイズは通常、測定された光の強度に依存し(「フォトンのカウント」はポアソンプロセスです)、多くの場合、波長/周波数にも依存します(検出器の特性のため)。インストゥルメンタルノイズの原因となるプロセスはたくさんあります。たとえば、Skoog&Leary:Principles of Instrumental Analysisを参照してください。ノイズの主な種類は、機器の種類(および実験)によって異なります。時間の経過に伴うdプロットは、マグニチュードへの明確な依存性を示し、Baptisteに強度測定があることを示唆しています(たとえば、吸光度スペクトルとは対照的)。
cbeleitesは2013

2

時系列のスペクトルは運動学実験を示唆しており、これについては確立された量の計量化学文献があります。

スペクトルについて何を知っていますか?それらはどのような種類のスペクトルですか?エダクトと製品の2種類しかないと合理的に期待できますか?

バツCS

バツspc×wl=Cspc×coメートルpScoメートルp×wl

あなたは(濃度で)指数関数的減衰を推定したいと言います。これと双線形性は、多変量曲線の解像度(MCR)を示唆しています。これは、モデルのフィッティング中に、持っている情報(たとえば、一部の物質の純粋な成分スペクトル、または指数関数的減衰のような濃度の挙動に関する仮定)を使用できるようにする手法です。

私の知る限りでは、速度論などの一部のモデルに従って濃度を平滑化することは非常に一般的ですが、スペクトルを平滑化することはそれほど一般的ではありません。ただし、アルゴリズムはそうすることができます。私は夏にアンナに滑らかさの制約を課すかどうか尋ねましたが、彼女はそうではないと私に言いました(そして良い分光学者は良いスペクトルを測定する代わりに平滑化を嫌います;-))。多くの場合、すべてのスペクトルからの情報を集約すると、純粋な成分スペクトルの優れた推定値が既に得られるため、必要もありません。

最近、「コンポーネントスペクトル」(実際には主成分)を2回平滑化しました(Dochow et al . : Raman-on-chip device and detectionファイバーwith fibre Bragg gring for analysis of solution and particle、 LabChip 、2013 and Dochow el al。:光学トラップ、AnalBioanalChemと組み合わせたラマン分光法による腫瘍細胞同定用の石英マイクロ流体チップですが、これらのケースでは、分光法の知識により、これを行うことが許可されています。私は、定期的にダウンサンプリングとスムージング補間をラマンスペクトルに適用しています(hyperSpec::spc.loess)。

平滑化が多すぎることを知る方法は?唯一の答えは「分光法と実験の種類に関する専門知識」だと思います。


編集:私は質問を読み直し、あなたは各波長での減衰を推定したいと言っています。しかし、それは本当ですか、それとも重複するスペクトルを持つ異なる種の減衰を推定しますか?


参照をありがとう。サンプルには実際には2つの種はありませんが、多少似ています(区別するために2つの異なる物理プロセス)。会議から戻ってきたら、よく見ていきます。
baptiste 2013

@baptiste:良い会議があります。どのようなプロセスがあるか教えていただけませんか?すなわち、あなたは、各プロセス「内の」分光特性が同じであると仮定し、またはことができスペクトルにわたって振動「移動」(あなたが振動パターンがあれば周波数があいまいなスペクトル)?
cbeleitesは2013

1

データは、さまざまな時間で記録された光学スペクトル(周波数に対する光強度)で構成されます。ポイントは、x(時間)、y(周波数)の通常のグリッドで取得されました。

testy=ftメートルefreqあなたecyf基底関数(bスプラインなど)と係数の合計です。限定された基底関数のセットは、粗さを直接低減するため、ホワイトノイズの大部分をキャンセルします。

2Dカーネル密度推定、2D多項式/スプライン補間などについて読みました。

...

私はRを使用していますが、関連しているように見える多くのパッケージ(MASS(kde2)、フィールド(smooth.2d)など)が表示されますが、どの手法を適用するかについてのアドバイスはここでは見つかりません。

あなたはスプライン補間について言及しましたが、私が上で述べた基底関数展開にかなりうまくそして簡単にアクセスできるfdaパッケージについては言及しませんでした。時間、周波数、および強度(3次元配列として配列)の同時測定値のセットは、1つの2変量機能データオブジェクトとしてキャプチャできます。たとえば、関数 'Data2fd'。さらに、パッケージにはいくつかの平滑化手順が用意されており、これらはすべて、本質的に滑らかなプロセスの測定におけるホワイトノイズまたは「粗さ」をキャンセルするように設計されています。

Wikipediaの以下のような物品は、FDAでのホワイトノイズの問題をフレーズ:

データは非常に正確であるため、エラーは無視できるか、大きな測定エラーが発生する可能性があります。または、データが定義する曲線との複雑な間接的な関係を持つ場合もあります。...気象ステーションでの降水量の毎日の記録は非常に変動しやすいため、平均降水量曲線のようなものを抽出するには、注意深く洗練された分析が必要です。

FDAはこれらのケースのためのツールを提供します。これはあなたのケースに当てはまりますか?

...しかし、専門用語やその根底にある統計理論に精通していません...

...しかし、ここでどの手法を適用するかについてのアドバイスはあまり見つかりません...

fdaについて:私もFDAに関するラムゼイとシルバーマンの本(2005)で基本を非常にアクセスしやすくし、ラムゼイフッカーとグレイブス(2009)は本からの洞察をRコードに直接翻訳しています。どちらのボリュームも、統計、生物科学、気候学、心理学の大学図書館で電子書籍として利用できるはずです。グーグルはまた、私がここで一緒に投稿することができないいくつかのより多くのリンクを表示します。

申し訳ありませんが、問題に対する直接的な解決策は提供できません。しかし、FDAが何のためにあるのかを理解すると、FDAは多くのことを助けてくれました。


感謝します。私は特定の1つのテクニックよりもグローバルな視点を聞きたいと思っていましたが、それが私が使うべきものであればそれはすべて良いことです。
バティスト

クレジットをありがとう。最後に、あなた自身またはあなたの直近の同僚の移住者以外は、適切な方法論を決定することができません。しかし、あなたが述べたことに照らして、私は一般的にFDAを検討します。それはあなたのデータを分析する方法をあなたにいくつかのより多くのアイデアを与えるかもしれません。
user1966337 2013年

@ user1966337:参考までに、光学分光法では、異なる波長での強度は異なる意味を持つことが多いため、コンポーネントが少ない(物理的に意味のある)双線形モデルの変量として扱うことができ、データのより限定的なモデルにつながります。場合によっては、これを許可しない効果があり、FDAがより適切である場合があります。
cbeleitesは2013

1

統計学の専門家ではなく、単純な物理学者なので、私は単純なアプローチを取るでしょう。2つの次元は性質が異なります。あるアルゴリズムでは時間に沿って平滑化し、別のアルゴリズムでは波長に沿って平滑化することは理にかなっています。

私が使用する実際のアルゴリズム:波長の場合、高次のSavitzky-Golay、6、おそらく8。

長い間、その例が典型的である場合、その突然の跳ね上がりと多かれ少なかれ指数関数的な低下がそれをトリッキーにします。実験データとノイズの多い画像があります。単純な単純な方法では十分に役に立たない場合は、ガウス平滑化を試してください。ただし、エッジ検出器によって検出されるように、ジャンプの近くでその効果を抑制してください。エッジ検出器の出力を平滑化して拡大し、0.0から1.0に正規化し、それを使用して、元の画像とガウス平滑化された画像をピクセルごとに選択します。


0

@baptiste:私が提案したようにプロットを追加してくれてうれしいです。それは多くのことを助けます:

したがって、私が正しく理解していれば、実際の目標は各波長の指数関数的減衰率を評価することです。それからそれをしましょう!最小化する関数を波長ごとに個別に定義し、最小化します。

右下のプロットのように、与えられた単一の波長を見てみましょう。

τ

τ^=argメートルτΣt||et/τd||2

ττ

後で、隣接する波長の減衰定数が類似していると思われる場合は、これをより複雑な最適化基準に組み込むことができます。

どちらかと言えば、最適化の必読の本、ボイドの凸最適化を読むことをお勧めします。

お役に立てれば!


申し訳ありませんが、誤解があるようです。私は非線形最適化に精通しています。ここで、両方の次元のノイズのために、すべての波長でフィッティングすることが信頼できない場合に、そのようなデータで使用できる平滑化手法を知りたいのです。確かに、私のダミーの例はかなりうまく機能しているように見えますが、ノイズを追加すると、視覚化するのが難しくなります。1つの方法論でフィッティングパーツとスムージングの両方を含むため、先に提案したfdaアプローチが気に入っています。
バティスト
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.