私は、多くの被験者が身に着けている複数のセンサーで収集された加速度計データの大規模なセットを扱っています。残念ながら、ここでは誰もデバイスの技術仕様を知らないようで、デバイスが再調整されたことはないと思います。デバイスに関する情報があまりありません。私は修士論文に取り組んでいます。加速度計は別の大学から借りたもので、全体として少し不透明な状況でした。では、デバイスに搭載されている前処理はどうでしょうか?全く分からない。
私が知っているのは、それらが20Hzサンプリングレートの3軸加速度計であることです。デジタルとおそらくMEMS。私は非言語的行動と身振りに興味があります。私の情報源によると、これらは主に0.3〜3.5 Hzの範囲の活動を生成するはずです。
データの正規化はかなり必要だと思われますが、何を使用すればよいかわかりません。データの非常に大きな部分は残りの値(重力からの未加工値〜1000)に近いですが、一部のログでは最大8000、他のログでは最大29000のような極端なものもあります。下の画像を参照してください。これは、正規化するためにmaxまたはstdevで除算するのは悪い考えだと思います。
このような場合の通常のアプローチは何ですか?中央値で割りますか?パーセンタイル値?他に何か?
副次的な問題として、極端な値をクリップする必要があるかどうかもわかりません。
アドバイスをありがとう!
編集:これは、約16分のデータ(20000サンプル)のプロットであり、データが通常どのように分布しているかがわかります。