タグ付けされた質問 「signal-processing」

デジタル化された信号の数値解析

6
時系列分類の機能
可変長時系列に基づく(マルチクラス)分類の問題、つまり、関数 、に依存しない固定サイズ の選択された特徴セットによるタイムセリエのグローバル表現、 そしてこの機能セットで標準の分類方法を使用します。 予測、つまり予測に興味がないF (X T)= Y ∈ [ 1 .. K ]TTTV I D T φ (X T)= V 1、... 、vのD ∈ R、xはT + 1f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(X_T) = y \in [1..K]\\ \text{for } X_T = (x_1, \dots, x_T)\\ \text{with } x_t \in \mathbb{R}^d ~, …

3
時系列ベースの異常検出アルゴリズムへのウェーブレットの適用
私はを通じて、私のように動作し始めてきたアンドリュー・ムーアによって統計的データマイニングチュートリアル(非常に誰が最初にこの分野に進出を推奨します)。「時系列ベースの異常検出アルゴリズムの概要」というタイトルの非常に興味深いPDFを読むことから始めました。ムーアは、病気の発生を検出するアルゴリズムの作成に使用される多くのテクニックを追跡します。スライドの途中の27ページで、彼は、アウトブレイクの検出に使用される他の多くの「最先端の方法」をリストしています。最初にリストされているのはウェーブレットです。ウィキペイダは、ウェーブレットを次のように説明しています ゼロから始まり、増加し、その後ゼロに戻る振幅を持つ波状の振動。通常、「簡単な振動」として視覚化できます。 統計への適用については説明していません。私のGoogle検索では、ウェーブレットが統計または主題に関する完全な書籍にどのように関連するかを知っている高度な学術論文が生成されます。 Mooreがチュートリアルで他のテクニックを説明するのと同じように、時系列の異常検出にウェーブレットがどのように適用されるかについての基本的な理解をお願いします。誰かが、ウェーブレットを使用した検出方法の仕組みの説明や、その問題に関する理解可能な記事へのリンクを提供できますか?

1
2つの信号を整列/同期するにはどうすればよいですか?
私はいくつかの研究を行っていますが、分析段階で立ち往生しています(統計の講義にもっと注意を払うべきでした)。 私は2つの同時信号を収集しました:体積に統合された流量と胸部拡張の変化。信号を比較し、最終的に胸部拡張信号からボリュームを導き出したいと思います。しかし、最初にデータを調整/同期する必要があります。 記録が正確に同時に開始されず、胸部拡張がより長い期間キャプチャされるため、胸部拡張データセット内でボリュームデータに対応するデータを見つけ、それらがどれだけ適切に調整されているかを測定する必要があります。2つの信号がまったく同じ時間に開始しない場合、または異なるスケールと異なる解像度のデータ間でこれを実行する方法がわからない。 2つの信号の例(https://docs.google.com/spreadsheet/ccc?key=0As4oZTKp4RZ3dFRKaktYWEhZLXlFbFVKNmllbGVXNHc)を添付しました。さらに提供できるものがあればお知らせください。

4
CNNを使用して1D信号を分類することをお勧めしますか?
私は睡眠段階の分類に取り組んでいます。私はこのトピックに関するいくつかの研究記事を読み、それらの多くはSVMまたはアンサンブル法を使用しました。たたみ込みニューラルネットワークを使用して1次元EEG信号を分類するのは良い考えですか? 私はこの種の仕事に慣れていない。何か間違ったことを聞いたらご容赦ください。

4
時系列データの平滑化
私は睡眠中に加速度計データを記録するアンドロイドアプリケーションを構築します。これにより、睡眠の傾向を分析し、必要に応じて、浅い睡眠中に希望する時間近くにユーザーを起床します。 アラームと同様に、データを収集して保存するコンポーネントをすでに構築しています。睡眠データを本当に意味のある明確な方法で表示して保存するという獣に取り組む必要があります。これは、分析にも役立つことが望ましい方法です。 数枚の写真が2000語を言います:(担当者が少ないため、リンクは1つしか投稿できません) これは、30秒間隔で収集された、フィルタリングされていないデータ、つまり移動の合計です。 そして、移動平均平滑化の私自身の明示によって平滑化された同じデータ 編集)両方のチャートにキャリブレーションが反映されます-最小の「ノイズ」フィルターと最大カットオフフィルター、およびアラームトリガーレベル(白い線)があります 残念ながら、これらはどちらも最適なソリューションではありません。1つ目は平均的なユーザーにとって少しわかりにくいもので、2つ目は理解しやすいもので、実際に起こっていることの多くを隠しています。特に、平均化により動きのスパイクの詳細が削除されます。これらは意味があると思います。 では、なぜこれらのチャートはそれほど重要なのでしょうか?これらの時系列は、ユーザーへのフィードバックとして一晩中表示され、後で確認/分析するために保存されます。スムージングは​​、理想的にはメモリコスト(RAMとストレージの両方)を削減し、これらのリソース不足の携帯電話/デバイスでのレンダリングを高速化します。 明らかにデータを平滑化するより良い方法があります。線形回帰を使用して動きの「シャープ」な変化を見つけ出し、移動平均平滑化を修正するなど、漠然としたアイデアがあります。より最適に解決できるものに真っ先に飛び込む前に、私は本当にいくつかのガイダンスと入力が本当に必要です。 ありがとう!

4
オーディオ録音のピークの数を検出する
オーディオ録音のコーパス内の音節の数を検出する方法を見つけようとしています。良いプロキシは、Waveファイルのピークかもしれません。 英語で話す私のファイルで試してみたものがあります(私の実際の使用例は、キスワヒリ語です)。このサンプル録音のトランスクリプトは、「これはタイマー機能を使用しようとしている私です。一時停止、発声を見ています。」このパッセージには合計22音節があります。 wavファイル:https : //www.dropbox.com/s/koqyfeaqge8t9iw/test.wav? dl=0 seewaveR のパッケージは素晴らしく、いくつかの潜在的な機能があります。まず最初に、waveファイルをインポートします。 library(seewave) library(tuneR) w <- readWave("YOURPATHHERE/test.wav") w # Wave Object # Number of Samples: 278528 # Duration (seconds): 6.32 # Samplingrate (Hertz): 44100 # Channels (Mono/Stereo): Stereo # PCM (integer format): TRUE # Bit (8/16/24/32/64): 16 私が最初に試したのはtimer()関数です。返されるものの1つは、各発声の持続時間です。この関数は7つの発声を識別しますが、これは22音節に相当しません。プロットをざっと見てみると、発声は音節に等しくないことが示唆されています。 t <- timer(w, threshold=2, msmooth=c(400,90), dmin=0.1) …

1
マウス(またはキーボード)クリックのパターンとコンピューターユーザーのアクティビティの予測
マウスクリックの時間パターン(クリック時間のリスト)のみに基づいて、コンピューターユーザーのアクティビティを予測できますか?[t1,t2,t3,…][t1,t2,t3,…][t_1,t_2,t_3,\ldots] 例:Facebookでの作業、時間の使用、写真の視聴、コンピュータゲームの再生など。 それらがさらに細かい予測である場合(たとえば、StarCraft対Counter Strike対SimCityをプレイする場合)、私も同様に興味があります。 (間違いなく)誰かが遊んでいる(高速でバーストの多いクリックにより)か、写真を見ている(等間隔のクリック)のが聞こえますが、その件に関してさらに客観的な結果(出版物、ブログの調査など)があるかどうか興味があります。 。 編集: 私は、キーボードのクリック(どのキーが押されているかを区別せず)または組み合わせたアプローチ(マウス+キーボード)にも同様に興味があります。

1
MFCCは、検索システムに音楽を表現する最適な方法ですか?
信号処理手法であるMel周波数Cepstrumは、機械学習タスクで使用するために楽曲から情報を抽出するためによく使用されます。この方法は短期間のパワースペクトルを与え、係数は入力として使用されます。 音楽検索システムの設計では、そのような係数は作品の特性と見なされます(明らかに一意である必要はありませんが、区別されます)。ネットワークでの学習により適した特性はありますか?エルマンネットワークのようなもので使用されている楽曲の低音進行のような時間的に変化する特性は、より効果的に機能しますか? どの特性が、分類が行われる可能性のある十分に広範なセットを形成するでしょうか?

2
機能データ分析と高次元データ分析の違いは何ですか
統計文献には、「機能データ」(つまり、曲線であるデータ)、および「高次元データ」(つまり、データが高次元ベクトルの場合)への言及がたくさんあります。私の質問は、2つのタイプのデータの違いについてです。 ケース1に適用される適用された統計的方法論について話す場合、ケース2から方法論を関数の空間の有限次元部分空間への射影を通じて言い換えると、多項式、スプライン、ウェーブレット、フーリエなどが考えられます... 。そして、機能問題を有限次元ベクトル問題に変換します(適用された数学では、すべての点ですべてが有限になるため)。 私の質問は 、機能データに適用される統計手順は高次元データにも(ほぼ直接)適用でき、高次元データ専用の手順は機能データに(ほとんど直接)適用できると言えるでしょうか。 答えが「いいえ」の場合、説明できますか? サイモンバーンの回答を利用した編集/更新: スパース性(S-sparse仮定、 ballおよび弱い ball )は、高次元統計分析の構造的仮定として使用されます。lplpl^plplpl^pp &lt; 1p&lt;1p<1 「滑らかさ」は、機能データ分析の構造的仮定として使用されます。 一方、逆フーリエ変換と逆ウェーブレット変換は、スパース性を滑らかさに変換し、滑らかさはウェーブレットとフーリエ変換によってスパース性に変換されます。これは、サイモンが言及した重要な違いをそれほど重要ではないものにしますか?

6
傾向を特定するための信号処理原理の疑わしい使用
非常にノイズの多い長期データの傾向を見つけてみることを提案しています。データは基本的に、約8か月の間に約5mm移動したものの毎週の測定値です。データは1mmの精度であり、1週間に+/- 1または2mmで定期的に変化する非常に騒々しいものです。最も近いmmまでのデータしかありません。 基本的な信号処理と高速フーリエ変換を使用して、生データからノイズを分離する予定です。基本的な前提は、データセットをミラーリングして既存のデータセットの最後に追加すると、データの全波長を作成できるため、データが高速フーリエ変換で表示され、うまくいけば、データを分離できることです。 。 これは私には少し怪しいように思えますが、これは追跡する価値のある方法ですか、それともデータセットをミラーリングして追加する方法になんらかの根本的な欠陥がありますか?ローパスフィルターの使用など、他のアプローチも検討しています。

1
加速度センサーのデータを正規化するにはどうすればよいですか?
私は、多くの被験者が身に着けている複数のセンサーで収集された加速度計データの大規模なセットを扱っています。残念ながら、ここでは誰もデバイスの技術仕様を知らないようで、デバイスが再調整されたことはないと思います。デバイスに関する情報があまりありません。私は修士論文に取り組んでいます。加速度計は別の大学から借りたもので、全体として少し不透明な状況でした。では、デバイスに搭載されている前処理はどうでしょうか?全く分からない。 私が知っているのは、それらが20Hzサンプリングレートの3軸加速度計であることです。デジタルとおそらくMEMS。私は非言語的行動と身振りに興味があります。私の情報源によると、これらは主に0.3〜3.5 Hzの範囲の活動を生成するはずです。 データの正規化はかなり必要だと思われますが、何を使用すればよいかわかりません。データの非常に大きな部分は残りの値(重力からの未加工値〜1000)に近いですが、一部のログでは最大8000、他のログでは最大29000のような極端なものもあります。下の画像を参照してください。これは、正規化するためにmaxまたはstdevで除算するのは悪い考えだと思います。 このような場合の通常のアプローチは何ですか?中央値で割りますか?パーセンタイル値?他に何か? 副次的な問題として、極端な値をクリップする必要があるかどうかもわかりません。 アドバイスをありがとう! 編集:これは、約16分のデータ(20000サンプル)のプロットであり、データが通常どのように分布しているかがわかります。

1
ウェーブレット多重解像度分析における境界効果
ウェーブレット分解における境界の影響を最小限に抑える方法は何ですか? 私はRとパッケージのwavelimを使用します。 私は例えば関数を見つけました ?brick.wall だが 使い方はあまり使いません。 いくつかの係数を削除するのが最善の解決策かどうかはわかりません。どこでも同じではないウェーブレットがいくつか存在し、境界で形状が変化することをどこかで読んだことがあります。 何か案は?

1
ストリームデータの分類器のインクリメンタルオンライン学習の手法
この抽象的な問題に直面するための良いテクニックはどれですか? 物理的なセンサーからのデータのように、連続信号のデータストリームがあります。その信号には実際の(離散化された)値があり、属性はありません。依存性の特徴(例:パワー、自己相関、エントロピー)が抽出される場合があります。有限セットの1つのラベルを信号のウィンドウに割り当てることができます。このラベルをトレーニングラベルにします。ウィンドウの始点と終点、およびウィンドウラベルを選択する必要があります。 信号が受信されたときと同じように、タスクは次のウィンドウをオンラインで分類することです。 私はインクリメンタルアルゴリズムを求めています。より多くのトレーニングラベルが与えられれば、検出パフォーマンスが向上するという意味です。ただし、トレーニングラベルが1つしかない場合でも分類できる必要があります。 Windows境界の検出が原因で問題が難しすぎる場合は、小さな定数でサイズを修正できるとしましょう。したがって、アルゴリズムは信号の小さなスライスを分類し、同じラベルを持つ隣接するスライスをマージします。その簡略化されたアプローチを使用する場合は、それが合理的である理由を正当化してください。

1
別の分布から測定された分布を削除する
粒子ビームを多くの粒子の集合として捉えます。2つの独立した確率変数と仮定とδ水平位置まで追加X粒子のを:バツβXβX_\betaδδ\deltaバツXX バツ= Xβ+ DバツδX=Xβ+Dxδ X = X_\beta + D_x \delta (は単純な数値で、ビームダイナミクスの「分散」関数です。)DバツDxD_x Iは、ビームプロファイルの水平方向の測定値を有する、縦運動量分布の他の測定、F δ。両方を単一領域に正規化し、それらをXとδの確率密度関数の測定値と見なします。fバツfXf_Xfδfδf_\deltaバツXXδδ\delta 今、私はの分布/プロファイルを決定したいと思い。バツβXβX_\beta どうすればよいですか? 最初に考えたデコンボリューションすることであったとF D X δ Iは、位置の同じセットに両方のデータセットを補間した後、。残念ながら、私は失敗しました...私はスペクトルに等しいエラー量で終わります、すなわち、どこにも行きません。fバツfXf_XfDバツδfDxδf_{D_x\delta}scipy.signal.deconvolve 2つを畳み込むと、、に拡張がられます。fバツfXf_XfDバツδfDバツδf_{D_x\delta} (numpy.convolve(f_x, f_Dxdelta, 'same')両方の配列が同じ長さで、同じ位置にある場合) 今は反対を行い、分散部分を「追加」する代わりに「削除」したいと思います。または私は完全に間違った方向に行っていますか? もう1つの重要な可能性のある情報:はではなく正規分布を持っていると思います。私は、対応する標準偏差を抽出したいから。バツβバツβX_\betaδδ\deltaバツβバツβX_\betafバツfバツf_X 助けてくれてありがとう、エイドリアン PS:物理スタック交換フォーラムで同じ質問をしたので、コミュニティに質問することを提案しました:-)(/physics/224671/remove-measured-distribution-from-別の配布)

3
分類入力のシリーズ次元削減
私は、結果変数がバイナリで入力が時系列である予測モデルを構築しようとしています。より具体的にするために、モデルは、過去60日間に会社で費やした金額に基づいて、顧客が解約するかどうか(会社を去る、1または0としてコード化)を予測します。したがって、データは行ごとに1人の顧客であり、列は結果因子(1または0)であり、時間t-1、t-2 .... t-60で費やされた金額の60の追加列です。 ここにいくつかのサンプルデータがあります: #create the data a series of length 60 and a class ID sc &lt;- read.table("http://kdd.ics.uci.edu/databases/synthetic_control/synthetic_control.data", header=F, sep="") #binary class lable classId &lt;- as.factor(c(rep(0,300), rep(1,300))) newSc &lt;- data.frame(cbind(classId, sc)) newSc$ID&lt;-seq(1,600,1) 実際のモデルには、顧客ごとにこれらのシリーズの多くがある可能性があるため、シリーズのデータ​​の次元を減らす必要があります。たとえば、60の値を使用する代わりに、これを一握りに減らす必要があります。もちろん、系列の平均値、最小値、最大値などを使用できますが、離散フーリエ変換の使用について読んでいます。 質問: RのDFFTは私の目的に使用する適切な方法ですか?それがどのように機能するかについてのあらゆる情報がいただければ幸いです。 このR関数が正しいと仮定して、次元削減を実現するために最も意味のある係数だけをどのように抽出しますか? 追加:次元削減にDFFTを使用することは賢明な選択ではないというコンセンサスがあるようですが、データマイニングでは、この関数、DWTおよびSVDがすべて一般的に使用されているようです: 20ページから始まる時系列マイニング。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.