時系列のロジスティック回帰


21

ストリーミングデータ(多次元時系列)のコンテキストでバイナリロジスティック回帰モデルを使用して、過去の観測から与えられたデータ(行)の従属変数の値を予測します。私が知る限り、ロジスティック回帰は伝統的に事後分析に使用されており、各従属変数は既に(検査または研究の性質により)設定されています。

ただし、時系列の場合、履歴データの観点から従属変数について(オンザフライで)予測したい場合(たとえば、最後の秒の時間枠)、そしてもちろん前の従属変数の推定値?t

また、上記のシステムが長期にわたって見られる場合、回帰が機能するためにはどのように構築する必要がありますか?最初にデータの最初の50行にラベルを付けて(つまり、従属変数を0または1に設定して)トレーニングし、次にベクトル現在の推定値を使用して、新しい確率を推定する必要がありますか到着したばかりのデータ(つまり、システムに追加されたばかりの新しい行)の従属変数は0または1ですか?β

私の問題をより明確にするために、私はデータセットを行ごとに解析し、以前のすべての依存または説明の知識(観察または推定)を前提として、バイナリ結果(依存変数)の予測を試みるシステムを構築しようとしています固定時間枠に到着した変数。私のシステムはRerlにあり、推論にRを使用しています。


5
データの相関構造を想定できますか?あなたのケースは、ロジットリンクを使用したGLMMの特別なケースですが、時系列データの相関構造は、適切な回答を得るために正しくモデル化する必要があります。
suncoolsu

1
時系列を言うと、y t 1と何らかの関係を持ちます。または、独立していると仮定できますか?ytyt1
-suncoolsu

2
具体的な解決策を提供するために、データの簡潔な説明をお願いします。あなたの問題はこのような何かを解決することができますstat.ethz.ch/pipermail/r-sig-mixed-models/2010q4/004530.html
suncoolsu

2
次の形式のネットワークトラフィックの時系列があります:Protocol、SrcIP SrcPort、DestIP、DestPort、TimeSec、Timeusec、PackLength TCP、200.80.199.105,3523,207.216.233.144,9658,11223344,941818,62 UDP、142.144.155.120 、1751,244.72.151.2,1935、11223344,941843,60ラベル付きデータセットの知識を使用して自己学習モデルを構築することにより、パケット(またはパケットのグループ)が悪意があるかどうかを推定したい。私が話していた平均化は、集約レベルを提供し、システムを大量トラフィックに対してより実用的にするために、上記のメトリックで適用されます。
リグレッサー

2
これは本当にサポートベクターマシンの仕事のように聞こえます。何か不足していますか?自己相関やデータの時系列構造が本当に心配な場合は、ARIMAやマルチレベルの縦断モデルを試すことができます。縦断モデルでは、UCLA ATSサイトにRコードの例があるWillet and SingerのApplied Longitudinal Data Analysisをお勧めします。
ashaw

回答:


6

考慮すべき2つの方法があります。

  1. 最後のN個の入力サンプルのみを使用します。入力信号の次元がDであると仮定すると、グラウンドトゥルースラベルごとにN * D個のサンプルがあります。このようにして、ロジスティック回帰など、任意の分類器を使用してトレーニングできます。この方法では、各出力は他のすべての出力から独立していると見なされます。

  2. 生成した最後のN個の入力サンプルと最後のN個の出力を使用します。問題は、ビタビデコードに似ています。入力サンプルに基づいて非バイナリスコアを生成し、ビタビデコーダーを使用して複数のサンプルのスコアを結合できます。これは、方法1よりも優れています。出力間の時間的関係について何かを理解できた場合。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.