月次、日次、週次のデータをマージする方法は?


11

Googleトレンドは週次データを返すため、日次/月次データとそれらをマージする方法を見つける必要があります。

これまでに行ったことは、たとえば、各セリエを日次データに分割することです。

から:

2013-03-03-2013-03-09 37

に:

2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 2013-03-08 37 2013-03-09 37

しかし、これは私の問題に多くの複雑さを加えています。私は過去6か月の値、または月次データの6つの値からGoogle検索を予測しようとしていました。日次データは、180の過去の値に対する作業を意味します。(私は10年のデータを持っているので、月次データで120ポイント/週次データで500+ /日次データで3500+)

もう1つのアプローチは、日次データを週次/月次データに「マージ」することです。しかし、このプロセスからいくつかの疑問が生じます。合計が何かを表すため、一部のデータは平均化できます。たとえば、降雨量は、特定の週の雨量は、週を構成する各日の量の合計になります。

私の場合、私は価格、金融レートなどを扱っています。価格については、私の分野では交換された量を考慮することが一般的であるため、週次データは加重平均になります。財務レートの場合は少し複雑ですが、日次レートから週次レートを作成するためのいくつかの式が含まれています。その他については、基になるプロパティがわかりません。これらの特性は、無意味な指標を回避するために重要だと思います(たとえば、フィアンシャルレートの平均は意味をなさないでしょう)。

したがって、3つの質問:

既知のプロパティと不明なプロパティの場合、日次から週次/月次のデータにどのように進むべきですか?

実生活では意味のない量を導入しているため、毎週/毎月のデータをこれまでのように毎日のデータに分割するのは少し間違っているように感じます。だからほとんど同じ質問:

既知および未知のプロパティについて、毎週/毎月のデータから毎日のデータにどのように進むべきですか?

最後に重要なことですが、タイムステップが異なる2つの時系列が与えられた場合、何が良いですか:最小または最大のタイムステップを使用しますか?これはデータの数とモデルの複雑さの間の妥協点だと思いますが、これらのオプションから選択する強い議論はありません。

編集:簡単に実行できるツール(R PythonではExcelでも)を知っている場合は、大変助かります。


Pythonの場合、標準ツールはパンダです。財務データの時系列を扱うように特別に設計されました。パンダ
タイムシリーズ

「不明なプロパティ」の意味を少し詳しく説明しますか?
TheGrimmScientist 2015年

回答:


8

タイムステップが異なる2つの時系列が与えられた場合、何が良いですか:最小または最大のタイムステップを使用しますか?

時系列分析では、両方を実行する必要があります。日次データセットで可能な限り高い粒度を取得し、月次データセットで分析を繰り返します。月次データセットには120データポイントがあり、データに季節性がある場合でも時系列モデルを取得するには十分です。

既知のプロパティと不明なプロパティの場合、日次から週次/月次のデータにどのように進むべきですか?

たとえば、毎日のデータから毎週または毎月のデータを取得するには、平滑化関数を使用できます。財務データの場合、移動平均または指数平滑法を使用できますが、データに対してそれらが機能しない場合は、Rのスプライン平滑化関数「smooth.spline」を使用できます:https ://stat.ethz.ch/R -manual / R-patched / library / stats / html / smooth.spline.html

返されるモデルは、元の毎日のデータセットよりノイズが少なく、目的の時点の値を取得できます。最後に、これらのデータポイントは時系列分析で使用できます。

既知および未知のプロパティについて、毎週/毎月のデータから毎日のデータにどのように進むべきですか?

月次または週次のデータがあるときに日次データを取得するには、補間を使用できます。まず、データを説明する方程式を見つけます。これを行うには、データをプロットする必要があります(たとえば、時間の経過に伴う価格)。因子がわかっている場合、この方程式はそれらの因子の影響を受けるはずです。因子が不明な場合は、最適な方程式を使用できます。最も単純なのは線形関数または区分線形関数ですが、財務データの場合、これはうまく機能しません。その場合は、区分的3次スプライン補間を検討する必要があります。このリンクでは、可能な補間関数について詳しく説明しています:http : //people.math.gatech.edu/~meyer/MA6635/chap2.pdf

Rには時系列データの補間を行う方法があります。ここでは、たとえば週次の値と日次の値のギャップにNAを持つベクトルを作成し、「interpNA」関数を使用してNAの補間値を取得します。ただし、この関数は「近似」関数を使用して補間値を取得します。これにより、線形補間または定数補間が適用されます。Rで3次スプライン補間を実行するには、代わりに "splinefun"関数を使用する必要があります。

注意すべき点は、時系列モデルは通常、指数平滑法と自動回帰統合移動平均(ARIMA)メソッドのどちらを使用していても、将来の値を予測するために何らかの平均化を行うことです。したがって、日次値を予測する時系列モデルは最良の選択ではないかもしれませんが、週次または月次モデルの方が良い場合があります。


実用的な答えのようです。裁定取引のため、これが金融時系列に適用できるかどうかは不明です。
lcrmorin 2015年

あなたの質問に対する答えはまだ有効だと思います。timeseriesモデルについては、ARCH(AutoRegressive Conditional Heteroskedasticity)モデルを確認することをお勧めします。
gchaks

たとえば、金融時系列で3次スプラインを使用して内挿する場合、前方参照バイアスを導入しませんか?機械学習モデルに実装する場合、これは特に重要だと思いますか?
tsando 2017年

5

私はこの分野の専門家ではありませんが、あなたの質問は時系列の集約と分解に関係していると思います。その場合は、問題の解決に役立つ可能性のある関連リソースを以下に示します(最初の5つの項目が主ですが、代表的なものであり、最後の2つは補足です)。


2

これはあまり満足のいく答えにはなりませんが、ここに私の見解があります...

既知のプロパティと不明なプロパティの場合、日次から週次/月次のデータにどのように進むべきですか?

既知および未知のプロパティについて、毎週/毎月のデータから毎日のデータにどのように進むべきですか?

両方に同じ答え:未知のプロパティに対してこれを行うことはできません。既知のプロパティに対しては、値の計算方法に依存します。

あなたがほのめかしたように:

(たとえば、フィアンシャルレートの平均はナンセンスです)

プロパティ/値が既知であるか不明であるかにかかわらず、すべての場合に適切な単一の変換はありません。既知のプロパティがある場合でも、平均、中央値、最頻値、最小値、最大値、ブール値など、タイプごとに一意の変換が必要になる可能性があります。

タイムステップが異なる2つの時系列が与えられた場合、何が良いですか:最小または最大のタイムステップを使用しますか?

可能な限り、最小の可能なステップの完全な細分性を維持するようにしてください。値を変換する方法を知っていると仮定すると、ステップを常にロールアップできます(例:日から月、月から年)...しかし、不可逆変換の後、大きなステップから小さなステップを再構築できるとは限りません。 。


2

既知のプロパティと不明なプロパティの場合、日次から週次/月次のデータにどのように進むべきですか?

集約。

たとえば、人々が毎日「ウィジェット」を検索した回数があります。1か月の日次合計を合計して、月次合計を取得します。より完全なバージョンを提供するには、各粒度で収集された実際のデータの詳細を確認する必要があります。

既知および未知のプロパティについて、毎週/毎月のデータから毎日のデータにどのように進むべきですか?

できません。

物理学では、比較可能なアイデアはナイキスト周波数です。一般的な考え方は、データを追加せずに、データにすでにあるものよりも多くの情報を追加することはできないということです。誰かがクエリを実行した日だけが与えられた場合、そのクエリが実行された時刻をどのようにして知ることができますか?推論はできるかもしれませんが、質問に答える唯一の方法は、直接または間接的にシステムにより多くの情報を取り込むことです。月次変数の毎日の状態(gchaksが言及したように、補間)で情報に基づいた推測を行うためにできることはありますが、データは基本的に月次データは毎日見られるように引き伸ばされています。

タイムステップが異なる2つの時系列が与えられた場合、何が良いですか:最小または最大のタイムステップを使用しますか?

それはあなたが答えようとしていることに完全に依存します。

粒度が小さいほど、ノイズやその他の異常に敏感になります。粒度が大きいほど、質問に自信を持って答えることができますが、その有用性の一部が失われます。たとえば、週末のプランに人々が会場を探し始めたときに、新しいナイトクラブのマーケティングキャンペーンをいつ開始するかを知りたい場合は、毎日のデータを調べた方がよいでしょう。あなたが投資したい人を見つけるためにナイトクラブの一般的な傾向を見ているなら、毎月のほうがおそらく良いでしょう。


2

日付セグメントに基づいてデータを集計できることは、Tableauソフトウェアを使用すると簡単です。データをツールにプラグインするだけで、メトリックと日付の両方のディメンションをレポートの本文スペースにドラッグアンドドロップできます。Tableauは、即座に集計視覚化や詳細データテーブルを即座に作成します。年、四半期、月、週、日、時間などでグループ化/合計できます(標準、組み込み、ツールが提供する標準機能)

また、後で追加のデータを組み込みたい場合(これは「不明なプロパティ」が意図したものだと思います)、別のデータセットをインポートして、日付も提供されている限り、最初のデータセットに簡単に追加できます。

Tableau Publicと呼ばれる無料版をチェックすることをお勧めします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.