日付を含むデータの回帰


8

3年間で100か国以上で営業している3つのサプライヤーからの数百のトランザクションを含むデータセットがあります。

販売国は、達成される価格の重要な要素ではないことがわかりました(製品は多かれ少なかれグローバルな商品です)。時間の経過とともにすべての価格が大幅に下落しています。1日は、同じサプライヤー(つまり、異なる国)から異なる価格で複数のトランザクションを持つことができます。

さまざまなサプライヤーから請求される価格に統計的に有意な差があるかどうかをテストしたいと思います。

データは次のようになります。

    Country X  1/1/2010  $200 Supplier A
    Country Y  1/1/2010  $209 Supplier A
    Country Z  1/1/2010  $187 Supplier A
    Country A  1/1/2010  $200 Supplier B
    Country X  1/2/2010  $188 Supplier B

これを行う方法についてのアイデア?.....


3
縦断的データ分析は幅広い分野です。この質問に適切な回答を与えるには、予想される時間の影響についての詳細情報が必要です。これがなければ、受け取った回答が良いかどうかは明確ではありません(このため、後でではなく、前に質問を明確にしておくとよいでしょう...)。時間の経過とともに価格が下がるとおっしゃっていましたが、それだけではありませんか?たとえば、同じ国で繰り返し測定すると相関があると予想されますか?その場合、既存の回答はどちらも必要なことを行いません。
Macro

1
素晴らしいポイント!@マクロ私は同じ国内の複数のデータポイント間に何らかの相関関係があることを期待します(価格は少し厄介です)。また、ダーバンワトソン検定を実行したところ、残差が自己相関していることがわかりました。これは私を超えているようです。真の統計学者を呼ぶ時かもしれません。
トム

2
Rを使用している場合は、日付を処理するための関数があり、Rがこのようなデータを非常にエレガントに処理でき、通常よりもはるかに多くを指定する必要がなくても驚かないでしょう。これを
bdeonovic 2014

自己相関を考慮に入れて組み込む必要があります。時系列分析が整っているようです。「真の統計学者」を連れてくる必要性を認識するための+1。アメリカ統計協会のウェブサイトから利用できる評判の良い統計家がたくさんあり、多くは地元の大学で見つけることができます。
StatsStudent 2016年

回答:


2

ARMAやARIMAなどの時系列法を使用する必要があるようですが、OLSの独立した観測の仮定に違反することなく、独立変数として時間を使用して回帰を計算できます。

2つのステップの分析を試すことをお勧めします。-最初の時間を単一の予測変数として使用し、適切な時系列法を使用します。-2つのサプライヤ間に残差に意味のある違いがあるかどうかを確認します。(単純なt検定で十分な場合があります。)


0

いくつかの方法があります。オプションは、日付を最初の日の翌日に変換することです。また、曜日(1週間の傾向)と月(1年の特定の時間の傾向を確認するため)の変数を追加することもできます。そうすることで、重回帰を使用できます。

変数「最初の日からの日数」を取得するには、(ExcelとRの両方で)後の日付から以前のデータを差し引いて、日の差を取得できると思います。したがって、すべての日付から2010年1月1日を引いてみてください。また、as.numeric()を使用して、新しい値が数値であることをRに伝える必要があります

編集:Rは最初に年を読むようですので、日付を少し混乱させる必要があるかもしれません。これを参照してください:https : //stackoverflow.com/questions/2254986/how-to-subtract-days-in-r

時系列分析も別のアプローチですが、あまり詳しくありません。


0

時間の変数に非線形関数を使用することをお勧めします。価格が下がるごとに、時間単位が増えるごとに価格が下がるからです。そうでなければ、価格は最終的にゼロを下回ります。また、トレンドが変化した時期もあるかもしれません。したがって、時間変数には3次スプラインを使用することをお勧めします。

私は次のモデルをチェックするだろうという経験をささやきます:
Y = country_parameter * price(t)* e

ここで、price(t)は関数、できれば3次スプラインですが、線形トレンドでさえも何でもかまいません。モデルには合計ではなく乗算記号があることに注意してください。


-1

基準日(2010年1月1日など)を選択しtime、日付と基準日との差である新しい変数を作成します。差は、たとえば日数で計算されます。

今で線形回帰(または同様のもの)を実行timeし、supplierように2つの予測変数とprice応答変数として。

これは単なる出発点です。


4
こんにちは私はこれをしましたが、それは回帰の仮定の1つに違反していますか?つまり、ポイントは独立した観測ですか?残差プロットは問題ありません。
トム

2
いい視点ね。仮定が100%満たされることはないため、線形回帰の出力に疑わしいことは常に良いことです。特に、提案されているように、残差が相関している場合、標準誤差は非常に過小評価される可能性があります。独立性をチェックするためのオプションは、次のようにダーバンワトソンテストを使用することです。tc.umn.edu
images

素晴らしいポイント!同じ国内の複数のデータポイント間にある程度の相関関係があると思います(価格は少し厄介です)。また、ダーバンワトソン検定を実行したところ、残差が自己相関していることがわかりました。これは私を超えているようです。@zkurtz真の統計家を呼ぶ時かもしれません。
トム

1
回帰観測をiidにする必要があるというのは誤解です。エラーは、無相関で一定の分散を持つ必要があるだけです。どちらかといえば、時間の固定効果を追加すると、この条件が確実に満たされるようになります。ここで問題が発生する可能性があるのは、データのパラメータが多すぎるために過剰適合したり、精度が低下したりすることだけです。定常(V)ARMAモデルをフィッティングするための方程式がOLSに帰着することを指摘する価値があるでしょう。
シャドウトーカー2014

シリアル相関を処理するには、おそらく時系列分析アプローチを使用するか、少なくともデータの相関特性を処理できるGEEモデルまたは混合効果モデルを使用する必要があります。
StatsStudent、2015年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.