私は宿題に取り組んでいます。教授は、本当の回帰モデルを作成し、データのサンプルをシミュレートし、クラスで学んだいくつかの手法を使用して本当の回帰モデルを見つけようとしています。同様に、彼から提供されたデータセットでも同じことを行う必要があります。
彼は、彼をだまそうとする過去のすべての試みのためにかなり正確なモデルを生み出すことができたと言います。いくつかの非常識なモデルを作成する学生もいましたが、彼は間違いなく、十分なだけの単純なモデルを作成することができました。
彼が見つけるためのトリッキーなモデルを開発するにはどうすればよいですか?4つの2次項、3つの観測、および大規模な分散を行うことで、超安価になりたくないですか?その下にタフな小さなモデルがある一見無害なデータセットを作成するにはどうすればよいですか?
彼は単に従うべき3つのルールを持っています:
データセットには、1つの「Y」変数と、「Y」、「X1」、...、「X20」というラベルが付いた20個の「X」変数が必要です。
あなたの応答変数:満たしていることを線形回帰モデルから来なければならないY " I = β 0 + β 1 X " I 1 + ... + β のp - 1 X " I 、P - 1 + ε I ε I〜N (0 、σ 2)及びP ≤ 21。
Yの作成に使用されたすべての変数は、データセットに含まれています。
20のX変数すべてが実際のモデルにある必要はないことに注意してください。
私はFama-French 3 Factor Modelのようなものを使用することを考えていて、彼に株式データ(SPXとAAPL)から始めて、少し不明瞭にするためにそれらの変数を継続的に複合したリターンに変換する必要があります。しかし、それにより、最初の観測値とその時系列(クラスでまだ説明していません)に欠損値が残ります。
これがこのようなものを投稿するのに適切な場所かどうかは不明です。良い議論になると思いました。
編集:特に「事前に作成された」モデルは求めていません。誰かがこれに取り掛かることができる統計のトピック/ツールについてもっと知りたいです。