教授から回帰モデルを隠す(回帰戦艦)[終了]


11

私は宿題に取り組んでいます。教授は、本当の回帰モデルを作成し、データのサンプルをシミュレートし、クラスで学んだいくつかの手法を使用して本当の回帰モデルを見つけようとしています。同様に、彼から提供されたデータセットでも同じことを行う必要があります。

彼は、彼をだまそうとする過去のすべての試みのためにかなり正確なモデルを生み出すことができたと言います。いくつかの非常識なモデルを作成する学生もいましたが、彼は間違いなく、十分なだけの単純なモデルを作成することができました。

彼が見つけるためのトリッキーなモデルを開発するにはどうすればよいですか?4つの2次項、3つの観測、および大規模な分散を行うことで、超安価になりたくないですか?その下にタフな小さなモデルがある一見無害なデータセットを作成するにはどうすればよいですか?

彼は単に従うべき3つのルールを持っています:

  1. データセットには、1つの「Y」変数と、「Y」、「X1」、...、「X20」というラベルが付いた20個の「X」変数が必要です。

  2. あなたの応答変数:満たしていることを線形回帰モデルから来なければならないY " I = β 0 + β 1 X " I 1 + ... + β のp - 1 X " I P - 1 + ε I ε IN 0 σ 2及びP 21Y

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    ϵiN(0,σ2)p21
  3. Yの作成に使用されたすべての変数は、データセットに含まれています。XY

20のX変数すべてが実際のモデルにある必要はないことに注意してください。

私はFama-French 3 Factor Modelのようなものを使用することを考えていて、彼に株式データ(SPXとAAPL)から始めて、少し不明瞭にするためにそれらの変数を継続的に複合したリターンに変換する必要があります。しかし、それにより、最初の観測値とその時系列(クラスでまだ説明していません)に欠損値が残ります。

これがこのようなものを投稿するのに適切な場所かどうかは不明です。良い議論になると思いました。

編集:特に「事前に作成された」モデルは求めていません。誰かがこれに取り掛かることができる統計のトピック/ツールについてもっと知りたいです。


4
彼があなたを線形モデルに制限しているなら、困難になるでしょう...
フランクH.

4
真の係数が95%の信頼区間内にある場合に教授が勝利すると、多重共線性はCIを非常に膨張させるため、多重共線性は役に立ちません。一方、新しい予測子で予測されたデータと実際のデータ(実際のDGPを使用して生成された「実際の」データ)の差を評価する場合は、多重共線性がはるかに優れたアプローチになります。結論:ターゲット関数が何であるかを調べて、それに対するアプローチを調整します。(これはより一般的に人生に当てはまります...)
Stephan Kolassa

4
@dylanjm 勝利条件を正確に定義できますか?
マシューガン

11
そのようなエクササイズのポイントは、自分で何かを考えようとすることによって学ぶことです。ここで専門家を彼に対抗すると、回帰に関連して与えられたさまざまな情報を統合することによって実際に脳を伸ばす機会が劇的に減少します(教授に不公平になるだけでなく)。さらに、他の誰かによって部分的に行われたときにあなたの仕事をあなたに見せている評判の高い機関では、学術的な不正行為と詐欺の中間にある可能性があります(特に、それがあなたの印の一部に値する場合)。これをどのように尋ねるかについては、細心の注意を払ってください。
Glen_b-モニカを

4
この質問は人気がありますが、ゲームのルールに関する明確化(成功の評価に使用する基準、提供する必要があるサンプルの数など)を繰り返し要求した後でも、この重要なため、この時点で閉じる必要があります。情報はまだ質問に表示されていません。私たちの目的は、「ディスカッションを生成する」よりも狭く、焦点が絞られています。このサイトで対処できる種類の質問については、ヘルプセンターをご覧ください。
whuber

回答:


6

yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000

このノイズ/信号比で位相を特定できるように頑張ってください。


これはCIの勝ちの基準では機能しないようです。確かに1をカバーする巨大なCIを取得するだけです。もちろん、数値の不安定性もあります。
ステファンコラサ

不安定さは問題になりません。私がしていることは、信号をノイズに埋めることだけです。これは純粋なホワイトノイズとして現れます。
Aksakal

4
これはOPによって望ましくない安価なモデルと見なされていました
Sextus Empiricus

5

YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

YX1X1YX1X2

X1X2X1X2 Y

E[Y|X1]E[Y|X2]E[Y|X1,X2] E[Y|X1]YY など。彼は次のように述べているので、彼が言ったことではなかったと主張することができます。

変数Yは、Yの作成使用された(...)変数を満たす線形回帰モデルからのものでなければなりません(...)実際のモデル(...)

そして、クラスで因果関係、真のDGPが意味するもの、一般的に識別可能性について良い議論を起こすかもしれません。


あなたは投稿の#2に準拠したモデルを提案しています
Aksakal

3

収入と年齢のような多重共線性と異分散性を備えた変数を使用します。スケーリングの問題を提供する痛みを伴う機能エンジニアリングを実行します。まばらに散らばったものにNAを与えます。直線性の部分は本当にそれをより困難にしますが、それは苦痛にされる可能性があります。また、異常値は彼にとって問題を前もって増大させるでしょう。


異分散性は問題の範囲外であると思いますが、多重共線性が真の仕様を見つけにくくするための最良の方法の1つであることに間違いなく同意します。
JDL 2018年


0

任意の線形モデルを選択します。ほとんどのサンプルがx = 0付近にあるデータセットを彼に与えます。彼にx = 1,000,000前後のサンプルをいくつか与えます。

ここで、x = 1,000,000付近のサンプルは外れ値ではないというのはすばらしいことです。それらは同じソースから生成されます。ただし、スケールが非常に異なるため、1Mあたりのエラーは0あたりのエラーと一致しません。

Yi=β0+β1Xi1+ϵi

x = 0付近のn個のサンプルのデータセットがあります。「はるかに十分」な値でさらに2つのポイントを選択します。これら2つの点にはエラーがあると仮定します。

「十分に十分な」値とは、これらの2つのポイントで直接渡されない推定のエラーが、データセットの残りのエラーよりもはるかに大きい値です。

したがって、線形回帰では、これらの2つの点を通過する係数が選択され、残りのデータセットが欠落し、下線モデルとは異なります。

次の例を参照してください。{{1、782}、{2、3099}、{3、110}、{4、1266}、{5、1381}、{1000000、1002169}、{1000001、999688}}

これはWolfarmAlphaシリーズ形式です。各ペアの最初の項目はxで、2番目の項目は、数式= A2 + NORMINV(RAND()、0,2000)を使用してExcelで生成されました。

β0=1,β1=1

y=178433.x426805y=x


これはどのように正確に機能し、これによりどのような効果がもたらされるはずですか?
Richard Hardy

ノイズと精度が異なるスケールで異なるように機能するため、これは機能します。多数の場合、極端に1つの点を考慮して、線はそれを直接通過するか、コストがかかります。ノイズによっては、正しい値を見逃すのに十分です。ゼロ付近、再び極端-知覚はなく、ノイズが残ります。
DaL 2018年

間違った係数の変数に小さい値を使用すると、コストが発生します。
DaL 2018年

はい、しかし教授がこれを生成したモデルを発見するのが難しいのはなぜですか?与えられたリグレッサに非常に多くのバリエーションがある場合、それは特に簡単なタスクのように見えます。
Richard Hardy

なぜなら、どちらのモデルにも適合するモデルはないからです。
DaL 2018年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.