線形回帰の常に正の応答変数の予測の負の値


8

常に正である必要がある線形回帰の応答変数(クリックあたりのコスト)を予測しようとしています。金額です。アドワーズ広告では、広告のクリックに対してグーグルに支払い、負の数は、人々がクリックしたときにグーグルに支払いをすることを意味します:P

予測子はすべて連続値です。RsquaredとRMSEは、サンプル外であっても、他のモデルと比較するとまともです。

  RMSE        Rsquared 
1.4141477     0.8207303

それはお金なので、予測を再調整することはできません。そのため、小さな再調整係数でもコストを大幅に変更する可能性があります。

私が理解している限り、回帰モデルについては、ゼロと負の数について特別なことは何もないため、出力が部分的に負であるかどうかに関係なく、最適な回帰超平面を見つけます。

これは私が持っているすべての変数を使用して、非常に最初の試みです。したがって、改善の余地があります。

出力を負にすることはできないことをモデルに伝える方法はありますか?


6
対数リンク関数を使用した一般化線形モデルを使用することにより、確実な予測を行うことができます。ちなみに、値は非常に有望ですが、モデルがデータの主要な形状に従っているかどうかのより良いチェックは、残差対予測のプロットです。観測対予測のプロットも問題を明らかにするのに役立ちます。R2
Nick Cox

1
@NickCoxが1つの提案をしました。残差対予測よりも多くの方法でデータをプロットします。ただし、お金の変数を再スケールすることはできます。一般的な方法の1つは、従属変数としてlog(cost)を取ることです。(これは、ログリンク機能と同等に巻き上げられると思いますが、理解しやすいかもしれません)。もちろん、Log(cost)は負になる可能性があります。そして、お金の変数のログは、例えば、クリックごとに0.01と0.02の違いは重要ですが、クリックごとに1.01と10.2の違いは重要ではないため、多くの場合、賢明です。
Peter Flom

@Peter Flomは10.2ではなく1.02を意味すると思います。
Nick Cox

1
小さなサンプルデータは、人々が潜在的なソリューションを説明するのに役立ちます。
Glen_b-2013

回答:


4

この線形回帰モデルでOLS推定器を使用していると思います。不等式制約付き最小二乗推定量を使用できます。これは、不等式制約下での最小化問題の解決策になります。標準の行列表記(ベクトルは列ベクトルです)を使用すると、最小化問題は次のように表されます

minβ(yXβ)(yXβ)s.t.Zβ0

...ここで、は、は、は、は行列であり、標本外の一連のリグレッサを含みます予測に使用される長さ。我々は線形不等式制約(目的関数が凸であるため、一次条件は最小に十分です)。yn×1Xn×kβk×1Zm×kmm

この問題のラグランジュは

L=(yXβ)(yXβ)λZβ=yyyXββXy+βXXβλZβ

=yy2βXy+βXXβλZβ

ここで、は、負ではないKarush -Kuhn -Tucker乗数の列のベクトルです。1次条件は次のとおりです(行列とベクトルの微分のルールを確認することをお勧めします)。λm×1

Lβ=02Xy+2XXβZλ

β^R=(XX)1Xy+12(XX)1Zλ=β^OLS+(XX)1Zξ[1]

...ここで、、便宜上、は、通常の最小二乗推定から得られる推定量です。 β OLSξ=12λβ^OLS

この方法はLiew(1976)で詳細に説明されています。


3
これは正当な解決策であるため、私はこれを支持しましたが、実際には危険です。結局のところ、解は値に任意に敏感です。単一の高レバレッジ値は、制約を強制するためだけに、適切な適合から遠く離れた推定値を誘導します。したがって、少なくとも、この手順で、データに対する慎重な適合度テストを行う必要があります。Z
whuber

@whuberそうです。OPさん、こっちを注意深く踏んでください。
Alecos Papadopoulos 2013
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.