quantregを使用して曲線の形状を特定するためのアドバイス


10

私が使用していますquantregのデータセットで私の値の99パーセンタイルを使用して回帰モデルを作るために、パッケージを。以前に尋ねたstackoverflowの質問からのアドバイスに基づいて、私は次のコード構造を使用しました。

mod <- rq(y ~ log(x), data=df, tau=.99)    
pDF <- data.frame(x = seq(1,10000, length=1000) ) 
pDF <- within(pDF, y <- predict(mod, newdata = pDF) )

データの上にプロットして表示します。ポイントのアルファ値とともに、ggplot2を使用してこれをプロットしました。私の分析では、分布の裾が十分に考慮されていないと思います。おそらくこれは、パーセンタイル型の測定では無視されている個々のポイントがあるためです。

コメントの1つは、

パッケージビネットには、非線形変位値回帰に関するセクションと、平滑化スプラインなどのモデルが含まれています。

前の質問に基づいて、対数関係を仮定しましたが、それが正しいかどうかはわかりません。99パーセンタイル間隔ですべてのポイントを抽出して個別に調べることができると思いましたが、それを行う方法、またはそれが良いアプローチかどうかはわかりません。この関係の特定を改善する方法についてのアドバイスをいただければ幸いです。

ここに画像の説明を入力してください


このサイトでは、このようなデータの変換についていくつかの良い質問があります。stats.stackexchange.com / q
Andy W

プロットを更新して条件付き中央値を追加できますか?これは、データ変換の問題よりも、分位点の交差の問題に似ているようです...
user603

@ user603条件付き中央値とはどういう意味ですか?(オンラインで検索したが、計算方法がわからない)
celenius

rq()関数のtau = 0.5。
user603 '25 / 07/25

1
特に条件付き99パーセンタイルを推定することが目的である場合は、非線形の分位数回帰に投票します(ある種の-Rパッケージについてはよくわかりません)。これは、真の関数形式を知っているように聞こえないためです。 。ただし、実際の目標が何であるかは以前の質問ではわかりませんでした。そのため、Spacedmanからの以前の質問に対するコメントを1月4日17:01に繰り返します
David M Kaplan

回答:


1

すべてのモデルが間違っていますが、いくつかは便利です(George Box)。フィットした曲線に対数形状を強制しているのですが、正直なところ、それほど悪くはありません。ポイントが少ないため、テールでのフィットは不十分です。許可した2つのパラメーターは、データの大部分に適合します。言い換えると、ログスケールでは、その尾は、データの大部分から十分に離れていないため、レバレッジを提供できません。回帰の分位の性質とは関係ありません。OLSはそれらのポイントも無視します(特に対数スケールで)。

さらに非線形性を考慮に入れるのは非常に簡単です。私は自然なスプラインに不満ですが、すべてのモデルが間違っています。

library(splines)
mod <- rq(y ~ ns(log(x), df=6), data=df, tau=.99)

quantregそれはあなたに関心のだ場合はパッケージが単調スプラインのためのいくつかの特別なフックを持っています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.