統計とビッグデータ regression

3

短いバージョン：意思決定ツリーを構築できるRパッケージを探していますが、意思決定ツリーの各リーフは完全な線形回帰モデルです。知る限り、ライブラリrpartは、各リーフで従属変数が定数である決定木を作成します。rpartそのようなツリーを構築できる別のライブラリ（または私が知らない設定）はありますか？ロングバージョン：トレーニングデータセットに基づいて決定木を構築するアルゴリズムを探しています。ツリー内の各決定は、独立変数の1つの条件に従って、トレーニングデータセットを2つの部分に分割します。ツリーのルートには完全なデータセットが含まれ、データセットの各アイテムは1つのリーフノードに含まれています。アルゴリズムは次のようになります。ツリーのルートノードである完全なデータセットから始めます。このノードを選択してと呼びますNNN。のデータに線形回帰モデルを作成します。NNN 場合はのさん線形モデルがある閾値以上である、そして、我々が行われている、そのマークステップ5に葉やジャンプなど。 N θ R 2 N NR2R2R^2NNNθR2θR2\theta_{R^2}NNNNNN ランダムな決定を試して、サブノードで最適なを生成するものを選択します。 R 2nnnR2R2R^2 ランダムな独立変数と、ランダムなしきい値ます。θ Iviviv_iθiθi\theta_i 決定は、のデータセットを2つの新しいノードおよび分割します。 N N 〜Nvi≤θivi≤θiv_i \leq \theta_iNNNN^N^\hat{N}N~N~\tilde{N} と両方で線形回帰モデルを作成し、それらのを計算します（それらをおよびと呼びます）。〜N R2、R 〜RN^N^\hat{N}N~N~\tilde{N}R2R2R^2r^r^\hat{r}r~r~\tilde{r} それらすべてのタプルから、最大持つものを選択します。これによりツリーで新しい決定が行われ、は2つの新しいサブノードおよび\ tilde {N}が追加されます。（V I、θ I、R、〜R）は、mは、I N （R、〜R）N N 〜Nnnn(vi,θi,r^,r~)(vi,θi,r^,r~)(v_i, \theta_i, \hat{r}, \tilde{r})min(r^,r~)min(r^,r~)min(\hat{r}, \tilde{r})NNNN^N^\hat{N}N~N~\tilde{N} 処理が完了しました。まだ処理されていない新しいノードを選択し、手順2に戻ります。すべてのノードが処理された場合、アルゴリズムは終了します。NNNNNNN これにより、データを小さな部分に分割し、各部分の線形モデルを計算する決定ツリーが再帰的に構築されます。ステップ3は終了条件であり、アルゴリズムが過剰適合するのを防ぎます。もちろん、他の可能な終了条件があります。ツリーのの深さが超える場合は終了しNNNθdepthθdepth\theta_{depth} のデータセットがより小さい場合は終了しますNNNθdatasetθdataset\theta_{data set} Rパッケージにそのようなアルゴリズムはありますか？

14 r regression rpart cart

1

多重線形モデルからの関係を視覚的に提示する最良の方法

約6つの予測変数を含む線形モデルがあり、推定値、F値、p値などを表示します。しかし、単一の予測変数の個々の効果を表すのに最適な視覚的プロットは何かと思いまして応答変数？散布図？条件付きプロット？効果プロット？等？そのプロットをどのように解釈しますか？ Rでこれを行うので、可能であれば例を自由に提供してください。編集：私は主に、特定の予測変数と応答変数との関係を提示することに関心があります。

14 r regression data-visualization multiple-regression partial-plot

2

段階的回帰は、母集団のr平方の偏った推定値を提供しますか？

心理学やその他の分野では、次のような段階的な回帰の形式がよく使用されます。残りの予測子（最初はモデルにない予測子）を見て、最大のr平方変化をもたらす予測子を特定します。 r平方変化のp値がアルファ（通常.05）より小さい場合は、その予測子を含めて手順1に戻ります。それ以外の場合は停止します。たとえば、SPSSのこの手順を参照してください。この手順は、さまざまな理由で日常的に批判されています（StataのWebサイトでこの議論を参照してください）。特に、StataのWebサイトには、Frank Harrellによるいくつかのコメントがまとめられています。私は主張に興味があります： [ステップワイズ回帰]は、大きく偏ったR乗値を生成します。具体的には、私の現在の研究のいくつかは、母集団r-squareの推定に焦点を当てています。母集団のr二乗によって、母集団の方程式を生成する母集団データによって説明される分散の割合を参照します。私がレビューしている既存の文献の多くは、段階的な回帰手順を使用しており、提供された推定値が偏っているかどうか、もしそうであればどの程度かを知りたいです。特に、典型的な研究では、30の予測変数、n = 200、.05のエントリのアルファ、および.50前後のr二乗推定値があります。私が知っていること：漸近的に、係数がゼロでない予測子は統計的に有意な予測子となり、r-squareは調整されたr-squareと等しくなります。したがって、漸近的な段階的回帰では、真の回帰方程式と真の母集団r平方を推定する必要があります。サンプルサイズが小さい場合、一部の予測子が省略される可能性があるため、すべての予測子がモデルに含まれていた場合よりもr平方が小さくなります。しかし、データをサンプリングするためのr-squareの通常のバイアスもr-squareを増加させます。したがって、私の素朴な考えは、これらの2つの対立する力が特定の条件下で不偏のr二乗になる可能性があるということです。より一般的には、バイアスの方向は、データのさまざまな機能とアルファ包含基準に依存します。より厳密なアルファ包含基準（たとえば、.01、.001など）を設定すると、データの生成に予測子が含まれる確率が低くなるため、予想される推定r-squareが低くなります。一般に、r-squareは母集団r-squareの上方に偏った推定値であり、この偏りの程度は、予測子が多くなり、サンプルサイズが小さくなると増加します。質問最後に、私の質問：段階的回帰からのr 2乗は、どの程度まで人口r 2乗の偏った推定値になりますか？このバイアスは、サンプルサイズ、予測子の数、アルファ包含基準、またはデータのプロパティにどの程度関連していますか？このトピックに関する参照はありますか？

14 regression model-selection bias r-squared stepwise-regression

4

Rのブラントテスト[終了]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 6か月前に閉鎖されました。順序ロジスティック回帰の並列回帰の仮定をテストする際、いくつかのアプローチがあることがわかりました。私は、グラフィカルなアプローチ（Harrellの本で詳述されている）とRの順序パッケージを使用して詳述されたアプローチの両方を使用しました。ただし、個々の変数と全体モデルの両方に対して、Brantテスト（Stataから）も実行したいと思います。私は周りを見回しましたが、Rで実装されているのが見つかりません RにBrantテストの実装はありますか？

14 r regression ordinal-data ordered-logit

6

独立変数としてアクティビティに費やされた時間

線形モデルの独立変数として、何かをするのに費やした時間（たとえば、数週間の母乳育児）を含めたいと思います。ただし、一部の観察結果は動作にまったく関与しません。0を0としてコーディングするのは正しくありません。0は0を超える値とは質的に異なるためです（つまり、母乳育児をしない女性は、そうする女性と、非常に長い間それを行わない女性とでは大きく異なる場合があります）。私が思いつくのは、費やした時間を分類するダミーのセットですが、これは貴重な情報の無駄です。ゼロ膨張ポアソンのようなものも可能性のように思えますが、この文脈でどのように見えるかを正確に理解することはできません。誰か提案はありますか？

14 regression generalized-linear-model mixture

3

推定

私は次のような理論経済モデルを持っています y=a+b1x1+b2x2+b3x3+uy=a+b1x1+b2x2+b3x3+u y = a + b_1x_1 + b_2x_2 + b_3x_3 + u したがって、理論では、を推定するために、、および因子があると言われています。x1x1x_1x2x2x_2x3x3x_3yyy これで実際のデータが得られたので、、、を推定する必要があります。問題は、実際のデータセットにはとデータのみが含まれていることです。のデータはありません。したがって、実際に適合できるモデルは次のとおりです。b1b1b_1b2b2b_2b3b3b_3x1x1x_1x2x2x_2x3x3x_3 y=a+b1x1+b2x2+uy=a+b1x1+b2x2+uy = a + b_1x_1 + b_2x_2 + u このモデルを推定しても大丈夫ですか？それを推定するものを失いますか？、推定した場合、項はどこに行くのでしょうか？b1b1b_1b2b2b_2b3x3b3x3b_3x_3 エラー用語で説明されていますか？uuu そして、はおよびと相関していないと仮定したいと思います。x3x3x_3x1x1x_1x2x2x_2

14 regression multiple-regression endogeneity

3

2つの勾配値の有意差をテストする

私が持っているデータは、2つの異なる地域の特定の種について、y〜timeの回帰勾配値、標準誤差、n値、およびp値です。あるエリアの回帰スロープが他のエリアの回帰スロープと有意に異なるかどうかを確認したいのですが、これはそのようなデータで可能ですか？誰も私がこれについてどうすればいいか提案がありますか？残念ながら、生データにアクセスできません... これはとても簡単な質問です！

14 r regression statistical-significance

1

残差を見つけてプロットする方法

データが与えられました x = c(21,34,6,47,10,49,23,32,12,16,29,49,28,8,57,9,31,10,21,26,31,52,21,8,18,5,18,26,27,26,32,2,59,58,19,14,16,9,23,28,34,70,69,54,39,9,21,54,26) y = c(47,76,33,78,62,78,33,64,83,67,61,85,46,53,55,71,59,41,82,56,39,89,31,43,29,55, 81,82,82,85,59,74,80,88,29,58,71,60,86,91,72,89,80,84,54,71,75,84,79) 残差を取得してに対してプロットするにはどうすればよいxxxですか？そして、残差がほぼ正常に見えるかどうかをテストするにはどうすればよいですか？私は式のだと私は正しく、元の線形近似を行う場合、私はわからないんだけどが、講義ノート、線形回帰直線の形式でなければならないと言うのy I = β 0 + β 1のx + ε。y=6.9x−5.5y=6.9x−5.5y=6.9x-5.5yi=β0+β1x+ϵyi=β0+β1x+ϵy_i=\beta_0+\beta_1x+\epsilon

14 r regression

2

分位モデリングのモデルパフォーマンス

私は分位点回帰を使用しています（たとえば、R を介して、gbmまたはquantregRで）-中央値ではなく、上位の分位点（たとえば75番目）に焦点を当てています。予測モデリングの背景から、モデルがテストセットにどの程度適合するかを測定し、これをビジネスユーザーに説明できるようにします。私の質問はどうですか？継続的なターゲットの典型的な設定では、次のことができます。全体のRMSEを計算するデータセットを予測値で十分位取りし、実際の平均値を各十分位数で予測された平均値と比較します。等。この場合、予測と比較する実際の値が実際にない（少なくとも考えていない）場合、何ができますか？コードの例を次に示します。 install.packages("quantreg") library(quantreg) install.packages("gbm") library(gbm) data("barro") trainIndx<-sample(1:nrow(barro),size=round(nrow(barro)*0.7),replace=FALSE) train<-barro[trainIndx,] valid<-barro[-trainIndx,] modGBM<-gbm(y.net~., # formula data=train, # dataset distribution=list(name="quantile",alpha=0.75), # see the help for other choices n.trees=5000, # number of trees shrinkage=0.005, # shrinkage or learning rate, # 0.001 to 0.1 usually work interaction.depth=5, # 1: additive …

14 regression data-mining predictive-models quantile-regression

2

Rでダミーコーディングの代わりにエフェクトコーディングで回帰を行う方法は？

現在、カテゴリ変数/因子変数のみを独立変数として持つ回帰モデルに取り組んでいます。私の従属変数はロジット変換比です。 Rは、「ファクター」タイプであるダミーをコーディングする方法を自動的に認識するため、Rで通常の回帰を実行するだけでかなり簡単です。ただし、このタイプのコーディングでは、各変数の1つのカテゴリがベースラインとして使用されるため、解釈が難しくなります。私の教授は、代わりにエフェクトコーディング（-1または1）を使用するように言っています。これは、インターセプトに大平均を使用することを意味するためです。誰もそれを処理する方法を知っていますか？今まで私は試しました： gm <- mean(tapply(ds$ln.crea, ds$month, mean)) model <- lm(ln.crea ~ month + month*month + year + year*year, data = ds, contrasts = list(gm = contr.sum)) Call: lm(formula = ln.crea ~ month + month * month + year + year * year, data = ds, contrasts = …

14 r regression categorical-data categorical-encoding

3

ベイジアン変数選択—本当に機能しますか？

素敵なブログ投稿とそこにリンクされている論文に従って、私はベイジアン変数の選択をいじるかもしれないと思った。私はrjagsでプログラムを作成し（私は非常に新人です）、Exxon Mobilの価格データを、そのリターンを説明する可能性が低いもの（パラジウム価格など）およびその他の関連性の高いもの（SP500など）とともに取得しました）。実行するlm()と、過剰パラメーター化モデルの強力な証拠がありますが、パラジウムは間違いなく除外する必要があります。 Call: lm(formula = Exxon ~ 0 + SP + Palladium + Russell + OilETF + EnergyStks, data = chkr) Residuals: Min 1Q Median 3Q Max -1.663e-03 -4.419e-04 3.099e-05 3.991e-04 1.677e-03 Coefficients: Estimate Std. Error t value Pr(>|t|) SP 0.51913 0.19772 2.626 0.010588 * Palladium 0.01620 0.03744 0.433 …

14 regression bayesian multiple-regression feature-selection jags

3

ベイジアンANOVAとRの回帰はどのように行いますか？[閉まっている]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。私は、1つの独立変数、1つの従属変数、およびカテゴリ変数で構成されるかなり単純なデータセットを持っています。私のようなfrequentistテストを実行している経験をたくさん持っているaov()とlm()、私はR.で自分のベイズ同等物を実行する方法を見つけ出すことはできません最初の2つの変数に対してベイジアン線形回帰を実行し、分類としてカテゴリ変数を使用してベイジアン分散分析を実行したいのですが、Rでこれを行う方法について簡単な例を見つけることはできません。どちらも？さらに、ベイジアン分析によって作成された出力統計は正確に何であり、何を表していますか？私は統計にあまり精通していませんが、コンセンサスはp値で基本的なテストを使用することはやや見当違いであると考えられているようであり、私はそれを維持しようとしています。よろしく。

14 r regression bayesian anova inference

2

方法：ブートストラップによる線形回帰の予測間隔

使い方がわからないブートストラップをして線形回帰モデルの予測間隔を計算。誰かがステップバイステップの手順を概説できますか？私はグーグルで検索しましたが、何も本当に意味がありません。モデルパラメータの信頼区間を計算するためにブートストラップを使用する方法を理解しています。

14 regression bootstrap prediction-interval

2

統計的に有意なピークの確認

データセットとxがあります。次の仮説をテストしたいと思いますピークがあります。つまり、が増加すると、最初に増加してから減少します。yyyxxxx yyyyxxxyyy 私の最初のアイデアは、とをSLR に収めることでした。つまり、前の係数が有意に正であり、前の係数が有意に負であることがわかった場合、仮説を支持します。ただし、これは1つのタイプの関係（2次）のみをチェックし、必ずしもピークの存在をキャプチャするとは限りません。x 2 x x 2xxxx2x2x^2xxxx2x2x^2 その後、私は発見考え、このような領域（の値ソート）、その間にあると、の二つの他の領域のような多くの点として少なくとも含むB、及びその ¯ Y B > ¯ Y Aそして¯ Y B > ¯ Y C大幅。仮説が当てはまる場合、そのような領域bの多くを期待する必要があります。したがって、bの数が十分に大きい場合、仮説を支持する必要があります。x b a c xbbbxxxbbbaaacccxxxbbbyb¯>ya¯yb¯>ya¯\bar{y_b}>\bar{y_a}yb¯>yc¯yb¯>yc¯\bar{y_b}>\bar{y_c}bbbbbb 私の仮説に適したテストを見つけるために私は正しい道を進んでいると思いますか？または、私は車輪を発明しており、この問題に対して確立された方法がありますか？ご意見をお待ちしております。更新。私の従属変数はcount（非負の整数）です。yyy

14 regression statistical-significance curves

2

最小二乗係数を破棄することによるスパース性

正規化されたに対してを回帰したいとしますが、スパースソリューションが必要です。回帰後、最小の大きさの係数を破棄できないのはなぜですか？YYYXXX 記録のために、私はLARSおよびLASSOメソッドを聞いたことがあり、よく使用します。上記のアプローチが適用できない理由を知りたいだけです。

14 regression regression-coefficients

タグ付けされた質問 「regression」

タグ付けされた質問「regression」