統計とビッグデータ regression

1

GAMを使用すると、残留DFは（コードの最終行）になります。どういう意味ですか？GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

1

glmnetがZou＆Hastieのオリジナルペーパーの「素朴な」弾性ネットを使用するのはなぜですか？

β *=（1+λ2） β。L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗=(1+λ2)β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. しかし、その後のglmnet論文Friedman、Hastie、＆Tibshirani（2010）座標降下による一般化線形モデルの正則化パスは、この再スケーリングを使用せず、次のような簡単な脚注しかありませんでした。 Zou and Hastie（2005）は、このペナルティを単純なエラスティックネットと呼び、エラスティックネットと呼ばれる再スケーリングされたバージョンを好みました。ここでこの区別を削除します。そこ（またはHastie et al。の教科書のいずれか）にはこれ以上の説明はありません。やや不可解です。著者は、それがあまりにもアドホックだと考えたため、再スケーリングを省いたのですか？さらなる実験でパフォーマンスが悪化したためですか？GLMケースに一般化する方法が明確ではなかったからですか？何も思いつきません。しかし、いずれにせよglmnetそれ以降、このパッケージは非常に人気を博したため、最近ではZou＆Hastieからのリスケーリングを使用している人はいないようで、ほとんどの人はおそらくこの可能性に気付いていません。質問：結局のところ、これは良いアイデアですか、悪いアイデアですか？でglmnetパラメータ化、再スケーリングゾウ＆Hastieはする必要がありますβ^∗=(1+λ(1−α))β^.β^∗=(1+λ(1−α))β^.\hat\beta^* = \big(1+\lambda(1-\alpha)\big)\hat\beta.

27 regression regularization glmnet elastic-net shrinkage

3

線形回帰モデルと非線形回帰モデルの違いを見分ける方法は？

私は、非線形回帰SAS Non Linearに関する次のリンクを読んでいました。最初のセクション「非線形回帰と線形回帰」を読んで理解したことは、以下の式は実際には線形回帰であるということでした。それは正しいですか？もしそうなら、なぜですか？ y= b1バツ3+ b2バツ2+ b3x + cy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + b_3x + c 非線形回帰では多重共線性は問題ではないことも理解できますか？私は、多重共線性が線形回帰の問題になる可能性があることを知っていますので、確かに上記のモデルが実際に線形回帰であれば、多重共線性があるでしょうか？

27 regression multiple-regression nonlinear-regression multicollinearity

3

たぶんこの質問は素朴ですが、：線形回帰がピアソンの相関係数と密接に関連している場合、ケンドールとスピアマンの相関係数と密接に関連する回帰手法はありますか？

27 regression correlation pearson-r spearman-rho kendall-tau

1

モデルから項を削除した後の適切な残留自由度

この質問に関する議論、特にフランク・ハレルのコメントについて、縮小モデル（つまり、多くの説明変数がテストされ、棄却されたモデル）の分散の推定には、Yeの一般化された自由度を使用する必要があると考えています。ハレル教授は、これが最終モデル（多くの変数が拒否された）からのものよりも、元の「完全な」モデル（すべての変数を含む）の残留自由度にはるかに近いと指摘します。質問1.縮約モデルからのすべての標準的な要約と統計に適切なアプローチを使用したい場合（ただし、一般化された自由度の完全な実装が不足している場合）、残差分散などの推定における完全なモデル？質問2.上記が真実で、私がそれをやりたいなら、R設定と同じくらい簡単かもしれません finalModel$df.residual <- fullModel$df.residual モデル適合の演習のある時点で、finalModelとfullModelがlm（）または同様の関数で作成されました。その後、summary（）やconfint（）などの関数が目的のdf.residualで動作するように見えますが、誰かが明らかにfinalModelオブジェクトをいじったというエラーメッセージを返します。

27 r regression model-selection regression-strategies

2

回帰におけるp値の意味

一部のソフトウェアパッケージ（Mathematicaなど）で線形回帰を実行すると、モデル内の個々のパラメーターに関連付けられたp値が得られます。、例えば、結果生成する線形回帰の結果関連付けられたp値有するであろうと一つ。a ba x + bax+bax+baaabbb これらのパラメーターについて、これらのp値は個々に何を意味しますか？回帰モデルのパラメーターを計算する一般的な方法はありますか？各パラメーターに関連付けられたp値をモデル全体のp値に結合できますか？この質問を本質的に数学的に保つために、確率の観点からp値の解釈のみを求めています。

27 probability regression

1

2つの連続変数間で相互作用は可能ですか？

私の変数はすべて連続的です。レベルはありません。それもすることが可能である必要があり、変数間の相互作用を？

27 regression modeling interaction

2

なげなわペナルティが二重指数関数（ラプラス）事前に等しいのはなぜですか？

回帰パラメーターベクトルのLasso推定値は、各事前分布が二重指数分布（ラプラス分布とも呼ばれる）であるBBBの事後モードと同等であることを多くの参考文献で読みました。BBBBiBiB_i 私はこれを証明しようとしましたが、誰かが詳細を具体化できますか？

27 regression bayesian lasso prior regularization

6

なぜ重みが小さくなると正則化のモデルが単純になるのですか？

私は1年ほど前にAndrew Ngの機械学習コースを修了し、現在、ロジスティック回帰の仕組みとパフォーマンスを最適化する手法について高校数学の調査を書いています。これらの手法の1つは、もちろん正規化です。正則化の目的は、モデルを単純化するという目標を含めるようにコスト関数を拡張することにより、過剰適合を防ぐことです。これは、正方化パラメーターを掛けた二乗された各重みをコスト関数に追加することにより、重みのサイズにペナルティを課すことで実現できます。これで、機械学習アルゴリズムは、トレーニングセットの精度を維持しながら、重みのサイズを小さくすることを目指します。アイデアは、データを一般化するモデルを作成できる中間点に到達し、それほど複雑ではないためにすべての確率的ノイズに適合しようとしないというものです。私の混乱は、私たちがウェイトのサイズにペナルティを科す理由ですか？ウェイトが大きいほどより複雑なモデルが作成され、ウェイトが小さいほどよりシンプルな/より滑らかなモデルが作成されるのはなぜですか？Andrew Ngは、講義で説明を教えるのは難しいと主張していますが、私は今この説明を探していると思います。 Ng教授は、モデルの次数が低下するように、新しいコスト関数によってフィーチャの重み（x ^ 3およびx ^ 4）がゼロになる傾向がある例を実際に示しましたが、これは完全なものではありません説明。私の直感では、指数が小さいものは指数が小さいものよりも、指数が大きいものの方が重みが小さくなる傾向があります（重みの小さい特徴は関数の基礎に似ているため）。重みが小さいほど、高次のフィーチャへの「寄与」が小さくなります。しかし、この直感はあまり具体的ではありません。

27 regression machine-learning optimization regularization overfitting

4

scikit-learn（またはその他のPythonフレームワーク）を使用したさまざまな種類のリグレッサのアンサンブル

回帰タスクを解決しようとしています。LassoLARS、SVR、およびGradient Tree Boostingの3つのモデルがデータのさまざまなサブセットに対してうまく機能していることがわかりました。これら3つのモデルすべてを使用して予測を行い、次に「真の出力」と3つのモデルの出力のテーブルを作成すると、少なくとも1つのモデルが真の出力に実際に近いことがわかります。比較的遠く離れている可能性があります。最小限のエラーを計算すると（各テスト例の「最良の」予測子から予測を取得した場合）、モデルのみのエラーよりもはるかに小さいエラーが発生します。そこで、これら3つの異なるモデルの予測を何らかのアンサンブルに結合しようと考えました。質問は、これを適切に行う方法ですか？3つのモデルはすべてscikit-learnを使用して構築および調整されていますが、アンサンブルにモデルをパックするために使用できる何らかの方法を提供していますか？ここでの問題は、3つのモデルすべてからの予測を単に平均化するのではなく、特定の例のプロパティに基づいて重み付けを決定する必要がある重み付けでこれを実行することです。 scikit-learnがそのような機能を提供しない場合でも、誰かがこのタスクに対処する方法を知っていれば、データ内の各例の各モデルの重みを把握するのがいいでしょう。これらの3つのモデルすべての上に構築された個別のリグレッサーによって実行される可能性があると思いますが、3つのモデルのそれぞれに最適な重みを出力しようとしますが、これがこれを行う最善の方法であるかどうかはわかりません。

27 regression scikit-learn ensemble

5

ディープニューラルネットワークは正規化なしで乗算関数を近似できますか？

f = x * y標準的なディープニューラルネットワークを使用して単純な回帰を実行するとします。 1つの非表示層を持つNNがすべての関数を近似できることを示す再調査があることを覚えていますが、正規化なしではNNはこの単純な乗算でさえ近似できませんでした。データのログ正規化のみが役立ちましたがm = x*y => ln(m) = ln(x) + ln(y). 、それはチートのように見えます。NNはログ正規化なしでこれを行うことができますか？揺れは明らかに（私にとって）-はい、それで質問はそのようなNNのタイプ/構成/レイアウトはどうあるべきかということですか？

27 regression machine-learning neural-networks deep-learning

2

帰無仮説の下での線形回帰での分布は何ですか？ときになぜモードがゼロにならないのですか？

帰無仮説下での線形単変量多重回帰における決定係数、またはR 2乗の分布は何ですか？R2R2R^2H0:β=0H0:β=0H_0:\beta=0 予測子の数とサンプルのどのように依存しますか？この分布のモードに閉形式の表現はありますか？kkkn>kn>kn>k 特に、単純な回帰（1つの予測子）の場合、この分布のモードはゼロになりますが、重回帰の場合、モードはゼロ以外の正の値になります。もしこれが本当なら、この「相転移」の直感的な説明はありますか？xxx 更新 @Alecosが以下に示すように、および場合、分布は実際にゼロでピークに達し、場合、ゼロではありません。この相転移には幾何学的な見方が必要だと感じています。OLSの幾何学的ビューを考えてみましょう：はベクトルで、は次元の部分空間を定義します。OLSはこの部分空間にを投影することになり、はとその投影間の角度の二乗余弦です。k=2k=2k=2k=3k=3k=3k>3k>3k>3yy\mathbf yRnRn\mathbb R^nXX\mathbf Xkkkyy\mathbf yR2R2R^2Yyy\mathbf yy^y^\hat{\mathbf y} @Alecosの答えから、すべてのベクトルがランダムである場合、この角度の確率分布はおよびでピークになりますが、他の値モードを持つことになりますのため。なぜ？！90∘90∘90^\circk=2k=2k=2k=3k=3k=3<90∘<90∘<90^\circk>3k>3k>3 更新2：私は@Alecosの回答を受け入れていますが、ここでいくつかの重要な洞察を逃していると感じています。もし誰かがこの現象について他の（幾何学的であるか否かを問わず）それを「明白」にするだろうと提案した場合、私は喜んで賞金を提供します。

26 regression mathematical-statistics r-squared intuition

2

「ダブル投げ縄」を行うか、投げ縄を2回実行する利点

元々の変数セット（S1など）で投げ縄を実行し、S2という名前のスパースセットを取得してから、セットS2で再度投げ縄を実行してセットS3を取得する、投げ縄を2回使用する方法（ダブル投げ縄など）を聞いたことがあります。これに方法論的な用語はありますか？また、投げ縄を2回行う利点は何ですか？

26 regression lasso regularization shrinkage lars

2

Rの重回帰の変数の変換

で重回帰を実行しようとしていますR。ただし、私の従属変数には次のプロットがあります。すべての変数を含む散布図行列です（WAR従属変数です）。この変数（およびおそらく独立変数も）で変換を実行する必要があることは知っていますが、必要な正確な変換についてはわかりません。誰かが私を正しい方向に向けることができますか？独立変数と従属変数の関係に関する追加情報を提供できればうれしいです。私の回帰からの診断グラフィックは次のように見えます。編集 Yeo-Johnson変換を使用して従属変数と独立変数を変換すると、診断プロットは次のようになります。ログリンクでGLMを使用する場合、診断グラフィックは次のとおりです。

26 r regression multiple-regression data-transformation

6

正弦波項をデータに適合させる

私はこの投稿を読みましたが、これを自分のデータに適用する方法がまだわからず、誰かが私を助けてくれることを願っています。次のデータがあります。 y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091, 9.346292, 7.014578, 6.981853, 7.197708, 7.035624, 6.785289, 7.134426, 8.338514, 8.723832, 10.276473, 10.602792, 11.031908, 11.364901, 11.687638, 11.947783, 12.228909, 11.918379, 12.343574, 12.046851, 12.316508, 12.147746, 12.136446, 11.744371, 8.317413, 8.790837, 10.139807, 7.019035, 7.541484, 7.199672, 9.090377, 7.532161, 8.156842, 9.329572, 9.991522, …

26 r regression fitting

タグ付けされた質問 「regression」

タグ付けされた質問「regression」