統計とビッグデータ regression

1

変数を変換する場合、同じ変換をすべて使用する必要がありますか？たとえば、次のように、さまざまに変換された変数を選択できますか。、してみましょう年齢、雇用の長さ、住宅の長さ、および収入こと。バツ1、x2、x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) または、変換と一貫性を保ち、すべてを同じように使用する必要がありますか？次のように： Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 私の理解では、変換の目標は正常性の問題に対処することです。各変数のヒストグラムを見ると、それらが非常に異なる分布を示していることがわかります。これにより、必要な変換は変数ごとに異なると信じられます。 ## R Code df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T) hist(df[1:7]) 最後に、それは使用して変数を変換する方法有効です持っているの値を？この変換は、すべての変数で一貫している必要がありますか、それとも含まない変数でもアドホックに使用されますか？x n 0 0ログ（xn+ 1 ）log⁡(xn+1)\log(x_n + 1)バツnxnx_n000000 ## R Code plot(df[1:7])

41 r regression logistic data-transformation

5

傾向スコアは、回帰に共変量を追加することとどのように異なりますか？

傾向スコアと因果分析に比較的慣れていないことは認めます。新人として私には明らかではないことの1つは、傾向スコアを使用した「バランス」が、回帰に共変量を追加したときに起こることと数学的に異なることです。操作の違いは何ですか？また、回帰に部分母集団の共変量を追加するよりも優れているのはなぜですか？メソッドの経験的比較を行ういくつかの研究を見てきましたが、2つのメソッドの数学的特性と、PSMが回帰共変量を含むのに因果解釈に役立つ理由に関する良い議論は見ていません。また、この分野では多くの混乱と論争があり、事態をさらに難しくしています。これについての考えや、区別をよりよく理解するための優れたリソース/論文へのポインタはありますか？（Judea Pearlの因果関係の本をゆっくりと進めているので、それを指す必要はありません）

41 regression multivariate-analysis causality propensity-scores

5

リッジ回帰ソリューションの導出方法

リッジ回帰の解の導出にいくつかの問題があります。正則化用語のない回帰ソリューションを知っています： β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. λ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

40 regression least-squares regularization ridge-regression

2

クックの距離プロットの読み方

ポイント7、16、29が影響力のあるポイントであるかどうかを判断する方法を知っている人はいますか？クックの距離は1より小さいため、そうではないことをどこかで読みました。あ、そうですか？

40 r regression residuals diagnostic cooks-distance

1

データのセンタリングは、回帰およびPCAでインターセプトをどのように取り除きますか？

インターセプトを削除するために、データを中央に配置するインスタンス（正則化またはPCAなど）について読み続けます（この質問で述べたように）。私はそれが簡単であることを知っていますが、私はこれを直感的に理解するのに苦労しています。誰かが私が読むことができる直観または参照を提供できますか？

40 regression pca centering

4

モデルを作成するときに、統計的に有意ではない共変量を「保持」する必要がありますか？

モデルの計算にはいくつかの共変量がありますが、そのすべてが統計的に有意ではありません。そうでないものは削除すべきですか？この質問は現象について説明していますが、私の質問には答えていません。ANCOVAの共変量の有意でない影響をどのように解釈するかしかし、その質問に対する答えには、有意ではない共変量を取り出すことを示唆するものは何もありません。そのため、今のところ、それらは留まるべきだと信じています。あるしきい値（共変量には当てはまらないと思われる有意性しきい値）を超える量を必ずしも説明することなく、分散の一部を説明できます（したがって、モデルを支援します）。 CVのどこかに別の質問があり、その答えは有意性に関係なく共変量を保持する必要があることを暗示しているようですが、それについては明確ではありません。（私はその質問にリンクしたいのですが、たった今再び追跡することができませんでした。）それで...統計的に有意ではない共変量は、モデルの計算で保持されるべきですか？（とにかく計算によって共変量がモデル出力に決して含まれないことを明確にするために、この質問を編集しました。）複雑さを追加するために、データの一部のサブセット（個別に処理する必要のあるサブセット）の共変量が統計的に有意な場合はどうでしょうか。デフォルトでは、このような共変量を保持します。そうしないと、異なるモデルを使用するか、いずれかのケースで統計的に有意な共変量が失われます。ただし、このスプリットケースについても回答がある場合は、そのことをお知らせください。

39 regression statistical-significance ancova model predictor

6

最小角回帰となげなわ

最小角回帰となげなわは、非常によく似た正則化パスを生成する傾向があります（係数がゼロと交差する場合を除いて同一です）。両方とも、実質的に同一のアルゴリズムによって効率的に適合できます。ある方法を他の方法よりも優先する実用的な理由はありますか？

39 regression lasso

3

ロジスティック回帰をフィッティングする前に標準化が必要ですか？

私の質問は、ロジスティック回帰を当てはめる前に、すべての変数が[0,1]の間で同じスケールを持っていることを確認するためにデータセットを標準化する必要があるかどうかです。式は次のとおりです。 xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} 私のデータセットには2つの変数があり、2つのチャネルについて同じことを記述していますが、ボリュームは異なります。これは、2つの店舗での顧客の訪問数です。ここで、顧客が購入するかどうかを示します。顧客は両方の店、または最初の店を2回、2番目の店を1回訪れてから購入できます。しかし、1店舗目の顧客の合計訪問数は2店舗目の10倍です。標準化せずにこのロジスティック回帰に適合すると coef(store1)=37, coef(store2)=13、私はその後、データを標準化する場合coef(store1)=133, coef(store2)=11。このようなもの。どのアプローチがより理にかなっていますか？決定木モデルをフィッティングしている場合はどうなりますか？モデル自体が何らかの形でモデルを調整するため、ツリー構造モデルは標準化を必要としません。しかし、すべての人に確認してください。

39 regression logistic standardization

3

多項式回帰が多重線形回帰の特殊なケースと見なされるのはなぜですか？

多項式回帰が非線形関係をモデル化する場合、多重線形回帰の特殊なケースとはどのように考えられますか？ウィキペディアは、「多項式回帰は非線形モデルをデータに適合させますが、統計的推定問題として線形ですが、推定される未知のパラメーターでは回帰関数は線形です。データから。」E(y|x)E(y|x)\mathbb{E}(y | x) パラメーターが次数 2の項の係数である場合、未知のパラメーターで多項式回帰はどのように線形になりますか？≥≥\ge

38 regression multiple-regression linear-model nonlinear-regression polynomial

2

ポアソン回帰と負の二項回帰はいつ同じ係数に適合しますか？

Rでは、ポアソン回帰と負の二項（NB）回帰が常にカテゴリカルではあるが連続ではない予測子の係数に適合するように見えることに気付きました。たとえば、カテゴリー予測子を使用した回帰は次のとおりです。 data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) ポアソンとNBが異なる係数に適合する連続予測子の例を次に示します。 data(cars) rs1 = glm(dist ~ speed, data=cars, family="poisson") rs2 = glm.nb(dist ~ speed, data=cars) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) （もちろん、これらはデータをカウントするものではなく、モデルは意味がありません...）次に、予測変数を係数に再コーディングすると、2つのモデルが同じ係数に再び適合します。 library(Hmisc) speedCat = cut2(cars$speed, g=5) #you can change …

38 regression negative-binomial poisson-regression

5

コックス回帰の予測

多変量Cox回帰を行っています。重要な独立変数とベータ値があります。モデルは私のデータに非常によく適合しています。次に、モデルを使用して、新しい観測の生存を予測したいと思います。Coxモデルを使用してこれを行う方法は不明です。線形回帰またはロジスティック回帰では、新しい観測の値を回帰に入れ、それらにベータを掛けるだけで簡単になり、結果を予測できます。ベースラインの危険性を判断するにはどうすればよいですか？予測の計算に加えて、それが必要です。これはCoxモデルでどのように行われますか？

38 regression survival prediction cox-model

8

変更スコアに対する独立変数の効果をテストするときに、ベースライン測定値を制御変数として含めることは有効ですか？

OLS回帰を実行しようとしています。 DV：1年にわたる重量の変化（初期重量-終了重量） IV：運動するかどうか。しかし、体重の多い人は、thinnerせた人よりも運動単位あたりの体重が減るのが妥当と思われます。したがって、制御変数を含めたかったのです。 CV：初期開始重量。ただし、従属変数ANDを制御変数として計算するために両方で初期重みが使用されるようになりました。これでいいですか？これはOLSの前提に違反しますか？

38 regression repeated-measures least-squares change-scores

3

単純な線形回帰における回帰係数の分散を導き出す

単純な線形回帰では、。ここで、です。推定量を導き出しました：ここでおよびはおよびサンプル平均です。y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy ここで、\ hat \ beta_1の分散を見つけたいと思いますβ^1β^1\hat\beta_1。次のようなものを導き出しました： Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 .Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 . \text{Var}(\hat{\beta_1}) = \frac{\sigma^2(1 - \frac{1}{n})}{\sum_i (x_i - \bar{x})^2}\ . 派生は次のとおりです。 Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E⎡⎣⎢⎢⎢⎢⎢⎢⎛⎝⎜⎜⎜⎜⎜∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]=0⎞⎠⎟⎟⎟⎟⎟2⎤⎦⎥⎥⎥⎥⎥⎥=1(∑i(xi−x¯)2)2E⎡⎣(∑i(xi−x¯)(ui−∑jujn))2⎤⎦=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] , since ui 's are …

38 regression mathematical-statistics variance linear-model regression-coefficients

2

二項回帰のRの出力の解釈

私は二項データテストでこれについては非常に新しいですが、1つを行う必要があり、結果をどのように解釈するかがわかりません。応答変数であるy変数は二項であり、説明因子は連続的です。これは、結果を要約するときに得たものです： glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q Median 3Q Max -1.213 -1.044 -1.023 1.312 1.344 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 *** leaves.presence 0.0008166 0.0002472 3.303 0.000956 *** --- Signif. codes: 0 ‘***’ 0.001 …

38 r regression logistic binomial interpretation

3

分割交差検証推定値のとしての分散：「安定性」の役割は何ですか？

TL、DR：それは、反対しばしば反復するアドバイス、リーブワンアウトクロスバリデーション（LOO-CV）が表示さ-であり、でCVを倍（折り目の数）に等しい（数トレーニング観測値）-モデル/アルゴリズム、データセット、またはその両方の特定の安定性条件を仮定して、最大変数ではなく、最小変数である一般化誤差の推定値を生成します（どちらがわからない私はこの安定条件を本当に理解していないので正しいです）。K N KKKKKKKNNNKKK 誰かがこの安定条件が何であるかを正確に説明できますか？線形回帰はそのような「安定した」アルゴリズムの1つであり、その文脈では、LOO-CVが一般化誤差の推定値のバイアスと分散に関する限り、厳密にCVの最良の選択であることを意味しますか？従来の知恵は、選択することであるにおける倍CVはバイアス分散トレードオフを、以下のような低い値高い値つつ、より悲観的なバイアスを有する汎化誤差の推定につながるが、より低い分散、（2に近づきます）（接近）以下バイアスされたが、より大きな分散を有するされる推定値をもたらします。とともに増加するこの分散現象の従来の説明は、おそらく「統計的学習の要素（セクション7.10.1）」で最も顕著に示されています。K K K N KKKKKKKKKKKKKNNNKKK K = Nの場合、クロス検証推定器は真の（予想される）予測誤差に対してほぼバイアスをかけられませんが、N個の「トレーニングセット」は互いに非常に類似しているため、分散が大きくなります。意味は、検証エラーはより高度に相関しているため、それらの合計はより可変的です。推論のこのラインは（例えば、このサイトで多くの回答で繰り返されているここで、ここでは、ここでは、ここでは、ここでは、ここでは、とここではその代わり、）などなど、様々なブログにし、しかし、詳細な分析が事実上与えれることはありません分析がどのように見えるかについての直感または簡単なスケッチのみ。NNN ただし、通常、私が実際に理解していない特定の「安定性」条件を引用して、矛盾するステートメントを見つけることができます。たとえば、この矛盾する答えは、「低不安定性のモデル/モデリング手順では、LOOの変動性が最小であることが多い」という2015年の論文のいくつかの段落を引用しています（強調を追加）。このペーパー（セクション5.2）は、モデル/アルゴリズムが「安定」である限り、LOOが最小変数選択を表すことに同意するようです。この問題に対する別のスタンスをとると、この論文（結果2）もあります。これは、「倍交差検証の分散[...]は依存しないk kKKKkkkkkk、」再び特定の「安定性」条件を引用しています。 LOOが最も可変的な折り畳みCVである理由についての説明は十分に直感的ですが、反直感があります。平均二乗誤差（MSE）の最終的なCV推定値は、各フォールドのMSE推定値の平均です。したがって、がまで増加すると、CV推定値は増加するランダム変数の平均になります。そして、平均の分散は変数の数が平均化されるにつれて減少することを知っています。そのため、LOOが最も可変のフォールドCVになるためには、MSE推定値間の相関の増加による分散の増加が、平均化されるフォールドの数が多いことによる分散の減少を上回ることを確認する必要があります。K N KKKKKKKNNNKKK。そして、これが真実であることはまったく明らかではありません。これらすべてについて完全に混乱して考えるようになったので、線形回帰の場合について少しシミュレーションを実行することにしました。 = 50および3つの無相関予測子を使用して10,000個のデータセットをシミュレートし、そのたびに = 2、5、10 、または50 =フォールドCVを使用して一般化誤差を推定しました。Rコードはこちらです。10,000個のすべてのデータセット（MSE単位）でのCV推定の結果の平均と分散は次のとおりです。K K NNNNKKKKKKNNN k = 2 k = 5 k = 10 k = n = 50 mean 1.187 1.108 1.094 1.087 variance 0.094 0.058 …

37 regression machine-learning variance cross-validation predictive-models

タグ付けされた質問 「regression」

タグ付けされた質問「regression」