統計とビッグデータ regression

2

L1ペナルティ付き回帰（別名lasso）は、2つの形式で表されます。2つの目的関数を 2つの異なる定式化は対象及び、等価 Karush-Kuhn-Tucker（KKT）条件を使用すると、最初の定式化の定常性条件が2番目の定式化の勾配を取得して0に設定するのと同等であることが簡単にわかります。は、最初の定式化の補完的なスラックネス条件であるQ1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1. argminβQ1argminβQ1 \text{argmin}_\beta \; Q_1 ||β||1≤t,||β||1≤t, ||\beta||_1 \leq t, λ （| | β | | 1 − t ） = 0argminβQ2.argminβQ2. \text{argmin}_\beta \; Q_2. λ(||β||1−t)=0λ(||β||1−t)=0\lambda\left(||\beta||_1 - t\right) = 0、2番目の定式化のソリューションによって満たされることが保証されています。

20 regression lasso penalized

2

多変量線形モデルを重回帰としてキャストする

多変量線形回帰モデルを多重線形回帰として再キャストすることは完全に同等ですか？私は、個別の回帰を実行するだけではありません。ttt 多変量線形モデルは重回帰として簡単に再パラメーター化できることを、いくつかの場所（ベイジアンデータ分析-ゲルマンら、および多変量オールドスクール-マーデン）で読みました。ただし、どちらのソースもこれについて詳しく説明していません。彼らは本質的にそれについて言及し、その後多変量モデルの使用を続けます。数学的には、最初に多変量バージョンを作成し、 Yn×t=Xn×kBk×t+Rn×t,Yn×t=Xn×kBk×t+Rn×t, \underset{n \times t}{\mathbf{Y}} = \underset{n \times k}{\mathbf{X}} \hspace{2mm}\underset{k \times t}{\mathbf{B}} + \underset{n \times t}{\mathbf{R}}, 太字の変数は、その下のサイズの行列です。いつものように、はデータ、は設計行列、は正規分布の残差、\ mathbf {B}は推論の対象です。X R BYY\mathbf{Y}XX\mathbf{X}RR\mathbf{R}BB\mathbf{B} これを使い慣れた多重線形回帰として再パラメーター化するには、変数を次のように単純に書き換えます。 ynt×1=Dnt×nkβnk×1+rnt×1,ynt×1=Dnt×nkβnk×1+rnt×1, \underset{nt \times 1}{\mathbf{y}} = \underset{nt \times nk}{\mathbf{D}} \hspace{2mm} \underset{nk \times 1}{\boldsymbol{\beta}} + \underset{nt \times 1}{\mathbf{r}}, ここで使用される再パラメーター化は、y=row(Y)y=row(Y)\mathbf{y} = row(\mathbf{Y}) 、β=row(B)β=row(B)\boldsymbol\beta = row(\mathbf{B})、およびD=X⊗InD=X⊗In\mathbf{D} = \mathbf{X} \otimes \mathbf{I}_{n}。 row()row()row()は、行列の行が端から端まで長いベクトルに配置されることを意味し、⊗⊗\otimesはクロネッカー、つまり外積です。 …

20 regression multiple-regression linear-model multivariate-regression

3

応答が4番目のルートによって変換されたときの回帰係数の解釈方法

1/4異分散の結果として、応答変数に4番目のルート（）べき乗変換を使用しています。しかし、現在、回帰係数の解釈方法がわかりません。逆変換するときに係数を4乗する必要があると思います（以下の回帰出力を参照）。すべての変数は数百万ドル単位ですが、数十億ドル単位の変化を知りたいと思います。他の独立変数を一定に保ちながら、平均して10億ドルの手数料の変更は32、コレクションの変更（または32,000ドル）につながります。私は0.000075223 * 1000（数十億に達するために）取り^ 4 = 0.000032ます。ここで、この数に100万または10億を掛けますか（従属変数の元の単位は100万単位です）？ lm(formula = (Collections^(1/4)) ~ Fees + DIR) Estimate Std. Error t value Pr(>|t|) (Intercept) 2.094573355 0.112292375 18.653 0.0000000000000151 Fees **0.000075223 **0.000008411 8.943 0.0000000131878713 DIR 0.000022279 0.000004107 5.425 0.0000221138881913

20 regression data-transformation

4

ベータ回帰で0,1値を処理する

[0,1]にいくつかのデータがあり、ベータ回帰で分析したいと思います。もちろん、0,1値に対応するために何かをする必要があります。モデルに合わせてデータを変更するのは嫌いです。また、この場合、0が非常に小さい正の値であると考える必要があると考えているため、ゼロと1のインフレが良い考えだとは思いません（しかし、どの値が適切であるかを正確に言いたくありません。 .001や.999などの小さな値を選択し、ベータの累積distを使用してモデルに適合させることになると思います。したがって、観測y_iの場合、対数尤度LL_iは if y_i < .001 LL+=log(cumd_beta(.001)) else if y_i>.999 LL+=log(1.0-cum_beta(.999)) else LL+=log(beta_density(y_i)) このモデルで私が気に入っているのは、ベータ回帰モデルが有効な場合、このモデルも有効ですが、極値に対する感度が少し削除されることです。しかし、これは非常に自然なアプローチであるように思えるので、なぜ文献に明白な参照が見つからないのか疑問に思います。だから私の質問は、データを変更するのではなく、なぜモデルを変更しないのですか。データを変更すると結果にバイアスがかかります（元のモデルが有効であるという仮定に基づいて）が、極値をビニングしてモデルを変更しても結果にバイアスはかかりません。おそらく私が見落としている問題がありますか？

20 regression generalized-linear-model beta-distribution zero-inflation beta-regression

1

ロジスティック回帰の予測間隔の計算

ロジスティック回帰推定の予測間隔を生成する方法を理解したいと思います。コレットのモデリングバイナリデータのモデリング、第2版p.98-99 の手順に従うことをお勧めしました。この手順を実装してRと比較した後predict.glm、この本は予測区間ではなく信頼区間を計算する手順を示していると思います。 Collettからの手順の実装を、と比較してpredict.glm以下に示します。知りたいのですが、ここから信頼区間ではなく予測区間を作成する方法を教えてください。 #Derived from Collett 'Modelling Binary Data' 2nd Edition p.98-99 #Need reproducible "random" numbers. seed <- 67 num.students <- 1000 which.student <- 1 #Generate data frame with made-up data from students: set.seed(seed) #reset seed v1 <- rbinom(num.students,1,0.7) v2 <- rnorm(length(v1),0.7,0.3) v3 <- rpois(length(v1),1) #Create df representing …

20 r regression confidence-interval logistic prediction-interval

6

回帰モデルから用語を削除する場合

以下が理にかなっている場合、誰でもアドバイスできますか？ 4つの予測子を持つ通常の線形モデルを扱っています。最下位の用語を削除するかどうかは、2つの考えに基づいています。それはだ -値が0.05以上少ないです。私はこれらの線に沿ってそれをドロップすることに賛成しました：この用語の推定値に（例えば）この変数のサンプルデータの四分位範囲を掛けると、この用語を維持することがモデル全体に及ぼす臨床効果に何らかの意味を与えます。この数は非常に低く、臨床設定で変数を測定するときに変数が取ることができる典型的な日中の値の範囲にほぼ等しいため、臨床的に重要ではないと見なし、したがってより節約的なモデルを提供するためにドロップすることができますドロップすると、調整されたが少し減少します。R 2pppR2R2R^2

20 regression model-selection

4

「大きいp、小さいn」結果の概要

誰かが「Large 、Small n」の結果に関する調査論文を教えてくれますか？私は別の研究の文脈でどのようにこの問題はマニフェスト自体のに興味を持っています例えば回帰、分類、ホテリングテスト、など。pppnnn

20 regression classification multivariate-analysis

6

単純な線形回帰出力の解釈

2つの変数の自然対数の単純な線形回帰を実行して、それらが相関しているかどうかを判断しました。私の出力はこれです： R^2 = 0.0893 slope = 0.851 p < 0.001 私は混乱しています。値を見ると、2つの変数は非常に近いため、相関していないと言え。ただし、回帰直線の勾配はほぼ（プロットではほぼ水平に見えますが）、p値は回帰が非常に有意であることを示しています。R2R2R^2000111 これは、2つの変数が高度に相関していることを意味していますか？その場合、値は何を示していますか？R2R2R^2 Durbin-Watson統計がソフトウェアでテストされ、帰無仮説（に等しい）を拒否しなかったことを追加する必要があります。これは変数間の独立性をテストしたと思います。この場合、変数は個々の鳥の測定値であるため、変数が依存していると予想されます。私は個人の身体状態を決定する公開された方法の一部としてこの回帰を行っているので、この方法で回帰を使用することは理にかなっていると思いました。しかし、これらのアウトプットを考えると、おそらくこれらの鳥にとって、この方法は適切ではないと考えています。これは合理的な結論に思えますか？1.3571.3571.357222222

20 regression r-squared

4

相関値の平均化

さまざまな実験条件下Yで変数が変数にどのように依存するかをテストしX、次のグラフを取得するとします。上記のグラフの破線は、各データ系列の線形回帰を示し（実験設定）、凡例の数字は各データ系列のピアソン相関を示します。私は間を「平均相関」（または「平均相関を」）を計算したいXとY。r値を単純に平均してもいいですか？「平均判定基準」どうですか？平均を計算し、その値の2乗を取るか、個々のR 2の平均を計算する必要がありますか？R2R2R^2rR2R2R^2

20 regression correlation mean average

2

二項回帰とロジスティック回帰の違いは何ですか？

私は常にロジスティック回帰を、リンク関数がロジビット関数（プロビット関数の代わりに）である単純な二項回帰の特殊なケースと考えてきました。しかし、私が持っていた別の質問の答えを読むと、混乱しているように思えます。ロジスティック回帰とロジスティックリンクを使用した二項回帰には違いがあります。違いは何ですか？

20 regression logistic binomial

2

ペナルティ付き回帰モデルからのR 2乗と統計的有意性の推定

ペナルティのあるRパッケージを使用して、予測子が多く、どの予測子が重要であるかに関する知識がほとんどないデータセットの係数の短縮推定値を取得しています。チューニングパラメーターL1とL2を選択し、係数に満足した後、R二乗のようなモデルの適合を要約する統計的に健全な方法はありますか？さらに、モデルの全体的な重要性をテストすることに興味があります（つまり、R²= 0を実行するか、すべてを= 0にします）。ここで尋ねられた同様の質問の回答を読みましたが、私の質問にはまったく答えていませんでした。ここで使用しているRパッケージに関する優れたチュートリアルがあります。著者のJelle Goemanが、チュートリアルの最後に、ペナルティ付き回帰モデルからの信頼区間に関する次のメモを示しました。回帰係数または他の推定量の標準誤差を求めることは非常に自然な質問です。原則として、そのような標準誤差は、たとえばブートストラップを使用して簡単に計算できます。それでも、このパッケージは意図的にそれらを提供していません。この理由は、ペナルティのある推定方法から生じるような、強く偏った推定では標準誤差はあまり意味がないためです。ペナルティ推定は、かなりのバイアスを導入することにより、推定量の分散を減らす手順です。したがって、各推定量のバイアスは平均二乗誤差の主要な要素ですが、その分散はわずかな部分しか寄与しない可能性があります。残念ながら、ペナルティ付き回帰のほとんどのアプリケーションでは、バイアスの十分に正確な推定値を取得することは不可能です。ブートストラップベースの計算では、推定値の分散の評価しか提供できません。信頼できるバイアスの推定値は、信頼できるバイアスのない推定値が利用可能な場合にのみ利用可能です。これは、通常、罰則付きの推定値が使用される状況には当てはまりません。したがって、罰せられた推定値の標準誤差を報告することは、ストーリーの一部のみを伝えます。バイアスによって引き起こされる不正確さを完全に無視して、非常に正確な誤った印象を与える可能性があります。ブートストラップベースの信頼区間のように、推定値の分散の評価のみに基づく信頼ステートメントを作成することは間違いです。

20 regression lasso stepwise-regression ridge-regression

4

エッジケースの精度と再現率の正しい値は何ですか？

精度は次のように定義されます： p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0？リコールに関する同じ質問： r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS：不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

5

データベースの基準を使用して回帰モデルを指定できるのはいつですか？

多くの回帰モデル仕様（OLSなど）がデータセットの可能性と見なされると、これが多重比較の問題を引き起こし、p値と信頼区間はもはや信頼できないと聞きました。これの極端な例は、段階的回帰です。モデルを指定するのにデータ自体を使用できるのはいつですか？また、これはいつ有効なアプローチではありませんか？モデルを形成するには、常に主題に基づいた理論が必要ですか？

20 regression frequentist multiple-comparisons

2

LASSO変数の選択後にOLSを実行するのはどういう意味ですか？

最近、応用計量経済学の文献で、特徴選択の問題を扱うとき、選択された変数を使用してLASSOに続いてOLS回帰を実行することは珍しくありません。このような手順の有効性をどのように認定できるのかと思っていました。省略された変数などのトラブルを引き起こしますか？それがより効率的であることを示す証拠、または結果がより解釈可能ですか？関連するディスカッションを次に示します。 LASSOを使用した変数選択 Lasso / Randomを使用した変数選択後のツリーの使用指摘したように、そのような手順が一般的に正しくない場合、なぜそんなに多くの研究がまだあるのですか？LASSO推定器のいくつかの不安な性質と、OLSに対する人々の好みのために、これは単なる経験則、妥協ソリューションであると言えますか？

20 regression feature-selection econometrics least-squares lasso

2

残差プロット：プロット対フィット値で、観測された値ではないのはなぜですか？

OLS回帰のコンテキストでは、一定の分散をテストし、モデルの仕様を評価するために、従来、残差プロット（適合値に対する）が表示されることを理解しています。なぜ残差は値ではなくフィットに対してプロットされるのですか？情報はこれらの2つのプロットとどのように異なりますか？YYY 私は次の残差プロットを作成するモデルに取り組んでいます：そのため、プロットと近似値の関係は一見良好に見えますが、値に対する2番目のプロットにはパターンがあります。なぜこのような顕著なパターンが残差対適合プロットにも現れないのだろうか...YYY 私はモデルの問題を診断するのに助けを求めていませんが、（1）残差対適合プロット＆（2）残差対プロットの違い（一般的に）を理解しようとしています。 YYY 価値があるのは、2番目のグラフのエラーパターンは、DVに影響する変数の省略によるものだと確信しています。現在、そのデータの取得に取り組んでおり、全体的な適合性と仕様の改善に役立つと期待しています。私は不動産データを扱っています：DV =販売価格。IV：1平方フィートの家、＃ガレージスペース、1年建て、1年建て。 22^2

20 regression residuals

タグ付けされた質問 「regression」

タグ付けされた質問「regression」