統計とビッグデータ regression

3

この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 3年前に移行されました。統計では、線形回帰を開始しています。一般に、が高いほど良いことはわかっていますが、が高いと役に立たないシナリオはありますか？R2R2R^2R2R2R^2

23 regression r-squared

2

多変量回帰のランダムフォレスト

入力フィーチャと出力のマルチ出力回帰問題があります。出力には、複雑な非線形相関構造があります。dバツdバツd_xdydyd_y ランダムフォレストを使用して回帰を行いたいです。私が知る限り、回帰用のランダムフォレストは単一の出力でのみ機能するため、各出力に1つずつ、ランダムフォレストをトレーニングする必要があります。これは、それらの相関を無視します。dydyd_y 出力相関を考慮したランダムフォレストの拡張機能はありますか？多タスク学習のガウス過程回帰のようなものかもしれません。

23 regression multivariate-analysis random-forest

7

3パーセンタイルに基づく分布の推定

パーセンタイルが3つしかわからない場合、どの方法を使用して分布を推測できますか？たとえば、特定のデータセットでは、5パーセンタイルが8,135、50パーセンタイルが11,259、95パーセンタイルが23,611であることを知っています。他の数値からそのパーセンタイルに移行できるようにしたいです。それは私のデータではなく、それらはすべて私が持っている統計です。分布が正規でないことは明らかです。私が持っている他の唯一の情報は、このデータがさまざまな学区の政府の一人当たりの資金を表しているということです。この問題には明確な解決策がないことを知るには統計については十分知っていますが、良い推測を見つける方法を知るには十分ではありません。対数正規分布は適切でしょうか？回帰を実行するためにどのツールを使用できますか（または自分で行う必要がありますか）？

23 r regression quantiles

2

ラムダが、エラスティックネット回帰のラムダの推奨値である「最小値から1つの標準誤差以内」であるのはなぜですか？

エラスティックネット回帰でラムダが果たす役割を理解しています。そして、なぜ相互検証エラーを最小化するラムダ値であるlambda.minを選択するのかを理解できます。私の質問は、統計文献のどこでlambda.1seを使用することを推奨していますか、それはCVエラーと1つの標準エラーを最小にするラムダの値ですか？正式な引用を見つけることも、これがしばしば良い値である理由を見つけることもできないようです。私はそれがより制限された正則化であり、パラメータをゼロに向かってより小さくすることを理解していますが、lambda.1seがlambda.minよりも良い選択である条件が常にあるとは限りません。誰かが説明を助けることができますか？

23 regression cross-validation regularization glmnet elastic-net

6

相関するリグレッサへの対処

相関性の高いリグレッサを使用した多重線形回帰では、使用する最適な戦略は何ですか？相関するすべてのリグレッサーの積を加算するのは正当なアプローチですか？

23 regression multicollinearity

5

AはBと正の関係があります。 CはAとBの結果ですが、Cに対するAの効果は負であり、Cに対するBの効果は正です。これは起こりますか？

22 regression correlation

1

ブリッジペナルティとElastic Netの正則化

LASSO（L1L1L_1）やRidge（L2L2L_2）など、いくつかのペナルティ関数と近似がよく研究されており、これらが回帰でどのように比較されるかがわかります。 ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ]は場合のBridgeペナルティをLASSOと比較しましたが、\ sum \ lambda_ {2として与えられるLASSOとRidgeペナルティの組み合わせであるElastic Net正則化との比較を見つけることができませんでした} \ | \ベータ\ | ^ {2} + \ lambda_ {1} \ | \ベータ\ | _ {1}。γ≥1γ≥1\gamma \geq 1∑λ2∥β∥2+λ1∥β∥1∑λ2‖β‖2+λ1‖β‖1\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1} Elastic Netとこの特定のBridgeには同様の制約形式があるため、これは興味深い質問です。さまざまなメトリックを使用してこれらの単位円を比較します（pppはミンコフスキー距離の累乗です）。 p=1p=1p = 1はLASSOに対応し、p=2p=2p = 2はリッジに対応し、p=1.4p=1.4p = 1.4は1つの可能なブリッジに対応します。Elastic Netは、L1L1L_1およびL2L2L_2ペナルティーに均等に重み付けして生成されました。これらの数値は、たとえば、スパース性を特定するのに役立ちます（Elastic NetがLASSOから保存している間、Bridgeは明らかに欠けています）。では、のBridgeは、正則化（スパース性以外）に関してElastic Netとどのように比較されますか？私は教師あり学習に特別な関心を持っているので、おそらく機能の選択/重み付けに関する議論が適切です。幾何学的な議論も歓迎します。1<γ<21<γ<21<\gamma <2 …

22 regression lasso regularization ridge-regression elastic-net

2

ラプラスがスパースソリューションを事前に作成するのはなぜですか？

正則化に関する文献を調べていましたが、L2のレギュレーションとガウス事前分布、およびL1とゼロを中心としたラプラスとをリンクする段落がよく見られました。これらの事前分布がどのように見えるかは知っていますが、たとえば線形モデルの重みに変換する方法はわかりません。L1では、正しく理解できれば、スパースソリューション、つまり、いくつかの重みが正確にゼロにプッシュされることを期待しています。また、L2では小さな重みが得られますが、重みはゼロではありません。しかし、なぜそれが起こるのでしょうか？さらに情報を提供したり、思考の道筋を明確にする必要がある場合はコメントしてください。

22 regression bayesian prior regularization laplace-distribution

2

最小二乗回帰の段階的な線形代数計算

Rの線形混合モデルに関する質問の前編として、および初心者/中級の統計愛好家の参考として共有するために、独立した「Q＆Aスタイル」として、単純な線形回帰の係数と予測値。この例は、Rの組み込みデータセットをmtcars使用しており、独立変数として機能する車両が消費するガロンあたりのマイル数として設定され、車の重量（連続変数）に対して回帰し、シリンダー数を相互作用のない3つのレベル（4、6、または8）の係数。編集：あなたがこの質問に興味があるなら、あなたは間違いなくCVの外のマシュー・ドゥルリーによるこの投稿で詳細で満足のいく答えを見つけるでしょう。

22 r regression linear-model lm

2

「ランクを下げた回帰」とは何ですか？

私は統計学習の要素を読んでおり、セクション3.7「複数の結果の縮小と選択」が何であるかを理解できませんでした。RRR（Reduced-Rank Regression）について説明しており、前提は一般的な多変量線形モデルに関するものであり、係数は不明であり（推定される）、完全なランクを持たないことがわかっていることしか理解できません。私が理解しているのはそれだけです。残りの数学は私を超えています。著者が「見せることができる」と言うことさえ助けにならず、物事を演習として残します。誰かがここで何が起こっているのかを直感的に説明してもらえますか？この章では、おそらく新しい方法について説明していますか？または何？

22 regression multivariate-analysis dimensionality-reduction regularization reduced-rank-regression

2

Rのブートストラップは実際にどのように機能しますか？

私はRのブートパッケージを調査してきましたが、その使用方法に関する多くの優れた入門書を見つけましたが、「舞台裏」で何が起こっているかを正確に説明するものはまだ見つけていません。たとえば、この例では、ガイドは標準の回帰係数をブートストラップ回帰の開始点として使用する方法を示していますが、ブートストラップ回帰係数を導出するためにブートストラップ手順が実際に何をしているのかについては説明しません。何らかの反復プロセスが行われているように見えますが、何が起こっているのかを正確に把握できないようです。

22 r regression bootstrap regression-coefficients

2

形式

Webディスカッションフォーラムの統計データセットがあります。私は、トピックが持つことが期待される返信の数の分布を見ています。特に、トピックの返信数のリストを含むデータセットを作成し、その数の返信を含むトピックの数を作成しました。 "num_replies","count" 0,627568 1,156371 2,151670 3,79094 4,59473 5,39895 6,30947 7,23329 8,18726 データセットを対数プロットでプロットすると、基本的に直線が得られます：（これはZipfianディストリビューションです）。ウィキペディアによると、対数プロットの直線は形式の単項式でモデル化できる関数を意味します。そして実際、私はそのような機能を目撃しました：y= a xky=aバツky = ax^k lines(data$num_replies, 480000 * data$num_replies ^ -1.62, col="green") 私の眼球は明らかにRほど正確ではありません。それでは、どうやってRをこのモデルのパラメーターにもっと正確に合わせることができますか？多項式回帰を試みましたが、Rが指数をパラメーターとして適合させようとは思わない-私が望むモデルの適切な名前は何ですか？編集：みんなの回答をありがとう。示唆されたように、このレシピを使用して、入力データのログに対して線形モデルを適合させました。 data <- read.csv(file="result.txt") # Avoid taking the log of zero: data$num_replies = data$num_replies + 1 plot(data$num_replies, data$count, log="xy", cex=0.8) # Fit just the first …

22 r regression nonlinear-regression

3

大きな、小さな問題を扱うときのモデルの安定性

イントロ：古典的な「大きなp、小さなnの問題」のデータセットがあります。利用可能なサンプル数n = 150で、可能な予測子の数p = 400。結果は連続変数です。最も「重要な」記述子、つまり、結果を説明し、理論の構築を支援するのに最適な記述子を見つけたいと思います。このトピックに関する調査の後、大きなp、小さなnの場合にLASSOとElastic Netが一般的に使用されることがわかりました。私の予測子のいくつかは非常に相関しており、重要度評価でそれらのグループを保持したいので、Elastic Netを選択しました。重要度の尺度として回帰係数の絶対値を使用できると思います（間違っている場合は修正してください。データセットは標準化されています）。問題：サンプル数が少ないので、どのようにして安定したモデルを実現できますか？私の現在のアプローチは、MSEスコアを平均する10倍の交差検証を使用して、データセットの90％でグリッド検索で最適なチューニングパラメーター（ラムダとアルファ）を見つけることです。次に、データセットの90％全体で最適なチューニングパラメーターを使用してモデルをトレーニングします。データセットの10％のホールドアウトでRの2乗を使用してモデルを評価できます（これは15サンプルのみです）。この手順を繰り返し実行すると、Rの2乗評価に大きなばらつきが見つかりました。同様に、非ゼロの予測子の数はその係数と同様に異なります。予測変数の重要性のより安定した評価と、最終モデルのパフォーマンスのより安定した評価を取得するにはどうすればよいですか？手順を繰り返し実行して多くのモデルを作成してから、回帰係数を平均できますか？または、モデルの予測子の出現回数を重要度スコアとして使用する必要がありますか？現在、40から50個の非ゼロの予測子を取得しています。安定性を高めるために、予測子の数をより厳しくペナルティにすべきですか？

22 regression cross-validation model-selection feature-selection elastic-net

4

変数間の相互作用を考慮する場合、線形回帰とANOVAが異なる値を与えるのはなぜですか？

回帰モデルを使用して、1つの時系列データ（複製なし）を近似しようとしました。データは次のようになります。 > xx.2 value time treat 1 8.788269 1 0 2 7.964719 6 0 3 8.204051 12 0 4 9.041368 24 0 5 8.181555 48 0 6 8.041419 96 0 7 7.992336 144 0 8 7.948658 1 1 9 8.090211 6 1 10 8.031459 12 1 11 8.118308 24 1 …

22 r regression statistical-significance anova p-value

1

線形モデルとしての一般的な統計検定

（更新：私はこれをより深く掘り下げ、結果をここに投稿しました）名前付き統計検定のリストは膨大です。一般的なテストの多くは、1標本t検定はただである例えば、単純な線形モデルから推論に頼る=β+εyのヌルモデルに対してテストされ、Y =μ+εことすなわちβ=μ μは、いくつかのヌルです値-通常はμ= 0。これは、名前付きモデルのローテート学習、それらを使用するタイミング、およびそれらが互いに関係がないかのように仮定することよりも、教育目的にとってかなり有益であることがわかりました。そのアプローチは促進しますが、理解を促進しません。ただし、これを収集する優れたリソースが見つかりません。私は、モデルからの推論の方法よりも、基礎となるモデル間の同等性にもっと興味があります。私が見る限り、これらすべての線形モデルの尤度比検定は、「古典的な」推論と同じ結果をもたらします。エラー項を無視し、すべての帰無仮説が効果の欠如であると仮定して、これまでに学んだ同等性を次に示します。ε 〜N（0 、σ2）ε〜N（0、σ2）\varepsilon \sim \mathcal N(0, \sigma^2) 1標本t検定：。y=β0H0：β0= 0y=β0H0：β0=0y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 対応のある標本のt検定： y2− y1= β0H0：β0= 0y2−y1=β0H0：β0=0y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 これは、ペアワイズ差分の1サンプルt検定と同じです。 2標本t検定： y= β1∗ x私+ β0H0：β1= 0y=β1∗バツ私+β0H0：β1=0y = \beta_1 * x_i + \beta_0 \qquad \mathcal{H}_0: …

22 regression correlation anova t-test linear-model

タグ付けされた質問 「regression」

タグ付けされた質問「regression」