統計とビッグデータ regression

3

私は機械学習に取り組んでいるソフトウェアエンジニアです。私の理解から、線形回帰（OLSなど）および線形分類（ロジスティック回帰やSVMなど）は、トレーニング済み係数と特徴変数内積に基づいて予測を行います。w⃗ w→\vec{w}x⃗ x→\vec{x} y^=f(w⃗ ⋅x⃗ )=f(∑iwixi)y^=f(w→⋅x→)=f(∑iwixi) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) 私の質問は、モデルがトレーニングされた後（つまり、係数が計算された後）、モデルがより正確に予測するために重要な特徴変数の係数が大きくなるということですか？wiwiw_i つまり、変数を係数値で並べ替えてから、最も高い係数を持つフィーチャを選択するだけで、係数の相対的な大きさをフィーチャ選択に使用できるかどうかを尋ねています。このアプローチが有効な場合、機能の選択について（ラッパーメソッドやフィルターメソッドなどとともに）言及されていないのはなぜですか。私がこれを尋ねる理由は、L1対L2の正規化に関する議論に出くわしたためです。次のような宣伝文句があります：組み込み機能の選択は、L1-normの有用なプロパティとして頻繁に言及されていますが、L2-normはそうではありません。これは実際にはL1ノルムの結果であり、スパース係数を生成する傾向があります（以下で説明します）。モデルに100個の係数があり、そのうちの10個のみが非ゼロ係数を持つと仮定すると、これは事実上「他の90個の予測変数は目標値の予測には役に立たない」と言っています。行間を読むと、係数が0に近い場合、その係数を持つ特徴変数にはほとんど予測力がないはずだと思います。編集：私はまた、数値変数にZスケーリングを適用しています。

15 regression machine-learning classification feature-selection linear-model

1

最適なラインがあります。最適なラインを変更しないデータポイントが必要です

線のフィッティングに関するプレゼンテーションを行っています。単純な線形関数ます。散布図に入れることができる散布データポイントを取得しようとしています。これにより、同じ方程式に最適なラインを維持できます。y=1x+by=1x+by=1x+b RまたはExcelのどちらか簡単な方でこのテクニックを学びたいです。

15 r regression least-squares excel

2

仮説検定の多重線形回帰

複数の線形回帰を使用してさまざまな変数のモデルを作成することに精通しています。ただし、回帰テストを使用して、基本的な仮説のテストを行う場合は興味がありました。もしそうなら、それらのシナリオ/仮説はどのように見えるでしょうか？

15 regression hypothesis-testing multiple-regression

2

線形回帰モデルですべてのサンプル観測を繰り返し、回帰を再実行すると、結果にどのような影響がありますか？

N個の観測値、おそらく複数の因子があり、各観測値を2回（またはM回）繰り返すと、このサイズNMの新しいセットの回帰は元の観測値の回帰と比較してどうですか？

15 regression linear-model multiple-regression

4

Rに観測値や予測値を追加するときに線形回帰を効率的に更新する

観測または予測子が追加されたときに線形モデルを効率的に更新する方法をRで見つけることに興味があります。biglmには観測値を追加する際の更新機能がありますが、データはメモリに常駐するのに十分なサイズです（ただし、更新するインスタンスは多数あります）。これを素手で行う方法、例えばQR分解を更新する方法があります（HammarlingとLucasによる「QR分解と最小二乗問題の更新」を参照）が、既存の実装を期待しています。

15 r regression computational-statistics linear-model

2

ロジスティック回帰の信頼区間の計算

私は二項ロジスティック回帰分析を使用して、ユーザーが何かをクリックする可能性にさらされているhas_xか、has_y影響を与えているかどうかを特定しています。私のモデルは次のとおりです。 fit = glm(formula = has_clicked ~ has_x + has_y, data=df, family = binomial()) これは私のモデルからの出力： Call: glm(formula = has_clicked ~ has_x + has_y, family = binomial(), data = active_domains) Deviance Residuals: Min 1Q Median 3Q Max -0.9869 -0.9719 -0.9500 1.3979 1.4233 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.504737 …

15 regression logistic standard-error logit

1

lmerモデルに使用する多重比較方法：lsmeansまたはglht？

1つの固定効果（条件）と2つのランダム効果（被験者内のデザインとペアによる参加者）を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました：exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。次に、固定効果（条件）のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

3

Frisch-Waugh定理の有用性

私は、計量経済学でフリッシュ・ウォーの定理を教えることになっていますが、これは勉強していません。私はその背後にある数学を理解しており、「他のリグレッサの影響を「排除」する場合、多重線形モデルから特定の係数に対して得られる係数が単純回帰モデルの係数に等しい」という考えも願っています。したがって、理論的なアイデアは一種のクールです。（私が完全に誤解した場合、訂正を歓迎します）しかし、それはいくつかの古典的/実用的な使用法を持っていますか？編集：私は答えを受け入れましたが、他の例/アプリケーションをもたらす新しいものを喜んで持っています。

15 regression econometrics least-squares projection decomposition

2

影響関数とOLS

影響関数の働きを理解しようとしています。誰かが簡単なOLS回帰の文脈で説明できますか y私= α + β⋅ X私+ ε私yi=α+β⋅xi+εi\begin{equation} y_i = \alpha + \beta \cdot x_i + \varepsilon_i \end{equation} 私はしたい場所影響関数を用。ββ\beta

15 regression least-squares

5

線形回帰で正規性の仮定をする理由

私の質問は非常に簡単です：線形回帰の仮定で誤差項が従う分布として正規を選択するのはなぜですか？ユニフォーム、T、その他のようなものを選択しないのはなぜですか？

14 regression mathematical-statistics normal-distribution error linear

5

線形回帰に既知の理論線と統計的に有意な差があるかどうかを計算するにはどうすればよいですか？

ほぼ直線に沿ったデータがいくつかあります。これらの値の線形回帰を行うと、線形方程式が得られます。 y=0.997x−0.0136y=0.997x−0.0136y = 0.997x-0.0136 理想的な世界では、方程式はなければなりません。y=xy=xy = x 明らかに、私の線形値は理想に近いが、正確ではありません。私の質問は、この結果が統計的に有意であるかどうかをどのように判断できますか？ 0.997の値は1と大きく異なりますか？-0.01 は0と大きく異なりますか？または、それらは統計的に同じであり、私はいくつかの合理的な信頼レベルでと結論付けることができますか？y=xy=xy=x 使用できる良い統計的検定とは何ですか？ありがとう

14 regression hypothesis-testing statistical-significance

5

線形回帰の仮定の必要性は何ですか？

線形回帰では、次の仮定を行います予測子の値の各セットでの応答の平均は、予測子の線形関数です。E（Y私）E（Y私）E(Y_i)（x1 i、x2 i、… ）（バツ1私、バツ2私、…）(x_{1i}, x_{2i},…) エラーε私ε私ε_iは独立しています。予測子の各値セット（x_ {1i}、x_ {2i}、…）での誤差ε私ε私ε_iは、正規分布しています。（x1 i、x2 i、… ）（バツ1私、バツ2私、…）(x_{1i}, x_{2i},…) 予測子の各値セット（x_ {1i}、x_ {2i}、…）での誤差ε私ε私ε_i、等しい分散（σ2と表示）があります。（x1 i、x2 i、… ）（バツ1私、バツ2私、…）(x_{1i}, x_{2i},…)σ 2σ2σ2 線形回帰を解く方法の1つは、次のように記述できる正規方程式を使用することです。 θ = （XTバツ）− 1バツTYθ=（バツTバツ）−1バツTY\theta = (X^TX)^{-1}X^TY 数学的な観点から、上記の方程式はX ^ TXのみバツTバツバツTバツX^TXが可逆的であることを必要とします。では、なぜこれらの仮定が必要なのでしょうか？数人の同僚に尋ねたところ、良い結果を得るためであり、正規方程式はそれを達成するためのアルゴリズムであると述べました。しかし、その場合、これらの仮定はどのように役立ちますか？それらを守ることは、より良いモデルを得るのにどのように役立ちますか？

14 regression assumptions

5

線形回帰が、仮説と入力データポイント間の垂直距離に基づくコスト関数を使用するのはなぜですか？

入力（予測）および出力（応答）データポイントA、B、C、D、Eがあり、それらのポイントを通る直線を当てはめたいとします。これは質問を説明するための簡単な問題ですが、より高い次元にも拡張できます。問題文現在の最適または仮説は、上の黒い線で表されています。青い矢印（）は、ポイントから直線と交差するまで垂直線を引くことにより、データポイントと現在の最適な点との間の垂直距離を表します。→→\color{blue}\rightarrow 緑の矢印（）は、交差点で現在の仮説に垂直になるように描画され、データ点と現在の仮説の間の最小距離を表します。ポイントAおよびBの場合、現在の最良の推測に垂直で、x軸に垂直な線に類似するように描かれた線。これらの2つのポイントでは、青と緑の線が重なりますが、C、D、Eの点では重なりません。→→\color{green}\rightarrow 最小二乗の原理は、データポイント（A、B、C、D、またはE）を介して推定仮説（→→\color{blue}\rightarrow任意のトレーニングサイクルで）までます。、およびによって表されます CostFunction=∑Ni=1(yi−hθ(xi))2CostFunction=∑i=1N(yi−hθ(xi))2Cost Function = \sum_{i=1}^N(y_i-h_\theta(x_i))^2 ここではデータポイントを表し、(xi,yi)(xi,yi)(x_i, y_i)hθ(xi)hθ(xi)h_\theta(x_i)は最適な近似を表します。ポイント（A、B、C、D、またはE）間の最小距離は、そのポイントから現在の最良の推測（緑の矢印）まで引いた垂直線で表されます。最小二乗関数の目的は、最小化されたときに仮説とすべてのポイントを組み合わせた距離が最小になる目的関数を定義することですが、必ずしも仮説と単一の入力ポイント間の距離は最小化されません。 **質問** （）？→→\color{green}\rightarrow

14 regression linear fitting cost-maximization

5

線形回帰が統計的に有意であるが、r 2乗が非常に低いとはどういう意味ですか？

モデルは個々のデータポイントを予測するのは苦手ですが、しっかりした傾向を確立していることを意味すると理解しています（たとえば、xが上がるとyが上がる）。

14 regression inference r-squared linear

2

線形回帰には残差に関する仮定があるのに、一般化線形モデルには応答に関する仮定があるのはなぜですか？

線形回帰と一般化モデルに一貫性のない仮定があるのはなぜですか？線形回帰では、残差がガウス型になると仮定します他の回帰（ロジスティック回帰、ポイズン回帰）では、応答が何らかの分布（二項分布、ポアソンなど）から生じると想定しています。なぜ残余を想定し、他の時間は応答を想定するのですか？異なるプロパティを導出したいからですか？編集：mark999は2つの形式が等しいことを示していると思います。しかし、私はiidに関してもう1つの疑問を持っています。私の他の質問、ロジスティック回帰にiidの仮定はありますか？一般化線形モデルにiidの仮定がないことを示します（独立していますが同一ではありません）線形回帰の場合、残差に仮定を設定するとiidが得られますが、応答に仮定を設定すると、独立ではあるが同一ではないサンプル（異なる異なるガウス）になりますか？μμ\mu

14 regression generalized-linear-model assumptions linear

タグ付けされた質問 「regression」

タグ付けされた質問「regression」