統計とビッグデータ regression

4

ニューラルネットワークでの回帰に興味があります。隠れノードがゼロのニューラルネットワーク+スキップレイヤー接続は線形モデルです。同じニューラルネットについてですが、隠れノードはありますか？スキップ層接続の役割は何でしょうか？直観的には、スキップ層接続を含めると、最終モデルは線形モデルといくつかの非線形部分の合計になります。ニューラルネットにスキップレイヤー接続を追加することには、利点や欠点はありますか？

26 regression machine-learning neural-networks deep-learning

1

分類と回帰を組み合わせたアルゴリズムはありますか？

分類と回帰を同時に行うことができるアルゴリズムがあるかどうか疑問に思っています。たとえば、アルゴリズムに分類子を学習させたいと同時に、各ラベル内で連続ターゲットも学習させます。したがって、トレーニングの例ごとに、カテゴリラベルと連続値があります。最初に分類器をトレーニングし、次に各ラベル内のリグレッサーをトレーニングできますが、両方を実行できるアルゴリズムがあれば素晴らしいと思います。

25 regression machine-learning classification predictive-models finite-mixture-model

5

上位主成分は、従属変数の予測力をどのように保持できますか（または、より良い予測につながりますか）？

私は回帰実行していると仮定Y〜XY〜バツY \sim X。上位kkk主成分を選択することにより、モデルは予測力を保持するのはなぜですか？YバツバツXYYY 次元削減/機能選択の観点から、が上位固有値を持つの共分散行列の固有ベクトルであり、が上位主成分である場合、最大の分散で。それにより、特徴の数をkに減らして、予測力の大部分を保持することができます。 X K X 、V 1、XのV 2。。。X v k k kv1、v2、。。。vkv1、v2、。。。vkv_1, v_2, ... v_kXバツXkkkXv1,Xv2...Xvkバツv1、バツv2。。。バツvkXv_1, Xv_2 ... Xv_kkkkkkk しかし、なぜ上位コンポーネントが予測力を保持するのでしょうか？YkkkYYY 一般的なOLSについて話す場合、フィーチャ分散が最大である場合、が最も予測力があることを示唆する理由はありません。Z I Z I YY∼ZY〜ZY \sim ZZiZ私Z_iZiZ私Z_iYYY コメントを見た後の更新：次元削減のためにPCAを使用する例がたくさんあると思います。私は、残された次元が最も予測力があることを意味していると思っていました。それ以外の場合、次元削減のポイントは何ですか？

25 regression classification pca dimensionality-reduction regularization

3

回帰におけるリッジ正則化の解釈

最小二乗コンテキストでのリッジペナルティに関していくつかの質問があります。 βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1）この式は、Xの共分散行列が対角行列に向かって縮小されることを示唆しています。これは、（変数が手順の前に標準化されると仮定して）入力変数間の相関が低下することを意味します。この解釈は正しいですか？ 2）それは収縮アプリケーションである場合、なぜそれが線で処方されていない(λID+(1−λ)X′X)(λID+(1−λ)X′X)(\lambda I_D + (1-\lambda)X'X)我々が何らかの形で正規化して[0,1]の範囲にラムダを制限することができると仮定すると、。 3）[0,1]のような標準範囲に制限できるように、正規化λλ\lambdaできるもの。 4）対角線に定数を追加すると、すべての固有値に影響します。特異値または特異値に近い値のみを攻撃する方が良いでしょうか？これは、PCAをXに適用し、回帰の前に上位N主成分を保持するのと同じですか、または異なる名前を持っていますか（相互共分散計算を変更しないため）？ 5）我々は、クロス共分散を正則化することも、意味、任意の用途を有するないβridge=(λID+X′X)−1(γX′y)βridge=(λID+X′X)−1(γX′y)\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y) ここで、小さなγγ\gammaは相互共分散を低下させます。これは明らかにすべてのββ\beta等しく低下させますが、おそらく共分散値に応じてハード/ソフトしきい値処理などのよりスマートな方法があります。

25 regression pca regularization ridge-regression

2

切片と勾配のOLS推定量の相関

単純な回帰モデルでは、 y=β0+β1x+ε,y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, OLS推定器とは相関しています。ββ^OLS0β^0OLS\hat{\beta}_0^{OLS}β^OLS1β^1OLS\hat{\beta}_1^{OLS} 2つの推定量の相関関係の式は次のとおりです（正しく導出できた場合）。 Corr(β^OLS0,β^OLS1)=−∑ni=1xin−−√∑ni=1x2i−−−−−−−√.Corr⁡(β^0OLS,β^1OLS)=−∑i=1nxin∑i=1nxi2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. 質問：相関の存在の直感的な説明は何ですか？相関関係の存在は重要な意味を持ちますか？投稿は編集され、サンプルサイズとともに相関関係がなくなるという主張は削除されました。（@whuberと@ChristophHanckに感謝します。）

25 regression least-squares estimators

3

この奇妙な形の分布をモデル化する方法（ほぼ逆J）

以下に示す私の従属変数は、私が知っている在庫分布に適合しません。線形回帰は、奇妙な方法で予測Yに関連するやや非正規の右スキューの残差を生成します（2番目のプロット）。最も有効な結果と最高の予測精度を得るための変換またはその他の方法に関する提案はありますか？可能であれば、たとえば5つの値（たとえば、0、lo％、med％、hi％、1）に分類することを避けたいと思います。

25 regression multiple-regression data-transformation censoring

2

平滑化スプラインと平滑化のレスを比較しますか？

曲線を平滑化するために黄土または平滑化スプラインを使用することの長所/短所をよりよく理解したいと思います。私の質問の別のバリエーションは、黄土を使用するのと同じ結果をもたらす方法で平滑化スプラインを構築する方法があるかどうかです。参照または洞察を歓迎します。

25 regression splines loess

1

分位回帰にはどのような診断プロットが存在しますか？

OLSに関する私の質問に続いて、私は疑問に思う：分位回帰にはどのような診断プロットが存在するのか？（そしてそれらのR実装はありますか？）簡単なグーグル検索で、すでにワームのプロット（これまで聞いたことがない）を思い付きました。（それらのうちのどれかが、分位点回帰のために移植されたOLSからのものですか？）

25 r regression diagnostic quantile-regression gamlss

2

ロジスティック回帰の背後にある直感

最近、機械学習の勉強を始めましたが、ロジスティック回帰の背後にある直感を理解することができませんでした。以下は、私が理解しているロジスティック回帰についての事実です。仮説の基礎として、シグモイド関数を使用します。なぜそれが正しい選択なのか理解していますが、なぜそれが私が理解できない唯一の選択なのかを理解しています。仮説は、適切な出力である確率を表す111、それゆえ私たちの関数のドメインがあるべき[ 0 、1 ][0、1][0,1]、これはシグモイド関数の唯一の財産である私が有用であることが判明し、ここで適切な、しかし、多くの機能は、この特性を満たします。さらに、シグモイド関数には、この形式の導関数f(x)(1−f(x))f(x)(1−f(x))f(x)(1-f(x))、しかし、ロジスティック回帰ではこの特別な形式のユーティリティは見当たりません。質問：どのようなシグモイド関数についてとても特別な、なぜ私たちは、ドメインと他の機能を使用することはできません？[0,1][0,1][0,1] コスト関数は、2つのパラメータで構成さであれば、Y = 1 、C O S T（時間θ（X ）、Y ）= - ログ（1 - 時間θ（X ））であれば、Y =をCost(hθ(x),y)=−log(hθ(x))Cost(hθ(x),y)=−log⁡(hθ(x)){\rm Cost}(h_{\theta}(x),y)=-\log(h_{\theta}(x))y=1,Cost(hθ(x),y)=−log(1−hθ(x))y=1,Cost(hθ(x),y)=−log⁡(1−hθ(x))y=1, {\rm Cost}(h_{\theta}(x),y)=-\log(1-h_{\theta}(x))。上記と同じように、なぜそれが正しいのか理解していますが、なぜそれが唯一の形式なのですか？例えば、なぜできませんでした | 時間θ （X ） - Y | コスト関数の良い選択ですか？y=0y=0y=0|hθ(x)−y||hθ(x)−y||h_{\theta(x)}-y| 質問：上記の形式の費用関数について何が特別なのか。なぜ別のフォームを使用できないのですか？ロジスティック回帰の理解を共有していただければ幸いです。

25 regression machine-learning logistic

4

相互作用によって回帰の直接的な影響がなくなるとどうなりますか？

回帰では、相互作用の用語は関連する両方の直接的な影響を一掃します。インタラクションをドロップするか、結果を報告しますか？相互作用は元の仮説の一部ではありませんでした。

25 regression interaction

4

独立変数=ランダム変数？

私は少し混乱している場合は、独立変数の統計モデルに（も予測因子や機能と呼ばれる）、例えば線形回帰で、確率変数がありますか？XXXY=β0+β1XY=β0+β1XY=\beta_0+\beta_1 X

25 regression random-variable experiment-design predictor

2

サポートベクトル回帰はどのように直感的に機能しますか？

SVMの例はすべて分類に関連しています。回帰用のSVM（サポートベクター回帰）がどのように回帰で使用されるか理解できません。私の理解では、SVMは2つのクラス間のマージンを最大化し、最適な超平面を見つけます。これは回帰問題でどのように機能しますか？

25 regression svm

3

機械学習でパワー変換またはログ変換があまり教えられないのはなぜですか？

機械学習（ML）は、線形およびロジスティック回帰手法を多用しています。また、機能の工学的手法（に依存しているfeature transform、kernelなど）。なぜ何も程度variable transformation（例えばpower transformation）MLに言及していませんか？（たとえば、ルートの取得やフィーチャへのログについて聞いたことはありません。通常は単に多項式またはRBFを使用します。）同様に、MLの専門家が従属変数のフィーチャ変換を気にしないのはなぜですか？（たとえば、yの対数変換を行うことについて聞いたことはありません。yを変換しません。）編集：たぶん質問は間違いではないかもしれませんが、私の本当の質問は「MLへの変数への累乗変換は重要ではないのですか？」

24 regression machine-learning data-transformation

4

時系列異常検出のアルゴリズム

現在、RでTwitterのAnomalyDetectionを使用しています：https : //github.com/twitter/AnomalyDetection。このアルゴリズムは、季節性のあるデータの時系列異常検出を提供します。質問：これに似た他のアルゴリズムはありますか（季節性の制御は重要ではありません）？私はデータで可能な限り多くの時系列アルゴリズムをスコアリングしようとしています。これにより、最適なもの/アンサンブルを選択できます。

24 r regression time-series anomaly-detection

1

多重相関係数

Iは、複数の相関の幾何学的な意味に興味RRR決意するのと係数R2R2R^2回帰におけるyi=β1+β2x2,i+⋯+βkxk,i+ϵiyi=β1+β2x2,i+⋯+βkxk,i+ϵiy_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i 、またはベクトル表記で、 y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon} ここで、設計行列XX\mathbf{X}有するnnn行およびkkk列を、そのうちの最初のものであるx1=1nx1=1n\mathbf{x}_1 = \mathbf{1}_n、切片に相当するが、その1Sのベクトルβ1β1\beta_1。ジオメトリは、k次元の可変空間ではなく、nnn次元の対象空間でより興味深いものです。帽子行列を定義します。kkk H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top これは、の列空間への正射影ですXX\mathbf{X}。つまり、各変数x iを表すk個のベクトルが広がる原点を通る平面です。その最初は1 nです。次いで、Hは観測された応答のベクトル突出Yを平坦にその「影」に、近似値のベクトルY = H yは、と我々は残差のベクトルを参照投影経路に沿って見た場合に、E = yと- ykkkxixi\mathbf{x}_i1n1n\mathbf{1}_nHH\mathbf{H}yy\mathbf{y}y^=Hyy^=Hy\mathbf{\hat{y}} = \mathbf{Hy}e=y−y^e=y−y^\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}三角形の3番目の辺を形成します。これにより、幾何学的な解釈への2つのルートが提供されR2R2R^2ます。複数の相関係数の二乗RRRとの間の相関として定義され、yy\mathbf{y}およびY。これは、角度の余弦として幾何学的に表示されます。y^y^\mathbf{\hat{y}} ベクトルの長さの点で：例えば、SSresidual=∑ni=1e2i=∥e∥2SSresidual=∑i=1nei2=‖e‖2SS_\text{residual} = …

24 regression correlation multiple-regression r-squared geometry

タグ付けされた質問 「regression」

タグ付けされた質問「regression」