タグ付けされた質問 「linear-algebra」

統計で重要な、行列とその操作を含む有限次元ベクトル空間の研究に関連する数学の分野。

1
共分散行列のランクが最大
この質問で述べたように、共分散行列の最大ランクはで、はサンプルサイズです。したがって、共分散行列の次元がサンプルサイズに等しい場合、それは特異です。共分散行列の最大ランクからを引く理由がわかりません。n − 1n−1n-1nnn111nnn

3
なぜデフォルトの行列ノルムはフロベニウスノルムではなくスペクトルノルムですか?
ベクトルノルムでは、L2ノルムまたは「ユークリッド距離」が広く使用されている直感的な定義です。しかし、なぜマトリックスの「最も使用される」または「デフォルト」のノルム定義はスペクトルノルムであり、フロベニウスノルムではありません(ベクトルのL2ノルムに似ています)。 それは反復アルゴリズム/行列パワーと関係がありますか(スペクトル半径が1より小さい場合、アルゴリズムは収束します)? 「most used」、「default」などの単語については、常に議論の余地があります。上記の「デフォルト」という言葉は、Matlabfunctionのデフォルトの戻り値型から来ていますnorm。ではR、マトリックスのデフォルトノルムL1ノルムです。どちらも私にとって「不自然」です(マトリックスの場合、それはより「自然」に思えます∑i,ja2i,j−−−−−−√∑i,jai,j2\sqrt{\sum_{i,j}a^{2}_{i,j}}はベクターのように)。(@usεr11852と@whuberのコメントに感謝し、混乱をおかけして申し訳ありません。) マトリックスノルムの使用法を拡張して、もっと理解するのに役立つでしょうか?

1
行列に1つの新しい行を追加した後のSVD分解の更新
Iが密行列があるとのM × N個の SVD分解を伴う大きさ、A = U S Vを ⊤。では、次のようにSVDを計算できます。AA \textbf{A}m × nm×nm \times nA = U S V⊤。A=USV⊤.\mathbf{A}=\mathbf{USV}^\top.Rsvd(A) 新しい番目の行がAに追加された場合、SVDをゼロから再計算せずに、古いものに基づいて(つまりU、S、およびVを使用して)新しいSVD分解を計算できますか?(m + 1 )(m+1)(m+1)AA\mathbf AうんU\mathbf USS\mathbf SVV\mathbf V

1
PCAバイプロットの矢印はどういう意味ですか?
次のPCAバイプロットを検討してください。 library(mvtnorm) set.seed(1) x <- rmvnorm(2000, rep(0, 6), diag(c(5, rep(1,5)))) x <- scale(x, center=T, scale=F) pc <- princomp(x) biplot(pc) たくさんの赤い矢印がプロットされていますが、それらはどういう意味ですか?「Var1」というラベルの付いた最初の矢印は、データセットの最もさまざまな方向を指している必要があることを知っていました(それらをそれぞれサイズ6のベクトルである2000データポイントと考える場合)。また、私はどこかから読んだ、最も変化する方向は、最初の固有ベクトルの方向でなければなりません。 ただし、Rのバイプロットのコードを読み取ります。矢印に関する行は次のとおりです。 if(var.axes) arrows(0, 0, y[,1L] * 0.8, y[,2L] * 0.8, col = col[2L], y固有ベクトル行列である実際の負荷行列はどこにありますか。したがって、最初の矢印が実際にから(0, 0)を指しているように見え(y[1, 1], y[1, 2])ます。高次元の矢印を2D平面にプロットしようとしていることを理解しています。これが、y[1, ]ベクトルの1番目と2番目の要素を取得する理由です。しかし、私が理解していないのは: 最初の固有ベクトルの方向は、y[, 1]ではなくで示されるベクトルではありy[1, ]ませんか?(これもyPCAまたはt(x) %*% x。の固有分解によって得られる固有ベクトル行列です。)固有ベクトルは、水平ベクトルではなく列ベクトルでなければなりません。 我々は2次元平面上にプロットされているにもかかわらず、我々からする第一の方向を描画する(0, 0)を指して(y[1, 1], y[2, 1])?
14 r  pca  linear-algebra  biplot 

1
NumPyは、未決定システムの最小二乗法をどのように解決しますか?
Xの形状( 2、5 )とyの形状(2、)があるとしましょう これは動作します: np.linalg.lstsq(X, y) Xが形状(N、5)で、N> = 5である場合にのみ、これが機能すると期待しますが、なぜ、どのように? 予想どおり5つのウェイトが返されますが、この問題はどのように解決されますか? 2つの方程式と5つの未知数があるのではないでしょうか? numpyはこれをどのように解決できますか? より人工的な方程式を作成するには、補間のようなことをする必要がありますか?..

1
GBMパッケージとGBMを使用したキャレット
私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5%の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。 私の質問は次のとおりです。 1)これらの2つのパッケージは同じであっても違いがあるのはなぜですか(確率的ですが、5%がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの) 。 2)両方のパッケージを使用する利点または欠点はありますか? 3)無関係:irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

2
期待は平均と同じですか?
私は私の大学でMLをやっており、教授はガウシアンプロセスについていくつかのことを説明しようとしていたときに、期待(E)という用語を述べました。しかし、彼の説明から、Eは平均μと同じであることがわかりました。私は正しく理解しましたか? 同じであれば、両方の記号が使用されている理由を知っていますか?また、EはE()のように関数として使用できることも確認しましたが、μについては確認できませんでした。バツ2x2x^2 誰かが2つの違いをよりよく理解するのに役立ちますか?

2
増分ガウスプロセス回帰
ストリームを介して1つずつ到着するデータポイントにスライディングウィンドウを使用して、増分ガウスプロセス回帰を実装したいと思います。 ましょう入力空間の次元を表します。したがって、すべてのデータポイントx iにはd個の要素があります。dddバツ私xix_iddd してみましょうスライディングウィンドウのサイズです。んnn 予測を行うには、グラム行列逆を計算する必要があります。ここで、K i j = k (x i、x j)であり、kは2乗指数カーネルです。KKKK私はj= k (x私、xj)Kij=k(xi,xj)K_{ij} = k(x_i, x_j) Kが新しいデータポイントごとに大きくなるのを避けるために、新しいポイントを追加する前に最も古いデータポイントを削除して、グラムが大きくならないようにすることができると考えました。例えば、聞かせてここで、Σは、重みの共分散であり、φは、二乗指数カーネルによって暗示暗黙的なマッピング関数です。K=ϕ(X)TΣϕ(X)K=ϕ(X)TΣϕ(X)K = \phi(X)^{T}\Sigma\phi(X)ΣΣ\Sigmaϕϕ\phi 今聞かせて ]およびX n e w = [ x t − n + 2 | 。。。| x t | X T + 1 ] X「sはさdはによって1列の行列。X=[xt−n+1|xt−n+2|...|xtX=[xt−n+1|xt−n+2|...|xtX=[x_{t-n+1}|x_{t-n+2}|...|x_{t}Xnew=[xt−n+2|...|xt|xt+1]Xnew=[xt−n+2|...|xt|xt+1]X_{new}=[x_{t-n+2}|...|x_{t}|x_{t+1}]xxxddd111 Kを潜在的に使用してを見つける効果的な方法が必要です。これは、シャーマンモリソンの公式で効率的に処理できる、ランク1の更新された行列の問題の逆のようには見えません。K−1newKnew−1K_{new}^{-1}KKK


1
PCA固有ベクトルではないベクトルの「固有値」(説明された分散のパーセンテージ)を取得する方法は?
PCAによって提供される座標空間ではなく、わずかに異なる(回転した)ベクトルのセットに対して、データセットの分散のパーセンテージを取得する方法を理解したいと思います。 set.seed(1234) xx <- rnorm(1000) yy <- xx * 0.5 + rnorm(1000, sd = 0.6) vecs <- cbind(xx, yy) plot(vecs, xlim = c(-4, 4), ylim = c(-4, 4)) vv <- eigen(cov(vecs))$vectors ee <- eigen(cov(vecs))$values a1 <- vv[, 1] a2 <- vv[, 2] theta = pi/10 rotmat <- matrix(c(cos(theta), sin(theta), -sin(theta), …

2
最小の共分散行列を見つけるための適切な指標
教科書では、2つの共分散行列を比較するために正定性(準正定性)を使用していることを読んでいます。A−BA−BA-Bがpdの場合、BBBはAAAよりも小さいという考えです。しかし、私はこの関係の直感を得るために苦労していますか? ここに同様のスレッドがあります: /math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices 行列を比較するために明確性を使用する直感とは何ですか? 答えはいいですが、直感には対応していません。 ここに私が混乱する例があります: [1612129]−[1224][1612129]−[1224]\begin{equation} \begin{bmatrix} 16 & 12 \\ 12 & 9 \end{bmatrix} - \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} \end{equation} ここで、差の行列式は-25なので、関係はpdまたはpsdでもなく、最初の行列は最初の行列よりも大きくありませんか? 2つの3 * 3共分散行列を比較して、どちらが最小かを確認したいだけですか?それらを比較するためにユークリッドノルムのようなものを使用する方が私にとってより直感的に見えるでしょうか?ただし、これは、上記の最初のマトリックスが2番目のマトリックスよりも大きいことを意味します。さらに、共分散行列の比較に使用されるpd / psd基準のみが表示されます。 誰かがpd / psdがユークリッドノルムなどの別の尺度を使用するよりも優れている理由を説明できますか? 私はまた、数学フォーラムにこの質問を投稿しました(何が最善だったのかわかりません)。これがルールに違反しないことを願っています。 /math/628135/comparing-two-covariance-matrices

4
「ランダムプロジェクション」は厳密にはプロジェクションではありませんか?
ランダム射影アルゴリズムの現在の実装は、からそれらをマッピングすることにより、データサンプルの次元を減らすに用い射影行列を持つエントリからインスタンスに適した分布(からIIDさを):RdRd\mathbb R^dRkRk\mathbb R^kd× kd×kd\times kRRRN(0 、1 )N(0,1)\mathcal N(0,1) バツ』= 1k√x Rx′=1kxRx^\prime = \frac{1}{\sqrt k}xR 便利なことに、このマッピングがペアワイズ距離をほぼ維持することを示す理論的な証明が存在します。 しかし、最近私はこれらのメモを見つけました。著者は、ランダムマトリックスを使用したこのマッピングは、単語の厳密な線形代数的意味での射影ではないと主張しています(6ページ)。そこに与えられた説明から、これは、そのエントリがから独立して選択される場合、の列は厳密に直交しないためです。したがって、の列の直交性が強制された以前のバージョンのRPは、投影と見なすことができます。RRRN(0 、1 )N(0,1)\mathcal N(0,1)RRR (1)この厳密な意味での射影の定義は何か、(2)なぜこの定義の下ではRPが射影にならないのかについて、より詳細な説明を提供できますか?

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
線形変換後、コサイン類似度はどのように変化しますか?
間に数学的な関係はありますか? 2つのベクトルとのコサイン類似度、およびsim(A,B)sim⁡(A,B)\operatorname{sim}(A, B)BAAABBB コサイン類似度の及び、不均一にスケーリングされ、所与の行列を介して?ここで、は与えられた対角行列で、対角要素が等しくありません。A Bsim(MA,MB)sim⁡(MA,MB)\operatorname{sim}(MA, MB)AAABBBMMMMMMM 計算を重ねてみましたが、シンプルで面白いリンク(式)にたどり着けませんでした。あるかしら。 たとえば、角度は不均一なスケーリングでは保持されませんが、元の角度と不均一なスケーリング後の角度の関係はどうですか?ベクトルS1のセットとベクトルS2の別のセットの間のリンクについては何が言えるでしょうか。S2はS1を不均一にスケーリングすることによって得られます。

1
線形変換への相関の不変性:
これは実際にはグジャラート語の基本計量経済学第4版(Q3.11)の問題の1つであり、相関係数は原点とスケールの変化に対して不変である、つまりここ、、、、は任意の定数です。corr(aX+b,cY+d)=corr(X,Y)corr(aX+b,cY+d)=corr(X,Y)\text{corr}(aX+b, cY+d) = \text{corr}(X,Y)aaabbbcccddd しかし、私の主な質問は次のとおりですとをペアの観測値とし、とが正の相関があると仮定します。つまり、です。は直感に基づいて負になることを知ってい。ただし場合、となるため、意味がありません。XXXYYYXXXYYYcorr(X,Y)>0corr(X,Y)>0\text{corr}(X,Y)>0corr(−X,Y)corr(−X,Y)\text{corr}(-X,Y)a=−1,b=0,c=1,d=0a=−1,b=0,c=1,d=0a=-1, b=0, c=1, d=0corr(−X,Y)=corr(X,Y)>0corr(−X,Y)=corr(X,Y)>0\text{corr}(-X,Y) = \text{corr}(X,Y) >0 誰かがそのギャップを指摘していただければ幸いです。ありがとう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.