LSIのコンテキストでの特異値分解の理解
私の質問は、一般的に特異値分解(SVD)、特に潜在的意味論的索引付け(LSI)についてです。 たとえば、7つのドキュメントに対して5ワードの頻度を含むとします。Aword×documentAword×document A_{word \times document} A = matrix(data=c(2,0,8,6,0,3,1, 1,6,0,1,7,0,1, 5,0,7,4,0,5,6, 7,0,8,5,0,8,5, 0,10,0,0,7,0,0), ncol=7, byrow=TRUE) rownames(A) <- c('doctor','car','nurse','hospital','wheel') 私はのための行列因数分解取得 SVDを使用して:A = U \ CDOT D \ CDOT V ^ T。AAAA=U⋅D⋅VTA=U⋅D⋅VTA = U \cdot D \cdot V^T s = svd(A) D = diag(s$d) # singular value matrix S = diag(s$d^0.5 ) # …